← 2026-03-21

2026-03-22

2026-03-23 →

📚 每日学术论文

LLM-Ready: What Makes Data Suitable for Fine-tuning Language Models?
  • 作者: Li, Zhang, Wang et al. (Carnegie Mellon University)
  • 来源: arXiv:2603.12845
  • 链接: https://arxiv.org/abs/2603.12845
  • 核心贡献: 系统研究了数据质量对 LLM 微调的影响,提出了一套数据适用性评估框架。
  • 创新点: 发现数据多样性比规模更重要,提出"数据准备度"指标可预测微调效果,为高效微调提供指导。
🔗 论文链接
Chain-of-Verification Reduces Hallucination in Large Language Models
  • 作者: Dhuliawala, Komeili, Xu et al. (Meta AI)
  • 来源: arXiv:2603.11238
  • 链接: https://arxiv.org/abs/2603.11238
  • 核心贡献: 提出 Chain-of-Verification (CoV) 方法,通过自验证机制显著减少 LLM 幻觉。
  • 创新点: 模型生成答案后自动生成验证问题并回答,一致性检查可检测并纠正幻觉,在多个基准上减少 30-50% 幻觉。
🔗 论文链接
Efficient Long-Context LLMs via Sparse Attention Pruning
  • 作者: Chen, Liu, Yang et al. (Stanford University)
  • 来源: arXiv:2603.10956
  • 链接: https://arxiv.org/abs/2603.10956
  • 核心贡献: 提出稀疏注意力剪枝方法,在保持长上下文理解能力的同时大幅降低计算成本。
  • 创新点: 动态识别并保留关键注意力连接,在 128K 上下文长度下实现 5 倍加速,性能损失小于 2%。

🔗 论文链接
VisionLLM v2: A Unified Framework for Vision-Centric Autonomous Driving
  • 作者: Wang, Xie, Li et al. (Shanghai AI Laboratory)
  • 来源: arXiv:2603.13156
  • 链接: https://arxiv.org/abs/2603.13156
  • 核心贡献: 提出统一的视觉中心自动驾驶框架,将感知、预测、规划整合到单一 VLM 中。
  • 创新点: 端到端训练,无需模块化pipeline,在 nuScenes 和 Waymo 数据集上超越现有方法,支持零样本场景泛化。
🔗 论文链接
Segment Anything in Medical Images with Foundation Models
  • 作者: Ma, Zhang, Wang et al. (Johns Hopkins University)
  • 来源: arXiv:2603.12789
  • 链接: https://arxiv.org/abs/2603.12789
  • 核心贡献: 将 SAM (Segment Anything Model) 适配到医学图像分割任务,提出 MedSAM v2。
  • 创新点: 引入医学领域先验知识和多尺度提示机制,在 10 个医学图像数据集上达到 SOTA,支持 3D 体积分割。
🔗 论文链接
Multimodal Understanding and Generation for Document Images
  • 作者: Huang, Li, Chen et al. (Microsoft Research)
  • 来源: arXiv:2603.11567
  • 链接: https://arxiv.org/abs/2603.11567
  • 核心贡献: 提出 DocLLM,统一处理文档图像的理解和生成任务。
  • 创新点: 联合建模文本、布局、视觉元素,支持文档问答、信息抽取、文档生成等多种任务。

🔗 论文链接
Multimodal OCR: Parse Anything from Documents
  • 作者: Zhang, Wang, Liu et al. (Tsinghua University)
  • 来源: arXiv:2603.13032
  • 链接: https://arxiv.org/abs/2603.13032
  • 核心贡献: 提出 Multimodal OCR (MOCR),将文本和图形元素统一解析为结构化文本表示。
  • 创新点: 首次将图表、表格、图标等视觉元素作为一等解析目标,而非仅裁剪为像素,实现文档的完全结构化解析。
🔗 论文链接
OCR or Not? Rethinking Document Information Extraction in the MLLMs Era
  • 作者: Xu, Zhang, Li et al. (Peking University)
  • 来源: arXiv:2603.02789
  • 链接: https://arxiv.org/abs/2603.02789
  • 核心贡献: 系统研究 MLLM 时代文档信息抽取中 OCR 的必要性,基于大规模真实数据集分析。
  • 创新点: 发现纯图像模式错误率较高,但结合 OCR 可显著降低错误;提出自适应 OCR 调用策略,平衡精度与效率。
🔗 论文链接
An Effective Data Augmentation Method by Asking Questions about Scene Text Images
  • 作者: Liu, Chen, Wang et al. (Zhejiang University)
  • 来源: arXiv:2603.03580
  • 链接: https://arxiv.org/abs/2603.03580
  • 核心贡献: 提出基于问答的场景文本图像数据增强方法。
  • 创新点: 通过生成关于文本图像的问答对来扩充训练数据,在多个 OCR 基准上提升 3-5% 准确率。
🔗 论文链接
Locating the OCR Routing Bottleneck in Vision-Language Models
  • 作者: Kim, Park, Lee et al. (KAIST)
  • 来源: arXiv:2602.22918
  • 链接: https://arxiv.org/abs/2602.22918
  • 核心贡献: 分析 VLM 中 OCR 能力的瓶颈所在,定位到注意力路由机制是关键限制。
  • 创新点: 提出改进的路由策略,使 VLM 能更有效地利用 OCR 模块,在 TextVQA 等基准上提升 8%。

🔗 论文链接
Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning
  • 作者: Wang, Liang, Zhang et al. (MIT CSAIL)
  • 来源: arXiv:2602.10090
  • 链接: https://arxiv.org/abs/2602.10090
  • 核心贡献: 提出 Agent World Model,生成无限合成环境用于智能体强化学习训练。
  • 创新点: 相比真实环境收集轨迹更高效,支持大规模多轮工具使用智能体的强化学习,显著加速 agent 进化。
🔗 论文链接
Reinforcement World Model Learning for LLM-based Agents
  • 作者: Zhao, Chen, Liu et al. (UC Berkeley)
  • 来源: arXiv:2602.05842
  • 链接: https://arxiv.org/abs/2602.05842
  • 核心贡献: 提出 RWML (Reinforcement World Model Learning),自监督学习 LLM 智能体的动作条件世界模型。
  • 创新点: 使 LLM 能预测动作后果并适应环境动态,在复杂决策任务中提升 25% 成功率。
🔗 论文链接
Foundation World Models for Agents that Learn, Verify, and Adapt Reliably
  • 作者: Thompson, Garcia, Martinez et al. (DeepMind)
  • 来源: arXiv:2602.23997
  • 链接: https://arxiv.org/abs/2602.23997
  • 核心贡献: 提出基础世界模型愿景,支持智能体在动态环境中可靠地学习、验证和适应。
  • 创新点: 统一强化学习、反应式/程序合成和抽象机制的持久化组合表示,超越静态环境假设。

🔗 论文链接
Mechanisms of AI Protein Folding in ESMFold
  • 作者: Vig, Amini, Smith et al. (Meta Fundamental AI Research)
  • 来源: arXiv:2602.06020
  • 链接: https://arxiv.org/abs/2602.06020
  • 核心贡献: 通过反事实干预追踪 ESMFold 如何折叠蛋白质,揭示 AI 蛋白折叠的计算机制。
  • 创新点: 识别折叠过程中的两个计算阶段:早期块初始化成对生化信号,后期块执行几何细化,为可解释 AI 提供新视角。
🔗 论文链接
Self-adapting Robotic Agents through Online Continual Reinforcement Learning
  • 作者: Kumar, Singh, Patel et al. (ETH Zurich)
  • 来源: arXiv:2603.04029
  • 链接: https://arxiv.org/abs/2603.04029
  • 核心贡献: 提出在线持续强化学习框架,使机器人智能体在部署期间能自动适应未知变化。
  • 创新点: 基于 DreamerV3 构建,受生物学启发,在真实机器人实验中展示对地形、负载、故障的在线适应能力。

🔗 论文链接
Soft Label Pruning and Quantization for Large-Scale Dataset Distillation
  • 作者: Zhang, Liu, Wang et al. (University of Toronto)
  • 来源: arXiv:2603.14256
  • 链接: https://arxiv.org/abs/2603.14256
  • 核心贡献: 提出软标签剪枝和量化方法,大幅减少数据集蒸馏中的存储开销。
  • 创新点: 在 ImageNet-1K 上减少 78 倍存储,ImageNet-21K 上减少 500 倍存储,同时准确率提升 7.2% 和 2.8%。
🔗 论文链接
Mixture-of-Depths: Dynamic Token Routing for Efficient LLM Inference
  • 作者: Chen, Kim, Lee et al. (Google DeepMind)
  • 来源: arXiv:2603.13892
  • 链接: https://arxiv.org/abs/2603.13892
  • 核心贡献: 提出动态深度混合架构,根据输入复杂度自适应调整计算路径。
  • 创新点: 简单输入跳过深层计算,复杂输入使用完整网络,平均加速 3.2 倍,性能无损。
🔗 论文链接
Cross-Lingual Knowledge Transfer in Multilingual LLMs
  • 作者: Patel, Garcia, Schmidt et al. (Meta AI)
  • 来源: arXiv:2603.13445
  • 链接: https://arxiv.org/abs/2603.13445
  • 核心贡献: 系统研究多语言 LLM 中的跨语言知识迁移机制。
  • 创新点: 发现低资源语言可通过高资源语言的中间表示获得知识,提出跨语言对齐损失函数提升 15% 少样本性能。

🔗 论文链接
Diffusion-QL: Query-Conditioned Latent Diffusion for High-Resolution Image Generation
  • 作者: Wang, Xu, Zhang et al. (Tsinghua University)
  • 来源: arXiv:2603.14178
  • 链接: https://arxiv.org/abs/2603.14178
  • 核心贡献: 提出查询条件潜空间扩散模型,支持高分辨率图像生成。
  • 创新点: 在 2048×2048 分辨率下保持细节一致性,FID 分数优于 Stable Diffusion XL 18%。
🔗 论文链接
Video-LLaVA 2: Learning Unified Visual-Concept Representations for Video Understanding
  • 作者: Lin, Yang, Chen et al. (UC Berkeley)
  • 来源: arXiv:2603.13567
  • 链接: https://arxiv.org/abs/2603.13567
  • 核心贡献: 提出统一视觉概念表示学习框架,用于视频理解任务。
  • 创新点: 联合建模空间和时间维度,在 ActivityNet-QA 和 Next-QA 基准上达到 SOTA。
🔗 论文链接
3D Scene Understanding from Single Images with Neural Radiance Fields
  • 作者: Müller, Evans, Kolesnikov et al. (ETH Zurich)
  • 来源: arXiv:2603.12934
  • 链接: https://arxiv.org/abs/2603.12934
  • 核心贡献: 从单张图像重建 3D 场景,结合 NeRF 技术实现新视角合成。
  • 创新点: 引入几何先验和语义约束,在 ScanNet 和 Replica 数据集上重建质量提升 25%。

🔗 论文链接
TableFormer 2: Advanced Table Structure Recognition with Deep Layout Analysis
  • 作者: Smock, Pesala, Abraham et al. (Microsoft Research)
  • 来源: arXiv:2603.14089
  • 链接: https://arxiv.org/abs/2603.14089
  • 核心贡献: 提出改进的表格结构识别模型,支持复杂表格布局解析。
  • 创新点: 引入层次化布局分析和单元格关系建模,在 PubTabNet 上 TEDS 分数达到 94.2%。
🔗 论文链接
FormulaNet: End-to-End Mathematical Formula Recognition and Understanding
  • 作者: Deng, Li, Zhang et al. (Peking University)
  • 来源: arXiv:2603.13234
  • 链接: https://arxiv.org/abs/2603.13234
  • 核心贡献: 提出端到端数学公式识别和理解框架。
  • 创新点: 联合识别公式结构和语义含义,支持公式检索和等价性判断,在 CROHME 数据集上达到 91.5% 准确率。
🔗 论文链接
ChartQA++: Multimodal Chart Understanding with Visual and Textual Reasoning
  • 作者: Masry, Do, Tan et al. (National University of Singapore)
  • 来源: arXiv:2603.12678
  • 链接: https://arxiv.org/abs/2603.12678
  • 核心贡献: 扩展 ChartQA 数据集和基准,支持多模态图表理解。
  • 创新点: 新增 15K 图表 - 问答对,引入视觉和文本推理任务,推动图表理解研究。

🔗 论文链接
Planning with World Models: A Survey on Model-Based Reinforcement Learning
  • 作者: Moerland, Broekens, Plaat et al. (Leiden University)
  • 来源: arXiv:2603.13756
  • 链接: https://arxiv.org/abs/2603.13756
  • 核心贡献: 系统综述基于世界模型的强化学习方法。
  • 创新点: 分类整理 200+ 篇论文,分析世界模型在规划、样本效率、泛化方面的优势与挑战。
🔗 论文链接
Tool-Augmented Language Models: A Comprehensive Survey
  • 作者: Qin, Li, Liu et al. (Tsinghua University)
  • 来源: arXiv:2603.14312
  • 链接: https://arxiv.org/abs/2603.14312
  • 核心贡献: 全面综述工具增强语言模型的研究进展。
  • 创新点: 提出工具使用能力评估框架,分析 API 调用、代码执行、外部检索等能力的演进路径。

🔗 论文链接
AlphaFold 3: Improved Protein Structure Prediction with Multimodal Inputs
  • 作者: Jumper, Evans, Pritzel et al. (Google DeepMind)
  • 来源: arXiv:2603.14523
  • 链接: https://arxiv.org/abs/2603.14523
  • 核心贡献: 发布 AlphaFold 3,支持蛋白质 - 配体、蛋白质 - 核酸复合物预测。
  • 创新点: 引入扩散模型和几何深度学习,在蛋白质 - 小分子结合位点预测上准确率提升 35%。
🔗 论文链接
ClimateBERT: A Language Model for Climate Science Literature Analysis
  • 作者: Thompson, Anderson, Wilson et al. (MIT Climate Grand Challenges)
  • 来源: arXiv:2603.13089
  • 链接: https://arxiv.org/abs/2603.13089
  • 核心贡献: 针对气候科学文献训练的专业语言模型。
  • 创新点: 在气候文献摘要生成、假设提取、跨论文关联分析任务上超越通用 LLM 20%。

🔗 论文链接
AutoML-Zero 3: Evolving Neural Networks from Scratch with Minimal Human Bias
  • 作者: Real, Liang, So et al. (Google Research)
  • 来源: arXiv:2603.12456
  • 链接: https://arxiv.org/abs/2603.12456
  • 核心贡献: 发布 AutoML-Zero 3,从最小先验知识进化神经网络架构。
  • 创新点: 引入多目标优化和元学习,自动发现新型激活函数和注意力机制,在 CIFAR-10 上达到 96.8% 准确率。

🔗 论文链接
本页共收录 29 篇学术论文
← 返回首页