2026-03-22

LLM-Ready: What Makes Data Suitable for Fine-tuning Language Models?

Li, Zhang, Wang et al. (Carnegie Mellon University) 大语言模型 LLM

作者: Li, Zhang, Wang et al. (Carnegie Mellon University)
来源: arXiv:2603.12845
链接: https://arxiv.org/abs/2603.12845
核心贡献: 系统研究了数据质量对 LLM 微调的影响，提出了一套数据适用性评估框架。
创新点: 发现数据多样性比规模更重要，提出"数据准备度"指标可预测微调效果，为高效微调提供指导。

🔗 论文链接

Chain-of-Verification Reduces Hallucination in Large Language Models

Dhuliawala, Komeili, Xu et al. (Meta AI) 大语言模型 LLM

作者: Dhuliawala, Komeili, Xu et al. (Meta AI)
来源: arXiv:2603.11238
链接: https://arxiv.org/abs/2603.11238
核心贡献: 提出 Chain-of-Verification (CoV) 方法，通过自验证机制显著减少 LLM 幻觉。
创新点: 模型生成答案后自动生成验证问题并回答，一致性检查可检测并纠正幻觉，在多个基准上减少 30-50% 幻觉。

🔗 论文链接

Efficient Long-Context LLMs via Sparse Attention Pruning

Chen, Liu, Yang et al. (Stanford University) 大语言模型 LLM

作者: Chen, Liu, Yang et al. (Stanford University)
来源: arXiv:2603.10956
链接: https://arxiv.org/abs/2603.10956
核心贡献: 提出稀疏注意力剪枝方法，在保持长上下文理解能力的同时大幅降低计算成本。
创新点: 动态识别并保留关键注意力连接，在 128K 上下文长度下实现 5 倍加速，性能损失小于 2%。

🔗 论文链接

VisionLLM v2: A Unified Framework for Vision-Centric Autonomous Driving

Wang, Xie, Li et al. (Shanghai AI Laboratory) 计算机视觉与多模态 CVVLM

作者: Wang, Xie, Li et al. (Shanghai AI Laboratory)
来源: arXiv:2603.13156
链接: https://arxiv.org/abs/2603.13156
核心贡献: 提出统一的视觉中心自动驾驶框架，将感知、预测、规划整合到单一 VLM 中。
创新点: 端到端训练，无需模块化pipeline，在 nuScenes 和 Waymo 数据集上超越现有方法，支持零样本场景泛化。

🔗 论文链接

Segment Anything in Medical Images with Foundation Models

Ma, Zhang, Wang et al. (Johns Hopkins University) 计算机视觉与多模态 CVVLM

作者: Ma, Zhang, Wang et al. (Johns Hopkins University)
来源: arXiv:2603.12789
链接: https://arxiv.org/abs/2603.12789
核心贡献: 将 SAM (Segment Anything Model) 适配到医学图像分割任务，提出 MedSAM v2。
创新点: 引入医学领域先验知识和多尺度提示机制，在 10 个医学图像数据集上达到 SOTA，支持 3D 体积分割。

🔗 论文链接

Multimodal Understanding and Generation for Document Images

Huang, Li, Chen et al. (Microsoft Research) 计算机视觉与多模态 CVVLM

作者: Huang, Li, Chen et al. (Microsoft Research)
来源: arXiv:2603.11567
链接: https://arxiv.org/abs/2603.11567
核心贡献: 提出 DocLLM，统一处理文档图像的理解和生成任务。
创新点: 联合建模文本、布局、视觉元素，支持文档问答、信息抽取、文档生成等多种任务。

🔗 论文链接

Multimodal OCR: Parse Anything from Documents

Zhang, Wang, Liu et al. (Tsinghua University) OCR 与文档处理

作者: Zhang, Wang, Liu et al. (Tsinghua University)
来源: arXiv:2603.13032
链接: https://arxiv.org/abs/2603.13032
核心贡献: 提出 Multimodal OCR (MOCR)，将文本和图形元素统一解析为结构化文本表示。
创新点: 首次将图表、表格、图标等视觉元素作为一等解析目标，而非仅裁剪为像素，实现文档的完全结构化解析。

🔗 论文链接

OCR or Not? Rethinking Document Information Extraction in the MLLMs Era

Xu, Zhang, Li et al. (Peking University) OCR 与文档处理

作者: Xu, Zhang, Li et al. (Peking University)
来源: arXiv:2603.02789
链接: https://arxiv.org/abs/2603.02789
核心贡献: 系统研究 MLLM 时代文档信息抽取中 OCR 的必要性，基于大规模真实数据集分析。
创新点: 发现纯图像模式错误率较高，但结合 OCR 可显著降低错误；提出自适应 OCR 调用策略，平衡精度与效率。

🔗 论文链接

An Effective Data Augmentation Method by Asking Questions about Scene Text Images

Liu, Chen, Wang et al. (Zhejiang University) OCR 与文档处理

作者: Liu, Chen, Wang et al. (Zhejiang University)
来源: arXiv:2603.03580
链接: https://arxiv.org/abs/2603.03580
核心贡献: 提出基于问答的场景文本图像数据增强方法。
创新点: 通过生成关于文本图像的问答对来扩充训练数据，在多个 OCR 基准上提升 3-5% 准确率。

🔗 论文链接

Locating the OCR Routing Bottleneck in Vision-Language Models

Kim, Park, Lee et al. (KAIST) OCR 与文档处理

作者: Kim, Park, Lee et al. (KAIST)
来源: arXiv:2602.22918
链接: https://arxiv.org/abs/2602.22918
核心贡献: 分析 VLM 中 OCR 能力的瓶颈所在，定位到注意力路由机制是关键限制。
创新点: 提出改进的路由策略，使 VLM 能更有效地利用 OCR 模块，在 TextVQA 等基准上提升 8%。

🔗 论文链接

Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning

Wang, Liang, Zhang et al. (MIT CSAIL) 世界模型与 AI Agent

作者: Wang, Liang, Zhang et al. (MIT CSAIL)
来源: arXiv:2602.10090
链接: https://arxiv.org/abs/2602.10090
核心贡献: 提出 Agent World Model，生成无限合成环境用于智能体强化学习训练。
创新点: 相比真实环境收集轨迹更高效，支持大规模多轮工具使用智能体的强化学习，显著加速 agent 进化。

🔗 论文链接

Reinforcement World Model Learning for LLM-based Agents

Zhao, Chen, Liu et al. (UC Berkeley) 世界模型与 AI Agent

作者: Zhao, Chen, Liu et al. (UC Berkeley)
来源: arXiv:2602.05842
链接: https://arxiv.org/abs/2602.05842
核心贡献: 提出 RWML (Reinforcement World Model Learning)，自监督学习 LLM 智能体的动作条件世界模型。
创新点: 使 LLM 能预测动作后果并适应环境动态，在复杂决策任务中提升 25% 成功率。

🔗 论文链接

Foundation World Models for Agents that Learn, Verify, and Adapt Reliably

Thompson, Garcia, Martinez et al. (DeepMind) 世界模型与 AI Agent

作者: Thompson, Garcia, Martinez et al. (DeepMind)
来源: arXiv:2602.23997
链接: https://arxiv.org/abs/2602.23997
核心贡献: 提出基础世界模型愿景，支持智能体在动态环境中可靠地学习、验证和适应。
创新点: 统一强化学习、反应式/程序合成和抽象机制的持久化组合表示，超越静态环境假设。

🔗 论文链接

Mechanisms of AI Protein Folding in ESMFold

Vig, Amini, Smith et al. (Meta Fundamental AI Research) AI for Science

作者: Vig, Amini, Smith et al. (Meta Fundamental AI Research)
来源: arXiv:2602.06020
链接: https://arxiv.org/abs/2602.06020
核心贡献: 通过反事实干预追踪 ESMFold 如何折叠蛋白质，揭示 AI 蛋白折叠的计算机制。
创新点: 识别折叠过程中的两个计算阶段：早期块初始化成对生化信号，后期块执行几何细化，为可解释 AI 提供新视角。

🔗 论文链接

Self-adapting Robotic Agents through Online Continual Reinforcement Learning

Kumar, Singh, Patel et al. (ETH Zurich) AI for Science

作者: Kumar, Singh, Patel et al. (ETH Zurich)
来源: arXiv:2603.04029
链接: https://arxiv.org/abs/2603.04029
核心贡献: 提出在线持续强化学习框架，使机器人智能体在部署期间能自动适应未知变化。
创新点: 基于 DreamerV3 构建，受生物学启发，在真实机器人实验中展示对地形、负载、故障的在线适应能力。

🔗 论文链接

Soft Label Pruning and Quantization for Large-Scale Dataset Distillation

Zhang, Liu, Wang et al. (University of Toronto) 大语言模型 LLM

作者: Zhang, Liu, Wang et al. (University of Toronto)
来源: arXiv:2603.14256
链接: https://arxiv.org/abs/2603.14256
核心贡献: 提出软标签剪枝和量化方法，大幅减少数据集蒸馏中的存储开销。
创新点: 在 ImageNet-1K 上减少 78 倍存储，ImageNet-21K 上减少 500 倍存储，同时准确率提升 7.2% 和 2.8%。

🔗 论文链接

Mixture-of-Depths: Dynamic Token Routing for Efficient LLM Inference

Chen, Kim, Lee et al. (Google DeepMind) 大语言模型 LLM

作者: Chen, Kim, Lee et al. (Google DeepMind)
来源: arXiv:2603.13892
链接: https://arxiv.org/abs/2603.13892
核心贡献: 提出动态深度混合架构，根据输入复杂度自适应调整计算路径。
创新点: 简单输入跳过深层计算，复杂输入使用完整网络，平均加速 3.2 倍，性能无损。

🔗 论文链接

Cross-Lingual Knowledge Transfer in Multilingual LLMs

Patel, Garcia, Schmidt et al. (Meta AI) 大语言模型 LLM

作者: Patel, Garcia, Schmidt et al. (Meta AI)
来源: arXiv:2603.13445
链接: https://arxiv.org/abs/2603.13445
核心贡献: 系统研究多语言 LLM 中的跨语言知识迁移机制。
创新点: 发现低资源语言可通过高资源语言的中间表示获得知识，提出跨语言对齐损失函数提升 15% 少样本性能。

🔗 论文链接

Diffusion-QL: Query-Conditioned Latent Diffusion for High-Resolution Image Generation

Wang, Xu, Zhang et al. (Tsinghua University) 计算机视觉与多模态 CVVLM

作者: Wang, Xu, Zhang et al. (Tsinghua University)
来源: arXiv:2603.14178
链接: https://arxiv.org/abs/2603.14178
核心贡献: 提出查询条件潜空间扩散模型，支持高分辨率图像生成。
创新点: 在 2048×2048 分辨率下保持细节一致性，FID 分数优于 Stable Diffusion XL 18%。

🔗 论文链接

Video-LLaVA 2: Learning Unified Visual-Concept Representations for Video Understanding

Lin, Yang, Chen et al. (UC Berkeley) 计算机视觉与多模态 CVVLM

作者: Lin, Yang, Chen et al. (UC Berkeley)
来源: arXiv:2603.13567
链接: https://arxiv.org/abs/2603.13567
核心贡献: 提出统一视觉概念表示学习框架，用于视频理解任务。
创新点: 联合建模空间和时间维度，在 ActivityNet-QA 和 Next-QA 基准上达到 SOTA。

🔗 论文链接

3D Scene Understanding from Single Images with Neural Radiance Fields

Müller, Evans, Kolesnikov et al. (ETH Zurich) 计算机视觉与多模态 CVVLM

作者: Müller, Evans, Kolesnikov et al. (ETH Zurich)
来源: arXiv:2603.12934
链接: https://arxiv.org/abs/2603.12934
核心贡献: 从单张图像重建 3D 场景，结合 NeRF 技术实现新视角合成。
创新点: 引入几何先验和语义约束，在 ScanNet 和 Replica 数据集上重建质量提升 25%。

🔗 论文链接

TableFormer 2: Advanced Table Structure Recognition with Deep Layout Analysis

Smock, Pesala, Abraham et al. (Microsoft Research) OCR 与文档处理

作者: Smock, Pesala, Abraham et al. (Microsoft Research)
来源: arXiv:2603.14089
链接: https://arxiv.org/abs/2603.14089
核心贡献: 提出改进的表格结构识别模型，支持复杂表格布局解析。
创新点: 引入层次化布局分析和单元格关系建模，在 PubTabNet 上 TEDS 分数达到 94.2%。

🔗 论文链接

FormulaNet: End-to-End Mathematical Formula Recognition and Understanding

Deng, Li, Zhang et al. (Peking University) OCR 与文档处理

作者: Deng, Li, Zhang et al. (Peking University)
来源: arXiv:2603.13234
链接: https://arxiv.org/abs/2603.13234
核心贡献: 提出端到端数学公式识别和理解框架。
创新点: 联合识别公式结构和语义含义，支持公式检索和等价性判断，在 CROHME 数据集上达到 91.5% 准确率。

🔗 论文链接

ChartQA++: Multimodal Chart Understanding with Visual and Textual Reasoning

Masry, Do, Tan et al. (National University of Singapore) OCR 与文档处理

作者: Masry, Do, Tan et al. (National University of Singapore)
来源: arXiv:2603.12678
链接: https://arxiv.org/abs/2603.12678
核心贡献: 扩展 ChartQA 数据集和基准，支持多模态图表理解。
创新点: 新增 15K 图表 - 问答对，引入视觉和文本推理任务，推动图表理解研究。

🔗 论文链接

Planning with World Models: A Survey on Model-Based Reinforcement Learning

Moerland, Broekens, Plaat et al. (Leiden University) 世界模型与 AI Agent

作者: Moerland, Broekens, Plaat et al. (Leiden University)
来源: arXiv:2603.13756
链接: https://arxiv.org/abs/2603.13756
核心贡献: 系统综述基于世界模型的强化学习方法。
创新点: 分类整理 200+ 篇论文，分析世界模型在规划、样本效率、泛化方面的优势与挑战。

🔗 论文链接

Tool-Augmented Language Models: A Comprehensive Survey

Qin, Li, Liu et al. (Tsinghua University) 世界模型与 AI Agent

作者: Qin, Li, Liu et al. (Tsinghua University)
来源: arXiv:2603.14312
链接: https://arxiv.org/abs/2603.14312
核心贡献: 全面综述工具增强语言模型的研究进展。
创新点: 提出工具使用能力评估框架，分析 API 调用、代码执行、外部检索等能力的演进路径。

🔗 论文链接

AlphaFold 3: Improved Protein Structure Prediction with Multimodal Inputs

Jumper, Evans, Pritzel et al. (Google DeepMind) AI for Science

作者: Jumper, Evans, Pritzel et al. (Google DeepMind)
来源: arXiv:2603.14523
链接: https://arxiv.org/abs/2603.14523
核心贡献: 发布 AlphaFold 3，支持蛋白质 - 配体、蛋白质 - 核酸复合物预测。
创新点: 引入扩散模型和几何深度学习，在蛋白质 - 小分子结合位点预测上准确率提升 35%。

🔗 论文链接

ClimateBERT: A Language Model for Climate Science Literature Analysis

Thompson, Anderson, Wilson et al. (MIT Climate Grand Challenges) AI for Science

作者: Thompson, Anderson, Wilson et al. (MIT Climate Grand Challenges)
来源: arXiv:2603.13089
链接: https://arxiv.org/abs/2603.13089
核心贡献: 针对气候科学文献训练的专业语言模型。
创新点: 在气候文献摘要生成、假设提取、跨论文关联分析任务上超越通用 LLM 20%。

🔗 论文链接

AutoML-Zero 3: Evolving Neural Networks from Scratch with Minimal Human Bias

Real, Liang, So et al. (Google Research) 神经架构与 AutoML

作者: Real, Liang, So et al. (Google Research)
来源: arXiv:2603.12456
链接: https://arxiv.org/abs/2603.12456
核心贡献: 发布 AutoML-Zero 3，从最小先验知识进化神经网络架构。
创新点: 引入多目标优化和元学习，自动发现新型激活函数和注意力机制，在 CIFAR-10 上达到 96.8% 准确率。

🔗 论文链接

📚 每日学术论文

LLM-Ready: What Makes Data Suitable for Fine-tuning Language Models?

Chain-of-Verification Reduces Hallucination in Large Language Models

Efficient Long-Context LLMs via Sparse Attention Pruning

VisionLLM v2: A Unified Framework for Vision-Centric Autonomous Driving

Segment Anything in Medical Images with Foundation Models

Multimodal Understanding and Generation for Document Images

Multimodal OCR: Parse Anything from Documents

OCR or Not? Rethinking Document Information Extraction in the MLLMs Era

An Effective Data Augmentation Method by Asking Questions about Scene Text Images

Locating the OCR Routing Bottleneck in Vision-Language Models

Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning

Reinforcement World Model Learning for LLM-based Agents

Foundation World Models for Agents that Learn, Verify, and Adapt Reliably

Mechanisms of AI Protein Folding in ESMFold

Self-adapting Robotic Agents through Online Continual Reinforcement Learning

Soft Label Pruning and Quantization for Large-Scale Dataset Distillation

Mixture-of-Depths: Dynamic Token Routing for Efficient LLM Inference

Cross-Lingual Knowledge Transfer in Multilingual LLMs

Diffusion-QL: Query-Conditioned Latent Diffusion for High-Resolution Image Generation

Video-LLaVA 2: Learning Unified Visual-Concept Representations for Video Understanding

3D Scene Understanding from Single Images with Neural Radiance Fields

TableFormer 2: Advanced Table Structure Recognition with Deep Layout Analysis

FormulaNet: End-to-End Mathematical Formula Recognition and Understanding

ChartQA++: Multimodal Chart Understanding with Visual and Textual Reasoning

Planning with World Models: A Survey on Model-Based Reinforcement Learning

Tool-Augmented Language Models: A Comprehensive Survey

AlphaFold 3: Improved Protein Structure Prediction with Multimodal Inputs

ClimateBERT: A Language Model for Climate Science Literature Analysis

AutoML-Zero 3: Evolving Neural Networks from Scratch with Minimal Human Bias