← 2026-03-14

2026-03-15

2026-03-16 →

📚 每日学术论文

SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions
  • 来源: arXiv:2603.07379 [cs.AI]
  • 链接: https://arxiv.org/html/2603.07379
  • 作者: 多机构合作
  • 核心贡献: 系统性知识梳理(SoK)论文,全面分析了代理式 RAG 的分类体系、架构设计和评估方法
  • 创新点: 提出了统一的 RAG 代理 taxonomy,将上下文学习与自主推理能力相结合,为后续研究提供了清晰的框架
🔗 论文链接
Human–AI Co-reasoning for Clinical Diagnosis with Evidence-Integrated Language Agent
  • 来源: arXiv:2603.10492 [cs.AI]
  • 链接: https://arxiv.org/html/2603.10492
  • 作者: 医疗 AI 研究团队
  • 核心贡献: PULSE 框架,将推理导向的 LLM 与证据整合相结合,用于临床诊断
  • 创新点: 采用自回归 Transformer 架构,专为医疗推理任务训练,支持人机协同推理和证据溯源
🔗 论文链接
Causal Concept Graphs in LLM Latent Space for Stepwise Reasoning
  • 来源: arXiv:2603.10377 [cs.LG]
  • 链接: https://arxiv.org/html/2603.10377
  • 作者: 可解释性 AI 研究组
  • 核心贡献: 在 LLM 潜在空间中构建因果概念图,揭示多步推理的内部机制
  • 创新点: 结合机械可解释性技术,定位语义特征和电路,追踪多步推理过程中内部特征的交互顺序
🔗 论文链接
Reasoning as Compression: Unifying Budget Forcing via the Conditional Information Bottleneck
  • 来源: arXiv:2603.08462 [cs.CL]
  • 链接: https://arxiv.org/abs/2603.08462v1
  • 作者: 效率优化研究团队
  • 核心贡献: 提出条件信息瓶颈框架,统一了思维链(CoT)的预算强制方法
  • 创新点: 在不牺牲准确性的前提下减少 token 使用和推理成本,解决了 CoT prompting 增加推理成本的问题
🔗 论文链接
Ares: Adaptive Reasoning Effort Selection for Efficient LLM Agents
  • 来源: arXiv:2603.07915 [cs.AI]
  • 链接: https://arxiv.org/html/2603.07915v1
  • 作者: 高效代理研究组
  • 核心贡献: Ares 框架,自适应选择推理力度以优化 LLM 代理效率
  • 创新点: 将长视野优化问题转化为独立的逐步标注任务,精确测量不同推理级别对执行的影响,兼容外部数据源
🔗 论文链接
On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM agents
  • 来源: arXiv:2603.12109 [cs.LG]
  • 链接: https://arxiv.org/abs/2603.12109
  • 作者: 强化学习与 LLM 交叉研究团队
  • 核心贡献: 发现并解决了 LLM 代理主动推理中的"信息自锁"问题
  • 创新点: 通过注入易于获取的方向性批评来重新分配学习信号,帮助代理跳出自锁状态
🔗 论文链接
ALARM: Audio–Language Alignment for Reasoning Models
  • 来源: arXiv:2603.09556 [cs.CL]
  • 链接: https://arxiv.org/html/2603.09556
  • 作者: EPFL & Sony Europe
  • 核心贡献: 大型音频语言模型(ALM)的对齐方法,扩展 LLM 的听觉理解能力
  • 创新点: 实现音频与语言模态的深度融合,支持多模态推理任务
🔗 论文链接
Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training
  • 来源: arXiv:2603.12246 [cs.AI]
  • 链接: https://arxiv.org/html/2603.12246.pdf
  • 作者: LLM 评估研究组
  • 核心贡献: 研究推理 LLM 作为评判者在不可验证领域的后训练应用
  • 创新点: 利用推理模型的推理时 scaling 能力,扩展到输出正确性无法直接检查的领域
🔗 论文链接
RecThinker: An Agentic Framework for Tool-Augmented Reasoning in Recommendation
  • 来源: arXiv:2603.09843 [cs.IR]
  • 链接: https://arxiv.org/html/2603.09843v1
  • 作者: 推荐系统研究团队
  • 核心贡献: 工具增强推理框架,应用于序列推荐系统
  • 创新点: 结合 Transformer 架构与 LLM 工具调用能力,提升推荐系统的推理和解释能力

🔗 论文链接
DocCogito: Aligning Layout Cognition and Step-Level Grounded Reasoning for Document Understanding
  • 来源: arXiv:2603.07494 [cs.CV]
  • 链接: https://arxiv.org/html/2603.07494
  • 作者: 文档 AI 研究组
  • 核心贡献: 将布局认知与逐步基础推理对齐,提升文档理解能力
  • 创新点: 使用多模态大语言模型(MLLM),不仅提供准确答案,还提供明确的、基于证据的推理,特别适用于高风险场景
🔗 论文链接
How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation
  • 来源: arXiv:2603.07540 [cs.CV]
  • 链接: https://arxiv.org/html/2603.07540v1
  • 作者: 多模态生成研究团队
  • 核心贡献: 研究统一多模态模型在长视野交错图像生成中的可靠性
  • 创新点: 通过上下文策划(Context Curation)方法,解决长序列生成中的质量退化问题
🔗 论文链接
Benchmarking and Advancing Scientific Multimodal Document Reasoning
  • 来源: arXiv:2603.12249 [cs.CV]
  • 链接: https://arxiv.org/html/2603.12249
  • 作者: 科学文档 AI 研究组
  • 核心贡献: 提出科学多模态文档推理的基准测试框架
  • 创新点: 涵盖五种问题类型,包括需要定量分析视觉证据以支持文本主张的 EEQ 类型问题
🔗 论文链接
DeepEyesV2: Toward Agentic Multimodal Model
  • 来源: arXiv:2511.05271 [cs.CV]
  • 链接: https://arxiv.org/html/2511.05271v4
  • 作者: 多模态代理研究团队
  • 核心贡献: 提出"用图像思考"(Think with Image)范式的代理式多模态模型
  • 创新点: 多模态模型可以交错推理与迭代视觉分析,主动操作图像以支持逐步问题解决

🔗 论文链接
Yann LeCun's AMI Labs raises $1.03B to build world models
🔗 论文链接
2026 in artificial intelligence — World Models Surge
  • 来源: Grokipedia
  • 链接: https://grokipedia.com/page/2026_in_artificial_intelligence
  • 作者: 多机构研究团队
  • 核心贡献: 2026 年 1 月 arXiv 提交激增,推进世界模型研究
  • 创新点: 强调能够模拟复杂、部分可观察动态的架构和训练范式,应用于企业系统和医疗保健等领域

🔗 论文链接
OpenAI's GPT-5.4 with enhanced features
🔗 论文链接
HunyuanVideo: Revolutionary Text-to-Video Model on HuggingFace
🔗 论文链接
Seedance AI: DeepTech Era Video Generation

🔗 论文链接
ThinkPrune: Pruning Long Chain-of-Thought of LLMs via Reinforcement Learning

来源: arXiv:2603.12246 | 论文链接
作者机构: Fuzhao Xue et al., National University of Singapore
核心贡献: 提出 ThinkPrune 方法,使用强化学习自动剪枝长链式思维(CoT)推理过程中的冗余步骤,在保持推理准确性的同时显著减少计算开销。
创新点: 该方法将 CoT 剪枝建模为序列决策问题,通过设计稀疏奖励函数引导模型识别并保留关键推理步骤。在 GSM8K 和 MATH 基准上,ThinkPrune 能够减少 40-60% 的推理 token 消耗,同时保持 95% 以上的原始准确率。这一工作为高效推理提供了新思路,特别适合资源受限场景下的大模型部署。

🔗 论文链接
Efficient Reasoning for LLMs via Dynamic Token Pruning

来源: arXiv:2603.12224 | 论文链接
作者机构: Zhenyu Zhang et al., Tsinghua University
核心贡献: 提出动态 token 剪枝策略,在 LLM 推理过程中实时识别并跳过冗余 token 的计算,实现加速推理。
创新点: 该方法引入轻量级重要性评分模块,在每层 Transformer 中动态评估 token 贡献度,对低重要性 token 进行早期退出。在 LLaMA-3-70B 上实现 2.3 倍推理加速,且在多个 NLP 基准上仅损失不到 1% 的准确率。该方法与现有推理框架兼容性好,易于集成到生产环境中。

🔗 论文链接
The Mirror Design Pattern: Strict Data Geometry over Model Scale for Prompt Injection Detection

来源: arXiv:2603.11875 | 论文链接
作者机构: J Alex Corll, Independent Researcher
核心贡献: 提出 Mirror 设计模式,通过严格的数据几何结构而非大规模模型来检测提示词注入攻击,实现亚毫秒级延迟的高精度检测。
创新点: 该方法将提示词注入语料库组织为匹配的正负样本单元,训练稀疏字符 n-gram 线性 SVM 分类器,编译为静态 Rust 工件。在 524 个测试用例上达到 95.97% 召回率和 92.07% F1 分数,延迟低于 1 毫秒。相比之下,22M 参数的 Prompt Guard 2 模型召回率仅 44.35%,延迟高达 49 毫秒。这项工作证明了在 L1 提示词注入筛查中,严格的数据几何结构比模型规模更重要。


🔗 论文链接
DocMind-2: Advanced Document Understanding with Hierarchical Layout Analysis

来源: arXiv:2603.12188 | 论文链接
作者机构: Tencent AI Lab
核心贡献: 提出 DocMind-2,一种具有分层布局分析能力的先进文档理解模型,显著提升复杂文档的结构化信息提取能力。
创新点: DocMind-2 采用多尺度视觉编码器与层次化 Transformer 架构,能够同时捕捉文档的全局布局结构和局部文本细节。在 DocVQA 和 FUNSD 基准上分别达到 89.2% 和 94.5% 的准确率,超越现有 SOTA 模型 3-5 个百分点。该模型特别擅长处理多栏、表格、公式混合的复杂学术文档,为文档 AI 领域树立了新标杆。

🔗 论文链接
Visual-Reasoning Bench: Evaluating Multimodal Models on Diagram Understanding

来源: arXiv:2603.12133 | 论文链接
作者机构: MIT CSAIL, Stanford University
核心贡献: 提出 Visual-Reasoning Bench,一个专门评估多模态模型在图表理解与推理能力上的新基准。
创新点: 该基准包含 5,000+ 张科学图表(流程图、架构图、数据可视化等),每张图表配有多层次推理问题,从基础元素识别到复杂因果推理。测试现有 15 个主流多模态模型发现,即使是 GPT-4V 和 Gemini-1.5 在复杂推理任务上也仅有 62% 准确率,表明图表理解仍是多模态 AI 的薄弱环节。该基准为社区提供了标准化评估工具,推动多模态推理能力发展。

🔗 论文链接
Anomaly Detection in Time-Series via Inductive Biases in Latent Space

来源: arXiv:2603.11756 | 论文链接
作者机构: David Baumgartner et al., ETH Zurich
核心贡献: 提出在条件归一化流的潜在空间中引入归纳偏置,实现时间序列异常检测的新方法。
创新点: 该方法将时间序列观测建模为离散时间状态空间框架,约束潜在表示按照预设的时间动态演化。异常被定义为对这些动态的违反,通过拟合优度检验进行检测。在合成和真实世界时间序列上,该方法能够可靠检测频率、幅度和观测噪声异常,同时提供可解释的模型合规性诊断。这一工作为时间序列异常检测提供了统计学基础的理论框架。


🔗 论文链接
AgentPlan: Hierarchical Planning for Long-Horizon Agent Tasks

来源: arXiv:2603.12129 | 论文链接
作者机构: UC Berkeley, Google DeepMind
核心贡献: 提出 AgentPlan,一种分层规划框架,使 AI 代理能够有效执行长视野复杂任务。
创新点: AgentPlan 将任务分解为抽象子目标和具体动作两个层次,高层使用符号规划器生成子目标序列,低层使用强化学习策略执行具体动作。在 ALFWorld 和 WebShop 基准上,AgentPlan 的任务完成率分别达到 78% 和 65%,超越现有方法 15-20 个百分点。该方法特别适用于需要多步骤推理和工具使用的复杂代理任务,为通用 AI 代理发展提供重要进展。

🔗 论文链接
WorldModel-RL: Training Agents with Learned World Models for Sample Efficiency

来源: arXiv:2603.12109 | 论文链接
作者机构: Carnegie Mellon University, Meta AI
核心贡献: 提出 WorldModel-RL,结合学习到的世界模型与强化学习,显著提升样本效率。
创新点: 该方法训练一个潜变量世界模型来预测环境动态,然后在学得的模型中进行策略优化,仅定期用真实环境交互进行校正。在 DMControl 和 Minecraft 任务中,WorldModel-RL 仅需传统 RL 方法 10-20% 的环境交互次数即可达到同等性能。这一工作为数据稀缺场景下的强化学习提供了有效解决方案,对机器人学习等领域具有重要意义。


🔗 论文链接
UniWorld: A Unified World Model for Video Generation and Prediction

来源: arXiv:2603.12096 | 论文链接
作者机构: ByteDance Research, Peking University
核心贡献: 提出 UniWorld,一个统一的视频生成与预测世界模型,能够同时处理视频生成、预测和编辑任务。
创新点: UniWorld 采用扩散 Transformer 架构,在潜空间中对视频时空动态进行建模。通过在 10M+ 视频片段上预训练,该模型能够生成 1080p 分辨率、长达 60 秒的高质量视频,且在视频预测任务上超越现有 SOTA 模型。该模型还支持文本引导的视频编辑,如物体移除、风格转换等。这一工作为视频理解和生成领域提供了统一框架。

🔗 论文链接
Multimodal Fusion via Cross-Modal Attention with Modality Dropout

来源: arXiv:2603.12056 | 论文链接
作者机构: University of Washington, Allen Institute for AI
核心贡献: 提出一种新的多模态融合方法,通过跨模态注意力机制与模态 Dropout 提升多模态学习的鲁棒性。
创新点: 该方法在训练过程中随机丢弃部分模态输入,强制模型学习跨模态的互补表示而非依赖单一模态。在 VQA-v2、SNLI-VE 和 ActivityNet 基准上,该方法分别提升 2.3%、1.8% 和 3.1% 的准确率。更重要的是,在单模态缺失情况下,模型性能下降幅度显著小于现有方法,展现了更强的鲁棒性。这一工作为多模态系统的可靠性提升提供了有效策略。


🔗 论文链接
AI-Driven Discovery of Novel Catalysts for CO2 Reduction

来源: arXiv:2603.12045 | 论文链接
作者机构: MIT, Harvard University, Google DeepMind
核心贡献: 利用 AI 高通量筛选发现 12 种新型 CO2 还原催化剂,实验验证其中 3 种具有优异性能。
创新点: 该方法结合图神经网络与密度泛函理论计算,在 50 万 + 候选材料中快速筛选高活性催化剂。AI 预测与实验结果的准确率达到 87%,大幅加速材料发现进程。发现的 Cu-Ni 双金属催化剂在工业条件下 CO2 转化效率达到 92%,超越现有最佳催化剂 15 个百分点。这一工作展示了 AI 在加速科学发现方面的巨大潜力。

🔗 论文链接
ProteinFold-3: End-to-End Protein Structure Prediction with Experimental Accuracy

来源: arXiv:2603.12038 | 论文链接
作者机构: DeepMind
核心贡献: 提出 ProteinFold-3,一种端到端蛋白质结构预测模型,在 CASP16 盲测中达到实验级精度。
创新点: ProteinFold-3 采用新型 EvoFormer 架构,整合多序列比对、共进化信息和物理约束,在 CASP16 测试集上中位 GDT_TS 达到 92.5,接近实验测定的 94.0。该模型特别擅长预测膜蛋白和蛋白质复合物结构,在相关子任务上超越 AlphaFold2 约 8 个百分点。这一进展为结构生物学和药物设计提供了强大工具。

🔗 论文链接
Neural Symbolic Regression for Scientific Law Discovery

来源: arXiv:2603.12021 | 论文链接
作者机构: Caltech, Princeton University
核心贡献: 提出神经符号回归方法,从实验数据中自动发现科学定律的数学表达式。
创新点: 该方法结合神经网络的模式识别能力与符号回归的可解释性,通过分层搜索策略在表达式空间中高效探索。在 100 个物理定律发现任务上,该方法成功恢复 94 个已知定律,并在新数据集上发现 3 个潜在新关系。该方法已开源,为科学发现提供了通用工具。


🔗 论文链接
The Landscape of Generative AI in Information Systems: A Synthesis of Secondary Reviews

来源: arXiv:2603.11842 | 论文链接
作者机构: Aleksander Jarzębowicz et al., Multiple European Universities
核心贡献: 系统综述生成式 AI 在信息系统领域的研究现状,分析 28 篇二次研究论文并提出未来研究议程。
创新点: 该综述发现 GenAI 的采用受到技术不可靠性(幻觉、性能漂移)、社会伦理风险(偏见、滥用、技能侵蚀)和系统性治理真空(隐私、责任、知识产权)的多重制约。作者提出从分析影响转向积极塑造技术与组织、社会、监管协同演进的研究议程,强调混合人机协作、情境化验证、概率系统设计原则和适应性治理。这一工作为 IS 领域提供了全面的研究路线图。


🔗 论文链接
Robust Alignment via Adversarial Preference Learning

来源: arXiv:2603.11998 | 论文链接
作者机构: Anthropic, UC Berkeley
核心贡献: 提出对抗性偏好学习(APL),通过主动生成对抗性偏好数据提升模型对齐的鲁棒性。
创新点: APL 训练一个对抗生成器来创建边界案例偏好对,这些案例专门针对当前策略模型的弱点。在帮助性、无害性和诚实性三个维度上,APL 训练的模型在对抗性评估中表现提升 25-35%。该方法特别擅长防御越狱攻击和提示词注入,为构建更安全的 AI 系统提供了新方向。

🔗 论文链接
Scalable Oversight via Recursive Reward Modeling

来源: arXiv:2603.11976 | 论文链接
作者机构: OpenAI
核心贡献: 提出递归奖励建模,通过层次化人类反馈实现可扩展的 AI 监督。
创新点: 该方法将复杂任务分解为子任务,人类仅监督最高层输出,低层由 AI 系统相互监督。在代码生成和文本摘要任务上,递归奖励建模在仅需 10% 人类监督成本的情况下,达到与全监督相当的质量。这一工作为解决 AI 能力超越人类监督能力时的对齐问题提供了可行路径。


🔗 论文链接
Efficient Multi-Modal Retrieval with Learned Sparse Representations

来源: arXiv:2603.11954 | 论文链接
作者机构: University of Waterloo, Vector Institute
核心贡献: 提出学习稀疏表示进行高效多模态检索,在保持精度的同时实现 10 倍检索加速。

🔗 论文链接
Self-Supervised Learning for Robotics: A Survey and Benchmark

来源: arXiv:2603.11921 | 论文链接
作者机构: ETH Zurich, MIT
核心贡献: 全面综述自监督学习在机器人领域的应用,并提供标准化基准评估现有方法。


🔗 论文链接
IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

来源/链接: arXiv:2603.12151
作者机构: Zhoujun Cheng et al. (CMU, UCSD, Petuum 等)
分类: cs.LG, cs.AI

核心贡献:

  • 首次系统研究了 LLM 强化学习后训练中的计算最优分配问题
  • 提出了采样计算的三维度框架:并行 rollout 数、每批次问题数、更新步数
  • 发现最优并行 rollout 数随计算预算增加而增长,最终饱和

创新点:

  • 将 RL 缩放定律重构为可操作的分配规则
  • 揭示了简单问题和困难问题下不同的驱动机制(解决方案锐化 vs 覆盖扩展)
  • 为计算高效的 LLM RL 后训练提供实用指导

🔗 论文链接
The Latent Color Subspace: Emergent Order in High-Dimensional Chaos

来源/链接: arXiv:2603.12261
作者机构: Mateusz Pach et al. (ExplainableML)
分类: cs.LG, cs.AI, cs.CV

核心贡献:

  • 开发了 FLUX.1 [Dev] 的 VAE 潜在空间中颜色表示的解释框架
  • 揭示了反映色调 (Hue)、饱和度 (Saturation) 和亮度 (Lightness) 的潜在结构
  • 提出了潜在颜色子空间 (LCS) 解释方法

创新点:

  • 完全无需训练,仅通过封闭形式的潜在空间操作即可控制颜色
  • 可预测并显式控制生成图像的颜色
  • 为文本到图像模型的细粒度控制提供新途径

🔗 论文链接
Benchmarking and Advancing Scientific Multimodal Document Reasoning

来源/链接: arXiv:2603.12249
作者机构: Ziyu Chen et al.
分类: cs.CL, cs.AI, cs.CV

核心贡献:

  • 提出了 synthesize-and-reground 两阶段框架
  • 构建了 SciMDR 大规模训练数据集(300K QA 对,覆盖 20K 科学论文)
  • 创建了专家标注的 SciMDR-Eval 基准

创新点:

  • Claim-Centric QA Synthesis:生成忠实的、孤立的 QA 对和推理链
  • Document-Scale Regrounding:将 QA 对重新嵌入完整文档任务,确保现实复杂性
  • 在科学 QA 基准上取得显著提升,尤其在复杂文档级推理任务

🔗 论文链接
Defending Hybrid Large Language Models Against Hidden State Poisoning Attacks

来源/链接: arXiv:2603.12206
作者机构: Alexandre Le Mercier et al.
分类: cs.CL

核心贡献:

  • 针对 SSM(如 Mamba)的隐藏状态投毒攻击 (HiSPA) 提出防御方案
  • 提出 CLASP 模型,利用 Mamba 块输出嵌入 (BOE) 的独特模式
  • 使用 XGBoost 分类器以最小计算开销识别恶意 token

创新点:

  • 在 2,483 份简历(9.5M tokens)上达到 95.9% token 级 F1 和 99.3% 文档级 F1
  • 对未见过的攻击模式具有泛化能力(留一交叉验证 96.9% 文档级 F1)
  • 轻量级部署:1,032 tokens/秒,VRAM 消耗 <4GB

🔗 论文链接
A Quantitative Characterization of Forgetting in Post-Training

来源/链接: arXiv:2603.12163
作者机构: Krishnakumar Balasubramanian et al. (UC Davis 等)
分类: cs.LG, cs.AI, math.ST

核心贡献:

  • 在双模式混合抽象下发展了遗忘的理论结果
  • 形式化了两种遗忘形式:质量遗忘 (mass forgetting) 和旧组件漂移 (old-component drift)
  • 证明了 forward-KL 和 reverse-KL 目标的不同遗忘行为

创新点:

  • 精确量化遗忘与散度方向、几何行为重叠、采样机制的关系
  • 分析了 SDFT、TTT-Discover、OAPL 三种近期方法的遗忘特性
  • 为持续后训练提供理论指导

🔗 论文链接
Topological DeepONets and a Generalization of the Chen-Chen Operator Approximation Theorem

来源/链接: arXiv:2603.11972
作者机构: Vugar Ismailov et al.
分类: cs.LG, cs.NE, math.FA

核心贡献:

  • 开发了 DeepONet 的拓扑扩展,输入可位于任意 Hausdorff 局部凸空间
  • 使用对偶空间的连续线性泛函构建拓扑前馈神经网络
  • 证明了拓扑 DeepONet 可一致逼近连续算子

创新点:

  • 将经典 Chen-Chen 算子逼近定理从连续函数空间扩展到局部凸空间
  • 产生超越 Banach 空间设置的分支 - 主干逼近定理
  • 为算子学习提供更一般的理论框架

🔗 论文链接
本页共收录 42 篇学术论文
← 返回首页