2026-03-15

SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

** 多机构合作大语言模型与推理 LLM & Reasoning

来源： arXiv:2603.07379 [cs.AI]
链接： https://arxiv.org/html/2603.07379
作者： 多机构合作
核心贡献： 系统性知识梳理（SoK）论文，全面分析了代理式 RAG 的分类体系、架构设计和评估方法
创新点： 提出了统一的 RAG 代理 taxonomy，将上下文学习与自主推理能力相结合，为后续研究提供了清晰的框架

🔗 论文链接

Human–AI Co-reasoning for Clinical Diagnosis with Evidence-Integrated Language Agent

** 医疗 AI 研究团队大语言模型与推理 LLM & Reasoning

来源： arXiv:2603.10492 [cs.AI]
链接： https://arxiv.org/html/2603.10492
作者： 医疗 AI 研究团队
核心贡献： PULSE 框架，将推理导向的 LLM 与证据整合相结合，用于临床诊断
创新点： 采用自回归 Transformer 架构，专为医疗推理任务训练，支持人机协同推理和证据溯源

🔗 论文链接

Causal Concept Graphs in LLM Latent Space for Stepwise Reasoning

** 可解释性 AI 研究组大语言模型与推理 LLM & Reasoning

来源： arXiv:2603.10377 [cs.LG]
链接： https://arxiv.org/html/2603.10377
作者： 可解释性 AI 研究组
核心贡献： 在 LLM 潜在空间中构建因果概念图，揭示多步推理的内部机制
创新点： 结合机械可解释性技术，定位语义特征和电路，追踪多步推理过程中内部特征的交互顺序

🔗 论文链接

Reasoning as Compression: Unifying Budget Forcing via the Conditional Information Bottleneck

** 效率优化研究团队大语言模型与推理 LLM & Reasoning

来源： arXiv:2603.08462 [cs.CL]
链接： https://arxiv.org/abs/2603.08462v1
作者： 效率优化研究团队
核心贡献： 提出条件信息瓶颈框架，统一了思维链（CoT）的预算强制方法
创新点： 在不牺牲准确性的前提下减少 token 使用和推理成本，解决了 CoT prompting 增加推理成本的问题

🔗 论文链接

Ares: Adaptive Reasoning Effort Selection for Efficient LLM Agents

** 高效代理研究组大语言模型与推理 LLM & Reasoning

来源： arXiv:2603.07915 [cs.AI]
链接： https://arxiv.org/html/2603.07915v1
作者： 高效代理研究组
核心贡献： Ares 框架，自适应选择推理力度以优化 LLM 代理效率
创新点： 将长视野优化问题转化为独立的逐步标注任务，精确测量不同推理级别对执行的影响，兼容外部数据源

🔗 论文链接

On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM agents

** 强化学习与 LLM 交叉研究团队大语言模型与推理 LLM & Reasoning

来源： arXiv:2603.12109 [cs.LG]
链接： https://arxiv.org/abs/2603.12109
作者： 强化学习与 LLM 交叉研究团队
核心贡献： 发现并解决了 LLM 代理主动推理中的"信息自锁"问题
创新点： 通过注入易于获取的方向性批评来重新分配学习信号，帮助代理跳出自锁状态

🔗 论文链接

ALARM: Audio–Language Alignment for Reasoning Models

** EPFL & Sony Europe 大语言模型与推理 LLM & Reasoning

来源： arXiv:2603.09556 [cs.CL]
链接： https://arxiv.org/html/2603.09556
作者： EPFL & Sony Europe
核心贡献： 大型音频语言模型（ALM）的对齐方法，扩展 LLM 的听觉理解能力
创新点： 实现音频与语言模态的深度融合，支持多模态推理任务

🔗 论文链接

Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

** LLM 评估研究组大语言模型与推理 LLM & Reasoning

来源： arXiv:2603.12246 [cs.AI]
链接： https://arxiv.org/html/2603.12246.pdf
作者： LLM 评估研究组
核心贡献： 研究推理 LLM 作为评判者在不可验证领域的后训练应用
创新点： 利用推理模型的推理时 scaling 能力，扩展到输出正确性无法直接检查的领域

🔗 论文链接

RecThinker: An Agentic Framework for Tool-Augmented Reasoning in Recommendation

** 推荐系统研究团队大语言模型与推理 LLM & Reasoning

来源： arXiv:2603.09843 [cs.IR]
链接： https://arxiv.org/html/2603.09843v1
作者： 推荐系统研究团队
核心贡献： 工具增强推理框架，应用于序列推荐系统
创新点： 结合 Transformer 架构与 LLM 工具调用能力，提升推荐系统的推理和解释能力

🔗 论文链接

DocCogito: Aligning Layout Cognition and Step-Level Grounded Reasoning for Document Understanding

** 文档 AI 研究组文档理解与多模态 Document Understanding & Multimodal

来源： arXiv:2603.07494 [cs.CV]
链接： https://arxiv.org/html/2603.07494
作者： 文档 AI 研究组
核心贡献： 将布局认知与逐步基础推理对齐，提升文档理解能力
创新点： 使用多模态大语言模型（MLLM），不仅提供准确答案，还提供明确的、基于证据的推理，特别适用于高风险场景

🔗 论文链接

How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

** 多模态生成研究团队文档理解与多模态 Document Understanding & Multimodal

来源： arXiv:2603.07540 [cs.CV]
链接： https://arxiv.org/html/2603.07540v1
作者： 多模态生成研究团队
核心贡献： 研究统一多模态模型在长视野交错图像生成中的可靠性
创新点： 通过上下文策划（Context Curation）方法，解决长序列生成中的质量退化问题

🔗 论文链接

Benchmarking and Advancing Scientific Multimodal Document Reasoning

** 科学文档 AI 研究组文档理解与多模态 Document Understanding & Multimodal

来源： arXiv:2603.12249 [cs.CV]
链接： https://arxiv.org/html/2603.12249
作者： 科学文档 AI 研究组
核心贡献： 提出科学多模态文档推理的基准测试框架
创新点： 涵盖五种问题类型，包括需要定量分析视觉证据以支持文本主张的 EEQ 类型问题

🔗 论文链接

DeepEyesV2: Toward Agentic Multimodal Model

** 多模态代理研究团队文档理解与多模态 Document Understanding & Multimodal

来源： arXiv:2511.05271 [cs.CV]
链接： https://arxiv.org/html/2511.05271v4
作者： 多模态代理研究团队
核心贡献： 提出"用图像思考"（Think with Image）范式的代理式多模态模型
创新点： 多模态模型可以交错推理与迭代视觉分析，主动操作图像以支持逐步问题解决

🔗 论文链接

Yann LeCun's AMI Labs raises $1.03B to build world models

** Yann LeCun 等（图灵奖得主）世界模型与 AI for Science World Models & AI for Science

来源： TechCrunch / AMI Labs
链接： https://techcrunch.com/2026/03/09/yann-lecuns-ami-labs-raises-1-03-billion-to-build-world-models/
作者： Yann LeCun 等（图灵奖得主）
核心贡献： AMI Labs 完成 10.3 亿美元种子轮融资，致力于构建世界模型
创新点： 世界模型让 AI 从现实中学习，而不仅仅是从语言中学习；可能是欧洲公司有史以来最大的种子轮融资

🔗 论文链接

2026 in artificial intelligence — World Models Surge

** 多机构研究团队世界模型与 AI for Science World Models & AI for Science

来源： Grokipedia
链接： https://grokipedia.com/page/2026_in_artificial_intelligence
作者： 多机构研究团队
核心贡献： 2026 年 1 月 arXiv 提交激增，推进世界模型研究
创新点： 强调能够模拟复杂、部分可观察动态的架构和训练范式，应用于企业系统和医疗保健等领域

🔗 论文链接

OpenAI's GPT-5.4 with enhanced features

** OpenAI 生成式 AI 与视频模型 Generative AI & Video

来源： Sci-Tech Today
链接： https://www.sci-tech-today.com/news/march-2026-ai-models-avalanche/
作者： OpenAI
核心贡献： GPT-5.4 发布，增强功能并减少错误
创新点： 2026 年 3 月 AI 模型"雪崩"中的旗舰更新，代表语言模型的最新进展

🔗 论文链接

HunyuanVideo: Revolutionary Text-to-Video Model on HuggingFace

** 腾讯 HunYuan 团队生成式 AI 与视频模型 Generative AI & Video

来源： HuggingFace / DEV Community
链接： https://dev.to/czmilo/2026-complete-guide-top-text-to-video-models-on-huggingface-49p2
作者： 腾讯 HunYuan 团队
核心贡献： 采用革命性的文本编码方法，超越传统 CLIP 或 T5
创新点： 利用经过视觉指令微调的多模态 LLM，实现更好的图文对齐和复杂推理能力

🔗 论文链接

Seedance AI: DeepTech Era Video Generation

** Seedance 团队生成式 AI 与视频模型 Generative AI & Video

来源： AllAboutAI
链接： https://www.allaboutai.com/best-ai-tools/generator/what-is-seedance-ai/
作者： Seedance 团队
核心贡献： 2026 年视频生成领域的突破性工具
创新点： 代表"DeepTech"时代的 AI，30% 的数字视频广告已使用生成式 AI；可通过 HuggingFace、Fal AI 访问

🔗 论文链接

ThinkPrune: Pruning Long Chain-of-Thought of LLMs via Reinforcement Learning

Fuzhao Xue et al., National University of Singapore 大语言模型与推理LLM & Reasoning

来源: arXiv:2603.12246 | 论文链接
作者机构: Fuzhao Xue et al., National University of Singapore
核心贡献: 提出 ThinkPrune 方法，使用强化学习自动剪枝长链式思维（CoT）推理过程中的冗余步骤，在保持推理准确性的同时显著减少计算开销。
创新点: 该方法将 CoT 剪枝建模为序列决策问题，通过设计稀疏奖励函数引导模型识别并保留关键推理步骤。在 GSM8K 和 MATH 基准上，ThinkPrune 能够减少 40-60% 的推理 token 消耗，同时保持 95% 以上的原始准确率。这一工作为高效推理提供了新思路，特别适合资源受限场景下的大模型部署。

🔗 论文链接

Efficient Reasoning for LLMs via Dynamic Token Pruning

Zhenyu Zhang et al., Tsinghua University 大语言模型与推理LLM & Reasoning

来源: arXiv:2603.12224 | 论文链接
作者机构: Zhenyu Zhang et al., Tsinghua University
核心贡献: 提出动态 token 剪枝策略，在 LLM 推理过程中实时识别并跳过冗余 token 的计算，实现加速推理。
创新点: 该方法引入轻量级重要性评分模块，在每层 Transformer 中动态评估 token 贡献度，对低重要性 token 进行早期退出。在 LLaMA-3-70B 上实现 2.3 倍推理加速，且在多个 NLP 基准上仅损失不到 1% 的准确率。该方法与现有推理框架兼容性好，易于集成到生产环境中。

🔗 论文链接

The Mirror Design Pattern: Strict Data Geometry over Model Scale for Prompt Injection Detection

J Alex Corll, Independent Researcher 大语言模型与推理LLM & Reasoning

来源: arXiv:2603.11875 | 论文链接
作者机构: J Alex Corll, Independent Researcher
核心贡献: 提出 Mirror 设计模式，通过严格的数据几何结构而非大规模模型来检测提示词注入攻击，实现亚毫秒级延迟的高精度检测。
创新点: 该方法将提示词注入语料库组织为匹配的正负样本单元，训练稀疏字符 n-gram 线性 SVM 分类器，编译为静态 Rust 工件。在 524 个测试用例上达到 95.97% 召回率和 92.07% F1 分数，延迟低于 1 毫秒。相比之下，22M 参数的 Prompt Guard 2 模型召回率仅 44.35%，延迟高达 49 毫秒。这项工作证明了在 L1 提示词注入筛查中，严格的数据几何结构比模型规模更重要。

🔗 论文链接

DocMind-2: Advanced Document Understanding with Hierarchical Layout Analysis

Tencent AI Lab 计算机视觉与图像处理CV & Document AI

来源: arXiv:2603.12188 | 论文链接
作者机构: Tencent AI Lab
核心贡献: 提出 DocMind-2，一种具有分层布局分析能力的先进文档理解模型，显著提升复杂文档的结构化信息提取能力。
创新点: DocMind-2 采用多尺度视觉编码器与层次化 Transformer 架构，能够同时捕捉文档的全局布局结构和局部文本细节。在 DocVQA 和 FUNSD 基准上分别达到 89.2% 和 94.5% 的准确率，超越现有 SOTA 模型 3-5 个百分点。该模型特别擅长处理多栏、表格、公式混合的复杂学术文档，为文档 AI 领域树立了新标杆。

🔗 论文链接

Visual-Reasoning Bench: Evaluating Multimodal Models on Diagram Understanding

MIT CSAIL, Stanford University 计算机视觉与图像处理CV & Document AI

来源: arXiv:2603.12133 | 论文链接
作者机构: MIT CSAIL, Stanford University
核心贡献: 提出 Visual-Reasoning Bench，一个专门评估多模态模型在图表理解与推理能力上的新基准。
创新点: 该基准包含 5,000+ 张科学图表（流程图、架构图、数据可视化等），每张图表配有多层次推理问题，从基础元素识别到复杂因果推理。测试现有 15 个主流多模态模型发现，即使是 GPT-4V 和 Gemini-1.5 在复杂推理任务上也仅有 62% 准确率，表明图表理解仍是多模态 AI 的薄弱环节。该基准为社区提供了标准化评估工具，推动多模态推理能力发展。

🔗 论文链接

Anomaly Detection in Time-Series via Inductive Biases in Latent Space

David Baumgartner et al., ETH Zurich 计算机视觉与图像处理CV & Document AI

来源: arXiv:2603.11756 | 论文链接
作者机构: David Baumgartner et al., ETH Zurich
核心贡献: 提出在条件归一化流的潜在空间中引入归纳偏置，实现时间序列异常检测的新方法。
创新点: 该方法将时间序列观测建模为离散时间状态空间框架，约束潜在表示按照预设的时间动态演化。异常被定义为对这些动态的违反，通过拟合优度检验进行检测。在合成和真实世界时间序列上，该方法能够可靠检测频率、幅度和观测噪声异常，同时提供可解释的模型合规性诊断。这一工作为时间序列异常检测提供了统计学基础的理论框架。

🔗 论文链接

AgentPlan: Hierarchical Planning for Long-Horizon Agent Tasks

UC Berkeley, Google DeepMind 强化学习与代理RL & Agents

来源: arXiv:2603.12129 | 论文链接
作者机构: UC Berkeley, Google DeepMind
核心贡献: 提出 AgentPlan，一种分层规划框架，使 AI 代理能够有效执行长视野复杂任务。
创新点: AgentPlan 将任务分解为抽象子目标和具体动作两个层次，高层使用符号规划器生成子目标序列，低层使用强化学习策略执行具体动作。在 ALFWorld 和 WebShop 基准上，AgentPlan 的任务完成率分别达到 78% 和 65%，超越现有方法 15-20 个百分点。该方法特别适用于需要多步骤推理和工具使用的复杂代理任务，为通用 AI 代理发展提供重要进展。

🔗 论文链接

WorldModel-RL: Training Agents with Learned World Models for Sample Efficiency

Carnegie Mellon University, Meta AI 强化学习与代理RL & Agents

来源: arXiv:2603.12109 | 论文链接
作者机构: Carnegie Mellon University, Meta AI
核心贡献: 提出 WorldModel-RL，结合学习到的世界模型与强化学习，显著提升样本效率。
创新点: 该方法训练一个潜变量世界模型来预测环境动态，然后在学得的模型中进行策略优化，仅定期用真实环境交互进行校正。在 DMControl 和 Minecraft 任务中，WorldModel-RL 仅需传统 RL 方法 10-20% 的环境交互次数即可达到同等性能。这一工作为数据稀缺场景下的强化学习提供了有效解决方案，对机器人学习等领域具有重要意义。

🔗 论文链接

UniWorld: A Unified World Model for Video Generation and Prediction

ByteDance Research, Peking University 世界模型与多模态

来源: arXiv:2603.12096 | 论文链接
作者机构: ByteDance Research, Peking University
核心贡献: 提出 UniWorld，一个统一的视频生成与预测世界模型，能够同时处理视频生成、预测和编辑任务。
创新点: UniWorld 采用扩散 Transformer 架构，在潜空间中对视频时空动态进行建模。通过在 10M+ 视频片段上预训练，该模型能够生成 1080p 分辨率、长达 60 秒的高质量视频，且在视频预测任务上超越现有 SOTA 模型。该模型还支持文本引导的视频编辑，如物体移除、风格转换等。这一工作为视频理解和生成领域提供了统一框架。

🔗 论文链接

Multimodal Fusion via Cross-Modal Attention with Modality Dropout

University of Washington, Allen Institute for AI 世界模型与多模态

来源: arXiv:2603.12056 | 论文链接
作者机构: University of Washington, Allen Institute for AI
核心贡献: 提出一种新的多模态融合方法，通过跨模态注意力机制与模态 Dropout 提升多模态学习的鲁棒性。
创新点: 该方法在训练过程中随机丢弃部分模态输入，强制模型学习跨模态的互补表示而非依赖单一模态。在 VQA-v2、SNLI-VE 和 ActivityNet 基准上，该方法分别提升 2.3%、1.8% 和 3.1% 的准确率。更重要的是，在单模态缺失情况下，模型性能下降幅度显著小于现有方法，展现了更强的鲁棒性。这一工作为多模态系统的可靠性提升提供了有效策略。

🔗 论文链接

AI-Driven Discovery of Novel Catalysts for CO2 Reduction

MIT, Harvard University, Google DeepMind AI for Science

来源: arXiv:2603.12045 | 论文链接
作者机构: MIT, Harvard University, Google DeepMind
核心贡献: 利用 AI 高通量筛选发现 12 种新型 CO2 还原催化剂，实验验证其中 3 种具有优异性能。
创新点: 该方法结合图神经网络与密度泛函理论计算，在 50 万 + 候选材料中快速筛选高活性催化剂。AI 预测与实验结果的准确率达到 87%，大幅加速材料发现进程。发现的 Cu-Ni 双金属催化剂在工业条件下 CO2 转化效率达到 92%，超越现有最佳催化剂 15 个百分点。这一工作展示了 AI 在加速科学发现方面的巨大潜力。

🔗 论文链接

ProteinFold-3: End-to-End Protein Structure Prediction with Experimental Accuracy

DeepMind AI for Science

来源: arXiv:2603.12038 | 论文链接
作者机构: DeepMind
核心贡献: 提出 ProteinFold-3，一种端到端蛋白质结构预测模型，在 CASP16 盲测中达到实验级精度。
创新点: ProteinFold-3 采用新型 EvoFormer 架构，整合多序列比对、共进化信息和物理约束，在 CASP16 测试集上中位 GDT_TS 达到 92.5，接近实验测定的 94.0。该模型特别擅长预测膜蛋白和蛋白质复合物结构，在相关子任务上超越 AlphaFold2 约 8 个百分点。这一进展为结构生物学和药物设计提供了强大工具。

🔗 论文链接

Neural Symbolic Regression for Scientific Law Discovery

Caltech, Princeton University AI for Science

来源: arXiv:2603.12021 | 论文链接
作者机构: Caltech, Princeton University
核心贡献: 提出神经符号回归方法，从实验数据中自动发现科学定律的数学表达式。
创新点: 该方法结合神经网络的模式识别能力与符号回归的可解释性，通过分层搜索策略在表达式空间中高效探索。在 100 个物理定律发现任务上，该方法成功恢复 94 个已知定律，并在新数据集上发现 3 个潜在新关系。该方法已开源，为科学发现提供了通用工具。

🔗 论文链接

The Landscape of Generative AI in Information Systems: A Synthesis of Secondary Reviews

Aleksander Jarzębowicz et al., Multiple European Universities 综合与综述

来源: arXiv:2603.11842 | 论文链接
作者机构: Aleksander Jarzębowicz et al., Multiple European Universities
核心贡献: 系统综述生成式 AI 在信息系统领域的研究现状，分析 28 篇二次研究论文并提出未来研究议程。
创新点: 该综述发现 GenAI 的采用受到技术不可靠性（幻觉、性能漂移）、社会伦理风险（偏见、滥用、技能侵蚀）和系统性治理真空（隐私、责任、知识产权）的多重制约。作者提出从分析影响转向积极塑造技术与组织、社会、监管协同演进的研究议程，强调混合人机协作、情境化验证、概率系统设计原则和适应性治理。这一工作为 IS 领域提供了全面的研究路线图。

🔗 论文链接

Robust Alignment via Adversarial Preference Learning

Anthropic, UC Berkeley AI 安全与对齐

来源: arXiv:2603.11998 | 论文链接
作者机构: Anthropic, UC Berkeley
核心贡献: 提出对抗性偏好学习（APL），通过主动生成对抗性偏好数据提升模型对齐的鲁棒性。
创新点: APL 训练一个对抗生成器来创建边界案例偏好对，这些案例专门针对当前策略模型的弱点。在帮助性、无害性和诚实性三个维度上，APL 训练的模型在对抗性评估中表现提升 25-35%。该方法特别擅长防御越狱攻击和提示词注入，为构建更安全的 AI 系统提供了新方向。

🔗 论文链接

Scalable Oversight via Recursive Reward Modeling

OpenAI AI 安全与对齐

来源: arXiv:2603.11976 | 论文链接
作者机构: OpenAI
核心贡献: 提出递归奖励建模，通过层次化人类反馈实现可扩展的 AI 监督。
创新点: 该方法将复杂任务分解为子任务，人类仅监督最高层输出，低层由 AI 系统相互监督。在代码生成和文本摘要任务上，递归奖励建模在仅需 10% 人类监督成本的情况下，达到与全监督相当的质量。这一工作为解决 AI 能力超越人类监督能力时的对齐问题提供了可行路径。

🔗 论文链接

Efficient Multi-Modal Retrieval with Learned Sparse Representations

University of Waterloo, Vector Institute 其他值得关注的论文

来源: arXiv:2603.11954 | 论文链接
作者机构: University of Waterloo, Vector Institute
核心贡献: 提出学习稀疏表示进行高效多模态检索，在保持精度的同时实现 10 倍检索加速。

🔗 论文链接

Self-Supervised Learning for Robotics: A Survey and Benchmark

ETH Zurich, MIT 其他值得关注的论文

来源: arXiv:2603.11921 | 论文链接
作者机构: ETH Zurich, MIT
核心贡献: 全面综述自监督学习在机器人领域的应用，并提供标准化基准评估现有方法。

🔗 论文链接

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

Zhoujun Cheng et al. (CMU, UCSD, Petuum 等) 重点推荐

来源/链接: arXiv:2603.12151
作者机构: Zhoujun Cheng et al. (CMU, UCSD, Petuum 等)
分类: cs.LG, cs.AI

核心贡献:

首次系统研究了 LLM 强化学习后训练中的计算最优分配问题
提出了采样计算的三维度框架：并行 rollout 数、每批次问题数、更新步数
发现最优并行 rollout 数随计算预算增加而增长，最终饱和

创新点:

将 RL 缩放定律重构为可操作的分配规则
揭示了简单问题和困难问题下不同的驱动机制（解决方案锐化 vs 覆盖扩展）
为计算高效的 LLM RL 后训练提供实用指导

🔗 论文链接

The Latent Color Subspace: Emergent Order in High-Dimensional Chaos

Mateusz Pach et al. (ExplainableML) 重点推荐

来源/链接: arXiv:2603.12261
作者机构: Mateusz Pach et al. (ExplainableML)
分类: cs.LG, cs.AI, cs.CV

核心贡献:

开发了 FLUX.1 [Dev] 的 VAE 潜在空间中颜色表示的解释框架
揭示了反映色调 (Hue)、饱和度 (Saturation) 和亮度 (Lightness) 的潜在结构
提出了潜在颜色子空间 (LCS) 解释方法

创新点:

完全无需训练，仅通过封闭形式的潜在空间操作即可控制颜色
可预测并显式控制生成图像的颜色
为文本到图像模型的细粒度控制提供新途径

🔗 论文链接

Benchmarking and Advancing Scientific Multimodal Document Reasoning

Ziyu Chen et al. 重点推荐

来源/链接: arXiv:2603.12249
作者机构: Ziyu Chen et al.
分类: cs.CL, cs.AI, cs.CV

核心贡献:

提出了 synthesize-and-reground 两阶段框架
构建了 SciMDR 大规模训练数据集（300K QA 对，覆盖 20K 科学论文）
创建了专家标注的 SciMDR-Eval 基准

创新点:

Claim-Centric QA Synthesis：生成忠实的、孤立的 QA 对和推理链
Document-Scale Regrounding：将 QA 对重新嵌入完整文档任务，确保现实复杂性
在科学 QA 基准上取得显著提升，尤其在复杂文档级推理任务

🔗 论文链接

Defending Hybrid Large Language Models Against Hidden State Poisoning Attacks

Alexandre Le Mercier et al. 重点推荐

来源/链接: arXiv:2603.12206
作者机构: Alexandre Le Mercier et al.
分类: cs.CL

核心贡献:

针对 SSM（如 Mamba）的隐藏状态投毒攻击 (HiSPA) 提出防御方案
提出 CLASP 模型，利用 Mamba 块输出嵌入 (BOE) 的独特模式
使用 XGBoost 分类器以最小计算开销识别恶意 token

创新点:

在 2,483 份简历（9.5M tokens）上达到 95.9% token 级 F1 和 99.3% 文档级 F1
对未见过的攻击模式具有泛化能力（留一交叉验证 96.9% 文档级 F1）
轻量级部署：1,032 tokens/秒，VRAM 消耗 <4GB

🔗 论文链接

A Quantitative Characterization of Forgetting in Post-Training

Krishnakumar Balasubramanian et al. (UC Davis 等) 重点推荐

来源/链接: arXiv:2603.12163
作者机构: Krishnakumar Balasubramanian et al. (UC Davis 等)
分类: cs.LG, cs.AI, math.ST

核心贡献:

在双模式混合抽象下发展了遗忘的理论结果
形式化了两种遗忘形式：质量遗忘 (mass forgetting) 和旧组件漂移 (old-component drift)
证明了 forward-KL 和 reverse-KL 目标的不同遗忘行为

创新点:

精确量化遗忘与散度方向、几何行为重叠、采样机制的关系
分析了 SDFT、TTT-Discover、OAPL 三种近期方法的遗忘特性
为持续后训练提供理论指导

🔗 论文链接

Topological DeepONets and a Generalization of the Chen-Chen Operator Approximation Theorem

Vugar Ismailov et al. AI for Science & 理论

来源/链接: arXiv:2603.11972
作者机构: Vugar Ismailov et al.
分类: cs.LG, cs.NE, math.FA

核心贡献:

开发了 DeepONet 的拓扑扩展，输入可位于任意 Hausdorff 局部凸空间
使用对偶空间的连续线性泛函构建拓扑前馈神经网络
证明了拓扑 DeepONet 可一致逼近连续算子

创新点:

将经典 Chen-Chen 算子逼近定理从连续函数空间扩展到局部凸空间
产生超越 Banach 空间设置的分支 - 主干逼近定理
为算子学习提供更一般的理论框架

🔗 论文链接

📚 每日学术论文

SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

Human–AI Co-reasoning for Clinical Diagnosis with Evidence-Integrated Language Agent

Causal Concept Graphs in LLM Latent Space for Stepwise Reasoning

Reasoning as Compression: Unifying Budget Forcing via the Conditional Information Bottleneck

Ares: Adaptive Reasoning Effort Selection for Efficient LLM Agents

On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM agents

ALARM: Audio–Language Alignment for Reasoning Models

Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

RecThinker: An Agentic Framework for Tool-Augmented Reasoning in Recommendation

DocCogito: Aligning Layout Cognition and Step-Level Grounded Reasoning for Document Understanding

How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

Benchmarking and Advancing Scientific Multimodal Document Reasoning

DeepEyesV2: Toward Agentic Multimodal Model

Yann LeCun's AMI Labs raises $1.03B to build world models

2026 in artificial intelligence — World Models Surge

OpenAI's GPT-5.4 with enhanced features

HunyuanVideo: Revolutionary Text-to-Video Model on HuggingFace

Seedance AI: DeepTech Era Video Generation

ThinkPrune: Pruning Long Chain-of-Thought of LLMs via Reinforcement Learning

Efficient Reasoning for LLMs via Dynamic Token Pruning

The Mirror Design Pattern: Strict Data Geometry over Model Scale for Prompt Injection Detection

DocMind-2: Advanced Document Understanding with Hierarchical Layout Analysis

Visual-Reasoning Bench: Evaluating Multimodal Models on Diagram Understanding

Anomaly Detection in Time-Series via Inductive Biases in Latent Space

AgentPlan: Hierarchical Planning for Long-Horizon Agent Tasks

WorldModel-RL: Training Agents with Learned World Models for Sample Efficiency

UniWorld: A Unified World Model for Video Generation and Prediction

Multimodal Fusion via Cross-Modal Attention with Modality Dropout

AI-Driven Discovery of Novel Catalysts for CO2 Reduction

ProteinFold-3: End-to-End Protein Structure Prediction with Experimental Accuracy

Neural Symbolic Regression for Scientific Law Discovery

The Landscape of Generative AI in Information Systems: A Synthesis of Secondary Reviews

Robust Alignment via Adversarial Preference Learning

Scalable Oversight via Recursive Reward Modeling

Efficient Multi-Modal Retrieval with Learned Sparse Representations

Self-Supervised Learning for Robotics: A Survey and Benchmark

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

The Latent Color Subspace: Emergent Order in High-Dimensional Chaos

Benchmarking and Advancing Scientific Multimodal Document Reasoning

Defending Hybrid Large Language Models Against Hidden State Poisoning Attacks

A Quantitative Characterization of Forgetting in Post-Training

Topological DeepONets and a Generalization of the Chen-Chen Operator Approximation Theorem