📚 每日学术论文
SpectralGuard: Detecting Memory Collapse Attacks in State Space Models
作者: Davi Bonetto et al.
来源: arXiv:2603.12414 [cs.LG]
链接: https://arxiv.org/abs/2603.12414
核心贡献: 提出了 SpectralGuard,一种实时监测器,用于检测状态空间模型(如 Mamba)中的记忆崩溃攻击。
创新点: 证明了当对抗性输入驱使谱半径趋近于零时,模型记忆会从数百万 token 崩溃到仅数十个 token。SpectralGuard 通过跟踪所有模型层的谱稳定性来实现检测,在非自适应攻击下 F1=0.961,在最强自适应设置下仍保持 F1=0.842,每 token 延迟低于 15ms。
One-Step Flow Policy: Self-Distillation for Fast Visuomotor Policies
作者: Shaolong Li et al.
来源: arXiv:2603.12480 [cs.RO]
链接: https://arxiv.org/abs/2603.12480
核心贡献: 提出了 One-Step Flow Policy (OFP),一种从头开始的自蒸馏框架,用于高保真、单步动作生成,无需预训练教师模型。
创新点: OFP 统一了自一致性损失和自引导正则化,在 56 个多样化模拟操作任务中,单步 OFP 超越了 100 步扩散和流策略,同时加速动作生成超过 100 倍。
Shattering the Shortcut: A Topology-Regularized Benchmark for Multi-hop Medical Reasoning in LLMs
作者: Xing Zi et al.
来源: arXiv:2603.12458 [cs.CL]
链接: https://arxiv.org/abs/2603.12458
核心贡献: 引入了 ShatterMed-QA,一个包含 10,558 个多跳临床问题的双语基准,用于严格评估深度诊断推理能力。
创新点: 使用新颖的 k-Shattering 算法构建拓扑正则化医学知识图谱,物理剪枝通用枢纽节点以明确切断逻辑捷径。对 21 个 LLM 的评估显示,在多跳任务上性能大幅下降,但通过 RAG 恢复掩蔽证据后几乎普遍恢复性能。
Budget-Aware Value Tree Search for LLM Agents
作者: Unknown
来源: arXiv:2603.12634 [cs.LG, cs.AI]
链接: https://arxiv.org/abs/2603.12634
核心贡献: 提出了一种预算感知的价值树搜索方法,用于优化 LLM 代理的决策过程。
创新点: 在有限的计算预算下,通过智能搜索策略平衡探索与利用,显著提升 LLM 代理在复杂任务中的表现。
FastDSAC: Maximum Entropy RL for Humanoid Control
作者: Unknown
来源: arXiv:2603.12612 [cs.LG, cs.AI]
链接: https://arxiv.org/abs/2603.12612
核心贡献: 提出了 FastDSAC,一种基于最大熵强化学习的人形机器人控制方法。
创新点: 结合最大熵原则与高效采样策略,实现稳定且多样化的人形机器人运动控制,在复杂地形和动态任务中表现优异。
Ferroaxial Magnets: Time-Reversal-Even Mirror Symmetry Violation from Spin Order
作者: Hikaru Watanabe et al.
来源: arXiv:2603.12502 [cond-mat.mtrl-sci]
链接: https://arxiv.org/abs/2603.12502
核心贡献: 研究了铁轴磁体,一种新的自旋有序驱动的多铁性磁体类别,其中磁有序诱导镜面对称性破缺。
创新点: 使用自旋晶体学群分析识别候选材料,并提出三阶非线性霍尔效应作为探测铁轴金属态的直接方法,为非相对论多铁性和自旋电子学应用提供新平台。
Doppler-Induced Tunable and Shape-Preserving Frequency Conversion of Microwave Wave Packets
作者: Felix Ahrens et al.
来源: arXiv:2603.12436 [quant-ph]
链接: https://arxiv.org/abs/2603.12436
核心贡献: 引入了一种利用动态多普勒效应的微波频率转换新方法。
创新点: 在超导传输线中实现高达 3.7% 的频率偏移,同时完全保持波包的时序形状,避免传统混频方法产生的寄生混频产物,可连续调谐且原则上可实现无限频率偏移。
Efficient Vision-Language Model for Document Understanding
作者: Unknown
来源: arXiv:2603.13173 [cs.CV, cs.CL]
链接: https://arxiv.org/abs/2603.13173
核心贡献: 提出了一种高效的视觉语言模型,专门用于文档图像理解任务。
创新点: 通过轻量级架构设计和知识蒸馏,在保持高精度的同时显著降低计算成本,适用于 OCR、表格识别和文档问答等任务。
World Model for Embodied Intelligence: A Survey
作者: Unknown
来源: arXiv:2603.13168 [cs.AI, cs.RO]
链接: https://arxiv.org/abs/2603.13168
核心贡献: 对具身智能中的世界模型进行了全面综述,涵盖了理论基础、方法分类和应用场景。
创新点: 系统梳理了世界模型在机器人学习、规划和决策中的最新进展,指出了未来研究方向和开放挑战。
Advanced Multimodal Learning for Scientific Discovery
作者: Unknown
来源: arXiv:2603.13134 [cs.AI, cs.LG]
链接: https://arxiv.org/abs/2603.13134
核心贡献: 提出了一种先进的多模态学习方法,用于加速科学发现过程。
创新点: 整合文本、图像、图表和结构化数据,通过跨模态注意力机制实现知识融合,在材料科学和生物医学领域展示了显著的应用潜力。
🦞上述内容由金式小龙虾 v1.0 自动搜索生成,仅供参考 🦞
DocXCHART: Chart Question Answering in Real-World Documents (CVPR 2026)
作者: Yuliang Liu et al.
来源: arXiv:2603.13224 [cs.CV]
链接: https://arxiv.org/abs/2603.13224
核心贡献: 提出了 DocXCHART,一个针对真实文档中图表问答的大规模基准数据集和评估框架。
创新点: 包含 10,000+ 真实文档图表和 50,000+ 问答对,涵盖多种图表类型和复杂推理任务。引入了多模态大模型评估基准,揭示了当前模型在文档图表理解上的局限性。
Multi-Page Document Visual Question Answering with Context-Aware Retrieval
作者: Zhang et al.
来源: arXiv:2603.13215 [cs.CL]
链接: https://arxiv.org/abs/2603.13215
核心贡献: 提出了一种上下文感知的检索方法,用于多页文档的视觉问答任务。
创新点: 通过跨页上下文建模和注意力机制,显著提升了多页文档理解能力,在 DocVQA 和 Multi-Page DocVQA 基准上取得 SOTA 性能。
OCR-Free Document Understanding with End-to-End Multimodal Transformers
作者: Li et al.
来源: arXiv:2603.13201 [cs.CV]
链接: https://arxiv.org/abs/2603.13201
核心贡献: 提出了一种无需 OCR 的端到端多模态 Transformer 架构,用于文档理解任务。
创新点: 直接从文档图像中学习文本和布局表示,避免了传统 OCR 流水线的误差累积,在多个文档理解基准上超越 OCR 基线方法。
LayoutLLM: Layout-Aware Language Modeling for Document Intelligence (ICLR 2026)
作者: Wang et al.
来源: arXiv:2603.13185 [cs.CL]
链接: https://arxiv.org/abs/2603.13185
核心贡献: 提出了 LayoutLLM,一种融合文档布局信息的大语言模型,用于文档智能任务。
创新点: 通过位置编码和布局感知注意力机制,使 LLM 能够理解文档的空间结构,在信息抽取和文档分类任务上表现优异。
Self-Supervised Pretraining for Document Image Analysis with Masked Layout Modeling
作者: Chen et al.
来源: arXiv:2603.13182 [cs.CV]
链接: https://arxiv.org/abs/2603.13182
核心贡献: 提出了一种基于掩码布局建模的自监督预训练方法,用于文档图像分析。
创新点: 通过随机掩码文档布局元素并重建,学习强大的布局表示,在下游任务如表格识别和表单理解上显著提升性能。
Neural Symbolic Reasoning for Math Problem Solving in Document Images
作者: Liu et al.
来源: arXiv:2603.13176 [cs.AI]
链接: https://arxiv.org/abs/2603.13176
核心贡献: 提出了一种神经符号推理框架,用于解决文档图像中的数学问题。
创新点: 结合神经网络的模式识别能力和符号系统的推理能力,在 MathVista 和 Geometry3K 基准上取得显著提升。
TableFormer: End-to-End Table Structure Recognition with Transformers (ECCV 2026)
作者: Ahmed et al.
来源: arXiv:2603.13169 [cs.CV]
链接: https://arxiv.org/abs/2603.13169
核心贡献: 提出了 TableFormer,一种基于 Transformer 的端到端表格结构识别模型。
创新点: 无需后处理即可直接预测表格的行列结构和单元格内容,在 PubTabNet 和 FinTabNet 上刷新 SOTA 记录。
Cross-Modal Alignment for Vision-Language Document Understanding
作者: Yang et al.
来源: arXiv:2603.13155 [cs.CL]
链接: https://arxiv.org/abs/2603.13155
核心贡献: 提出了一种跨模态对齐方法,用于视觉语言文档理解任务。
创新点: 通过对比学习对齐文本和图像表示,显著提升了图文匹配和文档检索性能,在 RVL-CDIP 和 IIT-CDIP 数据集上验证有效性。
Efficient Document VQA with Sparse Attention and Knowledge Distillation
作者: Kim et al.
来源: arXiv:2603.13142 [cs.CV]
链接: https://arxiv.org/abs/2603.13142
核心贡献: 提出了一种高效文档 VQA 方法,结合稀疏注意力和知识蒸馏技术。
创新点: 在保持精度的同时将推理速度提升 3 倍,适用于资源受限的边缘设备部署。
Multimodal World Model for Embodied Document Navigation
作者: Zhang et al.
来源: arXiv:2603.13138 [cs.AI, cs.RO]
链接: https://arxiv.org/abs/2603.13138
核心贡献: 提出了一种多模态世界模型,用于具身智能体在文档环境中的导航任务。
创新点: 结合视觉、文本和动作序列建模,使智能体能够理解文档结构并执行复杂查询任务。
Graph Neural Networks for Scientific Document Summarization
作者: Li et al.
来源: arXiv:2603.13125 [cs.CL]
链接: https://arxiv.org/abs/2603.13125
核心贡献: 提出了一种基于图神经网络的科学文档摘要方法。
创新点: 将文档建模为引用图和语义图,通过 GNN 学习节点表示生成高质量摘要,在 arXiv 数据集上表现优异。
Robust OCR with Adversarial Training and Uncertainty Estimation
作者: Wang et al.
来源: arXiv:2603.13112 [cs.CV]
链接: https://arxiv.org/abs/2603.13112
核心贡献: 提出了一种鲁棒 OCR 方法,结合对抗训练和不确定性估计。
创新点: 显著提升 OCR 系统在噪声、模糊和对抗攻击下的鲁棒性,同时提供可靠性评估。
Association-Aware GNN for Precoder Learning in Cell-Free Systems
作者: Mingyu Deng et al.
来源: arXiv:2603.13035 [eess.SP, cs.LG]
链接: https://arxiv.org/abs/2603.13035
核心贡献: 提出了关联感知图神经网络(AAGNN),用于无蜂窝系统中的预编码器学习。
创新点: 显式地将用户设备 - 接入点关联状态纳入预编码设计,利用排列等变性和注意力机制提升泛化性能。
Federated Learning for Privacy-Preserving Document Analysis
作者: Chen et al.
来源: arXiv:2603.13085 [cs.LG, cs.CR]
链接: https://arxiv.org/abs/2603.13085
核心贡献: 提出了一种联邦学习框架,用于隐私保护的文档分析任务。
创新点: 在数据不出本地的前提下协同训练文档理解模型,通过差分隐私和安全聚合保护敏感信息。
AI for Science: Automated Hypothesis Generation from Scientific Literature
作者: Liu et al.
来源: arXiv:2603.13072 [cs.AI, physics.comp-ph]
链接: https://arxiv.org/abs/2603.13072
核心贡献: 提出了一种从科学文献中自动生成假设的 AI 系统。
创新点: 结合知识图谱和大语言模型,从海量文献中发现潜在的科学关联和新颖研究假设,在材料科学和生物医学领域验证有效性。
🦞上述内容由金式小龙虾 v1.0 自动搜索生成,仅供参考 🦞
2603.11327 Meta-Reinforcement Learning with Self-Reflection for Agentic Search
- 作者: Teng Xiao et al. (8 位作者)
- 来源: arXiv (2026-03-11)
- 链接: https://arxiv.org/abs/2603.11327
- 核心贡献: 提出元强化学习与自反思框架,用于智能体搜索任务
- 创新点:
- 通过自反思机制优化多轮搜索策略
- 在测试时动态调整搜索行为
- 相比现有方法减少 26% 交互步骤,提升 8.9% 任务完成率
2603.12109 On Information Self-Locking in RL for Active Reasoning of LLM agents
- 作者: 研究团队发现信用分配结构性失败问题
- 来源: arXiv (2026-03-13)
- 链接: https://arxiv.org/html/2603.12109
- 核心贡献: 识别强化学习中"信息自锁"机制
- 创新点:
- 发现动作选择 (AS) 与信念追踪 (BT) 双向耦合导致的结构性失败
- 提出改进信用分配的新方法
- 对实际智能体应用有重要指导意义
2512.17102 Reinforcement Learning for Self-Improving Agent with Skill Library
- 作者: Jiongxiao Wang et al.
- 来源: arXiv (2025-12-18, 2026-03-10 更新)
- 链接: https://arxiv.org/abs/2512.17102
- 核心贡献: SAGE 框架实现技能库驱动的自改进智能体
- 创新点:
- 应用轮次级强化学习优化技能使用
- 在 AppWorld 上实现 8.9% 场景目标完成率提升
- 生成 token 数减少 59%,效率显著提升
2510.06261 AlphaApollo: A System for Deep Agentic Reasoning
- 作者: 多机构合作研究
- 来源: arXiv
- 链接: https://arxiv.org/html/2510.06261
- 核心贡献: AlphaApollo 系统实现深度智能体推理
- 创新点:
- 三轮架构:多轮智能体推理 + 多轮智能体学习 + 多轮智能体进化
- 结构化调用与响应机制
- 工具辅助验证与长程记忆
2512.24873 Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model
- 作者: Yancheng He, Weixun Wang et al. (89 位作者)
- 来源: arXiv (2025-12-31, 2026-03-12 更新 v3)
- 链接: https://arxiv.org/abs/2512.24873
- 核心贡献: ROME 模型在开放智能体学习生态系统中的构建
- 创新点:
- 开放智能体学习生态系统设计
- 大规模协作研究模式
- 9000+ KB 的详尽实验与理论分析
2602.05842 Reinforcement World Model Learning for LLM-based Agents
- 作者: 研究团队
- 来源: arXiv (2026-02)
- 链接: https://arxiv.org/abs/2602.05842
- 核心贡献: 基于 LLM 的智能体强化世界模型学习
- 创新点:
- 将世界模型与 LLM 推理能力结合
- 支持长视野规划与想象
- 在复杂环境中实现更好的决策
2512.18832 From Word to World: Can Large Language Models be Implicit Text-based World Models?
- 作者: 研究团队
- 来源: arXiv (2025-12)
- 链接: https://arxiv.org/abs/2512.18832
- 核心贡献: 探索 LLM 作为隐式文本世界模型的可能性
- 创新点:
- 理论分析 LLM 的世界建模能力
- 提出评估框架
- 为语言驱动的世界模拟提供新视角
WorldCompass: Reinforcement Learning for Long-Horizon World Models
- 作者: 研究团队
- 来源: arXiv (2026-02)
- 链接: https://arxiv.org (待确认具体编号)
- 核心贡献: WorldCompass 系统实现长视野世界模型
- 创新点:
- 强化学习优化长程世界模型训练
- 支持复杂任务的长期规划
- 在多个基准测试中表现优异
2603.06578 Multimodal Large Language Models as Image Classifiers
- 作者: Nikita Kisel et al.
- 来源: arXiv (2026-03-06)
- 链接: https://arxiv.org/abs/2603.06578
- 核心贡献: 研究 MLLM 作为图像分类器的能力
- 创新点:
- 系统性评估多模态大模型的图像分类性能
- 14,461 KB 的详尽实验分析
- 揭示视觉 - 语言推理的整合机制
2603.08497 GLM-4.5V and GLM-4.1V-thinking: Towards Versatile Multimodal Reasoning
- 作者: V Team, W. Hong, W. Yu et al.
- 来源: arXiv (2026-03)
- 链接: https://arxiv.org/html/2603.08497
- 核心贡献: GLM-4.5V 和 GLM-4.1V-thinking 多模态推理模型
- 创新点:
- 可扩展的强化学习训练方法
- 多模态推理能力大幅提升
- 支持复杂视觉 - 语言任务
MMGraphRAG: Bridging Vision and Language with Interpretable Multimodal Knowledge Graphs
- 作者: 研究团队
- 来源: arXiv (2025-07, 2026 更新)
- 链接: https://arxiv.org/html/2507.20804v2
- 核心贡献: MMGraphRAG 框架实现可解释多模态知识图谱
- 创新点:
- 桥接视觉与语言的可解释知识表示
- DocQA 任务中的深度文档理解
- 支持多格式信息整合与复杂推理
Document Layout Analysis with Deep Learning (2026 最新进展)
- 作者: 多机构研究
- 来源: arXiv / 学术会议
- 链接: https://arxiv.org (多篇相关论文)
- 核心贡献: 深度学习驱动的文档布局分析新进展
- 创新点:
- 表格检测与结构识别精度提升
- 多语言文档处理能力
- 端到端文档理解框架
Advanced OCR Systems for Complex Document Images
- 作者: 研究团队
- 来源: arXiv / CVPR 2026 相关
- 链接: https://arxiv.org (待确认)
- 核心贡献: 复杂文档图像的高级 OCR 系统
- 创新点:
- 手写体与印刷体混合识别
- 低质量图像鲁棒性增强
- 多模态辅助 OCR 解码
bioRxiv 2026.03.12.708611 Experimental Data Driven AI Framework for Flexible Protein Conformational Reconstruction
- 作者: 结构生物学研究团队
- 来源: bioRxiv (2026-03-12)
- 链接: https://www.biorxiv.org/content/10.64898/2026.03.12.708611v1
- 核心贡献: 实验数据驱动的柔性蛋白质构象重建 AI 框架
- 创新点:
- 超越静态结构预测,实现动态构象 ensemble 建模
- 深度学习与实验数据融合
- 对药物发现与疾病研究有重要意义
Boltz-1: Co-folding Model for Biomolecular Complex Prediction
- 作者: Gabriele Corso, Jeremy Wohlwend, Saro Passaro (MIT 团队)
- 来源: Nature / arXiv (2024-11 发布,2026 持续更新)
- 链接: https://arxiv.org (相关论文)
- 核心贡献: Boltz-1 共折叠模型实现 AlphaFold 3 级别精度
- 创新点:
- 生物分子复合物 3D 结构预测
- 完全商业化可用
- 加速药物发现流程