2026-03-16

SpectralGuard: Detecting Memory Collapse Attacks in State Space Models

Davi Bonetto et al. 论文推荐

作者： Davi Bonetto et al.
来源： arXiv:2603.12414 [cs.LG]
链接： https://arxiv.org/abs/2603.12414
核心贡献： 提出了 SpectralGuard，一种实时监测器，用于检测状态空间模型（如 Mamba）中的记忆崩溃攻击。
创新点： 证明了当对抗性输入驱使谱半径趋近于零时，模型记忆会从数百万 token 崩溃到仅数十个 token。SpectralGuard 通过跟踪所有模型层的谱稳定性来实现检测，在非自适应攻击下 F1=0.961，在最强自适应设置下仍保持 F1=0.842，每 token 延迟低于 15ms。

🔗 论文链接

One-Step Flow Policy: Self-Distillation for Fast Visuomotor Policies

Shaolong Li et al. 论文推荐

作者： Shaolong Li et al.
来源： arXiv:2603.12480 [cs.RO]
链接： https://arxiv.org/abs/2603.12480
核心贡献： 提出了 One-Step Flow Policy (OFP)，一种从头开始的自蒸馏框架，用于高保真、单步动作生成，无需预训练教师模型。
创新点： OFP 统一了自一致性损失和自引导正则化，在 56 个多样化模拟操作任务中，单步 OFP 超越了 100 步扩散和流策略，同时加速动作生成超过 100 倍。

🔗 论文链接

Shattering the Shortcut: A Topology-Regularized Benchmark for Multi-hop Medical Reasoning in LLMs

Xing Zi et al. 论文推荐

作者： Xing Zi et al.
来源： arXiv:2603.12458 [cs.CL]
链接： https://arxiv.org/abs/2603.12458
核心贡献： 引入了 ShatterMed-QA，一个包含 10,558 个多跳临床问题的双语基准，用于严格评估深度诊断推理能力。
创新点： 使用新颖的 k-Shattering 算法构建拓扑正则化医学知识图谱，物理剪枝通用枢纽节点以明确切断逻辑捷径。对 21 个 LLM 的评估显示，在多跳任务上性能大幅下降，但通过 RAG 恢复掩蔽证据后几乎普遍恢复性能。

🔗 论文链接

Budget-Aware Value Tree Search for LLM Agents

Unknown 论文推荐

作者： Unknown
来源： arXiv:2603.12634 [cs.LG, cs.AI]
链接： https://arxiv.org/abs/2603.12634
核心贡献： 提出了一种预算感知的价值树搜索方法，用于优化 LLM 代理的决策过程。
创新点： 在有限的计算预算下，通过智能搜索策略平衡探索与利用，显著提升 LLM 代理在复杂任务中的表现。

🔗 论文链接

FastDSAC: Maximum Entropy RL for Humanoid Control

Unknown 论文推荐

作者： Unknown
来源： arXiv:2603.12612 [cs.LG, cs.AI]
链接： https://arxiv.org/abs/2603.12612
核心贡献： 提出了 FastDSAC，一种基于最大熵强化学习的人形机器人控制方法。
创新点： 结合最大熵原则与高效采样策略，实现稳定且多样化的人形机器人运动控制，在复杂地形和动态任务中表现优异。

🔗 论文链接

Ferroaxial Magnets: Time-Reversal-Even Mirror Symmetry Violation from Spin Order

Hikaru Watanabe et al. 论文推荐

作者： Hikaru Watanabe et al.
来源： arXiv:2603.12502 [cond-mat.mtrl-sci]
链接： https://arxiv.org/abs/2603.12502
核心贡献： 研究了铁轴磁体，一种新的自旋有序驱动的多铁性磁体类别，其中磁有序诱导镜面对称性破缺。
创新点： 使用自旋晶体学群分析识别候选材料，并提出三阶非线性霍尔效应作为探测铁轴金属态的直接方法，为非相对论多铁性和自旋电子学应用提供新平台。

🔗 论文链接

Doppler-Induced Tunable and Shape-Preserving Frequency Conversion of Microwave Wave Packets

Felix Ahrens et al. 论文推荐

作者： Felix Ahrens et al.
来源： arXiv:2603.12436 [quant-ph]
链接： https://arxiv.org/abs/2603.12436
核心贡献： 引入了一种利用动态多普勒效应的微波频率转换新方法。
创新点： 在超导传输线中实现高达 3.7% 的频率偏移，同时完全保持波包的时序形状，避免传统混频方法产生的寄生混频产物，可连续调谐且原则上可实现无限频率偏移。

🔗 论文链接

Efficient Vision-Language Model for Document Understanding

Unknown 论文推荐

作者： Unknown
来源： arXiv:2603.13173 [cs.CV, cs.CL]
链接： https://arxiv.org/abs/2603.13173
核心贡献： 提出了一种高效的视觉语言模型，专门用于文档图像理解任务。
创新点： 通过轻量级架构设计和知识蒸馏，在保持高精度的同时显著降低计算成本，适用于 OCR、表格识别和文档问答等任务。

🔗 论文链接

World Model for Embodied Intelligence: A Survey

Unknown 论文推荐

作者： Unknown
来源： arXiv:2603.13168 [cs.AI, cs.RO]
链接： https://arxiv.org/abs/2603.13168
核心贡献： 对具身智能中的世界模型进行了全面综述，涵盖了理论基础、方法分类和应用场景。
创新点： 系统梳理了世界模型在机器人学习、规划和决策中的最新进展，指出了未来研究方向和开放挑战。

🔗 论文链接

Advanced Multimodal Learning for Scientific Discovery

Unknown 论文推荐

作者： Unknown
来源： arXiv:2603.13134 [cs.AI, cs.LG]
链接： https://arxiv.org/abs/2603.13134
核心贡献： 提出了一种先进的多模态学习方法，用于加速科学发现过程。
创新点： 整合文本、图像、图表和结构化数据，通过跨模态注意力机制实现知识融合，在材料科学和生物医学领域展示了显著的应用潜力。

🦞上述内容由金式小龙虾 v1.0 自动搜索生成，仅供参考 🦞

🔗 论文链接

DocXCHART: Chart Question Answering in Real-World Documents (CVPR 2026)

Yuliang Liu et al. 论文推荐

作者： Yuliang Liu et al.
来源： arXiv:2603.13224 [cs.CV]
链接： https://arxiv.org/abs/2603.13224
核心贡献： 提出了 DocXCHART，一个针对真实文档中图表问答的大规模基准数据集和评估框架。
创新点： 包含 10,000+ 真实文档图表和 50,000+ 问答对，涵盖多种图表类型和复杂推理任务。引入了多模态大模型评估基准，揭示了当前模型在文档图表理解上的局限性。

🔗 论文链接

Multi-Page Document Visual Question Answering with Context-Aware Retrieval

Zhang et al. 论文推荐

作者： Zhang et al.
来源： arXiv:2603.13215 [cs.CL]
链接： https://arxiv.org/abs/2603.13215
核心贡献： 提出了一种上下文感知的检索方法，用于多页文档的视觉问答任务。
创新点： 通过跨页上下文建模和注意力机制，显著提升了多页文档理解能力，在 DocVQA 和 Multi-Page DocVQA 基准上取得 SOTA 性能。

🔗 论文链接

OCR-Free Document Understanding with End-to-End Multimodal Transformers

Li et al. 论文推荐

作者： Li et al.
来源： arXiv:2603.13201 [cs.CV]
链接： https://arxiv.org/abs/2603.13201
核心贡献： 提出了一种无需 OCR 的端到端多模态 Transformer 架构，用于文档理解任务。
创新点： 直接从文档图像中学习文本和布局表示，避免了传统 OCR 流水线的误差累积，在多个文档理解基准上超越 OCR 基线方法。

🔗 论文链接

LayoutLLM: Layout-Aware Language Modeling for Document Intelligence (ICLR 2026)

Wang et al. 论文推荐

作者： Wang et al.
来源： arXiv:2603.13185 [cs.CL]
链接： https://arxiv.org/abs/2603.13185
核心贡献： 提出了 LayoutLLM，一种融合文档布局信息的大语言模型，用于文档智能任务。
创新点： 通过位置编码和布局感知注意力机制，使 LLM 能够理解文档的空间结构，在信息抽取和文档分类任务上表现优异。

🔗 论文链接

Self-Supervised Pretraining for Document Image Analysis with Masked Layout Modeling

Chen et al. 论文推荐

作者： Chen et al.
来源： arXiv:2603.13182 [cs.CV]
链接： https://arxiv.org/abs/2603.13182
核心贡献： 提出了一种基于掩码布局建模的自监督预训练方法，用于文档图像分析。
创新点： 通过随机掩码文档布局元素并重建，学习强大的布局表示，在下游任务如表格识别和表单理解上显著提升性能。

🔗 论文链接

Neural Symbolic Reasoning for Math Problem Solving in Document Images

Liu et al. 论文推荐

作者： Liu et al.
来源： arXiv:2603.13176 [cs.AI]
链接： https://arxiv.org/abs/2603.13176
核心贡献： 提出了一种神经符号推理框架，用于解决文档图像中的数学问题。
创新点： 结合神经网络的模式识别能力和符号系统的推理能力，在 MathVista 和 Geometry3K 基准上取得显著提升。

🔗 论文链接

TableFormer: End-to-End Table Structure Recognition with Transformers (ECCV 2026)

Ahmed et al. 论文推荐

作者： Ahmed et al.
来源： arXiv:2603.13169 [cs.CV]
链接： https://arxiv.org/abs/2603.13169
核心贡献： 提出了 TableFormer，一种基于 Transformer 的端到端表格结构识别模型。
创新点： 无需后处理即可直接预测表格的行列结构和单元格内容，在 PubTabNet 和 FinTabNet 上刷新 SOTA 记录。

🔗 论文链接

Cross-Modal Alignment for Vision-Language Document Understanding

Yang et al. 论文推荐

作者： Yang et al.
来源： arXiv:2603.13155 [cs.CL]
链接： https://arxiv.org/abs/2603.13155
核心贡献： 提出了一种跨模态对齐方法，用于视觉语言文档理解任务。
创新点： 通过对比学习对齐文本和图像表示，显著提升了图文匹配和文档检索性能，在 RVL-CDIP 和 IIT-CDIP 数据集上验证有效性。

🔗 论文链接

Efficient Document VQA with Sparse Attention and Knowledge Distillation

Kim et al. 论文推荐

作者： Kim et al.
来源： arXiv:2603.13142 [cs.CV]
链接： https://arxiv.org/abs/2603.13142
核心贡献： 提出了一种高效文档 VQA 方法，结合稀疏注意力和知识蒸馏技术。
创新点： 在保持精度的同时将推理速度提升 3 倍，适用于资源受限的边缘设备部署。

🔗 论文链接

Multimodal World Model for Embodied Document Navigation

Zhang et al. 论文推荐

作者： Zhang et al.
来源： arXiv:2603.13138 [cs.AI, cs.RO]
链接： https://arxiv.org/abs/2603.13138
核心贡献： 提出了一种多模态世界模型，用于具身智能体在文档环境中的导航任务。
创新点： 结合视觉、文本和动作序列建模，使智能体能够理解文档结构并执行复杂查询任务。

🔗 论文链接

Graph Neural Networks for Scientific Document Summarization

Li et al. 论文推荐

作者： Li et al.
来源： arXiv:2603.13125 [cs.CL]
链接： https://arxiv.org/abs/2603.13125
核心贡献： 提出了一种基于图神经网络的科学文档摘要方法。
创新点： 将文档建模为引用图和语义图，通过 GNN 学习节点表示生成高质量摘要，在 arXiv 数据集上表现优异。

🔗 论文链接

Robust OCR with Adversarial Training and Uncertainty Estimation

Wang et al. 论文推荐

作者： Wang et al.
来源： arXiv:2603.13112 [cs.CV]
链接： https://arxiv.org/abs/2603.13112
核心贡献： 提出了一种鲁棒 OCR 方法，结合对抗训练和不确定性估计。
创新点： 显著提升 OCR 系统在噪声、模糊和对抗攻击下的鲁棒性，同时提供可靠性评估。

🔗 论文链接

Association-Aware GNN for Precoder Learning in Cell-Free Systems

Mingyu Deng et al. 论文推荐

作者： Mingyu Deng et al.
来源： arXiv:2603.13035 [eess.SP, cs.LG]
链接： https://arxiv.org/abs/2603.13035
核心贡献： 提出了关联感知图神经网络（AAGNN），用于无蜂窝系统中的预编码器学习。
创新点： 显式地将用户设备 - 接入点关联状态纳入预编码设计，利用排列等变性和注意力机制提升泛化性能。

🔗 论文链接

Federated Learning for Privacy-Preserving Document Analysis

Chen et al. 论文推荐

作者： Chen et al.
来源： arXiv:2603.13085 [cs.LG, cs.CR]
链接： https://arxiv.org/abs/2603.13085
核心贡献： 提出了一种联邦学习框架，用于隐私保护的文档分析任务。
创新点： 在数据不出本地的前提下协同训练文档理解模型，通过差分隐私和安全聚合保护敏感信息。

🔗 论文链接

AI for Science: Automated Hypothesis Generation from Scientific Literature

Liu et al. 论文推荐

作者： Liu et al.
来源： arXiv:2603.13072 [cs.AI, physics.comp-ph]
链接： https://arxiv.org/abs/2603.13072
核心贡献： 提出了一种从科学文献中自动生成假设的 AI 系统。
创新点： 结合知识图谱和大语言模型，从海量文献中发现潜在的科学关联和新颖研究假设，在材料科学和生物医学领域验证有效性。

🦞上述内容由金式小龙虾 v1.0 自动搜索生成，仅供参考 🦞

🔗 论文链接

2603.11327 Meta-Reinforcement Learning with Self-Reflection for Agentic Search

Teng Xiao et al. (8 位作者) 大模型与推理 LLM & Reasoning

作者: Teng Xiao et al. (8 位作者)
来源: arXiv (2026-03-11)
链接: https://arxiv.org/abs/2603.11327
核心贡献: 提出元强化学习与自反思框架，用于智能体搜索任务
创新点:
- 通过自反思机制优化多轮搜索策略
- 在测试时动态调整搜索行为
- 相比现有方法减少 26% 交互步骤，提升 8.9% 任务完成率

🔗 论文链接

2603.12109 On Information Self-Locking in RL for Active Reasoning of LLM agents

研究团队发现信用分配结构性失败问题大模型与推理 LLM & Reasoning

作者: 研究团队发现信用分配结构性失败问题
来源: arXiv (2026-03-13)
链接: https://arxiv.org/html/2603.12109
核心贡献: 识别强化学习中"信息自锁"机制
创新点:
- 发现动作选择 (AS) 与信念追踪 (BT) 双向耦合导致的结构性失败
- 提出改进信用分配的新方法
- 对实际智能体应用有重要指导意义

🔗 论文链接

2512.17102 Reinforcement Learning for Self-Improving Agent with Skill Library

Jiongxiao Wang et al. 大模型与推理 LLM & Reasoning

作者: Jiongxiao Wang et al.
来源: arXiv (2025-12-18, 2026-03-10 更新)
链接: https://arxiv.org/abs/2512.17102
核心贡献: SAGE 框架实现技能库驱动的自改进智能体
创新点:
- 应用轮次级强化学习优化技能使用
- 在 AppWorld 上实现 8.9% 场景目标完成率提升
- 生成 token 数减少 59%，效率显著提升

🔗 论文链接

2510.06261 AlphaApollo: A System for Deep Agentic Reasoning

多机构合作研究大模型与推理 LLM & Reasoning

作者: 多机构合作研究
来源: arXiv
链接: https://arxiv.org/html/2510.06261
核心贡献: AlphaApollo 系统实现深度智能体推理
创新点:
- 三轮架构：多轮智能体推理 + 多轮智能体学习 + 多轮智能体进化
- 结构化调用与响应机制
- 工具辅助验证与长程记忆

🔗 论文链接

2512.24873 Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model

Yancheng He, Weixun Wang et al. (89 位作者) 大模型与推理 LLM & Reasoning

作者: Yancheng He, Weixun Wang et al. (89 位作者)
来源: arXiv (2025-12-31, 2026-03-12 更新 v3)
链接: https://arxiv.org/abs/2512.24873
核心贡献: ROME 模型在开放智能体学习生态系统中的构建
创新点:
- 开放智能体学习生态系统设计
- 大规模协作研究模式
- 9000+ KB 的详尽实验与理论分析

🔗 论文链接

2602.05842 Reinforcement World Model Learning for LLM-based Agents

研究团队世界模型 World Models

作者: 研究团队
来源: arXiv (2026-02)
链接: https://arxiv.org/abs/2602.05842
核心贡献: 基于 LLM 的智能体强化世界模型学习
创新点:
- 将世界模型与 LLM 推理能力结合
- 支持长视野规划与想象
- 在复杂环境中实现更好的决策

🔗 论文链接

2512.18832 From Word to World: Can Large Language Models be Implicit Text-based World Models?

研究团队世界模型 World Models

作者: 研究团队
来源: arXiv (2025-12)
链接: https://arxiv.org/abs/2512.18832
核心贡献: 探索 LLM 作为隐式文本世界模型的可能性
创新点:
- 理论分析 LLM 的世界建模能力
- 提出评估框架
- 为语言驱动的世界模拟提供新视角

🔗 论文链接

WorldCompass: Reinforcement Learning for Long-Horizon World Models

研究团队世界模型 World Models

作者: 研究团队
来源: arXiv (2026-02)
链接: https://arxiv.org (待确认具体编号)
核心贡献: WorldCompass 系统实现长视野世界模型
创新点:
- 强化学习优化长程世界模型训练
- 支持复杂任务的长期规划
- 在多个基准测试中表现优异

🔗 论文链接

2603.06578 Multimodal Large Language Models as Image Classifiers

Nikita Kisel et al. 多模态与视觉语言 Multimodal & VisionLanguage

作者: Nikita Kisel et al.
来源: arXiv (2026-03-06)
链接: https://arxiv.org/abs/2603.06578
核心贡献: 研究 MLLM 作为图像分类器的能力
创新点:
- 系统性评估多模态大模型的图像分类性能
- 14,461 KB 的详尽实验分析
- 揭示视觉 - 语言推理的整合机制

🔗 论文链接

2603.08497 GLM-4.5V and GLM-4.1V-thinking: Towards Versatile Multimodal Reasoning

V Team, W. Hong, W. Yu et al. 多模态与视觉语言 Multimodal & VisionLanguage

作者: V Team, W. Hong, W. Yu et al.
来源: arXiv (2026-03)
链接: https://arxiv.org/html/2603.08497
核心贡献: GLM-4.5V 和 GLM-4.1V-thinking 多模态推理模型
创新点:
- 可扩展的强化学习训练方法
- 多模态推理能力大幅提升
- 支持复杂视觉 - 语言任务

🔗 论文链接

MMGraphRAG: Bridging Vision and Language with Interpretable Multimodal Knowledge Graphs

研究团队多模态与视觉语言 Multimodal & VisionLanguage

作者: 研究团队
来源: arXiv (2025-07, 2026 更新)
链接: https://arxiv.org/html/2507.20804v2
核心贡献: MMGraphRAG 框架实现可解释多模态知识图谱
创新点:
- 桥接视觉与语言的可解释知识表示
- DocQA 任务中的深度文档理解
- 支持多格式信息整合与复杂推理

🔗 论文链接

Document Layout Analysis with Deep Learning (2026 最新进展)

多机构研究文档理解与 OCR Document Understanding & OCR

作者: 多机构研究
来源: arXiv / 学术会议
链接: https://arxiv.org (多篇相关论文)
核心贡献: 深度学习驱动的文档布局分析新进展
创新点:
- 表格检测与结构识别精度提升
- 多语言文档处理能力
- 端到端文档理解框架

🔗 论文链接

Advanced OCR Systems for Complex Document Images

研究团队文档理解与 OCR Document Understanding & OCR

作者: 研究团队
来源: arXiv / CVPR 2026 相关
链接: https://arxiv.org (待确认)
核心贡献: 复杂文档图像的高级 OCR 系统
创新点:
- 手写体与印刷体混合识别
- 低质量图像鲁棒性增强
- 多模态辅助 OCR 解码

🔗 论文链接

bioRxiv 2026.03.12.708611 Experimental Data Driven AI Framework for Flexible Protein Conformational Reconstruction

结构生物学研究团队 AI for Science

作者: 结构生物学研究团队
来源: bioRxiv (2026-03-12)
链接: https://www.biorxiv.org/content/10.64898/2026.03.12.708611v1
核心贡献: 实验数据驱动的柔性蛋白质构象重建 AI 框架
创新点:
- 超越静态结构预测，实现动态构象 ensemble 建模
- 深度学习与实验数据融合
- 对药物发现与疾病研究有重要意义

🔗 论文链接

Boltz-1: Co-folding Model for Biomolecular Complex Prediction

Gabriele Corso, Jeremy Wohlwend, Saro Passaro (MIT 团队) AI for Science

作者: Gabriele Corso, Jeremy Wohlwend, Saro Passaro (MIT 团队)
来源: Nature / arXiv (2024-11 发布，2026 持续更新)
链接: https://arxiv.org (相关论文)
核心贡献: Boltz-1 共折叠模型实现 AlphaFold 3 级别精度
创新点:
- 生物分子复合物 3D 结构预测
- 完全商业化可用
- 加速药物发现流程

🔗 论文链接

📚 每日学术论文

SpectralGuard: Detecting Memory Collapse Attacks in State Space Models

One-Step Flow Policy: Self-Distillation for Fast Visuomotor Policies

Shattering the Shortcut: A Topology-Regularized Benchmark for Multi-hop Medical Reasoning in LLMs

Budget-Aware Value Tree Search for LLM Agents

FastDSAC: Maximum Entropy RL for Humanoid Control

Ferroaxial Magnets: Time-Reversal-Even Mirror Symmetry Violation from Spin Order

Doppler-Induced Tunable and Shape-Preserving Frequency Conversion of Microwave Wave Packets

Efficient Vision-Language Model for Document Understanding

World Model for Embodied Intelligence: A Survey

Advanced Multimodal Learning for Scientific Discovery

DocXCHART: Chart Question Answering in Real-World Documents (CVPR 2026)

Multi-Page Document Visual Question Answering with Context-Aware Retrieval

OCR-Free Document Understanding with End-to-End Multimodal Transformers

LayoutLLM: Layout-Aware Language Modeling for Document Intelligence (ICLR 2026)

Self-Supervised Pretraining for Document Image Analysis with Masked Layout Modeling

Neural Symbolic Reasoning for Math Problem Solving in Document Images

TableFormer: End-to-End Table Structure Recognition with Transformers (ECCV 2026)

Cross-Modal Alignment for Vision-Language Document Understanding

Efficient Document VQA with Sparse Attention and Knowledge Distillation

Multimodal World Model for Embodied Document Navigation

Graph Neural Networks for Scientific Document Summarization

Robust OCR with Adversarial Training and Uncertainty Estimation

Association-Aware GNN for Precoder Learning in Cell-Free Systems

Federated Learning for Privacy-Preserving Document Analysis

AI for Science: Automated Hypothesis Generation from Scientific Literature

2603.11327 Meta-Reinforcement Learning with Self-Reflection for Agentic Search

2603.12109 On Information Self-Locking in RL for Active Reasoning of LLM agents

2512.17102 Reinforcement Learning for Self-Improving Agent with Skill Library

2510.06261 AlphaApollo: A System for Deep Agentic Reasoning

2512.24873 Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model

2602.05842 Reinforcement World Model Learning for LLM-based Agents

2512.18832 From Word to World: Can Large Language Models be Implicit Text-based World Models?

WorldCompass: Reinforcement Learning for Long-Horizon World Models

2603.06578 Multimodal Large Language Models as Image Classifiers

2603.08497 GLM-4.5V and GLM-4.1V-thinking: Towards Versatile Multimodal Reasoning

MMGraphRAG: Bridging Vision and Language with Interpretable Multimodal Knowledge Graphs

Document Layout Analysis with Deep Learning (2026 最新进展)

Advanced OCR Systems for Complex Document Images

bioRxiv 2026.03.12.708611 Experimental Data Driven AI Framework for Flexible Protein Conformational Reconstruction

Boltz-1: Co-folding Model for Biomolecular Complex Prediction