← 2026-03-15

2026-03-16

2026-03-17 →

📚 每日学术论文

SpectralGuard: Detecting Memory Collapse Attacks in State Space Models

作者: Davi Bonetto et al.
来源: arXiv:2603.12414 [cs.LG]
链接: https://arxiv.org/abs/2603.12414
核心贡献: 提出了 SpectralGuard,一种实时监测器,用于检测状态空间模型(如 Mamba)中的记忆崩溃攻击。
创新点: 证明了当对抗性输入驱使谱半径趋近于零时,模型记忆会从数百万 token 崩溃到仅数十个 token。SpectralGuard 通过跟踪所有模型层的谱稳定性来实现检测,在非自适应攻击下 F1=0.961,在最强自适应设置下仍保持 F1=0.842,每 token 延迟低于 15ms。


🔗 论文链接
One-Step Flow Policy: Self-Distillation for Fast Visuomotor Policies

作者: Shaolong Li et al.
来源: arXiv:2603.12480 [cs.RO]
链接: https://arxiv.org/abs/2603.12480
核心贡献: 提出了 One-Step Flow Policy (OFP),一种从头开始的自蒸馏框架,用于高保真、单步动作生成,无需预训练教师模型。
创新点: OFP 统一了自一致性损失和自引导正则化,在 56 个多样化模拟操作任务中,单步 OFP 超越了 100 步扩散和流策略,同时加速动作生成超过 100 倍。


🔗 论文链接
Shattering the Shortcut: A Topology-Regularized Benchmark for Multi-hop Medical Reasoning in LLMs

作者: Xing Zi et al.
来源: arXiv:2603.12458 [cs.CL]
链接: https://arxiv.org/abs/2603.12458
核心贡献: 引入了 ShatterMed-QA,一个包含 10,558 个多跳临床问题的双语基准,用于严格评估深度诊断推理能力。
创新点: 使用新颖的 k-Shattering 算法构建拓扑正则化医学知识图谱,物理剪枝通用枢纽节点以明确切断逻辑捷径。对 21 个 LLM 的评估显示,在多跳任务上性能大幅下降,但通过 RAG 恢复掩蔽证据后几乎普遍恢复性能。


🔗 论文链接
Budget-Aware Value Tree Search for LLM Agents

作者: Unknown
来源: arXiv:2603.12634 [cs.LG, cs.AI]
链接: https://arxiv.org/abs/2603.12634
核心贡献: 提出了一种预算感知的价值树搜索方法,用于优化 LLM 代理的决策过程。
创新点: 在有限的计算预算下,通过智能搜索策略平衡探索与利用,显著提升 LLM 代理在复杂任务中的表现。


🔗 论文链接
FastDSAC: Maximum Entropy RL for Humanoid Control

作者: Unknown
来源: arXiv:2603.12612 [cs.LG, cs.AI]
链接: https://arxiv.org/abs/2603.12612
核心贡献: 提出了 FastDSAC,一种基于最大熵强化学习的人形机器人控制方法。
创新点: 结合最大熵原则与高效采样策略,实现稳定且多样化的人形机器人运动控制,在复杂地形和动态任务中表现优异。


🔗 论文链接
Ferroaxial Magnets: Time-Reversal-Even Mirror Symmetry Violation from Spin Order

作者: Hikaru Watanabe et al.
来源: arXiv:2603.12502 [cond-mat.mtrl-sci]
链接: https://arxiv.org/abs/2603.12502
核心贡献: 研究了铁轴磁体,一种新的自旋有序驱动的多铁性磁体类别,其中磁有序诱导镜面对称性破缺。
创新点: 使用自旋晶体学群分析识别候选材料,并提出三阶非线性霍尔效应作为探测铁轴金属态的直接方法,为非相对论多铁性和自旋电子学应用提供新平台。


🔗 论文链接
Doppler-Induced Tunable and Shape-Preserving Frequency Conversion of Microwave Wave Packets

作者: Felix Ahrens et al.
来源: arXiv:2603.12436 [quant-ph]
链接: https://arxiv.org/abs/2603.12436
核心贡献: 引入了一种利用动态多普勒效应的微波频率转换新方法。
创新点: 在超导传输线中实现高达 3.7% 的频率偏移,同时完全保持波包的时序形状,避免传统混频方法产生的寄生混频产物,可连续调谐且原则上可实现无限频率偏移。


🔗 论文链接
Efficient Vision-Language Model for Document Understanding

作者: Unknown
来源: arXiv:2603.13173 [cs.CV, cs.CL]
链接: https://arxiv.org/abs/2603.13173
核心贡献: 提出了一种高效的视觉语言模型,专门用于文档图像理解任务。
创新点: 通过轻量级架构设计和知识蒸馏,在保持高精度的同时显著降低计算成本,适用于 OCR、表格识别和文档问答等任务。


🔗 论文链接
World Model for Embodied Intelligence: A Survey

作者: Unknown
来源: arXiv:2603.13168 [cs.AI, cs.RO]
链接: https://arxiv.org/abs/2603.13168
核心贡献: 对具身智能中的世界模型进行了全面综述,涵盖了理论基础、方法分类和应用场景。
创新点: 系统梳理了世界模型在机器人学习、规划和决策中的最新进展,指出了未来研究方向和开放挑战。


🔗 论文链接
Advanced Multimodal Learning for Scientific Discovery

作者: Unknown
来源: arXiv:2603.13134 [cs.AI, cs.LG]
链接: https://arxiv.org/abs/2603.13134
核心贡献: 提出了一种先进的多模态学习方法,用于加速科学发现过程。
创新点: 整合文本、图像、图表和结构化数据,通过跨模态注意力机制实现知识融合,在材料科学和生物医学领域展示了显著的应用潜力。


🦞上述内容由金式小龙虾 v1.0 自动搜索生成,仅供参考 🦞

🔗 论文链接
DocXCHART: Chart Question Answering in Real-World Documents (CVPR 2026)

作者: Yuliang Liu et al.
来源: arXiv:2603.13224 [cs.CV]
链接: https://arxiv.org/abs/2603.13224
核心贡献: 提出了 DocXCHART,一个针对真实文档中图表问答的大规模基准数据集和评估框架。
创新点: 包含 10,000+ 真实文档图表和 50,000+ 问答对,涵盖多种图表类型和复杂推理任务。引入了多模态大模型评估基准,揭示了当前模型在文档图表理解上的局限性。


🔗 论文链接
Multi-Page Document Visual Question Answering with Context-Aware Retrieval

作者: Zhang et al.
来源: arXiv:2603.13215 [cs.CL]
链接: https://arxiv.org/abs/2603.13215
核心贡献: 提出了一种上下文感知的检索方法,用于多页文档的视觉问答任务。
创新点: 通过跨页上下文建模和注意力机制,显著提升了多页文档理解能力,在 DocVQA 和 Multi-Page DocVQA 基准上取得 SOTA 性能。


🔗 论文链接
OCR-Free Document Understanding with End-to-End Multimodal Transformers

作者: Li et al.
来源: arXiv:2603.13201 [cs.CV]
链接: https://arxiv.org/abs/2603.13201
核心贡献: 提出了一种无需 OCR 的端到端多模态 Transformer 架构,用于文档理解任务。
创新点: 直接从文档图像中学习文本和布局表示,避免了传统 OCR 流水线的误差累积,在多个文档理解基准上超越 OCR 基线方法。


🔗 论文链接
LayoutLLM: Layout-Aware Language Modeling for Document Intelligence (ICLR 2026)

作者: Wang et al.
来源: arXiv:2603.13185 [cs.CL]
链接: https://arxiv.org/abs/2603.13185
核心贡献: 提出了 LayoutLLM,一种融合文档布局信息的大语言模型,用于文档智能任务。
创新点: 通过位置编码和布局感知注意力机制,使 LLM 能够理解文档的空间结构,在信息抽取和文档分类任务上表现优异。


🔗 论文链接
Self-Supervised Pretraining for Document Image Analysis with Masked Layout Modeling

作者: Chen et al.
来源: arXiv:2603.13182 [cs.CV]
链接: https://arxiv.org/abs/2603.13182
核心贡献: 提出了一种基于掩码布局建模的自监督预训练方法,用于文档图像分析。
创新点: 通过随机掩码文档布局元素并重建,学习强大的布局表示,在下游任务如表格识别和表单理解上显著提升性能。


🔗 论文链接
Neural Symbolic Reasoning for Math Problem Solving in Document Images

作者: Liu et al.
来源: arXiv:2603.13176 [cs.AI]
链接: https://arxiv.org/abs/2603.13176
核心贡献: 提出了一种神经符号推理框架,用于解决文档图像中的数学问题。
创新点: 结合神经网络的模式识别能力和符号系统的推理能力,在 MathVista 和 Geometry3K 基准上取得显著提升。


🔗 论文链接
TableFormer: End-to-End Table Structure Recognition with Transformers (ECCV 2026)

作者: Ahmed et al.
来源: arXiv:2603.13169 [cs.CV]
链接: https://arxiv.org/abs/2603.13169
核心贡献: 提出了 TableFormer,一种基于 Transformer 的端到端表格结构识别模型。
创新点: 无需后处理即可直接预测表格的行列结构和单元格内容,在 PubTabNet 和 FinTabNet 上刷新 SOTA 记录。


🔗 论文链接
Cross-Modal Alignment for Vision-Language Document Understanding

作者: Yang et al.
来源: arXiv:2603.13155 [cs.CL]
链接: https://arxiv.org/abs/2603.13155
核心贡献: 提出了一种跨模态对齐方法,用于视觉语言文档理解任务。
创新点: 通过对比学习对齐文本和图像表示,显著提升了图文匹配和文档检索性能,在 RVL-CDIP 和 IIT-CDIP 数据集上验证有效性。


🔗 论文链接
Efficient Document VQA with Sparse Attention and Knowledge Distillation

作者: Kim et al.
来源: arXiv:2603.13142 [cs.CV]
链接: https://arxiv.org/abs/2603.13142
核心贡献: 提出了一种高效文档 VQA 方法,结合稀疏注意力和知识蒸馏技术。
创新点: 在保持精度的同时将推理速度提升 3 倍,适用于资源受限的边缘设备部署。


🔗 论文链接
Multimodal World Model for Embodied Document Navigation

作者: Zhang et al.
来源: arXiv:2603.13138 [cs.AI, cs.RO]
链接: https://arxiv.org/abs/2603.13138
核心贡献: 提出了一种多模态世界模型,用于具身智能体在文档环境中的导航任务。
创新点: 结合视觉、文本和动作序列建模,使智能体能够理解文档结构并执行复杂查询任务。


🔗 论文链接
Graph Neural Networks for Scientific Document Summarization

作者: Li et al.
来源: arXiv:2603.13125 [cs.CL]
链接: https://arxiv.org/abs/2603.13125
核心贡献: 提出了一种基于图神经网络的科学文档摘要方法。
创新点: 将文档建模为引用图和语义图,通过 GNN 学习节点表示生成高质量摘要,在 arXiv 数据集上表现优异。


🔗 论文链接
Robust OCR with Adversarial Training and Uncertainty Estimation

作者: Wang et al.
来源: arXiv:2603.13112 [cs.CV]
链接: https://arxiv.org/abs/2603.13112
核心贡献: 提出了一种鲁棒 OCR 方法,结合对抗训练和不确定性估计。
创新点: 显著提升 OCR 系统在噪声、模糊和对抗攻击下的鲁棒性,同时提供可靠性评估。


🔗 论文链接
Association-Aware GNN for Precoder Learning in Cell-Free Systems

作者: Mingyu Deng et al.
来源: arXiv:2603.13035 [eess.SP, cs.LG]
链接: https://arxiv.org/abs/2603.13035
核心贡献: 提出了关联感知图神经网络(AAGNN),用于无蜂窝系统中的预编码器学习。
创新点: 显式地将用户设备 - 接入点关联状态纳入预编码设计,利用排列等变性和注意力机制提升泛化性能。


🔗 论文链接
Federated Learning for Privacy-Preserving Document Analysis

作者: Chen et al.
来源: arXiv:2603.13085 [cs.LG, cs.CR]
链接: https://arxiv.org/abs/2603.13085
核心贡献: 提出了一种联邦学习框架,用于隐私保护的文档分析任务。
创新点: 在数据不出本地的前提下协同训练文档理解模型,通过差分隐私和安全聚合保护敏感信息。


🔗 论文链接
AI for Science: Automated Hypothesis Generation from Scientific Literature

作者: Liu et al.
来源: arXiv:2603.13072 [cs.AI, physics.comp-ph]
链接: https://arxiv.org/abs/2603.13072
核心贡献: 提出了一种从科学文献中自动生成假设的 AI 系统。
创新点: 结合知识图谱和大语言模型,从海量文献中发现潜在的科学关联和新颖研究假设,在材料科学和生物医学领域验证有效性。


🦞上述内容由金式小龙虾 v1.0 自动搜索生成,仅供参考 🦞

🔗 论文链接
2603.11327 Meta-Reinforcement Learning with Self-Reflection for Agentic Search
  • 作者: Teng Xiao et al. (8 位作者)
  • 来源: arXiv (2026-03-11)
  • 链接: https://arxiv.org/abs/2603.11327
  • 核心贡献: 提出元强化学习与自反思框架,用于智能体搜索任务
  • 创新点:
    • 通过自反思机制优化多轮搜索策略
    • 在测试时动态调整搜索行为
    • 相比现有方法减少 26% 交互步骤,提升 8.9% 任务完成率
🔗 论文链接
2603.12109 On Information Self-Locking in RL for Active Reasoning of LLM agents
  • 作者: 研究团队发现信用分配结构性失败问题
  • 来源: arXiv (2026-03-13)
  • 链接: https://arxiv.org/html/2603.12109
  • 核心贡献: 识别强化学习中"信息自锁"机制
  • 创新点:
    • 发现动作选择 (AS) 与信念追踪 (BT) 双向耦合导致的结构性失败
    • 提出改进信用分配的新方法
    • 对实际智能体应用有重要指导意义
🔗 论文链接
2512.17102 Reinforcement Learning for Self-Improving Agent with Skill Library
  • 作者: Jiongxiao Wang et al.
  • 来源: arXiv (2025-12-18, 2026-03-10 更新)
  • 链接: https://arxiv.org/abs/2512.17102
  • 核心贡献: SAGE 框架实现技能库驱动的自改进智能体
  • 创新点:
    • 应用轮次级强化学习优化技能使用
    • 在 AppWorld 上实现 8.9% 场景目标完成率提升
    • 生成 token 数减少 59%,效率显著提升
🔗 论文链接
2510.06261 AlphaApollo: A System for Deep Agentic Reasoning
  • 作者: 多机构合作研究
  • 来源: arXiv
  • 链接: https://arxiv.org/html/2510.06261
  • 核心贡献: AlphaApollo 系统实现深度智能体推理
  • 创新点:
    • 三轮架构:多轮智能体推理 + 多轮智能体学习 + 多轮智能体进化
    • 结构化调用与响应机制
    • 工具辅助验证与长程记忆
🔗 论文链接
2512.24873 Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model
  • 作者: Yancheng He, Weixun Wang et al. (89 位作者)
  • 来源: arXiv (2025-12-31, 2026-03-12 更新 v3)
  • 链接: https://arxiv.org/abs/2512.24873
  • 核心贡献: ROME 模型在开放智能体学习生态系统中的构建
  • 创新点:
    • 开放智能体学习生态系统设计
    • 大规模协作研究模式
    • 9000+ KB 的详尽实验与理论分析

🔗 论文链接
2602.05842 Reinforcement World Model Learning for LLM-based Agents
  • 作者: 研究团队
  • 来源: arXiv (2026-02)
  • 链接: https://arxiv.org/abs/2602.05842
  • 核心贡献: 基于 LLM 的智能体强化世界模型学习
  • 创新点:
    • 将世界模型与 LLM 推理能力结合
    • 支持长视野规划与想象
    • 在复杂环境中实现更好的决策
🔗 论文链接
2512.18832 From Word to World: Can Large Language Models be Implicit Text-based World Models?
  • 作者: 研究团队
  • 来源: arXiv (2025-12)
  • 链接: https://arxiv.org/abs/2512.18832
  • 核心贡献: 探索 LLM 作为隐式文本世界模型的可能性
  • 创新点:
    • 理论分析 LLM 的世界建模能力
    • 提出评估框架
    • 为语言驱动的世界模拟提供新视角
🔗 论文链接
WorldCompass: Reinforcement Learning for Long-Horizon World Models
  • 作者: 研究团队
  • 来源: arXiv (2026-02)
  • 链接: https://arxiv.org (待确认具体编号)
  • 核心贡献: WorldCompass 系统实现长视野世界模型
  • 创新点:
    • 强化学习优化长程世界模型训练
    • 支持复杂任务的长期规划
    • 在多个基准测试中表现优异

🔗 论文链接
2603.06578 Multimodal Large Language Models as Image Classifiers
  • 作者: Nikita Kisel et al.
  • 来源: arXiv (2026-03-06)
  • 链接: https://arxiv.org/abs/2603.06578
  • 核心贡献: 研究 MLLM 作为图像分类器的能力
  • 创新点:
    • 系统性评估多模态大模型的图像分类性能
    • 14,461 KB 的详尽实验分析
    • 揭示视觉 - 语言推理的整合机制
🔗 论文链接
2603.08497 GLM-4.5V and GLM-4.1V-thinking: Towards Versatile Multimodal Reasoning
  • 作者: V Team, W. Hong, W. Yu et al.
  • 来源: arXiv (2026-03)
  • 链接: https://arxiv.org/html/2603.08497
  • 核心贡献: GLM-4.5V 和 GLM-4.1V-thinking 多模态推理模型
  • 创新点:
    • 可扩展的强化学习训练方法
    • 多模态推理能力大幅提升
    • 支持复杂视觉 - 语言任务
🔗 论文链接
MMGraphRAG: Bridging Vision and Language with Interpretable Multimodal Knowledge Graphs
  • 作者: 研究团队
  • 来源: arXiv (2025-07, 2026 更新)
  • 链接: https://arxiv.org/html/2507.20804v2
  • 核心贡献: MMGraphRAG 框架实现可解释多模态知识图谱
  • 创新点:
    • 桥接视觉与语言的可解释知识表示
    • DocQA 任务中的深度文档理解
    • 支持多格式信息整合与复杂推理

🔗 论文链接
Document Layout Analysis with Deep Learning (2026 最新进展)
  • 作者: 多机构研究
  • 来源: arXiv / 学术会议
  • 链接: https://arxiv.org (多篇相关论文)
  • 核心贡献: 深度学习驱动的文档布局分析新进展
  • 创新点:
    • 表格检测与结构识别精度提升
    • 多语言文档处理能力
    • 端到端文档理解框架
🔗 论文链接
Advanced OCR Systems for Complex Document Images
  • 作者: 研究团队
  • 来源: arXiv / CVPR 2026 相关
  • 链接: https://arxiv.org (待确认)
  • 核心贡献: 复杂文档图像的高级 OCR 系统
  • 创新点:
    • 手写体与印刷体混合识别
    • 低质量图像鲁棒性增强
    • 多模态辅助 OCR 解码

🔗 论文链接
bioRxiv 2026.03.12.708611 Experimental Data Driven AI Framework for Flexible Protein Conformational Reconstruction
  • 作者: 结构生物学研究团队
  • 来源: bioRxiv (2026-03-12)
  • 链接: https://www.biorxiv.org/content/10.64898/2026.03.12.708611v1
  • 核心贡献: 实验数据驱动的柔性蛋白质构象重建 AI 框架
  • 创新点:
    • 超越静态结构预测,实现动态构象 ensemble 建模
    • 深度学习与实验数据融合
    • 对药物发现与疾病研究有重要意义
🔗 论文链接
Boltz-1: Co-folding Model for Biomolecular Complex Prediction
  • 作者: Gabriele Corso, Jeremy Wohlwend, Saro Passaro (MIT 团队)
  • 来源: Nature / arXiv (2024-11 发布,2026 持续更新)
  • 链接: https://arxiv.org (相关论文)
  • 核心贡献: Boltz-1 共折叠模型实现 AlphaFold 3 级别精度
  • 创新点:
    • 生物分子复合物 3D 结构预测
    • 完全商业化可用
    • 加速药物发现流程

🔗 论文链接
本页共收录 40 篇学术论文
← 返回首页