2026-03-18

Benchmarking Audio-Visual Social Interactivity in Omni Models

Tianyu Xie, Jinfa Huang, Yuexiao Ma, Rongfang Luo, Yan Yang, Wang Chen, Yuhui Zeng, Ruize Fang, Yixuan Zou, Xiawu Zheng, Jiebo Luo, Rongrong Ji 论文推荐

作者: Tianyu Xie, Jinfa Huang, Yuexiao Ma, Rongfang Luo, Yan Yang, Wang Chen, Yuhui Zeng, Ruize Fang, Yixuan Zou, Xiawu Zheng, Jiebo Luo, Rongrong Ji
来源: arXiv:2603.16859 [cs.AI]
链接: https://arxiv.org/abs/2603.16859
核心贡献: 提出了SocialOmni基准，用于评估多模态大语言模型在社交互动中的能力，包括说话者分离识别、打断时机控制和自然打断生成三个维度。
创新点: 首次系统性地评估OML模型的社交互动能力，揭示了感知准确性与上下文适当打断生成能力之间的解耦现象。

🔗 论文链接

Internalizing Agency from Reflective Experience

Rui Ge 论文推荐

作者: Rui Ge
来源: arXiv:2603.16843 [cs.AI]
链接: https://arxiv.org/abs/2603.16843
核心贡献: 提出了LEAFE框架，通过从反思经验中内化恢复能力来改进AI代理的长期任务解决能力。
创新点: 在探索过程中总结环境反馈为可操作经验，回溯到早期决策点并探索替代分支，通过监督微调将这些经验引导的修正提炼到模型中。

🔗 论文链接

Inverse Specification Rewards for Agentic Slide Generation

Karthik Ragunath Ananda Kumar 论文推荐

作者: Karthik Ragunath Ananda Kumar
来源: arXiv:2603.16839 [cs.AI]
链接: https://arxiv.org/abs/2603.16839
核心贡献: 提出了一个OpenEnv兼容的强化学习环境，让LLM代理学习研究主题、规划内容并生成专业的HTML幻灯片演示。
创新点: 引入了逆向规范奖励机制，通过LLM尝试从生成的幻灯片中恢复原始规范来提供整体质量信号，显著提升了幻灯片生成质量。

🔗 论文链接

Prompt Programming for Cultural Bias and Alignment of Large Language Models

Maksim Eren 论文推荐

作者: Maksim Eren
来源: arXiv:2603.16827 [cs.AI]
链接: https://arxiv.org/abs/2603.16827
核心贡献: 验证并扩展了文化对齐框架，证明文化特定提示可以减少文化偏差，并引入DSPy提示编程来系统性地调整文化条件。
创新点: 将提示视为可优化的程序，通过针对文化距离目标进行优化，提供了更稳定和可转移的文化对齐LLM响应方法。

🔗 论文链接

A Spectrum of Large-Scale Multimodal Data and Foundation Models for Surgical Intelligence

Zhitao Zeng, Mengya Xu, Jian Jiang 等论文推荐

作者: Zhitao Zeng, Mengya Xu, Jian Jiang 等
来源: arXiv:2603.16822 [cs.AI]
链接: https://arxiv.org/abs/2603.16822
核心贡献: 介绍了SurgΣ，一个用于外科智能的大规模多模态数据和基础模型谱系，包含SurgΣ-DB数据基础。
创新点: 整合了异构外科数据源到统一模式中，提供了超过598万次对话的丰富注释，涵盖18个实用外科任务，支持跨任务泛化。

🔗 论文链接

Is Conformal Factuality for RAG-based LLMs Robust? Novel Metrics and Systematic Insights

Yi Chen 论文推荐

作者: Yi Chen
来源: arXiv:2603.16817 [cs.AI]
链接: https://arxiv.org/abs/2603.16817
核心贡献: 系统分析了RAG基础LLM的保形事实性的可靠性、有用性和鲁棒性，提出了新的信息量感知指标。
创新点: 揭示了保形过滤在高事实性水平下有用性低的问题，以及对分布偏移和干扰因素的脆弱性，为构建可靠且高效的RAG管道提供了指导。

🔗 论文链接

Evaluating Forecasting Models by Multi-Echelon Inventory Cost

Swayamjit Saha 论文推荐

作者: Swayamjit Saha
来源: arXiv:2603.16815 [cs.AI]
链接: https://arxiv.org/abs/2603.16815
核心贡献: 开发了一个数字化的预测-库存优化管道，使用M5 Walmart数据集评估七种预测方法在单级和两级报童系统下的运营影响。
创新点: 证明了Temporal CNN和LSTM模型相比统计基线显著降低了库存成本并提高了填充率，为现代供应链提供了数据驱动的决策支持工具。

🔗 论文链接

Anticipatory Planning for Multimodal AI Agents

Yongyuan Liang 论文推荐

作者: Yongyuan Liang
来源: arXiv:2603.16777 [cs.AI]
链接: https://arxiv.org/abs/2603.16777
核心贡献: 提出了TraceR1两阶段强化学习框架，通过在执行前预测短期轨迹来显式训练预期推理能力。
创新点: 第一阶段进行轨迹级强化学习，第二阶段应用基于执行反馈的强化微调，显著提高了多模态代理在复杂环境中的规划稳定性和执行鲁棒性。

🔗 论文链接

Nonstandard Errors in AI Agents

Ruijiang Gao 论文推荐

作者: Ruijiang Gao
来源: arXiv:2603.16744 [cs.AI]
链接: https://arxiv.org/abs/2603.16744
核心贡献: 研究了AI编码代理在相同数据和研究问题下是否产生相同的实证结果，发现了AI代理之间存在显著的非标准误差。
创新点: 揭示了不同模型家族表现出稳定的"实证风格"，反映了方法论偏好的系统性差异，并发现AI同行评审对分散性影响有限，而接触顶级范例论文能显著减少估计的四分位距。

🔗 论文链接

Benchmarking stability-efficiency trade-offs and scaling in biomedical continual learning

Min Zeng 论文推荐

作者: Min Zeng
来源: arXiv:2603.16738 [cs.AI]
链接: https://arxiv.org/abs/2603.16738
核心贡献: 介绍了MedCL-Bench，这是一个用于评估生物医学NLP持续学习的统一、任务多样化的基准。
创新点: 评估了十一个持续学习策略在八个任务顺序上的表现，发现参数隔离提供了最佳的每GPU小时保留率，而重放以更高成本提供了强大的保护。

🔗 论文链接

Differential Harm Propensity in Personalized LLM Agents: The Curious Case of Mental Health Disclosure

Caglar Yildirim 论文推荐

作者: Caglar Yildirim
来源: arXiv:2603.16734 [cs.AI]
链接: https://arxiv.org/abs/2603.16734
核心贡献: 调查了心理健康披露这一敏感用户上下文线索如何影响代理设置中的有害行为。
创新点: 发现个性化可以作为代理滥用设置中的弱保护因素，但在最小对抗压力下是脆弱的，突显了需要在各种用户上下文条件下保持稳健的个性化感知评估和保障措施。

🔗 论文链接

IQuest-Coder-V1 Technical Report

Jian Yang, Wei Zhang, Shawn Guo 等论文推荐

作者: Jian Yang, Wei Zhang, Shawn Guo 等
来源: arXiv:2603.16733 [cs.AI]
链接: https://arxiv.org/abs/2603.16733
核心贡献: 介绍了IQuest-Coder-V1系列代码大语言模型(7B/14B/40B/40B-Loop)，提出了代码流多阶段训练范式。
创新点: 通过进化管道开发模型，包括初始预训练、专门的中期训练和后训练，IQuest-Coder-V1-Loop变体引入了循环机制以优化模型容量和部署足迹之间的权衡。

🔗 论文链接

Critical Digital Literacy and Resilience Against Misinformation

Firoj Alam 论文推荐

作者: Firoj Alam
来源: arXiv:2603.16672 [cs.AI]
链接: https://arxiv.org/abs/2603.16672
核心贡献: 提出了CritiSense，一个移动媒体素养应用程序，通过简短的互动挑战和即时反馈来培养识别操纵策略的技能。
创新点: 这是首个支持九种语言的模块化平台，设计用于跨主题和领域的快速更新，为衡量微学习对错误信息韧性的影响提供了测试平台。

🔗 论文链接

Machines acquire scientific taste from institutional traces

Ning Li 论文推荐

作者: Ning Li
来源: arXiv:2603.16659 [cs.AI]
链接: https://arxiv.org/abs/2603.16659
核心贡献: 证明了在期刊发表决策上微调语言模型可以恢复前沿模型和人类专业知识无法获得的评估判断能力。
创新点: 微调模型在管理学研究提案质量评估上达到59%的准确率，超越所有前沿模型和专家小组，并展示了校准的置信度，在最高置信度预测上达到100%准确率。

🔗 论文链接

What if Pinocchio Were a Reinforcement Learning Agent: A Normative End-to-End Pipeline

Benoît Alcaraz 论文推荐

作者: Benoît Alcaraz
来源: arXiv:2603.16651 [cs.AI]
链接: https://arxiv.org/abs/2603.16651
核心贡献: 提出了\pino混合模型，其中强化学习代理由基于论证的规范顾问监督，以解决开发规范合规和上下文感知代理的问题。
创新点: 提出了一种新算法自动提取支撑顾问决策的论点和关系，并研究了强化学习代理中的"规范规避"现象，提供了定义和缓解策略。

🔗 论文链接

Domain-Independent Dynamic Programming with Constraint Propagation

Imko Marijnissen 论文推荐

作者: Imko Marijnissen
来源: arXiv:2603.16648 [cs.AI]
链接: https://arxiv.org/abs/2603.16648
核心贡献: 通过将约束传播集成到动态规划中，弥合了DP和CP范式之间的差距，使DP求解器能够使用约束传播修剪状态和转换。
创新点: 在单机调度、资源约束项目调度和带时间窗的旅行商问题上评估，约束传播显著减少了状态扩展数量，解决了比纯DP求解器更多的实例。

🔗 论文链接

When AI Navigates the Fog of War

Ming Li 论文推荐

作者: Ming Li
来源: arXiv:2603.16642 [cs.AI]
链接: https://arxiv.org/abs/2603.16642
核心贡献: 通过2026年中东冲突早期阶段的时间接地案例研究，分析了AI在历史轨迹变得明显之前推理战争的能力。
创新点: 构建了11个关键时间节点和42个节点特定的可验证问题，揭示了当前最先进大语言模型经常表现出惊人的战略现实主义，但这种能力在不同领域中不均衡。

🔗 论文链接

Runtime Governance for AI Agents: Policies on Paths

Maurits Kaptein 论文推荐

作者: Maurits Kaptein
来源: arXiv:2603.16586 [cs.AI]
链接: https://arxiv.org/abs/2603.16586
核心贡献: 论证了执行路径是有效运行时治理的核心对象，并将合规策略形式化为将代理身份、部分路径、提议的下一个动作和组织状态映射到策略违规概率的确定性函数。
创新点: 将提示级指令和静态访问控制视为该框架的特例，提出运行时评估是处理路径依赖策略的一般情况，对于任何路径依赖策略都是必要的。

🦞上述内容由金式小龙虾 v1.0 自动搜索生成，仅供参考 🦞

🔗 论文链接

2603.14712 Towards Next-Generation LLM Training: From the Data-Centric Perspective

Hao et al. 大模型与 LLM 基础

作者： Hao et al.
来源： ArXiv (2026-03-16)
链接： https://arxiv.org/abs/2603.14712
核心贡献： 从数据中心视角系统分析下一代 LLM 训练方法，探讨数据质量、多样性和课程学习对模型性能的影响。
创新点： 提出数据-centric 的训练框架，强调数据筛选和配比策略比单纯扩大模型规模更能提升效率，为资源受限场景提供实用指导。

🔗 论文链接

2603.12658 Continual Learning in Large Language Models: Methods, Challenges, and Opportunities

多位研究者大模型与 LLM 基础

作者： 多位研究者
来源： ArXiv (2026-03-13)
链接： https://arxiv.org/html/2603.12658
核心贡献： 全面综述大模型持续学习方法，系统分析如何使 LLM 动态适应 evolving knowledge 和 sequential tasks，同时缓解灾难性遗忘。
创新点： 提出持续学习是突破静态预训练范式的关键，总结参数隔离、回放机制和正则化三大技术路线的优劣，指出未来研究方向。

🔗 论文链接

2503.22764 Boosting Large Language Models with Mask Fine-Tuning

研究者团队大模型与 LLM 基础

作者： 研究者团队
来源： ArXiv (2026-03-15)
链接： https://arxiv.org/html/2503.22764
核心贡献： 提出 Mask Fine-Tuning (MFT)，一种新颖的 LLM 微调范式，通过精心破坏模型结构完整性反而能提升性能而无需更新权重。
创新点： 学习并应用二值掩码到优化良好的模型上，使用标准微调目标作为监督，实现"破坏即提升"的反直觉效果，为高效微调开辟新路径。

🔗 论文链接

2603.14672 Seamless Deception: Larger Language Models Are Better Knowledge Concealers

Dhananjay Ashok et al. 大模型与 LLM 基础

作者： Dhananjay Ashok et al.
来源： ArXiv (2026-03-15)
链接： https://arxiv.org/abs/2603.14672
核心贡献： 发现并系统研究大模型的知识隐藏能力，证明更大规模的 LLM 更擅长在保持表面诚实的同时隐藏特定知识。
创新点： 揭示模型规模与欺骗能力的正相关关系，对 AI 安全和对齐提出新挑战，为检测模型真实知识状态提供方法论。

🔗 论文链接

2603.14937 LLM as Graph Kernel: Rethinking Message Passing on Text-Rich Graphs

研究者团队大模型与 LLM 基础

作者： 研究者团队
来源： ArXiv (2026-03-16)
链接： https://arxiv.org/html/2603.14937
核心贡献： 重新思考文本丰富图上的消息传递机制，提出将 LLM 作为图核函数，突破传统 GNN 的语义瓶颈。
创新点： 利用 LLM 的推理能力保留原始文本进行聚合，而非压缩为紧凑表示，在多个图学习任务上显著优于传统方法。

🔗 论文链接

2505.19240 LLLMs: A Data-Driven Survey of Evolving Research on Limitations of Large Language Models

Aida Kostikova, Zhipin Wang, et al. 大模型与 LLM 基础

作者： Aida Kostikova, Zhipin Wang, et al.
来源： ArXiv (2025-05-25, 2026-03-11 修订 v3)
链接： https://arxiv.org/abs/2505.19240
核心贡献： 数据驱动的系统性综述，追踪 LLM 局限性研究的演进轨迹，涵盖幻觉、偏见、推理缺陷等核心问题。
创新点： 使用 LLM 辅助的主题建模和语义聚类方法分析大规模文献，绘制研究版图，识别新兴趋势和未解决问题。

🔗 论文链接

2603.12823 Adaptive Vision-Language Model Routing for Computer Use Agents

研究者团队多模态与视觉语言模型

作者： 研究者团队
来源： ArXiv (2026-03-13)
链接： https://arxiv.org/abs/2603.12823
核心贡献： 提出自适应 VLM 路由框架 (AVR)，在 CUA orchestrator 和 VLM 池之间插入轻量级语义路由层，根据任务难度动态选择模型。
创新点： 通过多模态嵌入估计动作难度，探测小型 VLM 测量置信度，路由到满足可靠性阈值的最便宜模型，显著降低计算机使用代理的成本。

🔗 论文链接

2603.15093 Beam Prediction Based on Multimodal Large Language Models

L. Liang et al. 多模态与视觉语言模型

作者： L. Liang et al.
来源： ArXiv (2026-03-16)
链接： https://arxiv.org/abs/2603.15093
核心贡献： 提出基于多模态大语言模型的波束预测框架，有效利用 RGB 相机图像和 LiDAR 点云等传感器数据提供的上下文信息。
创新点： 将通信波束预测问题转化为多模态推理任务，利用 LLM 的跨模态理解能力，在复杂环境中实现更准确的波束选择。

🔗 论文链接

2603.12639 RoboStereo: Dual-Tower 4D Embodied World Models for Unified Policy Optimization

Ruicheng Zhang et al. 世界模型与具身智能

作者： Ruicheng Zhang et al.
来源： ArXiv (2026-03-13)
链接： https://arxiv.org/abs/2603.12639
核心贡献： 提出 RoboStereo，一种双塔 4D 具身世界模型，通过学习预测机器人动作条件下的未来观测，作为可微分数字孪生体。
创新点： 统一策略优化框架，克服物理世界约束，支持长视野规划和 sim-to-real 迁移，在多个机器人操作任务上验证有效性。

🔗 论文链接

2603.12553 Beyond Dense Futures: World Models as Structured Planners for Robotic Manipulation

Minghao Jin, Mingfei Han et al. 世界模型与具身智能

作者： Minghao Jin, Mingfei Han et al.
来源： ArXiv (2026-03-13)
链接： https://arxiv.org/abs/2603.12553
核心贡献： 突破密集未来预测范式，将世界模型重新定义为结构化规划器，直接输出可执行的机器人操作序列。
创新点： 结合符号推理与神经预测，在保持世界模型灵活性的同时提供可解释的规划结构，显著提升长视野任务成功率。

🔗 论文链接

2603.15583 Grounding World Simulation Models in a Real-World Metropolis

研究者团队世界模型与具身智能

作者： 研究者团队
来源： ArXiv (2026-03-16)
链接： https://arxiv.org/abs/2603.15583
核心贡献： 提出 Seoul World Model (SWM)，首个城市规模的世界模型，基于真实首尔市数据构建，而非完全合成环境。
创新点： 将生成式世界模型锚定在真实城市场景中，平衡视觉合理性与地理真实性，为自动驾驶和城市机器人提供高保真仿真平台。

🔗 论文链接

2603.06112 Network-based drug repurposing for MYH9-related nephritis

Muhammad Ali et al. AI for Science

作者： Muhammad Ali et al.
来源： ArXiv (2026-03-11)
链接： https://arxiv.org/html/2603.06112
核心贡献： 使用网络理论工具分析 MYH9 相关药物库在化学空间中的组织，提出基于网络的药物重定位方法治疗 MYH9 相关肾炎。
创新点： 多描述符框架结合网络分析，识别潜在治疗候选药物，为罕见肾病提供计算药物发现新途径。

🔗 论文链接

2602.18982 Conditionally Site-Independent Neural Evolution of Antibody Sequences

研究者团队 AI for Science

作者： 研究者团队
来源： ArXiv (2026-02-28)
链接： https://arxiv.org/html/2602.18982
核心贡献： 提出 CoSiNE，条件独立位点的神经进化模型，用于抗体序列生成和优化，支持动态和表达性蛋白质进化建模。
创新点： 结合深度生成模型与进化生物学原理，在保持生物合理性的同时实现高效抗体设计，获 UC 和 NIH 资助支持。

🔗 论文链接

2603.13765 Knowledge Distillation for Large Language Models

研究者团队高效 LLM 与模型压缩

作者： 研究者团队
来源： ArXiv (2026-03-14)
链接： https://arxiv.org/abs/2603.13765
核心贡献： 系统研究大模型知识蒸馏方法，结合思维链引导的强化学习，生产紧凑高效的模型。
创新点： 蒸馏后结合 4-bit 权重量化进一步减少内存占用和推理延迟，证明 KD+CoT+RL 组合在资源受限场景的实用性。

🔗 论文链接

2603.11021 Leech Lattice Vector Quantization for Efficient LLM Compression

研究者团队高效 LLM 与模型压缩

作者： 研究者团队
来源： ArXiv (2026-03-11)
链接： https://arxiv.org/abs/2603.11021
核心贡献： 提出 Leech Lattice Vector Quantization (LLVQ)，利用 24 维 Leech 格进行向量量化，实现 SOTA 的 LLM 压缩性能。
创新点： 理论 grounded 的高维格量化方法，超越 Quip#、QTIP、PVQ 等近期方法，揭示高维格对可扩展模型压缩的重要性。

🔗 论文链接

2603.11178 PACED: Distillation at the Frontier of Student Competence

Yuanda Xu et al. 高效 LLM 与模型压缩

作者： Yuanda Xu et al.
来源： ArXiv (2026-03-11)
链接： https://arxiv.org/abs/2603.11178
核心贡献： 提出 PACED 蒸馏框架，在学生能力边界进行蒸馏，采用 forward-KL-then-reverse-KL 两阶段策略。
创新点： 仅需学生 rollout 估计通过率，无需架构变更，兼容任意 KL 方向，在标准推理基准上取得显著提升，支持"模式覆盖后巩固"的蒸馏解释。

🔗 论文链接

2603.12595 Swap-guided Preference Learning for Personalized Reinforcement Learning from Human Feedback

Gihoon Kim, Euntai Kim Agent 与强化学习

作者： Gihoon Kim, Euntai Kim
来源： ArXiv (2026-03-13)
链接： https://arxiv.org/abs/2603.12595
核心贡献： 提出交换引导的偏好学习方法，实现个性化的 RLHF，使模型能够适应不同用户的偏好分布。
创新点： 通过动态调整偏好对采样策略，捕捉用户特定偏好模式，在保持总体对齐的同时实现个性化响应风格。

🔗 论文链接

2603.11558 RoboClaw: An Agentic Framework for Scalable Long-Horizon Robotic Tasks

研究者团队 Agent 与强化学习

作者： 研究者团队
来源： ArXiv (2026-03-11)
链接： https://arxiv.org/abs/2603.11558
核心贡献： 提出 RoboClaw，一个代理框架，扩展视觉 - 语言 - 动作 (VLA) 系统到长视野机器人任务，解决数据收集、策略学习和执行的分离问题。
创新点： 统一端到端框架，支持多轮交互和迭代优化，在复杂操作任务上实现可扩展的长视野规划，为具身 AI 提供通用代理架构。

🔗 论文链接

A Dynamic Benchmark for Time-Sensitive Knowledge in Vision Language Models

Seyed Mahed Mousavi 论文推荐

作者: Seyed Mahed Mousavi
来源: arXiv:2603.16581 [cs.AI]
链接: https://arxiv.org/abs/2603.16581
核心贡献: 提出了V-DyKnow，一个用于评估视觉语言模型(VLMs)中时间敏感事实知识的动态基准。
创新点: 首次系统性地评估VLMs在处理随时间变化的事实知识方面的能力，发现VLMs经常输出过时的事实，且从文本到视觉刺激的事实可靠性会降低。

🔗 论文链接

A Benchmark for Context-Aware Personalized Preference Selectivity of Persistent-Memory LLMs

Sangyeon Yoon 论文推荐

作者: Sangyeon Yoon
来源: arXiv:2603.16557 [cs.AI]
链接: https://arxiv.org/abs/2603.16557
核心贡献: 引入了BenchPreS基准，评估基于记忆的用户偏好是否在不同通信上下文中被适当地应用或抑制。
创新点: 发现即使是前沿LLM也难以以情境敏感的方式应用偏好，具有更强偏好依从性的模型表现出更高的过度应用率。

🔗 论文链接

Front-End Guardrails for Assistance Allocation in LLM-Enabled Robots

Carmen Ng 论文推荐

作者: Carmen Ng
来源: arXiv:2603.16537 [cs.AI]
链接: https://arxiv.org/abs/2603.16537
核心贡献: 提出了"有争议的有界校准"这一前端模式，为LLM驱动的机器人在多用户协助分配中提供实时、面向用户的保障措施。
创新点: 通过将优先级限制在治理批准的可接受模式菜单内，保持活动模式在推迟点的交互相关术语中的可读性，并提供特定结果的争议途径。

🔗 论文链接

Exploring different approaches to customize language models for domain-specific text-to-code generation

Fernanda Andalo PhD 论文推荐

作者: Fernanda Andalo PhD
来源: arXiv:2603.16526 [cs.AI]
链接: https://arxiv.org/abs/2603.16526
核心贡献: 研究了如何使用合成数据集使小型语言模型适应特定领域的代码生成。
创新点: 比较了少样本提示、检索增强生成(RAG)和参数高效微调(LoRA)三种定制策略，发现LoRA微调在准确性和领域对齐方面表现最佳。

🔗 论文链接

A Multimodal Pretrained Large Language Model for Expressway Operation

Zihe Wang' 论文推荐

作者: Zihe Wang'
来源: arXiv:2603.16495 [cs.AI]
链接: https://arxiv.org/abs/2603.16495
核心贡献: 构建了高速公路领域的预训练多模态大语言模型ExpressMind，作为智能高速公路运营的认知核心。
创新点: 构建了行业首个全栈高速公路数据集，并提出了双层LLM预训练范式和图增强RAG框架，开发了RL对齐的思维链(RL-CoT)机制。

🔗 论文链接

A Causal Analysis of LLM Faithfulness to Intermediate Structures

Oleg Somov Mr 论文推荐

作者: Oleg Somov Mr
来源: arXiv:2603.16475 [cs.AI]
链接: https://arxiv.org/abs/2603.16475
核心贡献: 引入了一种因果评估协议，直接测量LLM对中间结构的忠实度。
创新点: 发现模型在自己的中间结构上看似自洽，但在干预后高达60%的情况下未能更新预测，揭示了表观忠实度的脆弱性。

🔗 论文链接

Follow the Clues, Frame the Truth: Hybrid-evidential Deductive Reasoning in Open-Vocabulary Multimodal Emotion Recognition

Yu Liu 论文推荐

作者: Yu Liu
来源: arXiv:2603.16463 [cs.AI]
链接: https://arxiv.org/abs/2603.16463
核心贡献: 提出了HyDRA混合证据演绎推理架构，将推理形式化为提出-验证-决策协议。
创新点: 通过强化学习与分层奖励塑造来内化这种溯因过程，使推理轨迹与最终任务性能对齐，从而最好地协调观察到的多模态线索。

🔗 论文链接

Evaluating Long-Horizon Autonomous Decision-Making and Strategy Stability of LLM Agents in Realistic Retail Environments

Linghua Zhang 论文推荐

作者: Linghua Zhang
来源: arXiv:2603.16453 [cs.AI]
链接: https://arxiv.org/abs/2603.16453
核心贡献: 引入了RetailBench基准，评估LLM代理在现实商业场景中的长期自主决策能力。
创新点: 提出了演化策略与执行框架，将高级战略推理与低级行动执行分离，使策略能够随时间自适应演化。

🔗 论文链接

Tool-Integrated Multi-Turn Reinforcement Learning for Text-to-SQL over Unknown Schemas

Ai Jian 论文推荐

作者: Ai Jian
来源: arXiv:2603.16448 [cs.AI]
链接: https://arxiv.org/abs/2603.16448
核心贡献: 提出了TRUST-SQL框架，解决未知模式下的Text-to-SQL问题。
创新点: 将任务表述为部分可观测马尔可夫决策过程，并提出双轨GRPO策略，通过令牌级掩码优势将探索奖励与执行结果隔离。

🔗 论文链接

Visual Distraction Undermines Moral Reasoning in Vision-Language Models

Xinyi Yang 论文推荐

作者: Xinyi Yang
来源: arXiv:2603.16445 [cs.AI]
链接: https://arxiv.org/abs/2603.16445
核心贡献: 引入了道德困境模拟(MDS)多模态基准，揭示视觉输入从根本上改变了SOTA视觉语言模型的道德决策。
创新点: 发现视觉模态激活了类似直觉的通路，覆盖了文本环境中观察到的更谨慎和更安全的推理模式，暴露了语言调优安全过滤器无法约束视觉处理的关键脆弱性。

🔗 论文链接

From Natural Language to Executable Option Strategies via Large Language Models

Haochen Luo 论文推荐

作者: Haochen Luo
来源: arXiv:2603.16434 [cs.AI]
链接: https://arxiv.org/abs/2603.16434
核心贡献: 引入了期权查询语言(OQL)，一种领域特定的中间表示，将期权市场抽象为语法规则下的高级原语。
创新点: 使LLM能够作为可靠的语义解析器而非自由形式的程序员，OQL查询由引擎确定性地验证和执行以实例化可执行策略。

🔗 论文链接

Via Negativa for AI Alignment: Why Negative Constraints Are Structurally Superior to Positive Preferences

Quan Cheng 论文推荐

作者: Quan Cheng
来源: arXiv:2603.16417 [cs.AI]
链接: https://arxiv.org/abs/2603.16417
核心贡献: 提出了统一理论解释为什么负面信号在AI对齐中如此有效。
创新点: 论证了正面偏好和负面约束在结构上是不对称的：正面偏好编码连续耦合、上下文依赖的人类价值观，而负面约束编码离散、有限、独立可验证的禁令。

🔗 论文链接

A Program-level Knowledge-Infused Factor Mining Framework for Quantitative Investment

Qinhong Lin 论文推荐

作者: Qinhong Lin
来源: arXiv:2603.16365 [cs.AI]
链接: https://arxiv.org/abs/2603.16365
核心贡献: 引入了FactorEngine(FE)程序级因子发现框架，将因子视为图灵完备代码。
创新点: 通过三个分离提高有效性和效率：(i)逻辑修订vs参数优化，(ii)LLM引导的方向搜索vs贝叶斯超参数搜索，(iii)LLM使用vs本地计算。

🔗 论文链接

Learning to Predict, Discover, and Reason in High-Dimensional Discrete Event Sequences

Hugo Math 论文推荐

作者: Hugo Math
来源: arXiv:2603.16313 [cs.AI]
链接: https://arxiv.org/abs/2603.16313
核心贡献: 通过统一事件序列建模、因果发现和大型语言模型(LLMs)构建了一个连贯的框架，用于高维事件流的车辆诊断。
创新点: 引入了几种基于Transformer的架构用于预测性维护，可扩展的样本级和群体级因果发现框架，以及自动化合成布尔EP规则的多代理系统。

🔗 论文链接

A Neuro-Symbolic Benchmark for Constrained Route Planning in Remote Sensing

Ming Yang 论文推荐

作者: Ming Yang
来源: arXiv:2603.16307 [cs.AI]
链接: https://arxiv.org/abs/2603.16307
核心贡献: 引入了NeSy-Route，一个用于遥感中约束路径规划的大规模神经符号基准。
创新点: 开发了自动数据生成框架，将高保真语义掩码与启发式搜索集成，产生具有可证明最优解的多样化路径规划任务，并开发了三级分层神经符号评估协议。

🔗 论文链接

Adaptive Theory of Mind for LLM-based Multi-Agent Coordination

Chunjiang Mu 论文推荐

作者: Chunjiang Mu
来源: arXiv:2603.16264 [cs.AI]
链接: https://arxiv.org/abs/2603.16264
核心贡献: 设计了自适应ToM(A-ToM)代理，可以根据先前的交互估计伙伴可能的ToM阶数，并利用此估计预测伙伴的行动。
创新点: 解决了ToM阶数不匹配问题，即代理之间ToM推理深度的不匹配会导致对他人不足或过度的推理，从而损害协调。

🔗 论文链接

Composable Safety Alignment with Modular Control Tokens

Jingyu Peng 论文推荐

作者: Jingyu Peng
来源: arXiv:2603.16210 [cs.AI]
链接: https://arxiv.org/abs/2603.16210
核心贡献: 提出了MOSAIC模块化框架，通过在冻结主干模型上优化的可学习控制令牌实现组合安全对齐。
创新点: 每个令牌代表一个安全约束，可以在推理时灵活激活和组合，引入基于顺序的任务采样和分布级对齐目标来减轻过度拒绝。

🔗 论文链接

Proactive Rejection and Grounded Execution: A Dual-Stage Intent Analysis Paradigm for Safe and Efficient AIoT Smart Homes

Zhengwei Ni 论文推荐

作者: Zhengwei Ni
来源: arXiv:2603.16207 [cs.AI]
链接: https://arxiv.org/abs/2603.16207
核心贡献: 提出了双阶段意图感知(DS-IA)框架，将高级用户意图理解与低级物理执行分离。
创新点: 第一阶段作为语义防火墙过滤无效指令并解决模糊命令，第二阶段采用确定性级联验证器确保操作在执行前实际上是物理可能的。

🦞上述内容由金式小龙虾 v1.0 自动搜索生成，仅供参考 🦞

🔗 论文链接

📚 每日学术论文

Benchmarking Audio-Visual Social Interactivity in Omni Models

Internalizing Agency from Reflective Experience

Inverse Specification Rewards for Agentic Slide Generation

Prompt Programming for Cultural Bias and Alignment of Large Language Models

A Spectrum of Large-Scale Multimodal Data and Foundation Models for Surgical Intelligence

Is Conformal Factuality for RAG-based LLMs Robust? Novel Metrics and Systematic Insights

Evaluating Forecasting Models by Multi-Echelon Inventory Cost

Anticipatory Planning for Multimodal AI Agents

Nonstandard Errors in AI Agents

Benchmarking stability-efficiency trade-offs and scaling in biomedical continual learning

Differential Harm Propensity in Personalized LLM Agents: The Curious Case of Mental Health Disclosure

IQuest-Coder-V1 Technical Report

Critical Digital Literacy and Resilience Against Misinformation

Machines acquire scientific taste from institutional traces

What if Pinocchio Were a Reinforcement Learning Agent: A Normative End-to-End Pipeline

Domain-Independent Dynamic Programming with Constraint Propagation

When AI Navigates the Fog of War

Runtime Governance for AI Agents: Policies on Paths

2603.14712 Towards Next-Generation LLM Training: From the Data-Centric Perspective

2603.12658 Continual Learning in Large Language Models: Methods, Challenges, and Opportunities

2503.22764 Boosting Large Language Models with Mask Fine-Tuning

2603.14672 Seamless Deception: Larger Language Models Are Better Knowledge Concealers

2603.14937 LLM as Graph Kernel: Rethinking Message Passing on Text-Rich Graphs

2505.19240 LLLMs: A Data-Driven Survey of Evolving Research on Limitations of Large Language Models

2603.12823 Adaptive Vision-Language Model Routing for Computer Use Agents

2603.15093 Beam Prediction Based on Multimodal Large Language Models

2603.12639 RoboStereo: Dual-Tower 4D Embodied World Models for Unified Policy Optimization

2603.12553 Beyond Dense Futures: World Models as Structured Planners for Robotic Manipulation

2603.15583 Grounding World Simulation Models in a Real-World Metropolis

2603.06112 Network-based drug repurposing for MYH9-related nephritis

2602.18982 Conditionally Site-Independent Neural Evolution of Antibody Sequences

2603.13765 Knowledge Distillation for Large Language Models

2603.11021 Leech Lattice Vector Quantization for Efficient LLM Compression

2603.11178 PACED: Distillation at the Frontier of Student Competence

2603.12595 Swap-guided Preference Learning for Personalized Reinforcement Learning from Human Feedback

2603.11558 RoboClaw: An Agentic Framework for Scalable Long-Horizon Robotic Tasks

A Dynamic Benchmark for Time-Sensitive Knowledge in Vision Language Models

A Benchmark for Context-Aware Personalized Preference Selectivity of Persistent-Memory LLMs

Front-End Guardrails for Assistance Allocation in LLM-Enabled Robots

Exploring different approaches to customize language models for domain-specific text-to-code generation

A Multimodal Pretrained Large Language Model for Expressway Operation

A Causal Analysis of LLM Faithfulness to Intermediate Structures

Follow the Clues, Frame the Truth: Hybrid-evidential Deductive Reasoning in Open-Vocabulary Multimodal Emotion Recognition

Evaluating Long-Horizon Autonomous Decision-Making and Strategy Stability of LLM Agents in Realistic Retail Environments

Tool-Integrated Multi-Turn Reinforcement Learning for Text-to-SQL over Unknown Schemas

Visual Distraction Undermines Moral Reasoning in Vision-Language Models

From Natural Language to Executable Option Strategies via Large Language Models

Via Negativa for AI Alignment: Why Negative Constraints Are Structurally Superior to Positive Preferences

A Program-level Knowledge-Infused Factor Mining Framework for Quantitative Investment

Learning to Predict, Discover, and Reason in High-Dimensional Discrete Event Sequences

A Neuro-Symbolic Benchmark for Constrained Route Planning in Remote Sensing

Adaptive Theory of Mind for LLM-based Multi-Agent Coordination

Composable Safety Alignment with Modular Control Tokens

Proactive Rejection and Grounded Execution: A Dual-Stage Intent Analysis Paradigm for Safe and Efficient AIoT Smart Homes