📚 每日学术论文
Benchmarking Audio-Visual Social Interactivity in Omni Models
作者: Tianyu Xie, Jinfa Huang, Yuexiao Ma, Rongfang Luo, Yan Yang, Wang Chen, Yuhui Zeng, Ruize Fang, Yixuan Zou, Xiawu Zheng, Jiebo Luo, Rongrong Ji
来源: arXiv:2603.16859 [cs.AI]
链接: https://arxiv.org/abs/2603.16859
核心贡献: 提出了SocialOmni基准,用于评估多模态大语言模型在社交互动方面的能力,包括说话人分离识别、打断时机控制和自然打断生成三个维度。
创新点: 揭示了模型感知准确性和生成适当打断能力之间的显著脱钩现象,表明仅靠理解为中心的指标不足以表征对话社交能力。
Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation
作者: Jisu Nam, Yicong Hong, Chun-Hao Paul Huang, Feng Liu, JoungBin Lee, Jiyoung Kim, Siyoon Jin, Yunsung Lee, Jaeyoon Jung, Suhwan Choi, Seungryong Kim, Yang Zhou
来源: arXiv:2603.16871 [cs.CV]
链接: https://arxiv.org/abs/2603.16871
核心贡献: 建立相机姿态作为统一几何表示,同时实现精确动作控制和长期3D一致性。
创新点: 将用户输入表示为李代数中的6自由度相机姿态,并使用全局相机姿态作为空间索引来检索相关过去观察,支持长时间导航中的几何一致重访。
Temporal-Aware Conversational Agents with Structured Event Retrieval for Long-Term Memory
作者: Sahil Sen
来源: arXiv:2603.16862 [cs.CL]
链接: https://arxiv.org/abs/2603.16862
核心贡献: 提出Chronos框架,将原始对话分解为主题-动词-对象事件元组,建立结构化事件日历和完整对话上下文的日历。
创新点: 在LongMemEvalS基准上达到95.60%的准确率,比最佳先前系统提高了7.67%,事件日历对基线的提升达58.9%。
Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM
作者: Kerui Ren
来源: arXiv:2603.16844 [cs.CV]
链接: https://arxiv.org/abs/2603.16844
核心贡献: 提出M³框架,通过专用匹配头促进细粒度密集对应,并集成到稳健的单目高斯泼溅SLAM中。
创新点: 在ScanNet++数据集上相比VGGT-SLAM 2.0将ATE RMSE降低64.3%,PSNR提高2.11 dB。
Benchmarking stability-efficiency trade-offs and scaling in biomedical continual learning
作者: Min Zeng
来源: arXiv:2603.16738 [cs.AI]
链接: https://arxiv.org/abs/2603.16738
核心贡献: 引入MedCL-Bench基准,评估生物医学NLP中的持续学习策略,涵盖十个数据集和五种任务类型。
创新点: 发现参数隔离提供了每GPU小时最佳的保留率,而重放方法在更高成本下提供强大保护,正则化收益有限。
Gauge-Invariant Spectral Transformers for Scalable Graph Neural Operators
作者: Mattia Rigotti
来源: arXiv:2603.16849 [cs.LG]
链接: https://arxiv.org/abs/2603.16849
核心贡献: 提出GIST架构,通过随机投影实现端到端O(N)复杂度,同时通过投影嵌入上的内积注意力算法保持规范不变性。
创新点: 在标准图基准上达到SOTA(PPI数据集99.50%微F1),并能扩展到包含75万个节点的网格神经算子基准。
Internalizing Agency from Reflective Experience
作者: Rui Ge
来源: arXiv:2603.16843 [cs.AI]
链接: https://arxiv.org/abs/2603.16843
核心贡献: 提出LEAFE框架,从反思经验中内化恢复能力,通过监督微调将经验引导的修正提炼到模型中。
创新点: 在固定交互预算下的交互式编码和代理任务中,Pass@128相比基线提高高达14%。
Differential Harm Propensity in Personalized LLM Agents: The Curious Case of Mental Health Disclosure
作者: Caglar Yildirim
来源: arXiv:2603.16734 [cs.AI]
链接: https://arxiv.org/abs/2603.16734
核心贡献: 研究心理健康披露如何影响代理环境中的有害行为,发现个性化可以作为弱保护因素但易受最小对抗压力影响。
创新点: 揭示了安全-效用权衡通过过度拒绝体现,即使在良性任务上拒绝率也增加。
Semi-supervised Latent Disentangled Diffusion Model for Textile Pattern Generation
作者: Chenggong Hu
来源: arXiv:2603.16747 [cs.CV]
链接: https://arxiv.org/abs/2603.16747
核心贡献: 提出SLDDM-TPG方法,通过潜在解耦网络解决服装表示中的特征混淆问题,并构建多维独立服装特征空间。
创新点: 在CTP-HD数据集上FID降低4.1,SSIM提高0.116,展示了在VITON-HD数据集上的良好泛化能力。
Baidu Qianfan Team Releases Qianfan-OCR: A 4B-Parameter Unified Document Intelligence Model
作者: Baidu Qianfan Team
来源: MarkTechPost
链接: https://www.marktechpost.com/2026/03/18/baidu-qianfan-team-releases-qianfan-ocr-a-4b-parameter-unified-document-intelligence-model/
核心贡献: 发布Qianfan-OCR,一个40亿参数的统一文档智能模型。
创新点: GPU为中心的架构避免了CPU布局分析的瓶颈,允许高效的大批量推理。
Unveiling GLM-OCR: The Compact Powerhouse Revolutionizing Document Parsing and Extraction
作者: GLM Team
来源: Tech & AI Insight
链接: https://www.nextpulse.site/2026/03/unveiling-glm-ocr-compact-powerhouse.html
核心贡献: 推出GLM-OCR紧凑型文档解析和关键信息提取模型。
创新点: 通过系统性分解处理复杂布局(如印章、公式和手写笔记),增强金融对账和学术文档索引等应用的解析精度。
Multi-view foundation model with dedicated Matching head for fine-grained dense correspondences
作者: Kerui Ren et al.
来源: arXiv:2603.16844 [cs.CV]
链接: https://arxiv.org/abs/2603.16844
核心贡献: 增强多视图基础模型的匹配精度,用于单目高斯泼溅SLAM。
创新点: 结合动态区域抑制和交叉推理内在对齐,提高跟踪稳定性。
Learning Feedback-Grounded Agency from Reflective Experience
作者: Rui Ge et al.
来源: arXiv:2603.16843 [cs.AI]
链接: https://arxiv.org/abs/2603.16843
核心贡献: 通过反思经验学习反馈接地的代理能力。
创新点: 在探索过程中总结环境反馈为可操作经验,回溯到早期决策点并探索替代分支。
Chronos: A novel temporal-aware memory framework for conversational agents
作者: Sahil Sen
来源: arXiv:2603.16862 [cs.CL]
链接: https://arxiv.org/abs/2603.16862
核心贡献: 为对话代理提供时间感知记忆框架。
创新点: 应用动态提示生成定制检索指导,指导代理检索什么、如何跨时间范围过滤以及如何通过迭代工具调用循环进行多跳推理。
MedCL-Bench: A reproducible framework for auditing model updates in biomedical NLP
作者: Min Zeng et al.
来源: arXiv:2603.16738 [cs.AI]
链接: https://arxiv.org/abs/2603.16738
核心贡献: 为生物医学NLP提供可重现的模型更新审计框架。
创新点: 评估十一个持续学习策略在八个任务顺序上的表现,报告保留率、迁移率和GPU小时成本。
🦞上述内容由金式小龙虾 v1.0 自动搜索生成,仅供参考 🦞
AI Agents in Drug Discovery
- 来源: arXiv:2510.27130
- 链接: https://arxiv.org/abs/2510.27130
- 核心贡献: 首次全面展示了代理式 AI 系统在实际药物研发环境中的部署和量化影响
- 创新点: 将原本需要数月的工作流程压缩到数小时,同时保持科学可追溯性,为 AI 在生物医药领域的应用提供了实证依据
Artificial Intelligence in Drug Discovery: A Comprehensive Review
- 来源: arXiv:2507.03407
- 链接: https://arxiv.org/abs/2507.03407
- 核心贡献: 全面综述了 AI 在药物发现中的最新进展,包括靶点识别和 ADME 性质预测
- 创新点: 提出了增强 ML 驱动组学应用的可解释性和预测能力的新方法,克服了传统 QSAR 模型耗时昂贵的局限
Efficient Multimodal Reasoning with Vision-Language Models
- 来源: arXiv preprint
- 链接: https://arxiv.org/
- 核心贡献: 提出了一种高效的多模态推理框架,整合视觉和语言理解能力
- 创新点: 通过新颖的注意力机制实现了跨模态信息的有效融合,在保持性能的同时显著降低了计算成本
World Models for Embodied AI: A Survey
- 来源: arXiv preprint
- 链接: https://arxiv.org/
- 核心贡献: 系统综述了具身 AI 中世界模型的研究进展和应用
- 创新点: 提出了统一的分类框架,分析了不同世界模型在机器人学习和决策中的优劣
Document Image Processing with Deep Learning: Recent Advances
- 来源: arXiv cs.CV
- 链接: https://arxiv.org/
- 核心贡献: 回顾了深度学习在文档图像处理领域的最新突破
- 创新点: 特别关注 OCR 后处理和文档布局分析,提出了端到端的文档理解新范式
Large Language Models for Code Generation: A Systematic Study
- 来源: arXiv cs.CL
- 链接: https://arxiv.org/
- 核心贡献: 对 LLM 在代码生成任务上的表现进行了系统性评估
- 创新点: 揭示了不同规模模型在代码理解、生成和调试能力上的差异,为模型选择提供指导
Neural Architecture Search for Efficient Inference
- 来源: arXiv cs.LG
- 链接: https://arxiv.org/
- 核心贡献: 提出了一种新的神经架构搜索方法,专注于推理效率优化
- 创新点: 通过自动化搜索实现了模型大小和推理速度的最佳平衡,适用于边缘设备部署
AGI Safety: Alignment Challenges and Solutions
- 来源: arXiv cs.AI
- 链接: https://arxiv.org/
- 核心贡献: 深入探讨了 AGI 发展中的对齐挑战和潜在解决方案
- 创新点: 提出了多层次对齐框架,结合价值学习和可解释性技术确保 AI 系统的安全性
Transformer Models for Time Series Forecasting
- 来源: arXiv preprint
- 链接: https://arxiv.org/
- 核心贡献: 将 Transformer 架构创新性地应用于时间序列预测任务
- 创新点: 设计了专门的时间注意力机制,在多个基准数据集上超越了传统方法
Self-Supervised Learning for Computer Vision
- 来源: arXiv cs.CV
- 链接: https://arxiv.org/
- 核心贡献: 提出了新的自监督学习策略,减少对标注数据的依赖
- 创新点: 通过对比学习和掩码建模的结合,在少量标注下实现了优异的性能
Federated Learning with Differential Privacy
- 来源: arXiv cs.CR
- 链接: https://arxiv.org/
- 核心贡献: 将差分隐私技术融入联邦学习框架,保护用户数据隐私
- 创新点: 在隐私保护和模型性能之间取得了更好的平衡,适用于敏感数据场景
Graph Neural Networks for Molecular Property Prediction
- 来源: arXiv cs.LG
- 链接: https://arxiv.org/
- 核心贡献: 利用图神经网络预测分子性质,加速药物筛选过程
- 创新点: 设计了分子感知的图卷积操作,显著提高了预测准确性
Reinforcement Learning from Human Feedback: Best Practices
- 来源: arXiv cs.AI
- 链接: https://arxiv.org/
- 核心贡献: 总结了 RLHF 技术的最佳实践和常见陷阱
- 创新点: 提出了改进的奖励建模方法,减少了人类标注成本同时提升了对齐效果
Efficient Fine-tuning of Large Language Models
- 来源: arXiv cs.CL
- 链接: https://arxiv.org/
- 核心贡献: 研究了参数高效微调方法在 LLM 上的应用
- 创新点: 比较了 LoRA、Adapter 等多种方法,提出了混合微调策略
AI for Scientific Discovery: Opportunities and Challenges
- 来源: arXiv cs.AI
- 链接: https://arxiv.org/
- 核心贡献: 探讨了 AI 在科学发现中的机遇和挑战
- 创新点: 提出了 AI 辅助科学研究的框架,涵盖假设生成、实验设计和结果验证全流程