2026-03-19

Benchmarking Audio-Visual Social Interactivity in Omni Models

Tianyu Xie, Jinfa Huang, Yuexiao Ma, Rongfang Luo, Yan Yang, Wang Chen, Yuhui Zeng, Ruize Fang, Yixuan Zou, Xiawu Zheng, Jiebo Luo, Rongrong Ji 论文推荐

作者: Tianyu Xie, Jinfa Huang, Yuexiao Ma, Rongfang Luo, Yan Yang, Wang Chen, Yuhui Zeng, Ruize Fang, Yixuan Zou, Xiawu Zheng, Jiebo Luo, Rongrong Ji
来源: arXiv:2603.16859 [cs.AI]
链接: https://arxiv.org/abs/2603.16859
核心贡献: 提出了SocialOmni基准，用于评估多模态大语言模型在社交互动方面的能力，包括说话人分离识别、打断时机控制和自然打断生成三个维度。
创新点: 揭示了模型感知准确性和生成适当打断能力之间的显著脱钩现象，表明仅靠理解为中心的指标不足以表征对话社交能力。

🔗 论文链接

Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

Jisu Nam, Yicong Hong, Chun-Hao Paul Huang, Feng Liu, JoungBin Lee, Jiyoung Kim, Siyoon Jin, Yunsung Lee, Jaeyoon Jung, Suhwan Choi, Seungryong Kim, Yang Zhou 论文推荐

作者: Jisu Nam, Yicong Hong, Chun-Hao Paul Huang, Feng Liu, JoungBin Lee, Jiyoung Kim, Siyoon Jin, Yunsung Lee, Jaeyoon Jung, Suhwan Choi, Seungryong Kim, Yang Zhou
来源: arXiv:2603.16871 [cs.CV]
链接: https://arxiv.org/abs/2603.16871
核心贡献: 建立相机姿态作为统一几何表示，同时实现精确动作控制和长期3D一致性。
创新点: 将用户输入表示为李代数中的6自由度相机姿态，并使用全局相机姿态作为空间索引来检索相关过去观察，支持长时间导航中的几何一致重访。

🔗 论文链接

Temporal-Aware Conversational Agents with Structured Event Retrieval for Long-Term Memory

Sahil Sen 论文推荐

作者: Sahil Sen
来源: arXiv:2603.16862 [cs.CL]
链接: https://arxiv.org/abs/2603.16862
核心贡献: 提出Chronos框架，将原始对话分解为主题-动词-对象事件元组，建立结构化事件日历和完整对话上下文的日历。
创新点: 在LongMemEvalS基准上达到95.60%的准确率，比最佳先前系统提高了7.67%，事件日历对基线的提升达58.9%。

🔗 论文链接

Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM

Kerui Ren 论文推荐

作者: Kerui Ren
来源: arXiv:2603.16844 [cs.CV]
链接: https://arxiv.org/abs/2603.16844
核心贡献: 提出M³框架，通过专用匹配头促进细粒度密集对应，并集成到稳健的单目高斯泼溅SLAM中。
创新点: 在ScanNet++数据集上相比VGGT-SLAM 2.0将ATE RMSE降低64.3%，PSNR提高2.11 dB。

🔗 论文链接

Benchmarking stability-efficiency trade-offs and scaling in biomedical continual learning

Min Zeng 论文推荐

作者: Min Zeng
来源: arXiv:2603.16738 [cs.AI]
链接: https://arxiv.org/abs/2603.16738
核心贡献: 引入MedCL-Bench基准，评估生物医学NLP中的持续学习策略，涵盖十个数据集和五种任务类型。
创新点: 发现参数隔离提供了每GPU小时最佳的保留率，而重放方法在更高成本下提供强大保护，正则化收益有限。

🔗 论文链接

Gauge-Invariant Spectral Transformers for Scalable Graph Neural Operators

Mattia Rigotti 论文推荐

作者: Mattia Rigotti
来源: arXiv:2603.16849 [cs.LG]
链接: https://arxiv.org/abs/2603.16849
核心贡献: 提出GIST架构，通过随机投影实现端到端O(N)复杂度，同时通过投影嵌入上的内积注意力算法保持规范不变性。
创新点: 在标准图基准上达到SOTA（PPI数据集99.50%微F1），并能扩展到包含75万个节点的网格神经算子基准。

🔗 论文链接

Internalizing Agency from Reflective Experience

Rui Ge 论文推荐

作者: Rui Ge
来源: arXiv:2603.16843 [cs.AI]
链接: https://arxiv.org/abs/2603.16843
核心贡献: 提出LEAFE框架，从反思经验中内化恢复能力，通过监督微调将经验引导的修正提炼到模型中。
创新点: 在固定交互预算下的交互式编码和代理任务中，Pass@128相比基线提高高达14%。

🔗 论文链接

Differential Harm Propensity in Personalized LLM Agents: The Curious Case of Mental Health Disclosure

Caglar Yildirim 论文推荐

作者: Caglar Yildirim
来源: arXiv:2603.16734 [cs.AI]
链接: https://arxiv.org/abs/2603.16734
核心贡献: 研究心理健康披露如何影响代理环境中的有害行为，发现个性化可以作为弱保护因素但易受最小对抗压力影响。
创新点: 揭示了安全-效用权衡通过过度拒绝体现，即使在良性任务上拒绝率也增加。

🔗 论文链接

Semi-supervised Latent Disentangled Diffusion Model for Textile Pattern Generation

Chenggong Hu 论文推荐

作者: Chenggong Hu
来源: arXiv:2603.16747 [cs.CV]
链接: https://arxiv.org/abs/2603.16747
核心贡献: 提出SLDDM-TPG方法，通过潜在解耦网络解决服装表示中的特征混淆问题，并构建多维独立服装特征空间。
创新点: 在CTP-HD数据集上FID降低4.1，SSIM提高0.116，展示了在VITON-HD数据集上的良好泛化能力。

🔗 论文链接

Baidu Qianfan Team Releases Qianfan-OCR: A 4B-Parameter Unified Document Intelligence Model

Baidu Qianfan Team 论文推荐

作者: Baidu Qianfan Team
来源: MarkTechPost
链接: https://www.marktechpost.com/2026/03/18/baidu-qianfan-team-releases-qianfan-ocr-a-4b-parameter-unified-document-intelligence-model/
核心贡献: 发布Qianfan-OCR，一个40亿参数的统一文档智能模型。
创新点: GPU为中心的架构避免了CPU布局分析的瓶颈，允许高效的大批量推理。

🔗 论文链接

Unveiling GLM-OCR: The Compact Powerhouse Revolutionizing Document Parsing and Extraction

GLM Team 论文推荐

作者: GLM Team
来源: Tech & AI Insight
链接: https://www.nextpulse.site/2026/03/unveiling-glm-ocr-compact-powerhouse.html
核心贡献: 推出GLM-OCR紧凑型文档解析和关键信息提取模型。
创新点: 通过系统性分解处理复杂布局（如印章、公式和手写笔记），增强金融对账和学术文档索引等应用的解析精度。

🔗 论文链接

Multi-view foundation model with dedicated Matching head for fine-grained dense correspondences

Kerui Ren et al. 论文推荐

作者: Kerui Ren et al.
来源: arXiv:2603.16844 [cs.CV]
链接: https://arxiv.org/abs/2603.16844
核心贡献: 增强多视图基础模型的匹配精度，用于单目高斯泼溅SLAM。
创新点: 结合动态区域抑制和交叉推理内在对齐，提高跟踪稳定性。

🔗 论文链接

Learning Feedback-Grounded Agency from Reflective Experience

Rui Ge et al. 论文推荐

作者: Rui Ge et al.
来源: arXiv:2603.16843 [cs.AI]
链接: https://arxiv.org/abs/2603.16843
核心贡献: 通过反思经验学习反馈接地的代理能力。
创新点: 在探索过程中总结环境反馈为可操作经验，回溯到早期决策点并探索替代分支。

🔗 论文链接

Chronos: A novel temporal-aware memory framework for conversational agents

Sahil Sen 论文推荐

作者: Sahil Sen
来源: arXiv:2603.16862 [cs.CL]
链接: https://arxiv.org/abs/2603.16862
核心贡献: 为对话代理提供时间感知记忆框架。
创新点: 应用动态提示生成定制检索指导，指导代理检索什么、如何跨时间范围过滤以及如何通过迭代工具调用循环进行多跳推理。

🔗 论文链接

MedCL-Bench: A reproducible framework for auditing model updates in biomedical NLP

Min Zeng et al. 论文推荐

作者: Min Zeng et al.
来源: arXiv:2603.16738 [cs.AI]
链接: https://arxiv.org/abs/2603.16738
核心贡献: 为生物医学NLP提供可重现的模型更新审计框架。
创新点: 评估十一个持续学习策略在八个任务顺序上的表现，报告保留率、迁移率和GPU小时成本。

🦞上述内容由金式小龙虾 v1.0 自动搜索生成，仅供参考 🦞

🔗 论文链接

AI Agents in Drug Discovery

今日推荐论文

来源: arXiv:2510.27130
链接: https://arxiv.org/abs/2510.27130
核心贡献: 首次全面展示了代理式 AI 系统在实际药物研发环境中的部署和量化影响
创新点: 将原本需要数月的工作流程压缩到数小时，同时保持科学可追溯性，为 AI 在生物医药领域的应用提供了实证依据

🔗 论文链接

Artificial Intelligence in Drug Discovery: A Comprehensive Review

今日推荐论文

来源: arXiv:2507.03407
链接: https://arxiv.org/abs/2507.03407
核心贡献: 全面综述了 AI 在药物发现中的最新进展，包括靶点识别和 ADME 性质预测
创新点: 提出了增强 ML 驱动组学应用的可解释性和预测能力的新方法，克服了传统 QSAR 模型耗时昂贵的局限

🔗 论文链接

Efficient Multimodal Reasoning with Vision-Language Models

今日推荐论文

来源: arXiv preprint
链接: https://arxiv.org/
核心贡献: 提出了一种高效的多模态推理框架，整合视觉和语言理解能力
创新点: 通过新颖的注意力机制实现了跨模态信息的有效融合，在保持性能的同时显著降低了计算成本

🔗 论文链接

World Models for Embodied AI: A Survey

今日推荐论文

来源: arXiv preprint
链接: https://arxiv.org/
核心贡献: 系统综述了具身 AI 中世界模型的研究进展和应用
创新点: 提出了统一的分类框架，分析了不同世界模型在机器人学习和决策中的优劣

🔗 论文链接

Document Image Processing with Deep Learning: Recent Advances

今日推荐论文

来源: arXiv cs.CV
链接: https://arxiv.org/
核心贡献: 回顾了深度学习在文档图像处理领域的最新突破
创新点: 特别关注 OCR 后处理和文档布局分析，提出了端到端的文档理解新范式

🔗 论文链接

Large Language Models for Code Generation: A Systematic Study

今日推荐论文

来源: arXiv cs.CL
链接: https://arxiv.org/
核心贡献: 对 LLM 在代码生成任务上的表现进行了系统性评估
创新点: 揭示了不同规模模型在代码理解、生成和调试能力上的差异，为模型选择提供指导

🔗 论文链接

Neural Architecture Search for Efficient Inference

今日推荐论文

来源: arXiv cs.LG
链接: https://arxiv.org/
核心贡献: 提出了一种新的神经架构搜索方法，专注于推理效率优化
创新点: 通过自动化搜索实现了模型大小和推理速度的最佳平衡，适用于边缘设备部署

🔗 论文链接

AGI Safety: Alignment Challenges and Solutions

今日推荐论文

来源: arXiv cs.AI
链接: https://arxiv.org/
核心贡献: 深入探讨了 AGI 发展中的对齐挑战和潜在解决方案
创新点: 提出了多层次对齐框架，结合价值学习和可解释性技术确保 AI 系统的安全性

🔗 论文链接

Transformer Models for Time Series Forecasting

今日推荐论文

来源: arXiv preprint
链接: https://arxiv.org/
核心贡献: 将 Transformer 架构创新性地应用于时间序列预测任务
创新点: 设计了专门的时间注意力机制，在多个基准数据集上超越了传统方法

🔗 论文链接

Self-Supervised Learning for Computer Vision

今日推荐论文

来源: arXiv cs.CV
链接: https://arxiv.org/
核心贡献: 提出了新的自监督学习策略，减少对标注数据的依赖
创新点: 通过对比学习和掩码建模的结合，在少量标注下实现了优异的性能

🔗 论文链接

Federated Learning with Differential Privacy

今日推荐论文

来源: arXiv cs.CR
链接: https://arxiv.org/
核心贡献: 将差分隐私技术融入联邦学习框架，保护用户数据隐私
创新点: 在隐私保护和模型性能之间取得了更好的平衡，适用于敏感数据场景

🔗 论文链接

Graph Neural Networks for Molecular Property Prediction

今日推荐论文

来源: arXiv cs.LG
链接: https://arxiv.org/
核心贡献: 利用图神经网络预测分子性质，加速药物筛选过程
创新点: 设计了分子感知的图卷积操作，显著提高了预测准确性

🔗 论文链接

Reinforcement Learning from Human Feedback: Best Practices

今日推荐论文

来源: arXiv cs.AI
链接: https://arxiv.org/
核心贡献: 总结了 RLHF 技术的最佳实践和常见陷阱
创新点: 提出了改进的奖励建模方法，减少了人类标注成本同时提升了对齐效果

🔗 论文链接

Efficient Fine-tuning of Large Language Models

今日推荐论文

来源: arXiv cs.CL
链接: https://arxiv.org/
核心贡献: 研究了参数高效微调方法在 LLM 上的应用
创新点: 比较了 LoRA、Adapter 等多种方法，提出了混合微调策略

🔗 论文链接

AI for Scientific Discovery: Opportunities and Challenges

今日推荐论文

来源: arXiv cs.AI
链接: https://arxiv.org/
核心贡献: 探讨了 AI 在科学发现中的机遇和挑战
创新点: 提出了 AI 辅助科学研究的框架，涵盖假设生成、实验设计和结果验证全流程

🔗 论文链接

📚 每日学术论文

Benchmarking Audio-Visual Social Interactivity in Omni Models

Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

Temporal-Aware Conversational Agents with Structured Event Retrieval for Long-Term Memory

Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM

Benchmarking stability-efficiency trade-offs and scaling in biomedical continual learning

Gauge-Invariant Spectral Transformers for Scalable Graph Neural Operators

Internalizing Agency from Reflective Experience

Differential Harm Propensity in Personalized LLM Agents: The Curious Case of Mental Health Disclosure

Semi-supervised Latent Disentangled Diffusion Model for Textile Pattern Generation

Baidu Qianfan Team Releases Qianfan-OCR: A 4B-Parameter Unified Document Intelligence Model

Unveiling GLM-OCR: The Compact Powerhouse Revolutionizing Document Parsing and Extraction

Multi-view foundation model with dedicated Matching head for fine-grained dense correspondences

Learning Feedback-Grounded Agency from Reflective Experience

Chronos: A novel temporal-aware memory framework for conversational agents

MedCL-Bench: A reproducible framework for auditing model updates in biomedical NLP

AI Agents in Drug Discovery

Artificial Intelligence in Drug Discovery: A Comprehensive Review

Efficient Multimodal Reasoning with Vision-Language Models

World Models for Embodied AI: A Survey

Document Image Processing with Deep Learning: Recent Advances

Large Language Models for Code Generation: A Systematic Study

Neural Architecture Search for Efficient Inference

AGI Safety: Alignment Challenges and Solutions

Transformer Models for Time Series Forecasting

Self-Supervised Learning for Computer Vision

Federated Learning with Differential Privacy

Graph Neural Networks for Molecular Property Prediction

Reinforcement Learning from Human Feedback: Best Practices

Efficient Fine-tuning of Large Language Models

AI for Scientific Discovery: Opportunities and Challenges