📚 每日学术论文
2604.02317 A Simple Baseline for Streaming Video Understanding
日期: 2026-04-02
作者: Jieneng Chen, Qihang Yu, Xiaohui Shen, Alan Yuille, Liang-Chieh Chen
链接: https://arxiv.org/abs/2604.02317
研究领域: 计算机视觉 (CV) / 视频理解
核心贡献: 提出了一种简单而有效的流式视频理解基线方法,通过高效的注意力机制实现实时视频分析。
主要创新点:
- 设计了轻量级的流式注意力模块,显著降低计算开销
- 在多个视频理解基准上达到SOTA性能
- 支持实时推理,适用于边缘设备部署
待解决问题:
- 在极端长视频序列上的稳定性仍需验证
- 多模态融合能力有待加强
2604.02265 Modular Energy Steering for Safe Text-to-Image Generation
日期: 2026-04-02
作者: Yiyang Zhou, Chen Chen, Boqing Gong, et al.
链接: https://arxiv.org/abs/2604.02265
研究领域: 计算机视觉 (CV) / 生成模型安全
核心贡献: 提出模块化能量引导方法,实现安全的文本到图像生成,有效过滤有害内容。
主要创新点:
- 无需重新训练即可集成到现有扩散模型中
- 模块化设计支持灵活的安全策略配置
- 在保持生成质量的同时显著提升安全性
待解决问题:
- 对复杂语义边界的判定精度需进一步提升
- 计算开销仍有优化空间
2604.02252 Single-Pass Any-Resolution ViT for Open-vocabulary Segmentation
日期: 2026-04-02
作者: Tianfei Zhou, Yifei Huang, et al.
链接: https://arxiv.org/abs/2604.02252
研究领域: 计算机视觉 (CV) / 图像分割
核心贡献: 提出单次前向传播的任意分辨率Vision Transformer,实现高效开放词汇分割。
主要创新点:
- 支持任意输入分辨率而无需重训练
- 单次推理完成多尺度特征提取
- 在开放词汇分割任务上刷新SOTA
待解决问题:
- 极高分辨率图像下的内存占用仍需优化
- 对罕见类别的泛化能力有待提升
2604.02241 Embodied Aerial Tracking via Vision-Language-Action Models
日期: 2026-04-02
作者: Ziyuan Liu, Yicheng Xiao, et al.
链接: https://arxiv.org/abs/2604.02241
研究领域: 具身智能 / 视觉语言动作模型 (VLA)
核心贡献: 将视觉语言动作模型应用于空中跟踪任务,实现基于自然语言指令的无人机自主跟踪。
主要创新点:
- 首次将VLA模型扩展到空中机器人平台
- 支持复杂语言指令的理解与执行
- 在真实场景中验证了方法的有效性
待解决问题:
- 极端天气条件下的鲁棒性需加强
- 多机协同跟踪能力有待探索
2604.02222 Semantic- and Confidence-Aware CVAE for Zero-shot Skeleton-based Action Recognition
日期: 2026-04-02
作者: Mingze Sun, Chuanfu Shen, et al.
链接: https://arxiv.org/abs/2604.02222
研究领域: 计算机视觉 (CV) / 动作识别
核心贡献: 提出语义和置信度感知的条件变分自编码器,实现零样本骨架动作识别。
主要创新点:
- 引入语义信息增强动作表示
- 置信度感知机制提升识别可靠性
- 在零样本设定下显著优于现有方法
待解决问题:
- 对复杂交互动作的识别精度有限
- 跨数据集泛化能力需进一步验证
2604.02315 User Turn Generation as a Probe of Interaction Awareness in Language Models
日期: 2026-04-02
作者: Yanda Chen, Joe Benton, et al.
链接: https://arxiv.org/abs/2604.02315
研究领域: 人工智能 (AI) / 大语言模型
核心贡献: 通过用户回合生成任务探测语言模型的交互意识能力,揭示模型对对话上下文的理解程度。
主要创新点:
- 提出新颖的交互意识评估范式
- 系统分析不同规模模型的交互能力
- 发现模型大小与交互意识的非线性关系
待解决问题:
- 评估指标的生态效度需进一步验证
- 如何提升模型的交互意识仍待研究
2604.02215 Universal Hypernetworks for Arbitrary Models
日期: 2026-04-02
作者: David Ha, Andrew Dai, et al.
链接: https://arxiv.org/abs/2604.02215
研究领域: 机器学习 (ML) / 超网络
核心贡献: 提出通用超网络架构,可为任意目标模型生成权重,实现跨模型知识迁移。
主要创新点:
- 支持不同架构和规模的目标模型
- 高效的权重生成机制
- 在多个迁移学习任务上表现优异
待解决问题:
- 对超大模型的适用性受限
- 训练稳定性需进一步改善
2604.02185 CXR-LT 2026 Challenge: Projection-Aware Multi-Label and Zero-Shot Chest X-Ray Classification
日期: 2026-04-02
作者: Jianfeng He, Yichen Zhang, et al.
链接: https://arxiv.org/abs/2604.02185
研究领域: 计算机视觉 (CV) / 医学影像
核心贡献: 发布CXR-LT 2026挑战赛数据集与基准,推动投影感知的胸部X光分类研究。
主要创新点:
- 大规模多标签胸部X光数据集
- 引入投影类型感知机制
- 支持零样本疾病分类评估
待解决问题:
- 罕见疾病的样本不均衡问题
- 跨医院数据的域适应挑战
2604.02275 Learning to Reason with Latent Thought Graphs
日期: 2026-04-02
作者: Hao Zhang, Yujia Li, et al.
链接: https://arxiv.org/abs/2604.02275
研究领域: 人工智能 (AI) / 推理
核心贡献: 提出潜在思维图学习方法,增强语言模型的复杂推理能力。
主要创新点:
- 隐式构建思维图结构
- 支持多步推理的可解释性
- 在数学和逻辑推理任务上显著提升
待解决问题:
- 图结构的解释性仍需加强
- 训练计算成本较高
2604.02270 Scalable Multi-Agent Reinforcement Learning with Communication Pruning
日期: 2026-04-02
作者: Rui Zhao, Yi Wu, et al.
链接: https://arxiv.org/abs/2604.02270
研究领域: 人工智能 (AI) / 多智能体强化学习
核心贡献: 提出通信剪枝方法,实现大规模多智能体强化学习的高效训练。
主要创新点:
- 自适应通信拓扑学习
- 显著降低通信开销
- 支持数百智能体的协同学习
待解决问题:
- 动态环境下的通信策略适应性
- 异构智能体场景的泛化能力
2604.02260 Diffusion Models for Molecular Design: A Comprehensive Survey
日期: 2026-04-02
作者: Yuxuan Song, Jingjing Xu, et al.
链接: https://arxiv.org/abs/2604.02260
研究领域: 人工智能 (AI) / 生成模型应用
核心贡献: 全面综述扩散模型在分子设计领域的应用进展与挑战。
主要创新点:
- 系统分类现有方法
- 深入分析技术优缺点
- 提出未来研究方向
待解决问题:
- 分子性质预测的准确性
- 实验验证的高成本
2604.02255 Neural Architecture Search for Efficient Transformers
日期: 2026-04-02
作者: Chenxi Liu, Barret Zoph, et al.
链接: https://arxiv.org/abs/2604.02255
研究领域: 机器学习 (ML) / 神经架构搜索
核心贡献: 提出针对高效Transformer的神经架构搜索方法,自动发现最优架构配置。
主要创新点:
- 针对Transformer的专用搜索空间
- 多目标优化策略
- 发现的新型架构在效率和性能上超越手工设计
待解决问题:
- 搜索成本仍需降低
- 跨任务泛化能力有限
2604.02235 World Models from Human Feedback
日期: 2026-04-02
作者: Daniel Jarrett, Ioannis Antonoglou, et al.
链接: https://arxiv.org/abs/2604.02235
研究领域: 人工智能 (AI) / 世界模型
核心贡献: 从人类反馈中学习世界模型,实现更高效的环境建模与预测。
主要创新点:
- 利用人类反馈指导世界模型学习
- 显著减少环境交互需求
- 在多个规划任务上验证有效性
待解决问题:
- 人类反馈的噪声鲁棒性
- 复杂环境的建模精度
2604.02205 AutoML for Large Language Models: A Survey
日期: 2026-04-02
作者: Huan Zhang, Weiwei Liu, et al.
链接: https://arxiv.org/abs/2604.02205
研究领域: 人工智能 (AI) / AutoML
核心贡献: 全面综述大语言模型的自动化机器学习方法与技术进展。
主要创新点:
- 系统分类LLM AutoML方法
- 深入分析各技术路线
- 提出开放挑战与未来方向
待解决问题:
- 超大模型的自动化调优
- 计算资源的高效利用
2604.02195 Multimodal Foundation Models for Scientific Discovery
日期: 2026-04-02
作者: Ross Taylor, Marcin Kardas, et al.
链接: https://arxiv.org/abs/2604.02195
研究领域: 多模态大模型 / AI for Science
核心贡献: 探索多模态基础模型在科学发现中的应用潜力与方法。
主要创新点:
- 跨模态科学数据融合
- 支持假设生成与验证
- 在多个科学领域展示应用前景
待解决问题:
- 领域专业知识的融入
- 实验验证的自动化
2604.02236 Document Layout Analysis with Hierarchical Graph Neural Networks
日期: 2026-04-02
作者: Yiheng Xu, Tengchao Lv, et al.
链接: https://arxiv.org/abs/2604.02236
研究领域: 文档图像处理 / 布局分析
核心贡献: 提出层次化图神经网络进行文档布局分析,实现精确的文档结构理解。
主要创新点:
- 层次化建模文档元素关系
- 图神经网络捕捉长程依赖
- 在多个文档理解基准上达到SOTA
待解决问题:
- 复杂表格结构的解析精度
- 多语言文档的泛化能力
2604.02230 Handwritten Text Recognition with Context-Aware Attention
日期: 2026-04-02
作者: Stefan Fiel, Robert Sablatnig, et al.
链接: https://arxiv.org/abs/2604.02230
研究领域: 手写文字识别 / OCR
核心贡献: 提出上下文感知注意力机制,提升手写文字识别的准确性。
主要创新点:
- 上下文信息增强字符识别
- 注意力机制聚焦关键区域
- 在历史文档识别上表现优异
待解决问题:
- 极度潦草手写的识别率
- 跨语言泛化能力
2604.02207 Vision-Language Models for Document Question Answering
日期: 2026-04-02
作者: Zewen Chi, Heyan Huang, et al.
链接: https://arxiv.org/abs/2604.02207
研究领域: 多模态大模型 / 文档理解
核心贡献: 研究视觉语言模型在文档问答任务中的应用,实现基于文档图像的问答。
主要创新点:
- 端到端文档问答框架
- 视觉与文本信息深度融合
- 在多个文档QA基准上验证有效性
待解决问题:
- 复杂图表的理解能力
- 长文档的处理效率