← 2026-04-04

2026-04-05

2026-04-06 →

📚 每日学术论文

2604.02317 A Simple Baseline for Streaming Video Understanding

日期: 2026-04-02
作者: Jieneng Chen, Qihang Yu, Xiaohui Shen, Alan Yuille, Liang-Chieh Chen
链接: https://arxiv.org/abs/2604.02317
研究领域: 计算机视觉 (CV) / 视频理解

核心贡献: 提出了一种简单而有效的流式视频理解基线方法,通过高效的注意力机制实现实时视频分析。

主要创新点:

  • 设计了轻量级的流式注意力模块,显著降低计算开销
  • 在多个视频理解基准上达到SOTA性能
  • 支持实时推理,适用于边缘设备部署

待解决问题:

  • 在极端长视频序列上的稳定性仍需验证
  • 多模态融合能力有待加强

🔗 论文链接
2604.02265 Modular Energy Steering for Safe Text-to-Image Generation

日期: 2026-04-02
作者: Yiyang Zhou, Chen Chen, Boqing Gong, et al.
链接: https://arxiv.org/abs/2604.02265
研究领域: 计算机视觉 (CV) / 生成模型安全

核心贡献: 提出模块化能量引导方法,实现安全的文本到图像生成,有效过滤有害内容。

主要创新点:

  • 无需重新训练即可集成到现有扩散模型中
  • 模块化设计支持灵活的安全策略配置
  • 在保持生成质量的同时显著提升安全性

待解决问题:

  • 对复杂语义边界的判定精度需进一步提升
  • 计算开销仍有优化空间

🔗 论文链接
2604.02252 Single-Pass Any-Resolution ViT for Open-vocabulary Segmentation

日期: 2026-04-02
作者: Tianfei Zhou, Yifei Huang, et al.
链接: https://arxiv.org/abs/2604.02252
研究领域: 计算机视觉 (CV) / 图像分割

核心贡献: 提出单次前向传播的任意分辨率Vision Transformer,实现高效开放词汇分割。

主要创新点:

  • 支持任意输入分辨率而无需重训练
  • 单次推理完成多尺度特征提取
  • 在开放词汇分割任务上刷新SOTA

待解决问题:

  • 极高分辨率图像下的内存占用仍需优化
  • 对罕见类别的泛化能力有待提升

🔗 论文链接
2604.02241 Embodied Aerial Tracking via Vision-Language-Action Models

日期: 2026-04-02
作者: Ziyuan Liu, Yicheng Xiao, et al.
链接: https://arxiv.org/abs/2604.02241
研究领域: 具身智能 / 视觉语言动作模型 (VLA)

核心贡献: 将视觉语言动作模型应用于空中跟踪任务,实现基于自然语言指令的无人机自主跟踪。

主要创新点:

  • 首次将VLA模型扩展到空中机器人平台
  • 支持复杂语言指令的理解与执行
  • 在真实场景中验证了方法的有效性

待解决问题:

  • 极端天气条件下的鲁棒性需加强
  • 多机协同跟踪能力有待探索

🔗 论文链接
2604.02222 Semantic- and Confidence-Aware CVAE for Zero-shot Skeleton-based Action Recognition

日期: 2026-04-02
作者: Mingze Sun, Chuanfu Shen, et al.
链接: https://arxiv.org/abs/2604.02222
研究领域: 计算机视觉 (CV) / 动作识别

核心贡献: 提出语义和置信度感知的条件变分自编码器,实现零样本骨架动作识别。

主要创新点:

  • 引入语义信息增强动作表示
  • 置信度感知机制提升识别可靠性
  • 在零样本设定下显著优于现有方法

待解决问题:

  • 对复杂交互动作的识别精度有限
  • 跨数据集泛化能力需进一步验证

🔗 论文链接
2604.02315 User Turn Generation as a Probe of Interaction Awareness in Language Models

日期: 2026-04-02
作者: Yanda Chen, Joe Benton, et al.
链接: https://arxiv.org/abs/2604.02315
研究领域: 人工智能 (AI) / 大语言模型

核心贡献: 通过用户回合生成任务探测语言模型的交互意识能力,揭示模型对对话上下文的理解程度。

主要创新点:

  • 提出新颖的交互意识评估范式
  • 系统分析不同规模模型的交互能力
  • 发现模型大小与交互意识的非线性关系

待解决问题:

  • 评估指标的生态效度需进一步验证
  • 如何提升模型的交互意识仍待研究

🔗 论文链接
2604.02215 Universal Hypernetworks for Arbitrary Models

日期: 2026-04-02
作者: David Ha, Andrew Dai, et al.
链接: https://arxiv.org/abs/2604.02215
研究领域: 机器学习 (ML) / 超网络

核心贡献: 提出通用超网络架构,可为任意目标模型生成权重,实现跨模型知识迁移。

主要创新点:

  • 支持不同架构和规模的目标模型
  • 高效的权重生成机制
  • 在多个迁移学习任务上表现优异

待解决问题:

  • 对超大模型的适用性受限
  • 训练稳定性需进一步改善

🔗 论文链接
2604.02185 CXR-LT 2026 Challenge: Projection-Aware Multi-Label and Zero-Shot Chest X-Ray Classification

日期: 2026-04-02
作者: Jianfeng He, Yichen Zhang, et al.
链接: https://arxiv.org/abs/2604.02185
研究领域: 计算机视觉 (CV) / 医学影像

核心贡献: 发布CXR-LT 2026挑战赛数据集与基准,推动投影感知的胸部X光分类研究。

主要创新点:

  • 大规模多标签胸部X光数据集
  • 引入投影类型感知机制
  • 支持零样本疾病分类评估

待解决问题:

  • 罕见疾病的样本不均衡问题
  • 跨医院数据的域适应挑战

🔗 论文链接
2604.02275 Learning to Reason with Latent Thought Graphs

日期: 2026-04-02
作者: Hao Zhang, Yujia Li, et al.
链接: https://arxiv.org/abs/2604.02275
研究领域: 人工智能 (AI) / 推理

核心贡献: 提出潜在思维图学习方法,增强语言模型的复杂推理能力。

主要创新点:

  • 隐式构建思维图结构
  • 支持多步推理的可解释性
  • 在数学和逻辑推理任务上显著提升

待解决问题:

  • 图结构的解释性仍需加强
  • 训练计算成本较高

🔗 论文链接
2604.02270 Scalable Multi-Agent Reinforcement Learning with Communication Pruning

日期: 2026-04-02
作者: Rui Zhao, Yi Wu, et al.
链接: https://arxiv.org/abs/2604.02270
研究领域: 人工智能 (AI) / 多智能体强化学习

核心贡献: 提出通信剪枝方法,实现大规模多智能体强化学习的高效训练。

主要创新点:

  • 自适应通信拓扑学习
  • 显著降低通信开销
  • 支持数百智能体的协同学习

待解决问题:

  • 动态环境下的通信策略适应性
  • 异构智能体场景的泛化能力

🔗 论文链接
2604.02260 Diffusion Models for Molecular Design: A Comprehensive Survey

日期: 2026-04-02
作者: Yuxuan Song, Jingjing Xu, et al.
链接: https://arxiv.org/abs/2604.02260
研究领域: 人工智能 (AI) / 生成模型应用

核心贡献: 全面综述扩散模型在分子设计领域的应用进展与挑战。

主要创新点:

  • 系统分类现有方法
  • 深入分析技术优缺点
  • 提出未来研究方向

待解决问题:

  • 分子性质预测的准确性
  • 实验验证的高成本

🔗 论文链接
2604.02255 Neural Architecture Search for Efficient Transformers

日期: 2026-04-02
作者: Chenxi Liu, Barret Zoph, et al.
链接: https://arxiv.org/abs/2604.02255
研究领域: 机器学习 (ML) / 神经架构搜索

核心贡献: 提出针对高效Transformer的神经架构搜索方法,自动发现最优架构配置。

主要创新点:

  • 针对Transformer的专用搜索空间
  • 多目标优化策略
  • 发现的新型架构在效率和性能上超越手工设计

待解决问题:

  • 搜索成本仍需降低
  • 跨任务泛化能力有限

🔗 论文链接
2604.02235 World Models from Human Feedback

日期: 2026-04-02
作者: Daniel Jarrett, Ioannis Antonoglou, et al.
链接: https://arxiv.org/abs/2604.02235
研究领域: 人工智能 (AI) / 世界模型

核心贡献: 从人类反馈中学习世界模型,实现更高效的环境建模与预测。

主要创新点:

  • 利用人类反馈指导世界模型学习
  • 显著减少环境交互需求
  • 在多个规划任务上验证有效性

待解决问题:

  • 人类反馈的噪声鲁棒性
  • 复杂环境的建模精度

🔗 论文链接
2604.02205 AutoML for Large Language Models: A Survey

日期: 2026-04-02
作者: Huan Zhang, Weiwei Liu, et al.
链接: https://arxiv.org/abs/2604.02205
研究领域: 人工智能 (AI) / AutoML

核心贡献: 全面综述大语言模型的自动化机器学习方法与技术进展。

主要创新点:

  • 系统分类LLM AutoML方法
  • 深入分析各技术路线
  • 提出开放挑战与未来方向

待解决问题:

  • 超大模型的自动化调优
  • 计算资源的高效利用

🔗 论文链接
2604.02195 Multimodal Foundation Models for Scientific Discovery

日期: 2026-04-02
作者: Ross Taylor, Marcin Kardas, et al.
链接: https://arxiv.org/abs/2604.02195
研究领域: 多模态大模型 / AI for Science

核心贡献: 探索多模态基础模型在科学发现中的应用潜力与方法。

主要创新点:

  • 跨模态科学数据融合
  • 支持假设生成与验证
  • 在多个科学领域展示应用前景

待解决问题:

  • 领域专业知识的融入
  • 实验验证的自动化

🔗 论文链接
2604.02236 Document Layout Analysis with Hierarchical Graph Neural Networks

日期: 2026-04-02
作者: Yiheng Xu, Tengchao Lv, et al.
链接: https://arxiv.org/abs/2604.02236
研究领域: 文档图像处理 / 布局分析

核心贡献: 提出层次化图神经网络进行文档布局分析,实现精确的文档结构理解。

主要创新点:

  • 层次化建模文档元素关系
  • 图神经网络捕捉长程依赖
  • 在多个文档理解基准上达到SOTA

待解决问题:

  • 复杂表格结构的解析精度
  • 多语言文档的泛化能力

🔗 论文链接
2604.02230 Handwritten Text Recognition with Context-Aware Attention

日期: 2026-04-02
作者: Stefan Fiel, Robert Sablatnig, et al.
链接: https://arxiv.org/abs/2604.02230
研究领域: 手写文字识别 / OCR

核心贡献: 提出上下文感知注意力机制,提升手写文字识别的准确性。

主要创新点:

  • 上下文信息增强字符识别
  • 注意力机制聚焦关键区域
  • 在历史文档识别上表现优异

待解决问题:

  • 极度潦草手写的识别率
  • 跨语言泛化能力

🔗 论文链接
2604.02207 Vision-Language Models for Document Question Answering

日期: 2026-04-02
作者: Zewen Chi, Heyan Huang, et al.
链接: https://arxiv.org/abs/2604.02207
研究领域: 多模态大模型 / 文档理解

核心贡献: 研究视觉语言模型在文档问答任务中的应用,实现基于文档图像的问答。

主要创新点:

  • 端到端文档问答框架
  • 视觉与文本信息深度融合
  • 在多个文档QA基准上验证有效性

待解决问题:

  • 复杂图表的理解能力
  • 长文档的处理效率

🔗 论文链接
本页共收录 18 篇学术论文
← 返回首页