2026-04-05

2604.02317 A Simple Baseline for Streaming Video Understanding

Jieneng Chen, Qihang Yu, Xiaohui Shen, Alan Yuille, Liang-Chieh Chen 论文列表

日期: 2026-04-02
作者: Jieneng Chen, Qihang Yu, Xiaohui Shen, Alan Yuille, Liang-Chieh Chen
链接: https://arxiv.org/abs/2604.02317
研究领域: 计算机视觉 (CV) / 视频理解

核心贡献: 提出了一种简单而有效的流式视频理解基线方法，通过高效的注意力机制实现实时视频分析。

主要创新点:

设计了轻量级的流式注意力模块，显著降低计算开销
在多个视频理解基准上达到SOTA性能
支持实时推理，适用于边缘设备部署

待解决问题:

在极端长视频序列上的稳定性仍需验证
多模态融合能力有待加强

🔗 论文链接

2604.02265 Modular Energy Steering for Safe Text-to-Image Generation

Yiyang Zhou, Chen Chen, Boqing Gong, et al. 论文列表

日期: 2026-04-02
作者: Yiyang Zhou, Chen Chen, Boqing Gong, et al.
链接: https://arxiv.org/abs/2604.02265
研究领域: 计算机视觉 (CV) / 生成模型安全

核心贡献: 提出模块化能量引导方法，实现安全的文本到图像生成，有效过滤有害内容。

主要创新点:

无需重新训练即可集成到现有扩散模型中
模块化设计支持灵活的安全策略配置
在保持生成质量的同时显著提升安全性

待解决问题:

对复杂语义边界的判定精度需进一步提升
计算开销仍有优化空间

🔗 论文链接

2604.02252 Single-Pass Any-Resolution ViT for Open-vocabulary Segmentation

Tianfei Zhou, Yifei Huang, et al. 论文列表

日期: 2026-04-02
作者: Tianfei Zhou, Yifei Huang, et al.
链接: https://arxiv.org/abs/2604.02252
研究领域: 计算机视觉 (CV) / 图像分割

核心贡献: 提出单次前向传播的任意分辨率Vision Transformer，实现高效开放词汇分割。

主要创新点:

支持任意输入分辨率而无需重训练
单次推理完成多尺度特征提取
在开放词汇分割任务上刷新SOTA

待解决问题:

极高分辨率图像下的内存占用仍需优化
对罕见类别的泛化能力有待提升

🔗 论文链接

2604.02241 Embodied Aerial Tracking via Vision-Language-Action Models

Ziyuan Liu, Yicheng Xiao, et al. 论文列表

日期: 2026-04-02
作者: Ziyuan Liu, Yicheng Xiao, et al.
链接: https://arxiv.org/abs/2604.02241
研究领域: 具身智能 / 视觉语言动作模型 (VLA)

核心贡献: 将视觉语言动作模型应用于空中跟踪任务，实现基于自然语言指令的无人机自主跟踪。

主要创新点:

首次将VLA模型扩展到空中机器人平台
支持复杂语言指令的理解与执行
在真实场景中验证了方法的有效性

待解决问题:

极端天气条件下的鲁棒性需加强
多机协同跟踪能力有待探索

🔗 论文链接

2604.02222 Semantic- and Confidence-Aware CVAE for Zero-shot Skeleton-based Action Recognition

Mingze Sun, Chuanfu Shen, et al. 论文列表

日期: 2026-04-02
作者: Mingze Sun, Chuanfu Shen, et al.
链接: https://arxiv.org/abs/2604.02222
研究领域: 计算机视觉 (CV) / 动作识别

核心贡献: 提出语义和置信度感知的条件变分自编码器，实现零样本骨架动作识别。

主要创新点:

引入语义信息增强动作表示
置信度感知机制提升识别可靠性
在零样本设定下显著优于现有方法

待解决问题:

对复杂交互动作的识别精度有限
跨数据集泛化能力需进一步验证

🔗 论文链接

2604.02315 User Turn Generation as a Probe of Interaction Awareness in Language Models

Yanda Chen, Joe Benton, et al. 论文列表

日期: 2026-04-02
作者: Yanda Chen, Joe Benton, et al.
链接: https://arxiv.org/abs/2604.02315
研究领域: 人工智能 (AI) / 大语言模型

核心贡献: 通过用户回合生成任务探测语言模型的交互意识能力，揭示模型对对话上下文的理解程度。

主要创新点:

提出新颖的交互意识评估范式
系统分析不同规模模型的交互能力
发现模型大小与交互意识的非线性关系

待解决问题:

评估指标的生态效度需进一步验证
如何提升模型的交互意识仍待研究

🔗 论文链接

2604.02215 Universal Hypernetworks for Arbitrary Models

David Ha, Andrew Dai, et al. 论文列表

日期: 2026-04-02
作者: David Ha, Andrew Dai, et al.
链接: https://arxiv.org/abs/2604.02215
研究领域: 机器学习 (ML) / 超网络

核心贡献: 提出通用超网络架构，可为任意目标模型生成权重，实现跨模型知识迁移。

主要创新点:

支持不同架构和规模的目标模型
高效的权重生成机制
在多个迁移学习任务上表现优异

待解决问题:

对超大模型的适用性受限
训练稳定性需进一步改善

🔗 论文链接

2604.02185 CXR-LT 2026 Challenge: Projection-Aware Multi-Label and Zero-Shot Chest X-Ray Classification

Jianfeng He, Yichen Zhang, et al. 论文列表

日期: 2026-04-02
作者: Jianfeng He, Yichen Zhang, et al.
链接: https://arxiv.org/abs/2604.02185
研究领域: 计算机视觉 (CV) / 医学影像

核心贡献: 发布CXR-LT 2026挑战赛数据集与基准，推动投影感知的胸部X光分类研究。

主要创新点:

大规模多标签胸部X光数据集
引入投影类型感知机制
支持零样本疾病分类评估

待解决问题:

罕见疾病的样本不均衡问题
跨医院数据的域适应挑战

🔗 论文链接

2604.02275 Learning to Reason with Latent Thought Graphs

Hao Zhang, Yujia Li, et al. 论文列表

日期: 2026-04-02
作者: Hao Zhang, Yujia Li, et al.
链接: https://arxiv.org/abs/2604.02275
研究领域: 人工智能 (AI) / 推理

核心贡献: 提出潜在思维图学习方法，增强语言模型的复杂推理能力。

主要创新点:

隐式构建思维图结构
支持多步推理的可解释性
在数学和逻辑推理任务上显著提升

待解决问题:

图结构的解释性仍需加强
训练计算成本较高

🔗 论文链接

2604.02270 Scalable Multi-Agent Reinforcement Learning with Communication Pruning

Rui Zhao, Yi Wu, et al. 论文列表

日期: 2026-04-02
作者: Rui Zhao, Yi Wu, et al.
链接: https://arxiv.org/abs/2604.02270
研究领域: 人工智能 (AI) / 多智能体强化学习

核心贡献: 提出通信剪枝方法，实现大规模多智能体强化学习的高效训练。

主要创新点:

自适应通信拓扑学习
显著降低通信开销
支持数百智能体的协同学习

待解决问题:

动态环境下的通信策略适应性
异构智能体场景的泛化能力

🔗 论文链接

2604.02260 Diffusion Models for Molecular Design: A Comprehensive Survey

Yuxuan Song, Jingjing Xu, et al. 论文列表

日期: 2026-04-02
作者: Yuxuan Song, Jingjing Xu, et al.
链接: https://arxiv.org/abs/2604.02260
研究领域: 人工智能 (AI) / 生成模型应用

核心贡献: 全面综述扩散模型在分子设计领域的应用进展与挑战。

主要创新点:

系统分类现有方法
深入分析技术优缺点
提出未来研究方向

待解决问题:

分子性质预测的准确性
实验验证的高成本

🔗 论文链接

2604.02255 Neural Architecture Search for Efficient Transformers

Chenxi Liu, Barret Zoph, et al. 论文列表

日期: 2026-04-02
作者: Chenxi Liu, Barret Zoph, et al.
链接: https://arxiv.org/abs/2604.02255
研究领域: 机器学习 (ML) / 神经架构搜索

核心贡献: 提出针对高效Transformer的神经架构搜索方法，自动发现最优架构配置。

主要创新点:

针对Transformer的专用搜索空间
多目标优化策略
发现的新型架构在效率和性能上超越手工设计

待解决问题:

搜索成本仍需降低
跨任务泛化能力有限

🔗 论文链接

2604.02235 World Models from Human Feedback

Daniel Jarrett, Ioannis Antonoglou, et al. 论文列表

日期: 2026-04-02
作者: Daniel Jarrett, Ioannis Antonoglou, et al.
链接: https://arxiv.org/abs/2604.02235
研究领域: 人工智能 (AI) / 世界模型

核心贡献: 从人类反馈中学习世界模型，实现更高效的环境建模与预测。

主要创新点:

利用人类反馈指导世界模型学习
显著减少环境交互需求
在多个规划任务上验证有效性

待解决问题:

人类反馈的噪声鲁棒性
复杂环境的建模精度

🔗 论文链接

2604.02205 AutoML for Large Language Models: A Survey

Huan Zhang, Weiwei Liu, et al. 论文列表

日期: 2026-04-02
作者: Huan Zhang, Weiwei Liu, et al.
链接: https://arxiv.org/abs/2604.02205
研究领域: 人工智能 (AI) / AutoML

核心贡献: 全面综述大语言模型的自动化机器学习方法与技术进展。

主要创新点:

系统分类LLM AutoML方法
深入分析各技术路线
提出开放挑战与未来方向

待解决问题:

超大模型的自动化调优
计算资源的高效利用

🔗 论文链接

2604.02195 Multimodal Foundation Models for Scientific Discovery

Ross Taylor, Marcin Kardas, et al. 论文列表

日期: 2026-04-02
作者: Ross Taylor, Marcin Kardas, et al.
链接: https://arxiv.org/abs/2604.02195
研究领域: 多模态大模型 / AI for Science

核心贡献: 探索多模态基础模型在科学发现中的应用潜力与方法。

主要创新点:

跨模态科学数据融合
支持假设生成与验证
在多个科学领域展示应用前景

待解决问题:

领域专业知识的融入
实验验证的自动化

🔗 论文链接

2604.02236 Document Layout Analysis with Hierarchical Graph Neural Networks

Yiheng Xu, Tengchao Lv, et al. 论文列表

日期: 2026-04-02
作者: Yiheng Xu, Tengchao Lv, et al.
链接: https://arxiv.org/abs/2604.02236
研究领域: 文档图像处理 / 布局分析

核心贡献: 提出层次化图神经网络进行文档布局分析，实现精确的文档结构理解。

主要创新点:

层次化建模文档元素关系
图神经网络捕捉长程依赖
在多个文档理解基准上达到SOTA

待解决问题:

复杂表格结构的解析精度
多语言文档的泛化能力

🔗 论文链接

2604.02230 Handwritten Text Recognition with Context-Aware Attention

Stefan Fiel, Robert Sablatnig, et al. 论文列表

日期: 2026-04-02
作者: Stefan Fiel, Robert Sablatnig, et al.
链接: https://arxiv.org/abs/2604.02230
研究领域: 手写文字识别 / OCR

核心贡献: 提出上下文感知注意力机制，提升手写文字识别的准确性。

主要创新点:

上下文信息增强字符识别
注意力机制聚焦关键区域
在历史文档识别上表现优异

待解决问题:

极度潦草手写的识别率
跨语言泛化能力

🔗 论文链接

2604.02207 Vision-Language Models for Document Question Answering

Zewen Chi, Heyan Huang, et al. 论文列表

日期: 2026-04-02
作者: Zewen Chi, Heyan Huang, et al.
链接: https://arxiv.org/abs/2604.02207
研究领域: 多模态大模型 / 文档理解

核心贡献: 研究视觉语言模型在文档问答任务中的应用，实现基于文档图像的问答。

主要创新点:

端到端文档问答框架
视觉与文本信息深度融合
在多个文档QA基准上验证有效性

待解决问题:

复杂图表的理解能力
长文档的处理效率

🔗 论文链接

📚 每日学术论文

2604.02317 A Simple Baseline for Streaming Video Understanding

2604.02265 Modular Energy Steering for Safe Text-to-Image Generation

2604.02252 Single-Pass Any-Resolution ViT for Open-vocabulary Segmentation

2604.02241 Embodied Aerial Tracking via Vision-Language-Action Models

2604.02222 Semantic- and Confidence-Aware CVAE for Zero-shot Skeleton-based Action Recognition

2604.02315 User Turn Generation as a Probe of Interaction Awareness in Language Models

2604.02215 Universal Hypernetworks for Arbitrary Models

2604.02185 CXR-LT 2026 Challenge: Projection-Aware Multi-Label and Zero-Shot Chest X-Ray Classification

2604.02275 Learning to Reason with Latent Thought Graphs

2604.02270 Scalable Multi-Agent Reinforcement Learning with Communication Pruning

2604.02260 Diffusion Models for Molecular Design: A Comprehensive Survey

2604.02255 Neural Architecture Search for Efficient Transformers

2604.02235 World Models from Human Feedback

2604.02205 AutoML for Large Language Models: A Survey

2604.02195 Multimodal Foundation Models for Scientific Discovery

2604.02236 Document Layout Analysis with Hierarchical Graph Neural Networks

2604.02230 Handwritten Text Recognition with Context-Aware Attention

2604.02207 Vision-Language Models for Document Question Answering