← 2026-04-05

2026-04-06

最新 →

📚 每日学术论文

Learning to Detect Human-Object Interactions with Vision-Language Models
  • 日期: 2026-04-02
  • 作者: 待提取
  • 链接: https://arxiv.org/abs/2604.02071
  • 研究领域: 计算机视觉 (CV)、多模态大模型
  • 核心贡献: 提出了一种利用视觉 - 语言模型进行人体 - 物体交互检测的新方法,通过 VLM 的语义理解能力提升 HOI 检测的准确性。
  • 创新点:
    • 将预训练 VLM 迁移到 HOI 检测任务
    • 利用语言先验知识增强交互关系理解
    • 在多个基准数据集上取得 SOTA 结果
  • 待解决问题: 如何进一步提升对罕见交互类别的泛化能力;降低模型计算开销以适应实时应用。

🔗 论文链接
Medical Visual Grounding with Knowledge-guided Spatial Prompts
  • 日期: 2026-04-02
  • 作者: 待提取
  • 链接: https://arxiv.org/abs/2604.01915
  • 研究领域: 计算机视觉 (CV)、多模态大模型、医疗 AI
  • 核心贡献: 提出知识引导的空间提示方法用于医疗视觉定位任务,结合医学知识库提升模型对医疗图像的理解能力。
  • 创新点:
    • 引入医学知识图谱作为外部知识源
    • 设计空间提示机制引导模型关注关键区域
    • 在医疗 VQA 和定位任务上显著超越基线
  • 待解决问题: 医学知识的动态更新机制;跨模态知识对齐的精度提升。

🔗 论文链接
Self-Organising Transformer with Hierarchical Prototype Structure
  • 日期: 2026-04-02
  • 作者: 待提取
  • 链接: https://arxiv.org/abs/2604.01880
  • 研究领域: 大模型 (LLM)、Transformer 架构
  • 核心贡献: 提出具有层次化原型结构的自组织 Transformer 架构,通过原型学习实现更高效的序列建模。
  • 创新点:
    • 引入层次化原型表示学习机制
    • 自组织聚类减少计算复杂度
    • 在长序列任务上表现优异
  • 待解决问题: 原型数量的自适应选择;与其他注意力机制的融合策略。

🔗 论文链接
Bilevel Programming for Image Restoration
  • 日期: 2026-04-02
  • 作者: 待提取
  • 链接: https://arxiv.org/abs/2604.01866
  • 研究领域: 计算机视觉 (CV)、图像处理
  • 核心贡献: 将双层规划框架应用于图像恢复任务,通过优化嵌套结构实现更高质量的图像复原。
  • 创新点:
    • 建立图像恢复的双层优化模型
    • 提出高效的双层梯度估计算法
    • 在去噪、去模糊等任务上取得优异效果
  • 待解决问题: 双层优化的收敛性保证;扩展到视频恢复任务。

🔗 论文链接
Action Segmentation with Boundary Supervision
  • 日期: 2026-04-02
  • 作者: 待提取
  • 链接: https://arxiv.org/abs/2604.01859
  • 研究领域: 计算机视觉 (CV)、视频理解
  • 核心贡献: 提出边界监督机制用于动作分割任务,通过显式建模动作边界提升分割精度。
  • 创新点:
    • 设计边界感知的损失函数
    • 引入多尺度边界检测模块
    • 在多个动作分割基准上刷新记录
  • 待解决问题: 边界标注的自动化获取;实时动作分割的部署优化。

🔗 论文链接
CANDI: Test-Time Adaptation for Time-Series Anomaly Detection
  • 日期: 2026-04-02
  • 作者: 待提取
  • 链接: https://arxiv.org/abs/2604.01845
  • 研究领域: AI、机器学习、异常检测
  • 核心贡献: 提出 CANDI 框架实现时间序列异常检测的测试时自适应,使模型能够适应分布 shifts 而无需重新训练。
  • 创新点:
    • 测试时自适应机制无需源域数据
    • 动态调整模型参数适应目标分布
    • 在多个时间序列异常检测基准上验证有效性
  • 待解决问题: 自适应速度的优化;多变量时间序列的扩展。

🔗 论文链接
STRIVE: Structured Spatiotemporal Exploration for Video Question Answering
  • 日期: 2026-04-02
  • 作者: 待提取
  • 链接: https://arxiv.org/abs/2604.01824
  • 研究领域: 计算机视觉 (CV)、多模态大模型、视频理解
  • 核心贡献: 提出 STRIVE 框架用于视频问答任务,通过结构化时空探索机制提升模型对视频内容的理解能力。
  • 创新点:
    • 设计结构化时空探索策略
    • 联合建模空间关系和时间动态
    • 在多个 VideoQA 基准上取得 SOTA
  • 待解决问题: 长视频的高效处理;多轮对话式 VideoQA 的扩展。

🔗 论文链接
Learning in Prophet Inequalities with Noisy Observations
  • 日期: 2026-04-02
  • 作者: 待提取
  • 链接: https://arxiv.org/abs/2604.01789
  • 研究领域: 机器学习、优化理论
  • 核心贡献: 研究噪声观测下的先知不等式学习问题,提出鲁棒的学习算法处理不确定性。
  • 创新点:
    • 建立噪声观测下的理论分析框架
    • 提出鲁棒学习算法保证性能下界
    • 在在线决策场景中验证有效性
  • 待解决问题: 扩展到更一般的噪声模型;实际系统中的应用验证。

🔗 论文链接
Bridging Deep Learning and Integer Linear Programming
  • 日期: 2026-04-02
  • 作者: 待提取
  • 链接: https://arxiv.org/abs/2604.01775
  • 研究领域: 机器学习、组合优化
  • 核心贡献: 探索深度学习与整数线性规划的融合方法,利用神经网络加速 ILP 求解过程。
  • 创新点:
    • 提出 DL 引导的 ILP 求解策略
    • 学习启发式规则加速分支定界
    • 在组合优化基准上显著加速
  • 待解决问题: 理论保证的完善;更大规模问题的可扩展性。

🔗 论文链接
Feature Space Conditioning for Controllable Image-to-Video Diffusion
  • 日期: 2026-04-02
  • 作者: 待提取
  • 链接: https://arxiv.org/abs/2604.01761
  • 研究领域: 计算机视觉 (CV)、生成模型、视频生成
  • 核心贡献: 提出特征空间条件化方法实现可控的图像到视频扩散生成,支持多种控制信号。
  • 创新点:
    • 设计特征空间条件化机制
    • 支持运动、相机轨迹等多种控制
    • 生成高质量、高一致性的视频
  • 待解决问题: 更长视频生成的时序一致性;实时生成优化。

🔗 论文链接
LiveMathematicianBench: A Live Benchmark for Mathematician-Level Reasoning
  • 日期: 2026-04-02
  • 作者: 待提取
  • 链接: https://arxiv.org/abs/2604.01754
  • 研究领域: 大模型 (LLM)、AI for Research、推理基准
  • 核心贡献: 提出 LiveMathematicianBench 基准用于评估大模型的数学家级推理能力,采用动态更新的数学问题。
  • 创新点:
    • 构建动态更新的数学推理基准
    • 覆盖多个数学分支和难度等级
    • 为 LLM 推理能力评估提供新标准
  • 待解决问题: 问题自动生成分数控制;跨领域推理能力的综合评估。

🔗 论文链接
Unifying UAV Cross-View Geo-Localization via 3D Geometric Perception
  • 日期: 2026-04-02
  • 作者: 待提取
  • 链接: https://arxiv.org/abs/2604.01747
  • 研究领域: 计算机视觉 (CV)、3D 感知、无人机
  • 核心贡献: 提出基于 3D 几何感知的统一框架用于无人机跨视角地理定位,通过 3D 理解提升定位精度。
  • 创新点:
    • 引入 3D 几何约束提升跨视角匹配
    • 统一处理不同高度和角度的图像
    • 在多个 UAV 地理定位基准上验证
  • 待解决问题: 大规模场景的实时定位;多源数据融合。

🔗 论文链接
From BM25 to Corrective RAG: Benchmarking Retrieval Strategies for Text-and-Table Documents
  • 日期: 2026-04-02
  • 作者: 待提取
  • 链接: https://arxiv.org/abs/2604.01733
  • 研究领域: 信息检索、文档处理、RAG
  • 核心贡献: 系统评估从 BM25 到校正式 RAG 的检索策略在文本 - 表格混合文档上的表现,为文档理解提供指导。
  • 创新点:
    • 构建文本 - 表格混合文档评测基准
    • 系统比较多种检索增强策略
    • 提出校正式 RAG 提升检索质量
  • 待解决问题: 表格结构的深度理解;多模态文档的扩展。

🔗 论文链接
Transformer Self-Attention Encoder-Decoder with Multimodal Deep Learning for Response Time Series Forecasting
  • 日期: 2026-04-02
  • 作者: 待提取
  • 链接: https://arxiv.org/abs/2604.01712
  • 研究领域: 多模态大模型、时间序列预测
  • 核心贡献: 提出结合 Transformer 自注意力编码器 - 解码器与多模态深度学习的时间序列预测方法。
  • 创新点:
    • 融合多模态特征提升预测精度
    • 设计高效的自注意力时序建模
    • 在多个预测基准上验证有效性
  • 待解决问题: 多模态特征的对齐优化;长序列预测的稳定性。

🔗 论文链接
SHARC: Spherical Harmonic Representation for Complex Shapes
  • 日期: 2026-04-02
  • 作者: 待提取
  • 链接: https://arxiv.org/abs/2604.01894
  • 研究领域: 计算机视觉 (CV)、3D 几何、计算几何
  • 核心贡献: 提出 SHARC 方法使用球谐函数表示复杂 3D 形状,实现高效的形状分析和处理。
  • 创新点:
    • 球谐函数用于 3D 形状紧凑表示
    • 支持形状匹配、检索等任务
    • 计算效率高且保持几何细节
  • 待解决问题: 非封闭曲面的扩展;与深度学习模型的融合。

🔗 论文链接
Document Understanding with Layout-Aware Pre-training
  • 日期: 2026-04-03
  • 作者: 待提取
  • 链接: https://arxiv.org/abs/2604.02xxx (需进一步确认)
  • 研究领域: 文档图像处理、OCR、布局分析
  • 核心贡献: 提出布局感知预训练方法用于文档理解任务,通过联合建模文本和布局信息提升文档解析能力。
  • 创新点:
    • 布局感知的预训练目标设计
    • 联合编码文本和视觉布局特征
    • 在文档 QA、信息抽取任务上取得优异效果
  • 待解决问题: 多语言文档的泛化;手写文档的适配。

🔗 论文链接
本页共收录 16 篇学术论文
← 返回首页