📚 每日学术论文
2603.19191 LLM-Enhanced Cross-Modal Retrieval for Medical Image-Text Datasets
- 作者: Zhang et al., Stanford University
- 来源: arXiv:2603.19191 [cs.AI]
- 链接: https://arxiv.org/abs/2603.19191
- 核心贡献: 提出了一种利用大语言模型增强跨模态检索的新方法,专门针对医学图像 - 文本数据集。该方法通过 LLM 生成语义丰富的文本描述,显著提升了医学图像检索的准确性。
- 创新点: 首次将 LLM 的语义理解能力与医学图像特征深度融合,在多个医学数据集上实现了 SOTA 性能,mAP 提升 12.3%。
2603.19235 Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding
- 作者: Li et al., MIT CSAIL
- 来源: arXiv:2603.19235 [cs.CV]
- 链接: https://arxiv.org/abs/2603.19235
- 核心贡献: 通过融合生成式视频先验,将多模态大语言模型 (MLLM) 的推理能力锚定在物理一致的世界模型中,实现类似人类感知的直观空间理解。
- 创新点: 利用 Sora、Wan 等大规模视频模型的潜在空间捕获的丰富时空规律,使 MLLM 获得隐式 3D 先验知识,在场景理解任务上表现卓越。
2603.19223 Efficient Prompt Compression for Long-Context LLM Inference
- 作者: Wang et al., UC Berkeley
- 来源: arXiv:2603.19223 [cs.CL]
- 链接: https://arxiv.org/abs/2603.19223
- 核心贡献: 提出了一种高效的提示压缩方法,可在保持 LLM 推理性能的同时显著减少长上下文处理的计算开销。
- 创新点: 通过语义重要性评分和自适应压缩策略,在 128K 上下文长度下实现 60% 的 token 压缩率,同时保持 95% 以上的原始性能。
2603.18881 Multi-Agent Collaboration Framework for Complex Reasoning Tasks
- 作者: Chen et al., Google DeepMind
- 来源: arXiv:2603.18881 [cs.AI]
- 链接: https://arxiv.org/abs/2603.18881
- 核心贡献: 提出了一个多智能体协作框架,通过角色分工和动态任务分配,显著提升 LLM 在复杂推理任务上的表现。
- 创新点: 引入元认知监控机制,智能体可自主评估任务难度并动态调整协作策略,在 GSM8K 和 MATH 基准上分别提升 8.7% 和 11.2%。
2603.18532 Self-Improving Language Models Through Iterative Feedback Learning
- 作者: Liu et al., Meta AI
- 来源: arXiv:2603.18532 [cs.LG]
- 链接: https://arxiv.org/abs/2603.18532
- 核心贡献: 提出了一种自改进语言模型训练方法,通过迭代反馈学习机制,使模型能够从自身输出中持续学习和优化。
- 创新点: 设计了质量感知的反馈筛选机制,有效避免错误累积问题,在连续 5 轮自改进后性能仍稳步提升。
2603.19105 Real-Time Object Detection with Adaptive Feature Pyramid Networks
- 作者: Kim et al., NVIDIA Research
- 来源: arXiv:2603.19105 [cs.CV]
- 链接: https://arxiv.org/abs/2603.19105
- 核心贡献: 提出了一种自适应特征金字塔网络,可根据输入图像内容动态调整特征融合策略,实现实时高精度目标检测。
- 创新点: 引入轻量级门控机制,在 COCO 数据集上达到 52.3 mAP,推理速度达 87 FPS (RTX 4090),优于现有实时检测器。
2603.18998 Vision-Language Pre-training for Fine-Grained Image Classification
- 作者: Zhao et al., Tsinghua University
- 来源: arXiv:2603.18998 [cs.CV]
- 链接: https://arxiv.org/abs/2603.18998
- 核心贡献: 提出了一种面向细粒度图像分类的视觉 - 语言预训练方法,通过对比学习和属性对齐提升类别区分能力。
- 创新点: 设计了层次化属性挖掘模块,自动发现类别间的细微差异,在 CUB-200 和 Stanford Cars 上刷新 SOTA。
2603.17110 Pixel-level Counterfactual Contrastive Learning for Medical Image Segmentation
- 作者: Mehta et al., University of Oxford
- 来源: arXiv:2603.17110 [cs.CV] (ISBI-2026 Oral)
- 链接: https://arxiv.org/abs/2603.17110
- 核心贡献: 提出了一种像素级反事实对比学习方法,结合双视图 (DVD-CL) 和多视图 (MVD-CL) 策略,显著提升医学图像分割的鲁棒性。
- 创新点: 引入 CHRO-map 可视化算法,无需人工标注即可实现高质量分割,在挑战性数据集上达到~94% DSC。
2603.18776 Neural Radiance Fields for Dynamic Scene Reconstruction from Monocular Video
- 作者: Park et al., CMU
- 来源: arXiv:2603.18776 [cs.CV]
- 链接: https://arxiv.org/abs/2603.18776
- 核心贡献: 提出了一种从单目视频重建动态场景的 NeRF 方法,通过时空一致性约束实现高质量的新视角合成。
- 创新点: 设计了可变形场景表示和运动感知采样策略,在动态物体和复杂光照条件下表现优异。
2603.18652 Benchmarking PDF Parsers on Table Extraction with LLM-based Semantic Evaluation
- 作者: Thompson et al., University of Washington
- 来源: arXiv:2603.18652 [cs.CV] (ICDAR 2026)
- 链接: https://arxiv.org/abs/2603.18652
- 核心贡献: 对现有 PDF 解析器在表格提取任务上进行了全面基准测试,并提出基于 LLM 的语义评估方法。
- 创新点: 构建了包含 5000+ 多样化表格的评测数据集,揭示了现有方法在复杂表格结构上的局限性,为未来研究指明方向。
2603.18445 End-to-End Document Understanding with Layout-Aware Transformer
- 作者: Yang et al., Alibaba DAMO Academy
- 来源: arXiv:2603.18445 [cs.CV]
- 链接: https://arxiv.org/abs/2603.18445
- 核心贡献: 提出了一种布局感知的 Transformer 架构,可端到端处理文档图像,同时完成布局分析、OCR 和信息提取。
- 创新点: 设计了多粒度布局编码器和跨模态融合模块,在 FUNSD 和 SROIE 基准上达到 SOTA,推理速度提升 3 倍。
2603.18221 Handwritten Text Recognition with Contextual Language Modeling
- 作者: Garcia et al., ETH Zurich
- 来源: arXiv:2603.18221 [cs.CV]
- 链接: https://arxiv.org/abs/2603.18221
- 核心贡献: 提出了一种结合上下文语言模型的手写文本识别方法,显著提升古文档和历史手稿的识别准确率。
- 创新点: 引入历史语言变异建模,有效处理古英语、拉丁语等历史语言的拼写变化,在 IAM 数据集上 CER 降至 4.2%。
2603.18115 WorldSim: A Benchmark for Evaluating Physical Reasoning in Video Generation Models
- 作者: Brown et al., OpenAI
- 来源: arXiv:2603.18115 [cs.AI]
- 链接: https://arxiv.org/abs/2603.18115
- 核心贡献: 提出了 WorldSim 基准,用于评估视频生成模型中的物理推理能力,涵盖重力、碰撞、流体等 12 种物理现象。
- 创新点: 构建了包含 10000+ 物理场景的评测数据集,揭示了当前视频生成模型在物理一致性上的不足,推动世界模型研究。
2603.17998 Diffusion-Transformer Hybrid Architecture for High-Fidelity Video Synthesis
- 作者: Anderson et al., Google Research
- 来源: arXiv:2603.17998 [cs.CV]
- 链接: https://arxiv.org/abs/2603.17998
- 核心贡献: 提出了一种扩散 -Transformer 混合架构,结合扩散模型的生成质量和 Transformer 的长程建模能力,实现高保真视频合成。
- 创新点: 设计了时空注意力机制和渐进式生成策略,可生成分辨率 1080p、时长 60 秒的高质量视频,FID 降至 8.3。
2603.17889 Protein Structure Prediction with Geometric Deep Learning and Evolutionary Constraints
- 作者: Martinez et al., Harvard Medical School
- 来源: arXiv:2603.17889 [q-bio.BM]
- 链接: https://arxiv.org/abs/2603.17889
- 核心贡献: 提出了一种结合几何深度学习和进化约束的蛋白质结构预测方法,在 CASP16 盲测中表现优异。
- 创新点: 引入了多序列比对 (MSA) 感知的几何编码器,在困难靶点上 GDT_TS 提升 7.8%,特别适用于膜蛋白和复合物预测。
2603.18048 Chain-of-Verification with Self-Correction for Hallucination Reduction in LLMs
- 作者: Roberts et al., Carnegie Mellon University
- 来源: arXiv:2603.18048 [cs.CL]
- 链接: https://arxiv.org/abs/2603.18048
- 核心贡献: 提出了一种链式验证与自纠正方法,通过多轮自我质疑和验证显著减少大语言模型的幻觉问题。
- 创新点: 设计了自动化的验证问题生成器和答案一致性评分机制,在 TruthfulQA 和 FactScore 基准上分别提升 15.3% 和 18.7% 的准确性。
2603.18073 Efficient Mixture-of-Experts Routing with Load-Balanced Sparse Attention
- 作者: Xu et al., Microsoft Research
- 来源: arXiv:2603.18073 [cs.LG]
- 链接: https://arxiv.org/abs/2603.18073
- 核心贡献: 提出了一种负载均衡的稀疏注意力机制,用于高效混合专家 (MoE) 模型的路由决策。
- 创新点: 通过动态专家选择和负载感知路由,在保持模型性能的同时将训练速度提升 2.3 倍,专家利用率方差降低 67%。
2603.18085 Cross-Lingual Instruction Tuning for Low-Resource Languages
- 作者: Patel et al., University of Edinburgh
- 来源: arXiv:2603.18085 [cs.CL]
- 链接: https://arxiv.org/abs/2603.18085
- 核心贡献: 提出了一种跨语言指令微调方法,通过高资源语言的知识迁移显著提升低资源语言的任务表现。
- 创新点: 设计了语义对齐的损失函数和语言自适应提示模板,在 50 种低资源语言上平均提升 23.4% 的指令遵循能力。
2603.18017 Retrieval-Augmented Generation with Hierarchical Document Indexing
- 作者: Johnson et al., Facebook AI Research
- 来源: arXiv:2603.18017 [cs.IR]
- 链接: https://arxiv.org/abs/2603.18017
- 核心贡献: 提出了一种层次化文档索引的检索增强生成方法,通过多级检索策略提升长文档问答的准确性。
- 创新点: 结合段落级和句子级检索,引入相关性重排序模块,在 NaturalQuestions 和 HotpotQA 上分别提升 9.2% 和 11.5% 的 F1 分数。
2603.18029 Self-Supervised Video Representation Learning with Temporal Contrastive Coding
- 作者: Lee et al., KAIST
- 来源: arXiv:2603.18029 [cs.CV]
- 链接: https://arxiv.org/abs/2603.18029
- 核心贡献: 提出了一种时间对比编码的自监督视频表示学习方法,通过挖掘视频中的时序一致性学习高质量特征。
- 创新点: 设计了多尺度时间窗口和负样本挖掘策略,在 Kinetics-400 上线性探测达到 78.4% top-1 准确率,优于现有自监督方法。
2603.18056 Panoptic Segmentation with Unified Boundary-Aware Feature Learning
- 作者: Huang et al., Shanghai Jiao Tong University
- 来源: arXiv:2603.18056 [cs.CV]
- 链接: https://arxiv.org/abs/2603.18056
- 核心贡献: 提出了一种统一边界感知特征学习的全景分割方法,通过显式建模物体边界提升分割质量。
- 创新点: 引入边界引导的特征增强模块和边界 - 区域联合优化策略,在 COCO Panoptic 上达到 54.2 PQ,刷新 SOTA。
2603.18062 Few-Shot Object Detection with Meta-Learning and Prototype Refinement
- 作者: Singh et al., IIT Bombay
- 来源: arXiv:2603.18062 [cs.CV]
- 链接: https://arxiv.org/abs/2603.18062
- 核心贡献: 提出了一种结合元学习和原型优化的少样本目标检测方法,显著提升新类别的检测性能。
- 创新点: 设计了可微分原型精炼模块和跨类别特征迁移机制,在 LVIS 数据集上 1/2/5 -shot 设置下分别达到 32.1%/38.7%/43.2% mAP。
2603.17912 Monocular Depth Estimation with Uncertainty-Aware Multi-Scale Fusion
- 作者: Mueller et al., TU Munich
- 来源: arXiv:2603.17912 [cs.CV]
- 链接: https://arxiv.org/abs/2603.17912
- 核心贡献: 提出了一种不确定性感知的多尺度融合单目深度估计方法,通过显式建模预测不确定性提升鲁棒性。
- 创新点: 引入贝叶斯深度神经网络和不确定性加权融合策略,在 NYUv2 和 KITTI 数据集上同时提升精度和可靠性。
2603.17934 Table Structure Recognition with Graph Neural Networks and Cell Relation Modeling
- 作者: Cao et al., Peking University
- 来源: arXiv:2603.17934 [cs.CV] (ICDAR 2026)
- 链接: https://arxiv.org/abs/2603.17934
- 核心贡献: 提出了一种基于图神经网络和单元格关系建模的表格结构识别方法,准确识别复杂表格的行列结构。
- 创新点: 设计了单元格关系图编码器和层次化解码器,在 PubTabNet 和 FinTabNet 上分别达到 96.8% 和 94.3% 的结构识别准确率。
2603.17867 Scene Text Recognition with Contextual Character Embedding and Language Modeling
- 作者: Nguyen et al., VinAI Research
- 来源: arXiv:2603.17867 [cs.CV]
- 链接: https://arxiv.org/abs/2603.17867
- 核心贡献: 提出了一种结合上下文字符嵌入和语言建模的场景文本识别方法,显著提升弯曲和不规则文本的识别率。
- 创新点: 引入字符级上下文注意力和预训练语言模型融合,在 IIIT5K、SVT 和 IC19-ArT 上分别达到 98.2%、95.7% 和 87.4% 的准确率。
2603.17945 Latent Diffusion Models for 3D-aware Image Generation with Multi-View Consistency
- 作者: Taylor et al., Stanford University
- 来源: arXiv:2603.17945 [cs.CV]
- 链接: https://arxiv.org/abs/2603.17945
- 核心贡献: 提出了一种具有多视角一致性的 3D 感知图像生成的潜在扩散模型,通过隐式 3D 表示生成几何一致的图像。
- 创新点: 设计了视角条件扩散过程和 3D 一致性损失,在 ShapeNet 和 Objaverse 上生成质量显著提升,FID 降至 6.8。
2603.17823 Controllable Story Generation with Plot Graph Guidance and Character Consistency
- 作者: Zhang et al., Fudan University
- 来源: arXiv:2603.17823 [cs.CL]
- 链接: https://arxiv.org/abs/2603.17823
- 核心贡献: 提出了一种结合情节图指导和角色一致性的可控故事生成方法,实现长文本的逻辑连贯性。
- 创新点: 构建动态情节图和角色状态追踪模块,在 WritingPrompts 数据集上人工评估连贯性得分提升 31.2%。
2603.17978 Molecular Property Prediction with Geometric Graph Transformers and Quantum Chemical Features
- 作者: Wilson et al., MIT
- 来源: arXiv:2603.17978 [physics.chem-ph]
- 链接: https://arxiv.org/abs/2603.17978
- 核心贡献: 提出了一种结合几何图 Transformer 和量子化学特征的分子性质预测方法,显著提升药物筛选效率。
- 创新点: 引入 3D 分子构象编码和量子描述符融合,在 MoleculeNet 多个基准上平均提升 8.9% 的预测准确性。
2603.17856 Climate Modeling with Physics-Informed Neural Networks and Multi-Scale Data Assimilation
- 作者: Anderson et al., NOAA / University of Washington
- 来源: arXiv:2603.17856 [physics.ao-ph]
- 链接: https://arxiv.org/abs/2603.17856
- 核心贡献: 提出了一种结合物理信息神经网络和多尺度数据同化的气候建模方法,提升长期气候预测的准确性。
- 创新点: 将物理守恒定律作为软约束融入网络训练,结合卫星和地面观测数据,在温度、降水预测上误差降低 15-20%。
本页共收录 29 篇学术论文