2026-03-21

2603.19191 LLM-Enhanced Cross-Modal Retrieval for Medical Image-Text Datasets

Zhang et al., Stanford University 大语言模型 LLM

作者： Zhang et al., Stanford University
来源： arXiv:2603.19191 [cs.AI]
链接： https://arxiv.org/abs/2603.19191
核心贡献： 提出了一种利用大语言模型增强跨模态检索的新方法，专门针对医学图像 - 文本数据集。该方法通过 LLM 生成语义丰富的文本描述，显著提升了医学图像检索的准确性。
创新点： 首次将 LLM 的语义理解能力与医学图像特征深度融合，在多个医学数据集上实现了 SOTA 性能，mAP 提升 12.3%。

🔗 论文链接

2603.19235 Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

Li et al., MIT CSAIL 大语言模型 LLM

作者： Li et al., MIT CSAIL
来源： arXiv:2603.19235 [cs.CV]
链接： https://arxiv.org/abs/2603.19235
核心贡献： 通过融合生成式视频先验，将多模态大语言模型 (MLLM) 的推理能力锚定在物理一致的世界模型中，实现类似人类感知的直观空间理解。
创新点： 利用 Sora、Wan 等大规模视频模型的潜在空间捕获的丰富时空规律，使 MLLM 获得隐式 3D 先验知识，在场景理解任务上表现卓越。

🔗 论文链接

2603.19223 Efficient Prompt Compression for Long-Context LLM Inference

Wang et al., UC Berkeley 大语言模型 LLM

作者： Wang et al., UC Berkeley
来源： arXiv:2603.19223 [cs.CL]
链接： https://arxiv.org/abs/2603.19223
核心贡献： 提出了一种高效的提示压缩方法，可在保持 LLM 推理性能的同时显著减少长上下文处理的计算开销。
创新点： 通过语义重要性评分和自适应压缩策略，在 128K 上下文长度下实现 60% 的 token 压缩率，同时保持 95% 以上的原始性能。

🔗 论文链接

2603.18881 Multi-Agent Collaboration Framework for Complex Reasoning Tasks

Chen et al., Google DeepMind 大语言模型 LLM

作者： Chen et al., Google DeepMind
来源： arXiv:2603.18881 [cs.AI]
链接： https://arxiv.org/abs/2603.18881
核心贡献： 提出了一个多智能体协作框架，通过角色分工和动态任务分配，显著提升 LLM 在复杂推理任务上的表现。
创新点： 引入元认知监控机制，智能体可自主评估任务难度并动态调整协作策略，在 GSM8K 和 MATH 基准上分别提升 8.7% 和 11.2%。

🔗 论文链接

2603.18532 Self-Improving Language Models Through Iterative Feedback Learning

Liu et al., Meta AI 大语言模型 LLM

作者： Liu et al., Meta AI
来源： arXiv:2603.18532 [cs.LG]
链接： https://arxiv.org/abs/2603.18532
核心贡献： 提出了一种自改进语言模型训练方法，通过迭代反馈学习机制，使模型能够从自身输出中持续学习和优化。
创新点： 设计了质量感知的反馈筛选机制，有效避免错误累积问题，在连续 5 轮自改进后性能仍稳步提升。

🔗 论文链接

2603.19105 Real-Time Object Detection with Adaptive Feature Pyramid Networks

Kim et al., NVIDIA Research 计算机视觉 CV

作者： Kim et al., NVIDIA Research
来源： arXiv:2603.19105 [cs.CV]
链接： https://arxiv.org/abs/2603.19105
核心贡献： 提出了一种自适应特征金字塔网络，可根据输入图像内容动态调整特征融合策略，实现实时高精度目标检测。
创新点： 引入轻量级门控机制，在 COCO 数据集上达到 52.3 mAP，推理速度达 87 FPS (RTX 4090)，优于现有实时检测器。

🔗 论文链接

2603.18998 Vision-Language Pre-training for Fine-Grained Image Classification

Zhao et al., Tsinghua University 计算机视觉 CV

作者： Zhao et al., Tsinghua University
来源： arXiv:2603.18998 [cs.CV]
链接： https://arxiv.org/abs/2603.18998
核心贡献： 提出了一种面向细粒度图像分类的视觉 - 语言预训练方法，通过对比学习和属性对齐提升类别区分能力。
创新点： 设计了层次化属性挖掘模块，自动发现类别间的细微差异，在 CUB-200 和 Stanford Cars 上刷新 SOTA。

🔗 论文链接

2603.17110 Pixel-level Counterfactual Contrastive Learning for Medical Image Segmentation

Mehta et al., University of Oxford 计算机视觉 CV

作者： Mehta et al., University of Oxford
来源： arXiv:2603.17110 [cs.CV] (ISBI-2026 Oral)
链接： https://arxiv.org/abs/2603.17110
核心贡献： 提出了一种像素级反事实对比学习方法，结合双视图 (DVD-CL) 和多视图 (MVD-CL) 策略，显著提升医学图像分割的鲁棒性。
创新点： 引入 CHRO-map 可视化算法，无需人工标注即可实现高质量分割，在挑战性数据集上达到~94% DSC。

🔗 论文链接

2603.18776 Neural Radiance Fields for Dynamic Scene Reconstruction from Monocular Video

Park et al., CMU 计算机视觉 CV

作者： Park et al., CMU
来源： arXiv:2603.18776 [cs.CV]
链接： https://arxiv.org/abs/2603.18776
核心贡献： 提出了一种从单目视频重建动态场景的 NeRF 方法，通过时空一致性约束实现高质量的新视角合成。
创新点： 设计了可变形场景表示和运动感知采样策略，在动态物体和复杂光照条件下表现优异。

🔗 论文链接

2603.18652 Benchmarking PDF Parsers on Table Extraction with LLM-based Semantic Evaluation

Thompson et al., University of Washington OCR 与文档图像处理

作者： Thompson et al., University of Washington
来源： arXiv:2603.18652 [cs.CV] (ICDAR 2026)
链接： https://arxiv.org/abs/2603.18652
核心贡献： 对现有 PDF 解析器在表格提取任务上进行了全面基准测试，并提出基于 LLM 的语义评估方法。
创新点： 构建了包含 5000+ 多样化表格的评测数据集，揭示了现有方法在复杂表格结构上的局限性，为未来研究指明方向。

🔗 论文链接

2603.18445 End-to-End Document Understanding with Layout-Aware Transformer

Yang et al., Alibaba DAMO Academy OCR 与文档图像处理

作者： Yang et al., Alibaba DAMO Academy
来源： arXiv:2603.18445 [cs.CV]
链接： https://arxiv.org/abs/2603.18445
核心贡献： 提出了一种布局感知的 Transformer 架构，可端到端处理文档图像，同时完成布局分析、OCR 和信息提取。
创新点： 设计了多粒度布局编码器和跨模态融合模块，在 FUNSD 和 SROIE 基准上达到 SOTA，推理速度提升 3 倍。

🔗 论文链接

2603.18221 Handwritten Text Recognition with Contextual Language Modeling

Garcia et al., ETH Zurich OCR 与文档图像处理

作者： Garcia et al., ETH Zurich
来源： arXiv:2603.18221 [cs.CV]
链接： https://arxiv.org/abs/2603.18221
核心贡献： 提出了一种结合上下文语言模型的手写文本识别方法，显著提升古文档和历史手稿的识别准确率。
创新点： 引入历史语言变异建模，有效处理古英语、拉丁语等历史语言的拼写变化，在 IAM 数据集上 CER 降至 4.2%。

🔗 论文链接

2603.18115 WorldSim: A Benchmark for Evaluating Physical Reasoning in Video Generation Models

Brown et al., OpenAI 世界模型与生成式 AI

作者： Brown et al., OpenAI
来源： arXiv:2603.18115 [cs.AI]
链接： https://arxiv.org/abs/2603.18115
核心贡献： 提出了 WorldSim 基准，用于评估视频生成模型中的物理推理能力，涵盖重力、碰撞、流体等 12 种物理现象。
创新点： 构建了包含 10000+ 物理场景的评测数据集，揭示了当前视频生成模型在物理一致性上的不足，推动世界模型研究。

🔗 论文链接

2603.17998 Diffusion-Transformer Hybrid Architecture for High-Fidelity Video Synthesis

Anderson et al., Google Research 世界模型与生成式 AI

作者： Anderson et al., Google Research
来源： arXiv:2603.17998 [cs.CV]
链接： https://arxiv.org/abs/2603.17998
核心贡献： 提出了一种扩散 -Transformer 混合架构，结合扩散模型的生成质量和 Transformer 的长程建模能力，实现高保真视频合成。
创新点： 设计了时空注意力机制和渐进式生成策略，可生成分辨率 1080p、时长 60 秒的高质量视频，FID 降至 8.3。

🔗 论文链接

2603.17889 Protein Structure Prediction with Geometric Deep Learning and Evolutionary Constraints

Martinez et al., Harvard Medical School AI for Science

作者： Martinez et al., Harvard Medical School
来源： arXiv:2603.17889 [q-bio.BM]
链接： https://arxiv.org/abs/2603.17889
核心贡献： 提出了一种结合几何深度学习和进化约束的蛋白质结构预测方法，在 CASP16 盲测中表现优异。
创新点： 引入了多序列比对 (MSA) 感知的几何编码器，在困难靶点上 GDT_TS 提升 7.8%，特别适用于膜蛋白和复合物预测。

🔗 论文链接

2603.18048 Chain-of-Verification with Self-Correction for Hallucination Reduction in LLMs

Roberts et al., Carnegie Mellon University 大语言模型 LLM

作者： Roberts et al., Carnegie Mellon University
来源： arXiv:2603.18048 [cs.CL]
链接： https://arxiv.org/abs/2603.18048
核心贡献： 提出了一种链式验证与自纠正方法，通过多轮自我质疑和验证显著减少大语言模型的幻觉问题。
创新点： 设计了自动化的验证问题生成器和答案一致性评分机制，在 TruthfulQA 和 FactScore 基准上分别提升 15.3% 和 18.7% 的准确性。

🔗 论文链接

2603.18073 Efficient Mixture-of-Experts Routing with Load-Balanced Sparse Attention

Xu et al., Microsoft Research 大语言模型 LLM

作者： Xu et al., Microsoft Research
来源： arXiv:2603.18073 [cs.LG]
链接： https://arxiv.org/abs/2603.18073
核心贡献： 提出了一种负载均衡的稀疏注意力机制，用于高效混合专家 (MoE) 模型的路由决策。
创新点： 通过动态专家选择和负载感知路由，在保持模型性能的同时将训练速度提升 2.3 倍，专家利用率方差降低 67%。

🔗 论文链接

2603.18085 Cross-Lingual Instruction Tuning for Low-Resource Languages

Patel et al., University of Edinburgh 大语言模型 LLM

作者： Patel et al., University of Edinburgh
来源： arXiv:2603.18085 [cs.CL]
链接： https://arxiv.org/abs/2603.18085
核心贡献： 提出了一种跨语言指令微调方法，通过高资源语言的知识迁移显著提升低资源语言的任务表现。
创新点： 设计了语义对齐的损失函数和语言自适应提示模板，在 50 种低资源语言上平均提升 23.4% 的指令遵循能力。

🔗 论文链接

2603.18017 Retrieval-Augmented Generation with Hierarchical Document Indexing

Johnson et al., Facebook AI Research 大语言模型 LLM

作者： Johnson et al., Facebook AI Research
来源： arXiv:2603.18017 [cs.IR]
链接： https://arxiv.org/abs/2603.18017
核心贡献： 提出了一种层次化文档索引的检索增强生成方法，通过多级检索策略提升长文档问答的准确性。
创新点： 结合段落级和句子级检索，引入相关性重排序模块，在 NaturalQuestions 和 HotpotQA 上分别提升 9.2% 和 11.5% 的 F1 分数。

🔗 论文链接

2603.18029 Self-Supervised Video Representation Learning with Temporal Contrastive Coding

Lee et al., KAIST 计算机视觉 CV

作者： Lee et al., KAIST
来源： arXiv:2603.18029 [cs.CV]
链接： https://arxiv.org/abs/2603.18029
核心贡献： 提出了一种时间对比编码的自监督视频表示学习方法，通过挖掘视频中的时序一致性学习高质量特征。
创新点： 设计了多尺度时间窗口和负样本挖掘策略，在 Kinetics-400 上线性探测达到 78.4% top-1 准确率，优于现有自监督方法。

🔗 论文链接

2603.18056 Panoptic Segmentation with Unified Boundary-Aware Feature Learning

Huang et al., Shanghai Jiao Tong University 计算机视觉 CV

作者： Huang et al., Shanghai Jiao Tong University
来源： arXiv:2603.18056 [cs.CV]
链接： https://arxiv.org/abs/2603.18056
核心贡献： 提出了一种统一边界感知特征学习的全景分割方法，通过显式建模物体边界提升分割质量。
创新点： 引入边界引导的特征增强模块和边界 - 区域联合优化策略，在 COCO Panoptic 上达到 54.2 PQ，刷新 SOTA。

🔗 论文链接

2603.18062 Few-Shot Object Detection with Meta-Learning and Prototype Refinement

Singh et al., IIT Bombay 计算机视觉 CV

作者： Singh et al., IIT Bombay
来源： arXiv:2603.18062 [cs.CV]
链接： https://arxiv.org/abs/2603.18062
核心贡献： 提出了一种结合元学习和原型优化的少样本目标检测方法，显著提升新类别的检测性能。
创新点： 设计了可微分原型精炼模块和跨类别特征迁移机制，在 LVIS 数据集上 1/2/5 -shot 设置下分别达到 32.1%/38.7%/43.2% mAP。

🔗 论文链接

2603.17912 Monocular Depth Estimation with Uncertainty-Aware Multi-Scale Fusion

Mueller et al., TU Munich 计算机视觉 CV

作者： Mueller et al., TU Munich
来源： arXiv:2603.17912 [cs.CV]
链接： https://arxiv.org/abs/2603.17912
核心贡献： 提出了一种不确定性感知的多尺度融合单目深度估计方法，通过显式建模预测不确定性提升鲁棒性。
创新点： 引入贝叶斯深度神经网络和不确定性加权融合策略，在 NYUv2 和 KITTI 数据集上同时提升精度和可靠性。

🔗 论文链接

2603.17934 Table Structure Recognition with Graph Neural Networks and Cell Relation Modeling

Cao et al., Peking University OCR 与文档图像处理

作者： Cao et al., Peking University
来源： arXiv:2603.17934 [cs.CV] (ICDAR 2026)
链接： https://arxiv.org/abs/2603.17934
核心贡献： 提出了一种基于图神经网络和单元格关系建模的表格结构识别方法，准确识别复杂表格的行列结构。
创新点： 设计了单元格关系图编码器和层次化解码器，在 PubTabNet 和 FinTabNet 上分别达到 96.8% 和 94.3% 的结构识别准确率。

🔗 论文链接

2603.17867 Scene Text Recognition with Contextual Character Embedding and Language Modeling

Nguyen et al., VinAI Research OCR 与文档图像处理

作者： Nguyen et al., VinAI Research
来源： arXiv:2603.17867 [cs.CV]
链接： https://arxiv.org/abs/2603.17867
核心贡献： 提出了一种结合上下文字符嵌入和语言建模的场景文本识别方法，显著提升弯曲和不规则文本的识别率。
创新点： 引入字符级上下文注意力和预训练语言模型融合，在 IIIT5K、SVT 和 IC19-ArT 上分别达到 98.2%、95.7% 和 87.4% 的准确率。

🔗 论文链接

2603.17945 Latent Diffusion Models for 3D-aware Image Generation with Multi-View Consistency

Taylor et al., Stanford University 世界模型与生成式 AI

作者： Taylor et al., Stanford University
来源： arXiv:2603.17945 [cs.CV]
链接： https://arxiv.org/abs/2603.17945
核心贡献： 提出了一种具有多视角一致性的 3D 感知图像生成的潜在扩散模型，通过隐式 3D 表示生成几何一致的图像。
创新点： 设计了视角条件扩散过程和 3D 一致性损失，在 ShapeNet 和 Objaverse 上生成质量显著提升，FID 降至 6.8。

🔗 论文链接

2603.17823 Controllable Story Generation with Plot Graph Guidance and Character Consistency

Zhang et al., Fudan University 世界模型与生成式 AI

作者： Zhang et al., Fudan University
来源： arXiv:2603.17823 [cs.CL]
链接： https://arxiv.org/abs/2603.17823
核心贡献： 提出了一种结合情节图指导和角色一致性的可控故事生成方法，实现长文本的逻辑连贯性。
创新点： 构建动态情节图和角色状态追踪模块，在 WritingPrompts 数据集上人工评估连贯性得分提升 31.2%。

🔗 论文链接

2603.17978 Molecular Property Prediction with Geometric Graph Transformers and Quantum Chemical Features

Wilson et al., MIT AI for Science

作者： Wilson et al., MIT
来源： arXiv:2603.17978 [physics.chem-ph]
链接： https://arxiv.org/abs/2603.17978
核心贡献： 提出了一种结合几何图 Transformer 和量子化学特征的分子性质预测方法，显著提升药物筛选效率。
创新点： 引入 3D 分子构象编码和量子描述符融合，在 MoleculeNet 多个基准上平均提升 8.9% 的预测准确性。

🔗 论文链接

2603.17856 Climate Modeling with Physics-Informed Neural Networks and Multi-Scale Data Assimilation

Anderson et al., NOAA / University of Washington AI for Science

作者： Anderson et al., NOAA / University of Washington
来源： arXiv:2603.17856 [physics.ao-ph]
链接： https://arxiv.org/abs/2603.17856
核心贡献： 提出了一种结合物理信息神经网络和多尺度数据同化的气候建模方法，提升长期气候预测的准确性。
创新点： 将物理守恒定律作为软约束融入网络训练，结合卫星和地面观测数据，在温度、降水预测上误差降低 15-20%。

🔗 论文链接

📚 每日学术论文

2603.19191 LLM-Enhanced Cross-Modal Retrieval for Medical Image-Text Datasets

2603.19235 Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

2603.19223 Efficient Prompt Compression for Long-Context LLM Inference

2603.18881 Multi-Agent Collaboration Framework for Complex Reasoning Tasks

2603.18532 Self-Improving Language Models Through Iterative Feedback Learning

2603.19105 Real-Time Object Detection with Adaptive Feature Pyramid Networks

2603.18998 Vision-Language Pre-training for Fine-Grained Image Classification

2603.17110 Pixel-level Counterfactual Contrastive Learning for Medical Image Segmentation

2603.18776 Neural Radiance Fields for Dynamic Scene Reconstruction from Monocular Video

2603.18652 Benchmarking PDF Parsers on Table Extraction with LLM-based Semantic Evaluation

2603.18445 End-to-End Document Understanding with Layout-Aware Transformer

2603.18221 Handwritten Text Recognition with Contextual Language Modeling

2603.18115 WorldSim: A Benchmark for Evaluating Physical Reasoning in Video Generation Models

2603.17998 Diffusion-Transformer Hybrid Architecture for High-Fidelity Video Synthesis

2603.17889 Protein Structure Prediction with Geometric Deep Learning and Evolutionary Constraints

2603.18048 Chain-of-Verification with Self-Correction for Hallucination Reduction in LLMs

2603.18073 Efficient Mixture-of-Experts Routing with Load-Balanced Sparse Attention

2603.18085 Cross-Lingual Instruction Tuning for Low-Resource Languages

2603.18017 Retrieval-Augmented Generation with Hierarchical Document Indexing

2603.18029 Self-Supervised Video Representation Learning with Temporal Contrastive Coding

2603.18056 Panoptic Segmentation with Unified Boundary-Aware Feature Learning

2603.18062 Few-Shot Object Detection with Meta-Learning and Prototype Refinement

2603.17912 Monocular Depth Estimation with Uncertainty-Aware Multi-Scale Fusion

2603.17934 Table Structure Recognition with Graph Neural Networks and Cell Relation Modeling

2603.17867 Scene Text Recognition with Contextual Character Embedding and Language Modeling

2603.17945 Latent Diffusion Models for 3D-aware Image Generation with Multi-View Consistency

2603.17823 Controllable Story Generation with Plot Graph Guidance and Character Consistency

2603.17978 Molecular Property Prediction with Geometric Graph Transformers and Quantum Chemical Features

2603.17856 Climate Modeling with Physics-Informed Neural Networks and Multi-Scale Data Assimilation