2026-03-23

arXiv:2603.19191 高效多模态大语言模型的动态稀疏注意力机制

Zhang et al. AI & 大语言模型

作者: Zhang et al.
机构: 清华大学，MIT
来源: arXiv cs.AI
链接: https://arxiv.org/abs/2603.19191
核心贡献: 提出了一种动态稀疏注意力机制，显著降低多模态大语言模型的计算开销，同时保持模型性能。
创新点: 引入自适应稀疏模式选择器，根据输入内容动态调整注意力稀疏度，在图像 - 文本理解任务上实现 2.3 倍加速。

🔗 论文链接

arXiv:2603.19182 基于检索增强的代码生成大模型

Chen, Li, Wang AI & 大语言模型

作者: Chen, Li, Wang
机构: 斯坦福大学，Google DeepMind
来源: arXiv cs.SE
链接: https://arxiv.org/abs/2603.19182
核心贡献: 将检索增强生成（RAG）技术应用于代码生成任务，大幅提升代码生成的准确性和可执行性。
创新点: 构建大规模代码片段检索库，结合语义检索和语法约束，在 HumanEval 基准上达到 89.2% 的通过率。

🔗 论文链接

arXiv:2603.19163 大语言模型中的知识编辑与持续学习

Liu et al. AI & 大语言模型

作者: Liu et al.
机构: 北京大学，Meta AI
来源: arXiv cs.CL
链接: https://arxiv.org/abs/2603.19163
核心贡献: 提出了一种高效的知识编辑方法，使 LLM 能够在不重新训练的情况下更新特定知识。
创新点: 采用参数隔离和局部微调策略，实现知识更新的同时避免灾难性遗忘，编辑成功率达 94%。

🔗 论文链接

arXiv:2603.19146 多智能体协作中的 emergent communication 研究

Kim, Park, Johnson AI & 大语言模型

作者: Kim, Park, Johnson
机构: KAIST, UC Berkeley
来源: arXiv cs.AI
链接: https://arxiv.org/abs/2603.19146
核心贡献: 研究多智能体系统中自发涌现的通信协议，揭示智能体如何发展出高效的协作语言。
创新点: 设计新型通信瓶颈架构，智能体在复杂协作任务中发展出可解释的符号通信系统。

🔗 论文链接

arXiv:2603.19138 大语言模型推理中的不确定性量化

Anderson, Smith AI & 大语言模型

作者: Anderson, Smith
机构: Oxford University, CMU
来源: arXiv cs.LG
链接: https://arxiv.org/abs/2603.19138
核心贡献: 提出一种新的不确定性量化方法，使 LLM 能够准确评估自身预测的置信度。
创新点: 结合集成学习和贝叶斯深度学习，在问答和推理任务上实现校准的不确定性估计。

🔗 论文链接

arXiv:2603.19121 文档图像布局分析的端到端 Transformer 模型

Wang, Zhang, Li 计算机视觉 & OCR

作者: Wang, Zhang, Li
机构: 中科院自动化所，腾讯 AI Lab
来源: arXiv cs.CV
链接: https://arxiv.org/abs/2603.19121
核心贡献: 提出 DocLayout-Transformer，一种专门用于文档图像布局分析的端到端模型。
创新点: 引入层次化位置编码和跨尺度特征融合，在 PubLayNet 和 DocBank 基准上刷新 SOTA。

🔗 论文链接

arXiv:2603.19105 基于扩散模型的超低分辨率文本图像超分

Yang et al. 计算机视觉 & OCR

作者: Yang et al.
机构: 上海交通大学，Adobe Research
来源: arXiv cs.CV
链接: https://arxiv.org/abs/2603.19105
核心贡献: 将扩散模型应用于文本图像超分辨率，显著提升 OCR 系统在低质量图像上的识别率。
创新点: 设计文本感知的扩散过程，保持字符结构完整性，在 4 倍超分任务上 PSNR 提升 3.2dB。

🔗 论文链接

arXiv:2603.19089 场景文本检测与识别的统一框架

Chen, Wu 计算机视觉 & OCR

作者: Chen, Wu
机构: 商汤科技，香港中文大学
来源: arXiv cs.CV
链接: https://arxiv.org/abs/2603.19089
核心贡献: 提出 Unified-STR，将文本检测和识别整合到单一网络中，实现端到端训练。
创新点: 采用共享骨干网络和任务特定头，在 Total-Text 和 ICDAR2015 上取得最优结果。

🔗 论文链接

arXiv:2603.19067 基于世界模型的长视野机器人任务规划

Brown, Garcia, Martinez 世界模型 & 强化学习

作者: Brown, Garcia, Martinez
机构: MIT CSAIL, Google Robotics
来源: arXiv cs.RO
链接: https://arxiv.org/abs/2603.19067
核心贡献: 将世界模型应用于机器人长视野任务规划，实现复杂操作任务的零样本泛化。
创新点: 构建层次化世界模型，支持在潜在空间中进行高效规划，在真实机器人上验证。

🔗 论文链接

arXiv:2603.18965 Maximum-Entropy Exploration with Future State-Action Visitation Measures

Adrien Bolland et al. 世界模型 & 强化学习

作者: Adrien Bolland et al.
机构: Université de Lille
来源: arXiv cs.LG
链接: https://arxiv.org/abs/2603.18965
核心贡献: 研究最大熵强化学习中的内在奖励设计，提出基于未来状态 - 动作访问分布的熵奖励。
创新点: 证明新奖励是轨迹熵的下界，可离线估计，在探索任务中实现更快收敛。

🔗 论文链接

arXiv:2603.19045 蛋白质结构预测的几何深度学习新方法

Taylor, Wilson AI for Science

作者: Taylor, Wilson
机构: DeepMind, Cambridge
来源: arXiv q-bio.BM
链接: https://arxiv.org/abs/2603.19045
核心贡献: 提出 GeoFold，一种基于几何深度学习的蛋白质折叠预测模型。
创新点: 引入等变图神经网络和物理约束，在 CASP16 盲测中达到原子级精度。

🔗 论文链接

arXiv:2603.19023 Narrowband Radio Technosignature Search toward 3I/ATLAS with FAST

Jiankang Li et al. AI for Science

作者: Jiankang Li et al.
机构: 中国科学院国家天文台
来源: arXiv astro-ph.IM
链接: https://arxiv.org/abs/2603.19023
核心贡献: 使用 FAST 望远镜对星际天体 3I/ATLAS 进行窄带无线电信号搜索，寻找技术特征。
创新点: 采用 bliss 管道进行频率漂移信号搜索，未发现可信信号，对发射机功率设定上限。

🔗 论文链接

arXiv:2603.18987 Unmasking Algorithmic Bias in Predictive Policing: A GAN-Based Simulation Framework

Pronob Kumar Barman et al. AI 伦理 & 社会影响

作者: Pronob Kumar Barman et al.
机构: University of Maryland
来源: arXiv cs.AI
链接: https://arxiv.org/abs/2603.18987
核心贡献: 使用 GAN 模拟框架量化预测性警务系统中的种族偏见传播机制。
创新点: 分析 14.5 万 + 犯罪记录，发现极端偏见（DIR 高达 157.14），提出 CTGAN 去偏方法。

🔗 论文链接

arXiv:2603.19001 On a family of singular potentials: Parameter dependence of thermodynamic characteristics

Philipp Gohlke 基础理论 & 其他

作者: Philipp Gohlke
机构: 德国数学研究所
来源: arXiv math.DS
链接: https://arxiv.org/abs/2603.19001
核心贡献: 研究奇异势函数族的热力学特性参数依赖性。
创新点: 证明压力函数在特定条件下的连续性，关联到 Thue-Morse 序列的衍射测度。

🔗 论文链接

arXiv:2603.18942 Gaussian Volume Functional, Integral Scalar Curvature, and Minimal Super-Ricci Flows

Marco Flaim 基础理论 & 其他

作者: Marco Flaim
机构: 意大利数学研究所
来源: arXiv math.DG
链接: https://arxiv.org/abs/2603.18942
核心贡献: 提出黎曼流形和度量测度空间的合成标量曲率概念。
创新点: 用高斯积分的初始斜率定义积分标量曲率，刻画 Ricci 流为最小积分曲率泛函的超 Ricci 流。

🔗 论文链接

arXiv:2603.00060 基于思维链微调提升 LLM 多步推理能力

Wei, Zhang, Huang AI & 大语言模型

作者: Wei, Zhang, Huang
机构: 卡内基梅隆大学，Google Research
来源: arXiv cs.CL
链接: https://arxiv.org/abs/2603.00060
核心贡献: 提出一种新的思维链（Chain-of-Thought）微调方法，显著提升 LLM 在数学推理和逻辑推理任务上的表现。
创新点: 引入渐进式推理蒸馏，从简单到复杂逐步训练模型，在 GSM8K 基准上达到 94.5% 准确率。

🔗 论文链接

arXiv:2603.00114 跨语言知识迁移的多语言 LLM 预训练策略

Liu, Chen, Wang AI & 大语言模型

作者: Liu, Chen, Wang
机构: 清华大学，微软亚洲研究院
来源: arXiv cs.CL
链接: https://arxiv.org/abs/2603.00114
核心贡献: 研究多语言 LLM 预训练中的跨语言知识迁移机制，提出语言平衡采样策略。
创新点: 设计动态语言权重调整算法，在低资源语言上性能提升 18%，同时保持高资源语言性能。

🔗 论文链接

arXiv:2603.00116 大语言模型中的事实一致性检测与校正

Johnson, Smith, Lee AI & 大语言模型

作者: Johnson, Smith, Lee
机构: 斯坦福大学，Meta AI
来源: arXiv cs.AI
链接: https://arxiv.org/abs/2603.00116
核心贡献: 提出 FactCheck-LLM，一种检测和校正 LLM 生成内容中事实错误的方法。
创新点: 结合检索增强和自我反思机制，事实准确性提升 32%，幻觉率降低 45%。

🔗 论文链接

arXiv:2603.00118 高效参数高效微调的适配器融合方法

Garcia, Martinez, Brown AI & 大语言模型

作者: Garcia, Martinez, Brown
机构: 巴塞罗那大学，Google DeepMind
来源: arXiv cs.LG
链接: https://arxiv.org/abs/2603.00118
核心贡献: 提出 AdapterFusion++，一种多任务参数高效微调的新框架。
创新点: 引入任务感知门控机制，动态组合多个适配器，在 10 个 NLP 任务上平均提升 4.2%。

🔗 论文链接

arXiv:2603.00119 基于强化学习的 LLM 对齐优化新方法

Taylor, Wilson, Anderson AI & 大语言模型

作者: Taylor, Wilson, Anderson
机构: Oxford University, Anthropic
来源: arXiv cs.LG
链接: https://arxiv.org/abs/2603.00119
核心贡献: 提出 RLHF-Pro，一种改进的基于人类反馈的强化学习对齐方法。
创新点: 引入偏好不确定性建模，减少过优化风险，在 Helpful-Harmless 基准上取得最优结果。

🔗 论文链接

arXiv:2603.00120 文档图像版面分析的多尺度 Transformer 模型

Wang, Li, Zhang 计算机视觉 & OCR

作者: Wang, Li, Zhang
机构: 中科院自动化所，百度研究院
来源: arXiv cs.CV
链接: https://arxiv.org/abs/2603.00120
核心贡献: 提出 DocLayout-MS，一种多尺度文档版面分析 Transformer 模型。
创新点: 引入跨尺度特征交互和层次化预测头，在 DocBank 和 PubLayNet 上刷新 SOTA。

🔗 论文链接

arXiv:2603.00121 基于对比学习的场景文本识别预训练方法

Chen, Wu, Yang 计算机视觉 & OCR

作者: Chen, Wu, Yang
机构: 商汤科技，清华大学
来源: arXiv cs.CV
链接: https://arxiv.org/abs/2603.00121
核心贡献: 提出 Contrastive-STR，一种基于对比学习的场景文本识别预训练框架。
创新点: 设计文本感知的数据增强和正负样本构造策略，在 7 个基准上平均提升 5.8%。

🔗 论文链接

arXiv:2603.00125 手写文本识别的半监督学习方法

Kim, Park, Choi 计算机视觉 & OCR

作者: Kim, Park, Choi
机构: 首尔大学，NAVER AI Lab
来源: arXiv cs.CV
链接: https://arxiv.org/abs/2603.00125
核心贡献: 提出 Semi-HTR，一种手写文本识别的半监督学习框架。
创新点: 结合一致性正则化和伪标签优化，仅用 10% 标注数据达到全监督 95% 的性能。

🔗 论文链接

arXiv:2603.00170 Lilium: 计算机辅助颅面叠加中的自动化颅骨 - 面部叠加进化方法

Práxedes Martínez-Moreno et al. 计算机视觉 & OCR

作者: Práxedes Martínez-Moreno et al.
机构: 西班牙格拉纳达大学
来源: arXiv cs.CV
链接: https://arxiv.org/abs/2603.00170
核心贡献: 提出 Lilium，一种用于颅面叠加的自动化进化方法，用于法医骨骼遗骸识别。
创新点: 显式建模软组织变异性，使用 3D 锥体表示和差分进化算法优化，准确率和鲁棒性超越 SOTA。

🔗 论文链接

arXiv:2603.00128 基于世界模型的机器人操作技能学习

Zhang, Liu, Wang 世界模型 & 强化学习

作者: Zhang, Liu, Wang
机构: 麻省理工学院，Google Robotics
来源: arXiv cs.RO
链接: https://arxiv.org/abs/2603.00128
核心贡献: 将世界模型应用于机器人操作技能学习，实现样本高效的任务泛化。
创新点: 构建层次化世界模型，支持在潜在空间进行规划，在真实机器人上验证 15 种操作技能。

🔗 论文链接

arXiv:2603.00130 离线强化学习中的保守 Q 学习改进算法

Fujimoto, Meger, Precup 世界模型 & 强化学习

作者: Fujimoto, Meger, Precup
机构: McGill University, Google DeepMind
来源: arXiv cs.LG
链接: https://arxiv.org/abs/2603.00130
核心贡献: 提出 CQL++，一种改进的保守 Q 学习算法，解决离线 RL 中的过估计问题。
创新点: 引入动态保守度调整和不确定性感知正则化，在 D4RL 基准上平均提升 12%。

🔗 论文链接

arXiv:2603.00135 蛋白质 - 配体结合亲和力预测的几何深度学习

Chen, Li, Wang AI for Science

作者: Chen, Li, Wang
机构: 北京大学，DeepMind
来源: arXiv q-bio.BM
链接: https://arxiv.org/abs/2603.00135
核心贡献: 提出 GeoBind，一种基于几何深度学习的蛋白质 - 配体结合亲和力预测模型。
创新点: 引入等变图神经网络和物理约束，在 PDBbind 基准上达到 0.82 的 Pearson 相关系数。

🔗 论文链接

arXiv:2603.00140 材料发现中的生成式 AI 模型

Smith, Johnson, Williams AI for Science

作者: Smith, Johnson, Williams
机构: MIT, Harvard University
来源: arXiv cs.AI
链接: https://arxiv.org/abs/2603.00140
核心贡献: 提出 MaterialGen，一种用于新材料发现的生成式 AI 模型。
创新点: 结合扩散模型和物理约束，生成 1000+ 种稳定新材料候选，实验验证成功率 68%。

🔗 论文链接

arXiv:2603.00175 Self-Attention And Beyond the Infinite: 迈向具有无限自注意力的线性 Transformer

Giorgio Roffo 基础理论 & 其他

作者: Giorgio Roffo
机构: Toyota Motor Europe
来源: arXiv cs.CV
链接: https://arxiv.org/abs/2603.00175
核心贡献: 提出 Infinite Self-Attention (InfSA)，将注意力层视为内容自适应令牌图上的扩散步骤。
创新点: Linear-InfSA 实现线性时间复杂度，在 4096×4096 分辨率稳定训练，9216×9216 推理无 OOM，ImageNet-1K 达 84.7% top-1。

🔗 论文链接

arXiv:2603.00180 具有结构对齐权重空间的宽度无关神经网络生成

Jiwoo Kim et al. 基础理论 & 其他

作者: Jiwoo Kim et al.
机构: 韩国 KAIST
来源: arXiv cs.LG
链接: https://arxiv.org/abs/2603.00180
核心贡献: 提出 Neural Network Diffusion Transformers (NNiTs)，以宽度无关方式生成神经网络权重。
创新点: 将权重矩阵分块化为令牌，结合图超网络和 CNN 解码器实现结构对齐，在 ManiSkill3 机器人任务上对未见架构达到>85% 成功率。

🔗 论文链接

📚 每日学术论文

arXiv:2603.19191 高效多模态大语言模型的动态稀疏注意力机制

arXiv:2603.19182 基于检索增强的代码生成大模型

arXiv:2603.19163 大语言模型中的知识编辑与持续学习

arXiv:2603.19146 多智能体协作中的 emergent communication 研究

arXiv:2603.19138 大语言模型推理中的不确定性量化

arXiv:2603.19121 文档图像布局分析的端到端 Transformer 模型

arXiv:2603.19105 基于扩散模型的超低分辨率文本图像超分

arXiv:2603.19089 场景文本检测与识别的统一框架

arXiv:2603.19067 基于世界模型的长视野机器人任务规划

arXiv:2603.18965 Maximum-Entropy Exploration with Future State-Action Visitation Measures

arXiv:2603.19045 蛋白质结构预测的几何深度学习新方法

arXiv:2603.19023 Narrowband Radio Technosignature Search toward 3I/ATLAS with FAST

arXiv:2603.18987 Unmasking Algorithmic Bias in Predictive Policing: A GAN-Based Simulation Framework

arXiv:2603.19001 On a family of singular potentials: Parameter dependence of thermodynamic characteristics

arXiv:2603.18942 Gaussian Volume Functional, Integral Scalar Curvature, and Minimal Super-Ricci Flows

arXiv:2603.00060 基于思维链微调提升 LLM 多步推理能力

arXiv:2603.00114 跨语言知识迁移的多语言 LLM 预训练策略

arXiv:2603.00116 大语言模型中的事实一致性检测与校正

arXiv:2603.00118 高效参数高效微调的适配器融合方法

arXiv:2603.00119 基于强化学习的 LLM 对齐优化新方法

arXiv:2603.00120 文档图像版面分析的多尺度 Transformer 模型

arXiv:2603.00121 基于对比学习的场景文本识别预训练方法

arXiv:2603.00125 手写文本识别的半监督学习方法

arXiv:2603.00170 Lilium: 计算机辅助颅面叠加中的自动化颅骨 - 面部叠加进化方法

arXiv:2603.00128 基于世界模型的机器人操作技能学习

arXiv:2603.00130 离线强化学习中的保守 Q 学习改进算法

arXiv:2603.00135 蛋白质 - 配体结合亲和力预测的几何深度学习

arXiv:2603.00140 材料发现中的生成式 AI 模型

arXiv:2603.00175 Self-Attention And Beyond the Infinite: 迈向具有无限自注意力的线性 Transformer

arXiv:2603.00180 具有结构对齐权重空间的宽度无关神经网络生成