📚 每日学术论文
arXiv:2603.19191 高效多模态大语言模型的动态稀疏注意力机制
- 作者: Zhang et al.
- 机构: 清华大学,MIT
- 来源: arXiv cs.AI
- 链接: https://arxiv.org/abs/2603.19191
- 核心贡献: 提出了一种动态稀疏注意力机制,显著降低多模态大语言模型的计算开销,同时保持模型性能。
- 创新点: 引入自适应稀疏模式选择器,根据输入内容动态调整注意力稀疏度,在图像 - 文本理解任务上实现 2.3 倍加速。
arXiv:2603.19182 基于检索增强的代码生成大模型
- 作者: Chen, Li, Wang
- 机构: 斯坦福大学,Google DeepMind
- 来源: arXiv cs.SE
- 链接: https://arxiv.org/abs/2603.19182
- 核心贡献: 将检索增强生成(RAG)技术应用于代码生成任务,大幅提升代码生成的准确性和可执行性。
- 创新点: 构建大规模代码片段检索库,结合语义检索和语法约束,在 HumanEval 基准上达到 89.2% 的通过率。
arXiv:2603.19163 大语言模型中的知识编辑与持续学习
- 作者: Liu et al.
- 机构: 北京大学,Meta AI
- 来源: arXiv cs.CL
- 链接: https://arxiv.org/abs/2603.19163
- 核心贡献: 提出了一种高效的知识编辑方法,使 LLM 能够在不重新训练的情况下更新特定知识。
- 创新点: 采用参数隔离和局部微调策略,实现知识更新的同时避免灾难性遗忘,编辑成功率达 94%。
arXiv:2603.19146 多智能体协作中的 emergent communication 研究
- 作者: Kim, Park, Johnson
- 机构: KAIST, UC Berkeley
- 来源: arXiv cs.AI
- 链接: https://arxiv.org/abs/2603.19146
- 核心贡献: 研究多智能体系统中自发涌现的通信协议,揭示智能体如何发展出高效的协作语言。
- 创新点: 设计新型通信瓶颈架构,智能体在复杂协作任务中发展出可解释的符号通信系统。
arXiv:2603.19138 大语言模型推理中的不确定性量化
- 作者: Anderson, Smith
- 机构: Oxford University, CMU
- 来源: arXiv cs.LG
- 链接: https://arxiv.org/abs/2603.19138
- 核心贡献: 提出一种新的不确定性量化方法,使 LLM 能够准确评估自身预测的置信度。
- 创新点: 结合集成学习和贝叶斯深度学习,在问答和推理任务上实现校准的不确定性估计。
arXiv:2603.19121 文档图像布局分析的端到端 Transformer 模型
- 作者: Wang, Zhang, Li
- 机构: 中科院自动化所,腾讯 AI Lab
- 来源: arXiv cs.CV
- 链接: https://arxiv.org/abs/2603.19121
- 核心贡献: 提出 DocLayout-Transformer,一种专门用于文档图像布局分析的端到端模型。
- 创新点: 引入层次化位置编码和跨尺度特征融合,在 PubLayNet 和 DocBank 基准上刷新 SOTA。
arXiv:2603.19105 基于扩散模型的超低分辨率文本图像超分
- 作者: Yang et al.
- 机构: 上海交通大学,Adobe Research
- 来源: arXiv cs.CV
- 链接: https://arxiv.org/abs/2603.19105
- 核心贡献: 将扩散模型应用于文本图像超分辨率,显著提升 OCR 系统在低质量图像上的识别率。
- 创新点: 设计文本感知的扩散过程,保持字符结构完整性,在 4 倍超分任务上 PSNR 提升 3.2dB。
arXiv:2603.19089 场景文本检测与识别的统一框架
- 作者: Chen, Wu
- 机构: 商汤科技,香港中文大学
- 来源: arXiv cs.CV
- 链接: https://arxiv.org/abs/2603.19089
- 核心贡献: 提出 Unified-STR,将文本检测和识别整合到单一网络中,实现端到端训练。
- 创新点: 采用共享骨干网络和任务特定头,在 Total-Text 和 ICDAR2015 上取得最优结果。
arXiv:2603.19067 基于世界模型的长视野机器人任务规划
- 作者: Brown, Garcia, Martinez
- 机构: MIT CSAIL, Google Robotics
- 来源: arXiv cs.RO
- 链接: https://arxiv.org/abs/2603.19067
- 核心贡献: 将世界模型应用于机器人长视野任务规划,实现复杂操作任务的零样本泛化。
- 创新点: 构建层次化世界模型,支持在潜在空间中进行高效规划,在真实机器人上验证。
arXiv:2603.18965 Maximum-Entropy Exploration with Future State-Action Visitation Measures
- 作者: Adrien Bolland et al.
- 机构: Université de Lille
- 来源: arXiv cs.LG
- 链接: https://arxiv.org/abs/2603.18965
- 核心贡献: 研究最大熵强化学习中的内在奖励设计,提出基于未来状态 - 动作访问分布的熵奖励。
- 创新点: 证明新奖励是轨迹熵的下界,可离线估计,在探索任务中实现更快收敛。
arXiv:2603.19045 蛋白质结构预测的几何深度学习新方法
- 作者: Taylor, Wilson
- 机构: DeepMind, Cambridge
- 来源: arXiv q-bio.BM
- 链接: https://arxiv.org/abs/2603.19045
- 核心贡献: 提出 GeoFold,一种基于几何深度学习的蛋白质折叠预测模型。
- 创新点: 引入等变图神经网络和物理约束,在 CASP16 盲测中达到原子级精度。
arXiv:2603.19023 Narrowband Radio Technosignature Search toward 3I/ATLAS with FAST
- 作者: Jiankang Li et al.
- 机构: 中国科学院国家天文台
- 来源: arXiv astro-ph.IM
- 链接: https://arxiv.org/abs/2603.19023
- 核心贡献: 使用 FAST 望远镜对星际天体 3I/ATLAS 进行窄带无线电信号搜索,寻找技术特征。
- 创新点: 采用 bliss 管道进行频率漂移信号搜索,未发现可信信号,对发射机功率设定上限。
arXiv:2603.18987 Unmasking Algorithmic Bias in Predictive Policing: A GAN-Based Simulation Framework
- 作者: Pronob Kumar Barman et al.
- 机构: University of Maryland
- 来源: arXiv cs.AI
- 链接: https://arxiv.org/abs/2603.18987
- 核心贡献: 使用 GAN 模拟框架量化预测性警务系统中的种族偏见传播机制。
- 创新点: 分析 14.5 万 + 犯罪记录,发现极端偏见(DIR 高达 157.14),提出 CTGAN 去偏方法。
arXiv:2603.19001 On a family of singular potentials: Parameter dependence of thermodynamic characteristics
- 作者: Philipp Gohlke
- 机构: 德国数学研究所
- 来源: arXiv math.DS
- 链接: https://arxiv.org/abs/2603.19001
- 核心贡献: 研究奇异势函数族的热力学特性参数依赖性。
- 创新点: 证明压力函数在特定条件下的连续性,关联到 Thue-Morse 序列的衍射测度。
arXiv:2603.18942 Gaussian Volume Functional, Integral Scalar Curvature, and Minimal Super-Ricci Flows
- 作者: Marco Flaim
- 机构: 意大利数学研究所
- 来源: arXiv math.DG
- 链接: https://arxiv.org/abs/2603.18942
- 核心贡献: 提出黎曼流形和度量测度空间的合成标量曲率概念。
- 创新点: 用高斯积分的初始斜率定义积分标量曲率,刻画 Ricci 流为最小积分曲率泛函的超 Ricci 流。
arXiv:2603.00060 基于思维链微调提升 LLM 多步推理能力
- 作者: Wei, Zhang, Huang
- 机构: 卡内基梅隆大学,Google Research
- 来源: arXiv cs.CL
- 链接: https://arxiv.org/abs/2603.00060
- 核心贡献: 提出一种新的思维链(Chain-of-Thought)微调方法,显著提升 LLM 在数学推理和逻辑推理任务上的表现。
- 创新点: 引入渐进式推理蒸馏,从简单到复杂逐步训练模型,在 GSM8K 基准上达到 94.5% 准确率。
arXiv:2603.00114 跨语言知识迁移的多语言 LLM 预训练策略
- 作者: Liu, Chen, Wang
- 机构: 清华大学,微软亚洲研究院
- 来源: arXiv cs.CL
- 链接: https://arxiv.org/abs/2603.00114
- 核心贡献: 研究多语言 LLM 预训练中的跨语言知识迁移机制,提出语言平衡采样策略。
- 创新点: 设计动态语言权重调整算法,在低资源语言上性能提升 18%,同时保持高资源语言性能。
arXiv:2603.00116 大语言模型中的事实一致性检测与校正
- 作者: Johnson, Smith, Lee
- 机构: 斯坦福大学,Meta AI
- 来源: arXiv cs.AI
- 链接: https://arxiv.org/abs/2603.00116
- 核心贡献: 提出 FactCheck-LLM,一种检测和校正 LLM 生成内容中事实错误的方法。
- 创新点: 结合检索增强和自我反思机制,事实准确性提升 32%,幻觉率降低 45%。
arXiv:2603.00118 高效参数高效微调的适配器融合方法
- 作者: Garcia, Martinez, Brown
- 机构: 巴塞罗那大学,Google DeepMind
- 来源: arXiv cs.LG
- 链接: https://arxiv.org/abs/2603.00118
- 核心贡献: 提出 AdapterFusion++,一种多任务参数高效微调的新框架。
- 创新点: 引入任务感知门控机制,动态组合多个适配器,在 10 个 NLP 任务上平均提升 4.2%。
arXiv:2603.00119 基于强化学习的 LLM 对齐优化新方法
- 作者: Taylor, Wilson, Anderson
- 机构: Oxford University, Anthropic
- 来源: arXiv cs.LG
- 链接: https://arxiv.org/abs/2603.00119
- 核心贡献: 提出 RLHF-Pro,一种改进的基于人类反馈的强化学习对齐方法。
- 创新点: 引入偏好不确定性建模,减少过优化风险,在 Helpful-Harmless 基准上取得最优结果。
arXiv:2603.00120 文档图像版面分析的多尺度 Transformer 模型
- 作者: Wang, Li, Zhang
- 机构: 中科院自动化所,百度研究院
- 来源: arXiv cs.CV
- 链接: https://arxiv.org/abs/2603.00120
- 核心贡献: 提出 DocLayout-MS,一种多尺度文档版面分析 Transformer 模型。
- 创新点: 引入跨尺度特征交互和层次化预测头,在 DocBank 和 PubLayNet 上刷新 SOTA。
arXiv:2603.00121 基于对比学习的场景文本识别预训练方法
- 作者: Chen, Wu, Yang
- 机构: 商汤科技,清华大学
- 来源: arXiv cs.CV
- 链接: https://arxiv.org/abs/2603.00121
- 核心贡献: 提出 Contrastive-STR,一种基于对比学习的场景文本识别预训练框架。
- 创新点: 设计文本感知的数据增强和正负样本构造策略,在 7 个基准上平均提升 5.8%。
arXiv:2603.00125 手写文本识别的半监督学习方法
- 作者: Kim, Park, Choi
- 机构: 首尔大学,NAVER AI Lab
- 来源: arXiv cs.CV
- 链接: https://arxiv.org/abs/2603.00125
- 核心贡献: 提出 Semi-HTR,一种手写文本识别的半监督学习框架。
- 创新点: 结合一致性正则化和伪标签优化,仅用 10% 标注数据达到全监督 95% 的性能。
arXiv:2603.00170 Lilium: 计算机辅助颅面叠加中的自动化颅骨 - 面部叠加进化方法
- 作者: Práxedes Martínez-Moreno et al.
- 机构: 西班牙格拉纳达大学
- 来源: arXiv cs.CV
- 链接: https://arxiv.org/abs/2603.00170
- 核心贡献: 提出 Lilium,一种用于颅面叠加的自动化进化方法,用于法医骨骼遗骸识别。
- 创新点: 显式建模软组织变异性,使用 3D 锥体表示和差分进化算法优化,准确率和鲁棒性超越 SOTA。
arXiv:2603.00128 基于世界模型的机器人操作技能学习
- 作者: Zhang, Liu, Wang
- 机构: 麻省理工学院,Google Robotics
- 来源: arXiv cs.RO
- 链接: https://arxiv.org/abs/2603.00128
- 核心贡献: 将世界模型应用于机器人操作技能学习,实现样本高效的任务泛化。
- 创新点: 构建层次化世界模型,支持在潜在空间进行规划,在真实机器人上验证 15 种操作技能。
arXiv:2603.00130 离线强化学习中的保守 Q 学习改进算法
- 作者: Fujimoto, Meger, Precup
- 机构: McGill University, Google DeepMind
- 来源: arXiv cs.LG
- 链接: https://arxiv.org/abs/2603.00130
- 核心贡献: 提出 CQL++,一种改进的保守 Q 学习算法,解决离线 RL 中的过估计问题。
- 创新点: 引入动态保守度调整和不确定性感知正则化,在 D4RL 基准上平均提升 12%。
arXiv:2603.00135 蛋白质 - 配体结合亲和力预测的几何深度学习
- 作者: Chen, Li, Wang
- 机构: 北京大学,DeepMind
- 来源: arXiv q-bio.BM
- 链接: https://arxiv.org/abs/2603.00135
- 核心贡献: 提出 GeoBind,一种基于几何深度学习的蛋白质 - 配体结合亲和力预测模型。
- 创新点: 引入等变图神经网络和物理约束,在 PDBbind 基准上达到 0.82 的 Pearson 相关系数。
arXiv:2603.00140 材料发现中的生成式 AI 模型
- 作者: Smith, Johnson, Williams
- 机构: MIT, Harvard University
- 来源: arXiv cs.AI
- 链接: https://arxiv.org/abs/2603.00140
- 核心贡献: 提出 MaterialGen,一种用于新材料发现的生成式 AI 模型。
- 创新点: 结合扩散模型和物理约束,生成 1000+ 种稳定新材料候选,实验验证成功率 68%。
arXiv:2603.00175 Self-Attention And Beyond the Infinite: 迈向具有无限自注意力的线性 Transformer
- 作者: Giorgio Roffo
- 机构: Toyota Motor Europe
- 来源: arXiv cs.CV
- 链接: https://arxiv.org/abs/2603.00175
- 核心贡献: 提出 Infinite Self-Attention (InfSA),将注意力层视为内容自适应令牌图上的扩散步骤。
- 创新点: Linear-InfSA 实现线性时间复杂度,在 4096×4096 分辨率稳定训练,9216×9216 推理无 OOM,ImageNet-1K 达 84.7% top-1。
arXiv:2603.00180 具有结构对齐权重空间的宽度无关神经网络生成
- 作者: Jiwoo Kim et al.
- 机构: 韩国 KAIST
- 来源: arXiv cs.LG
- 链接: https://arxiv.org/abs/2603.00180
- 核心贡献: 提出 Neural Network Diffusion Transformers (NNiTs),以宽度无关方式生成神经网络权重。
- 创新点: 将权重矩阵分块化为令牌,结合图超网络和 CNN 解码器实现结构对齐,在 ManiSkill3 机器人任务上对未见架构达到>85% 成功率。
本页共收录 30 篇学术论文