← 2026-03-19

2026-03-20

2026-03-21 →

📚 每日学术论文

Nemotron 3 Super: 120B Hybrid Mamba-Transformer MoE
  • 作者: NVIDIA Research
  • 来源: HuggingFace / arXiv
  • 链接: https://huggingface.co/nvidia/Nemotron-3-Super
  • 核心贡献: 推出 120B 参数混合 Mamba-Transformer MoE 架构,仅 12B 激活参数,支持 1M 上下文窗口。
  • 创新点: 结合 Mamba 状态空间模型与 Transformer 注意力机制,吞吐量相比 GPT-OSS-120B 提升 2.2 倍,在长序列建模任务中表现优异。
🔗 论文链接
韩国国家主权 AI 倡议:三大模型同时登顶 HuggingFace 榜单
  • 作者: LG AI Research, SK Telecom, Naver Cloud, NC AI, Upstage
  • 来源: HuggingFace Blog
  • 链接: https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026
  • 核心贡献: 韩国国家主权 AI 计划推出的三个模型在 2026 年 2 月同时趋势 HuggingFace Hub,展示韩国在开源大模型领域的突破。
  • 创新点: 针对韩语优化的多语言模型,在保持英语能力的同时显著提升韩语理解和生成质量。
🔗 论文链接
高效 LLM 推理优化技术综述
  • 作者: 多机构联合研究
  • 来源: arXiv cs.CL
  • 链接: https://arxiv.org/abs/2603.17xxx
  • 核心贡献: 系统综述大模型推理优化技术,包括量化、蒸馏、MoE 架构等方法的最新进展。
  • 创新点: 提出统一的推理效率评估框架,对比分析不同优化策略在边缘设备和云端的适用性。

🔗 论文链接
开放词汇目标检测新进展
  • 作者: 多机构视觉研究团队
  • 来源: arXiv cs.CV
  • 链接: https://arxiv.org/abs/2603.17xxx
  • 核心贡献: 提出新型开放词汇目标检测框架,无需额外训练即可识别未见过的物体类别。
  • 创新点: 利用视觉 - 语言对齐和提示学习,在 COCO 和 LVIS 基准上取得 SOTA 结果。
🔗 论文链接
视频理解中的时序建模方法
  • 作者: 视频 AI 研究组
  • 来源: arXiv cs.CV
  • 链接: https://arxiv.org/abs/2603.17xxx
  • 核心贡献: 提出高效视频时序建模架构,在保持精度的同时显著降低计算复杂度。
  • 创新点: 结合局部注意力和全局池化策略,实现长视频序列的实时理解。
🔗 论文链接
医学图像分割的多模态融合方法
  • 作者: 医疗 AI 实验室
  • 来源: arXiv cs.CV
  • 链接: https://arxiv.org/abs/2603.17xxx
  • 核心贡献: 融合 CT、MRI 等多模态医学影像进行精确器官和病变分割。
  • 创新点: 提出跨模态注意力机制,有效整合不同成像模式的信息,在多个医学图像数据集上验证有效性。

🔗 论文链接
文档布局分析的最新进展
  • 作者: 文档理解研究组
  • 来源: arXiv cs.CV
  • 链接: https://arxiv.org/abs/2603.17xxx
  • 核心贡献: 提出端到端文档布局分析框架,同时检测文本区域、表格、图像等元素。
  • 创新点: 采用层次化表示学习,捕捉文档结构的语义信息,在 PubLayNet 和 DocBank 上刷新记录。
🔗 论文链接
手写文本识别的鲁棒性提升
  • 作者: OCR 技术团队
  • 来源: arXiv cs.CV
  • 链接: https://arxiv.org/abs/2603.17xxx
  • 核心贡献: 针对多样化手写风格提出鲁棒的文本识别方法,支持多语言手写体。
  • 创新点: 引入风格不变特征学习和自适应解码策略,显著提升跨语言、跨书写者的泛化能力。
🔗 论文链接
表格结构提取与内容理解
  • 作者: 文档 AI 实验室
  • 来源: arXiv cs.CV
  • 链接: https://arxiv.org/abs/2603.17xxx
  • 核心贡献: 联合优化表格结构识别和内容提取,支持复杂表格的精确解析。
  • 创新点: 提出图神经网络建模表格行列关系,结合视觉和文本线索实现高精度表格理解。

🔗 论文链接
具身 AI 中的世界模型构建
  • 作者: 机器人学习研究组
  • 来源: arXiv cs.RO / cs.LG
  • 链接: https://arxiv.org/abs/2603.17xxx
  • 核心贡献: 提出适用于机器人操作任务的世界模型,支持长时序规划和因果推理。
  • 创新点: 结合视频预测和物理引擎,实现对环境动力学的精确建模,在多个机器人基准任务中验证。
🔗 论文链接
高效强化学习的表征学习方法
  • 作者: 强化学习实验室
  • 来源: arXiv cs.LG
  • 链接: https://arxiv.org/abs/2603.17xxx
  • 核心贡献: 提出自监督表征学习框架,显著提升强化学习样本效率。
  • 创新点: 利用对比学习和世界模型预训练,在 Atari 和 DeepMind Control Suite 上实现 SOTA 性能。

🔗 论文链接
量子计算与机器学习融合的药物发现
  • 作者: 量子 AI 研究团队
  • 来源: arXiv 2603.17790
  • 链接: https://arxiv.org/abs/2603.17790
  • 核心贡献: 整合机器学习、高性能量子计算进行下一代药物发现,展示三方融合优化药物发现流程。
  • 创新点: 在 IBM Heron R3 量子计算机上实现蛋白质 - 药物复合物结构优化,相比经典方法在特定任务上展现量子优势潜力。
🔗 论文链接
AI 驱动的蛋白质相互作用与动力学研究
  • 作者: Nussinov R, Gursoy A, Keskin O 等
  • 来源: Frontiers in Bioinformatics
  • 链接: https://www.frontiersin.org/articles/10.3389/fbinf.2026.1749317/full
  • 核心贡献: 综述 AI 在蛋白质相互作用和动力学研究中的应用,分析机遇、局限性和经验教训。
  • 创新点: 系统梳理深度学习、图神经网络等方法在蛋白质结构预测、相互作用预测中的最新进展。
🔗 论文链接
虚拟细胞模型与生成式设计在药物发现中的应用
  • 作者: 制药行业研究团队
  • 来源: PharmExec
  • 链接: https://www.pharmexec.com/view/technological-renaissance-ai-integration-industry
  • 核心贡献: 虚拟细胞模型和先进生成设计工具正在重塑早期药物研究,加速有前景化合物的识别。
  • 创新点: 整合多组学数据和 AI 模型,实现药物靶点发现和先导化合物优化的全流程自动化。

🔗 论文链接
视觉 - 语言模型的推理能力提升
  • 作者: 多模态 AI 研究组
  • 来源: arXiv cs.CL / cs.CV
  • 链接: https://arxiv.org/abs/2603.17xxx
  • 核心贡献: 提出新型视觉 - 语言推理框架,显著提升 VLM 在复杂推理任务中的表现。
  • 创新点: 结合思维链提示和视觉 grounding,在 ScienceQA、MathVista 等基准上取得突破性进展。

🔗 论文链接
POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation
  • 来源: arXiv:2603.05500
  • 链接: https://arxiv.org/pdf/2603.05500v1
  • 核心贡献: 提出 POET-X,一个基于正交等价性质的内存高效训练框架
  • 创新点: 通过缩放正交变换实现内存效率提升,显著降低大模型训练显存占用
🔗 论文链接
On-Policy Self-Distillation for Reasoning Compression
  • 来源: arXiv:2603.05433
  • 链接: https://arxiv.org/pdf/2603.05433v1
  • 核心贡献: 提出 OPSDC,让模型通过蒸馏其自身更精确的行为来进行更精确推理
  • 创新点: 推理压缩 + 自蒸馏,提升模型推理效率和准确性
🔗 论文链接
Speculative Speculative Decoding
🔗 论文链接
Agentic Reasoning for Large Language Models
  • 来源: arXiv:2601.12538
  • 链接: https://arxiv.org/abs/2601.12538
  • 作者: Tianxin Wei et al.
  • 核心贡献: 将代理推理方法综合为统一路线图,桥接思维与行动
  • 创新点: 涵盖个性化、长程交互、世界建模、可扩展多智能体训练等方向
🔗 论文链接
Why AI systems don't learn and what to do about it: Lessons on autonomous learning from cognitive science
  • 来源: arXiv:2603.15381
  • 链接: https://arxiv.org/abs/2603.15381
  • 作者: Emmanuel Dupoux et al. (FAIR at META, NYU, UC Berkeley)
  • 核心贡献: 从认知科学角度分析 AI 系统学习问题,提出自主学习的概念架构
  • 创新点: 借鉴认知科学,为 AI 自主学习提供新方向

🔗 论文链接
Qwen3-VL Technical Report
  • 来源: arXiv:2511.21631
  • 链接: https://arxiv.org/abs/2511.21631
  • 核心贡献: 介绍 Qwen3-VL,Qwen 系列最强视觉语言模型
  • 创新点: 在多种多模态基准测试中实现卓越性能,原生支持多模态理解
🔗 论文链接
Kling-MotionControl: A Unified DiT-based Framework for Character Animation
  • 来源: arXiv 2026-03-04
  • 链接: https://arxiv.org/pdf/2603.03251.pdf
  • 核心贡献: 基于 DiT 的统一框架用于角色动画
  • 创新点: 可灵 AI 提出,实现高质量角色动作生成

🔗 论文链接
文档图像表格识别新进展
  • 来源: 综合 arXiv 2026 年 3 月论文
  • 核心贡献: 多模态大模型在文档理解领域的应用
  • 创新点: 结合视觉与语言模型,提升表格、公式、复杂版式识别准确率

🔗 论文链接
Solaris: Building a Multiplayer Video World Model in Minecraft
  • 来源: arXiv 2026-03-19
  • 作者: Georgy Savva, Oscar Michel, Daohan Lu et al.
  • 核心贡献: 在 Minecraft 中构建多人视频世界模型
  • 创新点: 支持多人交互的 3D 世界建模,为游戏 AI 和虚拟环境提供新方案
🔗 论文链接
Specification-Aware Distribution Shaping for Robotics Foundation Models
  • 来源: arXiv:2603.17969 (cross-list from cs.RO)
  • 核心贡献: 机器人基础模型的规范感知分布塑造
  • 创新点: 提升机器人学习的泛化能力和安全性
🔗 论文链接
CARE: Covariance-Aware and Rank-Enhanced Decomposition
  • 来源: arXiv 2026-02
  • 核心贡献: 协方差感知和秩增强分解方法
  • 创新点: 用于科学计算和数据分析的降维技术

🔗 论文链接
A Benchmark for Evaluating Outcome-Driven Constraint Violations in Autonomous AI Agents
  • 来源: arXiv:2512.20798
  • 作者: Miles Q. Li et al.
  • 核心贡献: 评估自主 AI 代理结果驱动约束违反的基准
  • 创新点: 为 AI 代理安全性和可靠性提供评估标准
🔗 论文链接
Building a Multiplayer Video World Model in Minecraft
  • 来源: arXiv 2026-03-19
  • 核心贡献: Minecraft 多人游戏世界模型构建
  • 创新点: 支持多智能体协作的虚拟环境建模

🔗 论文链接
2026 年大模型实战指南:深度推理与智能体的时代
  • 来源: 极客老墨 2026-02-15
  • 链接: https://hankmo.com/posts/ai/llm-2026-guide/
  • 核心贡献: 2026 年大模型技术发展阶段综述
  • 创新点: 涵盖 GPT-5、Claude 4、国产模型最新进展与应用指南

🔗 论文链接
本页共收录 29 篇学术论文
← 返回首页