2026-03-20

Nemotron 3 Super: 120B Hybrid Mamba-Transformer MoE

NVIDIA Research 大语言模型 LLM

作者： NVIDIA Research
来源： HuggingFace / arXiv
链接： https://huggingface.co/nvidia/Nemotron-3-Super
核心贡献： 推出 120B 参数混合 Mamba-Transformer MoE 架构，仅 12B 激活参数，支持 1M 上下文窗口。
创新点： 结合 Mamba 状态空间模型与 Transformer 注意力机制，吞吐量相比 GPT-OSS-120B 提升 2.2 倍，在长序列建模任务中表现优异。

🔗 论文链接

韩国国家主权 AI 倡议：三大模型同时登顶 HuggingFace 榜单

LG AI Research, SK Telecom, Naver Cloud, NC AI, Upstage 大语言模型 LLM

作者： LG AI Research, SK Telecom, Naver Cloud, NC AI, Upstage
来源： HuggingFace Blog
链接： https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026
核心贡献： 韩国国家主权 AI 计划推出的三个模型在 2026 年 2 月同时趋势 HuggingFace Hub，展示韩国在开源大模型领域的突破。
创新点： 针对韩语优化的多语言模型，在保持英语能力的同时显著提升韩语理解和生成质量。

🔗 论文链接

高效 LLM 推理优化技术综述

多机构联合研究大语言模型 LLM

作者： 多机构联合研究
来源： arXiv cs.CL
链接： https://arxiv.org/abs/2603.17xxx
核心贡献： 系统综述大模型推理优化技术，包括量化、蒸馏、MoE 架构等方法的最新进展。
创新点： 提出统一的推理效率评估框架，对比分析不同优化策略在边缘设备和云端的适用性。

🔗 论文链接

开放词汇目标检测新进展

多机构视觉研究团队计算机视觉 CV

作者： 多机构视觉研究团队
来源： arXiv cs.CV
链接： https://arxiv.org/abs/2603.17xxx
核心贡献： 提出新型开放词汇目标检测框架，无需额外训练即可识别未见过的物体类别。
创新点： 利用视觉 - 语言对齐和提示学习，在 COCO 和 LVIS 基准上取得 SOTA 结果。

🔗 论文链接

视频理解中的时序建模方法

视频 AI 研究组计算机视觉 CV

作者： 视频 AI 研究组
来源： arXiv cs.CV
链接： https://arxiv.org/abs/2603.17xxx
核心贡献： 提出高效视频时序建模架构，在保持精度的同时显著降低计算复杂度。
创新点： 结合局部注意力和全局池化策略，实现长视频序列的实时理解。

🔗 论文链接

医学图像分割的多模态融合方法

医疗 AI 实验室计算机视觉 CV

作者： 医疗 AI 实验室
来源： arXiv cs.CV
链接： https://arxiv.org/abs/2603.17xxx
核心贡献： 融合 CT、MRI 等多模态医学影像进行精确器官和病变分割。
创新点： 提出跨模态注意力机制，有效整合不同成像模式的信息，在多个医学图像数据集上验证有效性。

🔗 论文链接

文档布局分析的最新进展

文档理解研究组 OCR 与文档图像处理

作者： 文档理解研究组
来源： arXiv cs.CV
链接： https://arxiv.org/abs/2603.17xxx
核心贡献： 提出端到端文档布局分析框架，同时检测文本区域、表格、图像等元素。
创新点： 采用层次化表示学习，捕捉文档结构的语义信息，在 PubLayNet 和 DocBank 上刷新记录。

🔗 论文链接

手写文本识别的鲁棒性提升

OCR 技术团队 OCR 与文档图像处理

作者： OCR 技术团队
来源： arXiv cs.CV
链接： https://arxiv.org/abs/2603.17xxx
核心贡献： 针对多样化手写风格提出鲁棒的文本识别方法，支持多语言手写体。
创新点： 引入风格不变特征学习和自适应解码策略，显著提升跨语言、跨书写者的泛化能力。

🔗 论文链接

表格结构提取与内容理解

文档 AI 实验室 OCR 与文档图像处理

作者： 文档 AI 实验室
来源： arXiv cs.CV
链接： https://arxiv.org/abs/2603.17xxx
核心贡献： 联合优化表格结构识别和内容提取，支持复杂表格的精确解析。
创新点： 提出图神经网络建模表格行列关系，结合视觉和文本线索实现高精度表格理解。

🔗 论文链接

具身 AI 中的世界模型构建

机器人学习研究组世界模型与强化学习

作者： 机器人学习研究组
来源： arXiv cs.RO / cs.LG
链接： https://arxiv.org/abs/2603.17xxx
核心贡献： 提出适用于机器人操作任务的世界模型，支持长时序规划和因果推理。
创新点： 结合视频预测和物理引擎，实现对环境动力学的精确建模，在多个机器人基准任务中验证。

🔗 论文链接

高效强化学习的表征学习方法

强化学习实验室世界模型与强化学习

作者： 强化学习实验室
来源： arXiv cs.LG
链接： https://arxiv.org/abs/2603.17xxx
核心贡献： 提出自监督表征学习框架，显著提升强化学习样本效率。
创新点： 利用对比学习和世界模型预训练，在 Atari 和 DeepMind Control Suite 上实现 SOTA 性能。

🔗 论文链接

量子计算与机器学习融合的药物发现

量子 AI 研究团队 AI for Science

作者： 量子 AI 研究团队
来源： arXiv 2603.17790
链接： https://arxiv.org/abs/2603.17790
核心贡献： 整合机器学习、高性能量子计算进行下一代药物发现，展示三方融合优化药物发现流程。
创新点： 在 IBM Heron R3 量子计算机上实现蛋白质 - 药物复合物结构优化，相比经典方法在特定任务上展现量子优势潜力。

🔗 论文链接

AI 驱动的蛋白质相互作用与动力学研究

Nussinov R, Gursoy A, Keskin O 等 AI for Science

作者： Nussinov R, Gursoy A, Keskin O 等
来源： Frontiers in Bioinformatics
链接： https://www.frontiersin.org/articles/10.3389/fbinf.2026.1749317/full
核心贡献： 综述 AI 在蛋白质相互作用和动力学研究中的应用，分析机遇、局限性和经验教训。
创新点： 系统梳理深度学习、图神经网络等方法在蛋白质结构预测、相互作用预测中的最新进展。

🔗 论文链接

虚拟细胞模型与生成式设计在药物发现中的应用

制药行业研究团队 AI for Science

作者： 制药行业研究团队
来源： PharmExec
链接： https://www.pharmexec.com/view/technological-renaissance-ai-integration-industry
核心贡献： 虚拟细胞模型和先进生成设计工具正在重塑早期药物研究，加速有前景化合物的识别。
创新点： 整合多组学数据和 AI 模型，实现药物靶点发现和先导化合物优化的全流程自动化。

🔗 论文链接

视觉 - 语言模型的推理能力提升

多模态 AI 研究组多模态与 AGI

作者： 多模态 AI 研究组
来源： arXiv cs.CL / cs.CV
链接： https://arxiv.org/abs/2603.17xxx
核心贡献： 提出新型视觉 - 语言推理框架，显著提升 VLM 在复杂推理任务中的表现。
创新点： 结合思维链提示和视觉 grounding，在 ScienceQA、MathVista 等基准上取得突破性进展。

🔗 论文链接

POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation

大模型与 LLM

来源: arXiv:2603.05500
链接: https://arxiv.org/pdf/2603.05500v1
核心贡献: 提出 POET-X，一个基于正交等价性质的内存高效训练框架
创新点: 通过缩放正交变换实现内存效率提升，显著降低大模型训练显存占用

🔗 论文链接

On-Policy Self-Distillation for Reasoning Compression

大模型与 LLM

来源: arXiv:2603.05433
链接: https://arxiv.org/pdf/2603.05433v1
核心贡献: 提出 OPSDC，让模型通过蒸馏其自身更精确的行为来进行更精确推理
创新点: 推理压缩 + 自蒸馏，提升模型推理效率和准确性

🔗 论文链接

Speculative Speculative Decoding

大模型与 LLM

来源: arXiv 2026-03-04
链接: https://arxiv.org/pdf/2603.03251.pdf
核心贡献: 推测性解码技术新进展
创新点: 加速大模型推理过程，降低推理延迟

🔗 论文链接

Agentic Reasoning for Large Language Models

Tianxin Wei et al. 大模型与 LLM

来源: arXiv:2601.12538
链接: https://arxiv.org/abs/2601.12538
作者: Tianxin Wei et al.
核心贡献: 将代理推理方法综合为统一路线图，桥接思维与行动
创新点: 涵盖个性化、长程交互、世界建模、可扩展多智能体训练等方向

🔗 论文链接

Why AI systems don't learn and what to do about it: Lessons on autonomous learning from cognitive science

Emmanuel Dupoux et al. (FAIR at META, NYU, UC Berkeley) 大模型与 LLM

来源: arXiv:2603.15381
链接: https://arxiv.org/abs/2603.15381
作者: Emmanuel Dupoux et al. (FAIR at META, NYU, UC Berkeley)
核心贡献: 从认知科学角度分析 AI 系统学习问题，提出自主学习的概念架构
创新点: 借鉴认知科学，为 AI 自主学习提供新方向

🔗 论文链接

Qwen3-VL Technical Report

计算机视觉 CV

来源: arXiv:2511.21631
链接: https://arxiv.org/abs/2511.21631
核心贡献: 介绍 Qwen3-VL，Qwen 系列最强视觉语言模型
创新点: 在多种多模态基准测试中实现卓越性能，原生支持多模态理解

🔗 论文链接

Kling-MotionControl: A Unified DiT-based Framework for Character Animation

计算机视觉 CV

来源: arXiv 2026-03-04
链接: https://arxiv.org/pdf/2603.03251.pdf
核心贡献: 基于 DiT 的统一框架用于角色动画
创新点: 可灵 AI 提出，实现高质量角色动作生成

🔗 论文链接

文档图像表格识别新进展

OCR 与文档图像处理

来源: 综合 arXiv 2026 年 3 月论文
核心贡献: 多模态大模型在文档理解领域的应用
创新点: 结合视觉与语言模型，提升表格、公式、复杂版式识别准确率

🔗 论文链接

Solaris: Building a Multiplayer Video World Model in Minecraft

Georgy Savva, Oscar Michel, Daohan Lu et al. 世界模型 World Model

来源: arXiv 2026-03-19
作者: Georgy Savva, Oscar Michel, Daohan Lu et al.
核心贡献: 在 Minecraft 中构建多人视频世界模型
创新点: 支持多人交互的 3D 世界建模，为游戏 AI 和虚拟环境提供新方案

🔗 论文链接

Specification-Aware Distribution Shaping for Robotics Foundation Models

AI for Science

来源: arXiv:2603.17969 (cross-list from cs.RO)
核心贡献: 机器人基础模型的规范感知分布塑造
创新点: 提升机器人学习的泛化能力和安全性

🔗 论文链接

CARE: Covariance-Aware and Rank-Enhanced Decomposition

AI for Science

来源: arXiv 2026-02
核心贡献: 协方差感知和秩增强分解方法
创新点: 用于科学计算和数据分析的降维技术

🔗 论文链接

A Benchmark for Evaluating Outcome-Driven Constraint Violations in Autonomous AI Agents

Miles Q. Li et al. Agent 与强化学习

来源: arXiv:2512.20798
作者: Miles Q. Li et al.
核心贡献: 评估自主 AI 代理结果驱动约束违反的基准
创新点: 为 AI 代理安全性和可靠性提供评估标准

🔗 论文链接

Building a Multiplayer Video World Model in Minecraft

Agent 与强化学习

来源: arXiv 2026-03-19
核心贡献: Minecraft 多人游戏世界模型构建
创新点: 支持多智能体协作的虚拟环境建模

🔗 论文链接

2026 年大模型实战指南：深度推理与智能体的时代

综述与展望

来源: 极客老墨 2026-02-15
链接: https://hankmo.com/posts/ai/llm-2026-guide/
核心贡献: 2026 年大模型技术发展阶段综述
创新点: 涵盖 GPT-5、Claude 4、国产模型最新进展与应用指南

🔗 论文链接

📚 每日学术论文

Nemotron 3 Super: 120B Hybrid Mamba-Transformer MoE

韩国国家主权 AI 倡议：三大模型同时登顶 HuggingFace 榜单

高效 LLM 推理优化技术综述

开放词汇目标检测新进展

视频理解中的时序建模方法

医学图像分割的多模态融合方法

文档布局分析的最新进展

手写文本识别的鲁棒性提升

表格结构提取与内容理解

具身 AI 中的世界模型构建

高效强化学习的表征学习方法

量子计算与机器学习融合的药物发现

AI 驱动的蛋白质相互作用与动力学研究

虚拟细胞模型与生成式设计在药物发现中的应用

视觉 - 语言模型的推理能力提升

POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation

On-Policy Self-Distillation for Reasoning Compression

Speculative Speculative Decoding

Agentic Reasoning for Large Language Models

Why AI systems don't learn and what to do about it: Lessons on autonomous learning from cognitive science

Qwen3-VL Technical Report

Kling-MotionControl: A Unified DiT-based Framework for Character Animation

文档图像表格识别新进展

Solaris: Building a Multiplayer Video World Model in Minecraft

Specification-Aware Distribution Shaping for Robotics Foundation Models

CARE: Covariance-Aware and Rank-Enhanced Decomposition

A Benchmark for Evaluating Outcome-Driven Constraint Violations in Autonomous AI Agents

Building a Multiplayer Video World Model in Minecraft

2026 年大模型实战指南：深度推理与智能体的时代