2026-03-24

← 2026-03-23

2026-03-25 →

全部科技新闻 (45) 学术论文 (31)

📰 每日AI科技新闻

大模型与 AI 前沿

OpenAI 推出 GPT-5.4 mini 版本

Releasebot | [链接](https://releasebot.io/updates/openai) 12:00

来源： Releasebot | 链接

OpenAI 在 ChatGPT 中推出 GPT-5.4 mini 版本，通过"Thinking"功能向免费和 Go 用户开放。付费用户在高使用率期间可继续访问，企业用户可保留自动路由功能。此次更新旨在优化响应速度和成本效率。

中国开源 AI 主导优势威胁美国领先地位

Reuters | [链接](https://www.reuters.com/business/autos-transportation/chinas-open-source-dominance-threatens-us-ai-lead-us-advisory-body-warns-2026-03-23/) 12:00

来源： Reuters | 链接

美国国会咨询机构警告，中国开源人工智能的主导地位正在创造"自我强化的竞争优势"，使其能够在受限获取先进 AI 芯片的情况下挑战美国竞争对手。报告指出中国开源模型正在全球范围内获得广泛采用。

Anthropic 成为唯一用于机密任务的 AI 模型

Wikipedia | [链接](https://en.wikipedia.org/wiki/Anthropic) 12:00

来源： Wikipedia | 链接

截至 2026 年 2 月，Anthropic 与 Palantir 的合作伙伴关系使 Claude 成为唯一用于机密任务的 AI 模型。2025 年 7 月，美国国防部宣布 Anthropic 获得 2 亿美元的军事 AI 合同，与 Google、OpenAI 和 xAI 并列。

2026 AI 治理危机：90% 组织施压安全团队放宽限制

Medium | [链接](https://medium.com/@mohammedalhag190/on-march-22-2026-a-stark-warning-emerged-90-of-organizations-pressure-security-teams-to-loosen-0e4a02954467) 12:00

来源： Medium | 链接

Gartner 2026 年网络安全趋势报告确认这是一个决定性时刻。Agentic AI 正被员工和开发者"迅速使用，创造新的攻击面"。无代码/低代码平台和 vibe coding 进一步扩大了这一趋势。

OpenAI 推出 Prism 科研工作空间

Wikipedia | [链接](https://en.wikipedia.org/wiki/OpenAI) 12:00

来源： Wikipedia | 链接

2026 年，OpenAI 推出 Prism，一个 LaTeX 原生的工作空间，旨在协助科学家进行研究和写作，包括起草科学论文、管理引用和格式化方程式。

白宫发布国家人工智能政策框架

Sullivan & Cromwell LLP | 20 小时前 12:30

来源： Sullivan & Cromwell LLP | 20 小时前

特朗普政府于 2026 年 3 月 20 日发布国家 AI 政策框架，根据 2025 年 12 月 11 日总统行政令制定。框架呼吁国会采纳联邦统一的、以创新为中心的监管制度，主张将 AI 监管责任赋予现有机构而非创建新监管机构，强调消除 AI 发展中的"创新障碍"。

生成式 AI 聊天机器人市场份额排名（2026 年 3 月）

First Page Sage | 7 小时前 12:30

来源： First Page Sage | 7 小时前

研究团队收集了截至 2026 年 3 月美国主要生成式 AI 聊天机器人的市场份额数据。报告显示市场竞争格局持续演变，各平台在用户留存和功能创新方面展开激烈竞争。

AI 治理危机：90% 组织施压安全团队放宽限制

Gartner 报告 12:30

来源： Gartner 报告

Gartner 2026 年网络安全趋势报告确认，Agentic AI 正被员工和开发者"迅速使用，创造新的攻击面"。无代码/低代码平台和 vibe coding 进一步扩大了这一趋势，企业安全与便利性之间的平衡成为关键挑战。

白宫发布国家人工智能政策框架（深度解读）

WilmerHale | Sullivan & Cromwell | 1 天前 17:30

来源： WilmerHale | Sullivan & Cromwell | 1 天前

特朗普政府于 2026 年 3 月 20 日发布国家 AI 政策框架，根据 2025 年 12 月 11 日总统行政令制定。框架核心要点：

联邦统一监管：呼吁国会采纳联邦统一的、以创新为中心的监管制度
现有机构主导：主张将 AI 监管责任赋予现有机构而非创建新监管机构
版权集体谈判豁免：鼓励国会考虑允许知识产权持有者集体协商许可的框架
AI 训练属于合理使用：白宫重申 AI 训练使用 IP 属于合理使用范畴，建议由法院解决相关争议

纽约时报评论：不能让加密货币和 AI 收买政策

The New York Times | 12 小时前 17:30

来源： The New York Times | 12 小时前

社论指出，科技巨头通过政治献金和游说影响 AI 和加密货币政策制定的现象日益严重，呼吁加强监管透明度，防止特殊利益集团绑架公共政策。

生成式 AI 市场格局持续演变

First Page Sage | 行业分析 17:30

来源： First Page Sage | 行业分析

2026 年 3 月最新数据显示，主要生成式 AI 聊天机器人在美国市场的竞争态势持续变化，用户留存和功能创新成为竞争关键。各平台在多模态能力、长上下文支持和垂直领域应用方面展开差异化竞争。

芯片与半导体

英伟达 GTC 大会发布 Vera Rubin 架构算力平台

机器之心 12:00

来源： 机器之心

在 GTC 2026 大会上，英伟达发布了新一代 Vera Rubin 架构算力平台，为 AI 训练和推理提供更强性能支持。该平台预计将在数据中心和云计算领域广泛应用。

财政部启动 AI 创新系列计划

U.S. Department of the Treasury | [链接](https://home.treasury.gov/news/press-releases/sb0421) 12:00

来源： U.S. Department of the Treasury | 链接

美国财政部金融稳定监督委员会（FSOC）和 AI 转型办公室（AITO）本周启动 AI 创新系列，这是一项公私合作计划，旨在支持美国金融系统在技术加速变革时代的持续实力和韧性。

机器人与具身智能

波士顿动力与特斯拉 Optimus 持续进展

综合报道 12:00

来源： 综合报道

人形机器人领域持续快速发展，特斯拉 Optimus 和波士顿动力等公司在 2026 年取得显著进展。具身智能成为 AI 投资热点，多家机构预测 2026 年将是人形机器人商业化元年。

自动驾驶货运预计 2035 年贡献 700 亿美元 GDP

Auto Connected Car News | [链接](https://www.autoconnectedcar.com/2026/03/autonomous-self-driving-vehicle-news-aurora-uber-rivian-tier-iv-pony-ai-waymo-kodiak-ai-kandi-weride/) 12:00

来源： Auto Connected Car News | 链接

Aurora 委托 Steer Group 进行的新经济分析显示，自动驾驶卡车运输目前支持的经济活动预计到 2035 年将为 GDP 贡献 700 亿美元。

云计算与企业服务

Marelli 与 AWS 推出 AI 驱动的汽车验证代理

Auto Connected Car News | [链接](https://www.autoconnectedcar.com/2026/03/connected-car-news-marelli-aws-toyota-panasonic-ftc-tesla/) 12:00

来源： Auto Connected Car News | 链接

Marelli 与亚马逊 AWS 合作部署生成式 AI 驱动的系统测试生成代理（STG Agent），旨在自动化软件定义汽车（SDV）验证流程，从需求到测试用例的转换。

Waymo 目标 2026 年底每周 100 万次出租车服务

Wikipedia | [链接](https://en.wikipedia.org/wiki/Waymo) 12:00

来源： Wikipedia | 链接

到 2026 年底，Waymo 目标是每周提供 100 万次出租车服务。公司正为扩展到 20 多个城市（包括伦敦和东京）奠定基础，目前为 6 个城市。

消费电子与终端

Lucid Motors 预计 2026 年 Q2 部署免提高速公路驾驶

Self Driving Cars 360 | [链接](https://www.selfdrivingcars360.com/here-are-5-biggest-takeaways-from-lucid-motors-bet-on-autonomy/) 12:00

来源： Self Driving Cars 360 | 链接

Lucid Motors 表示预计 2026 年第二季度部署免提高速公路驾驶功能；2027 年实现免提高速公路和城市驾驶；2028 年实现 L3 级自动驾驶（允许脱眼驾驶）；2029 年实现 L4 级自动驾驶。

政策与监管

欧盟议会委员会支持 AI 法案延期至 2027 年

PPC.Land | [链接](https://ppc.land/eu-parliament-committee-backs-ai-act-delay-with-fixed-2027-deadline/) 12:00

来源： PPC.Land | 链接

欧洲议会委员会于 2026 年 3 月 19 日发布联合报告，提出通过"数字综合 AI 立法包"对欧盟 AI 法案进行重大修正，将实施截止日期延至 2027 年。

AI 金融数据准确性问题引发关注

UCS Strategies | [链接](https://ucstrategies.com/news/dont-ask-ai-for-stock-advice-it-gets-financial-data-wrong-almost-every-time/) 12:00

来源： UCS Strategies | 链接

研究显示，当被要求充当散户投资者快速检索关键财务指标时，ChatGPT、Gemini 和 Claude 等 AI 模型的结果差异巨大，几乎每次都出错。研究呼吁对 AI 金融建议进行更严格监管。

AI 心理咨询伦理问题引发担忧

ScienceDaily | [链接](https://www.sciencedaily.com/news/computers_math/artificial_intelligence/) 12:00

来源： ScienceDaily | 链接

随着数百万人转向 AI 寻求心理健康支持，大学研究发出严重警告：即使被指示像训练有素的治疗师一样行事，这些系统也会经常违反核心伦理标准。

欧盟 AI 法案延期至 2027 年

PPC.Land 12:30

来源： PPC.Land

欧洲议会委员会于 2026 年 3 月 19 日发布联合报告，提出通过"数字综合 AI 立法包"对欧盟 AI 法案进行重大修正，将实施截止日期延至 2027 年，为成员国和企业提供更多准备时间。

AI 系统可观测性：加强主动风险检测

Azure 更新 12:30

来源： Azure 更新

微软强调 AI 系统可观测性的重要性，提出加强可见性以进行主动风险检测的新工具和方法，帮助企业更好地管理和监控 AI 系统运行状态。

高风险 AI 系统监管合规与有效性平衡

Lexology | 1 天前 12:30

来源： Lexology | 1 天前

法律专家讨论高风险 AI 系统与非高风险 AI 系统之间的监管差异，寻求在合规性与有效性之间找到平衡解决方案。2026 年 4 月 21 日将举办相关在线研讨会（2 CPD 学时）。

欧盟 AI 法案延期至 2027 年

PPC.Land 17:30

来源： PPC.Land

欧洲议会委员会于 2026 年 3 月 19 日发布联合报告：

提出通过"数字综合 AI 立法包"对欧盟 AI 法案进行重大修正
实施截止日期延至 2027 年
为成员国和企业提供更多准备时间

白宫 AI 框架：版权集体谈判豁免提议

WilmerHale 17:30

来源： WilmerHale

框架鼓励国会考虑：

允许知识产权持有者集体协商许可的框架
为 AI 训练数据授权提供法律确定性
平衡创作者权益与 AI 创新发展

AI 系统可观测性：主动风险检测新工具

Azure 更新 17:30

来源： Azure 更新

微软强调 AI 系统可观测性的重要性：

加强可见性以进行主动风险检测
提供新工具和方法帮助企业更好地管理和监控 AI 系统运行状态
支持企业级 AI 治理和合规需求

芯片与云计算

NVIDIA GTC 2026：与 AWS 扩大 AI 基础设施合作

NVIDIA Blog | 11 小时前 12:30

来源： NVIDIA Blog | 11 小时前

NVIDIA 与 AWS 宣布扩大合作伙伴关系，将在 AWS 计算组合中大规模部署 NVIDIA AI 基础设施。合作涵盖完整的 NVIDIA AI 计算栈，包括 Blackwell 和 Rubin GPU 架构、RTX PRO Blackwell Server Edition GPU（用于企业 AI 工作负载）以及 Groq 3 LPU（用于超低延迟推理）。

Neocloud 扩张重塑 AI 基础设施格局

SiliconANGLE | 12 小时前 12:30

来源： SiliconANGLE | 12 小时前

Neocloud 的扩张正在重塑 AI 基础设施，推动大规模 monetization、推理增长和新的企业收入模式。这一趋势反映了 AI 计算需求的快速增长和基础设施市场的多元化发展。

Azure 2026 年 3 月 23 日更新

Azure Brasil | 17 小时前 12:30

来源： Azure Brasil | 17 小时前

微软 Azure 发布多项更新：Fabric Mirroring 集成 Azure Database for MySQL（公共预览）、Azure SQL Database Hyperscale 推出 160 和 192vCore Premium 系列选项、Teams 优化 Windows App 在 iOS 和 Android 上正式可用、AI 系统可观测性增强等。

微软 vs AWS 认证：2026 年云职业发展路径

Windows News | 20 小时前 12:30

来源： Windows News | 20 小时前

分析指出，微软对多云场景的日益关注意味着 Azure 专业人员需要了解 AWS 和 Google Cloud 基础知识。AWS 的企业影响力增长也意味着 AWS 专业人员越来越多地遇到涉及本地 Windows 基础设施的混合场景。

NVIDIA-AWS 合作深化：Blackwell 全面进入 AWS 云

NVIDIA Blog | 11 小时前 17:30

来源： NVIDIA Blog | 11 小时前

NVIDIA 与 AWS 宣布扩大合作伙伴关系，将在 AWS 计算组合中大规模部署：

Blackwell 和 Rubin GPU 架构：下一代 AI 训练和推理加速
RTX PRO Blackwell Server Edition GPU：专为企业 AI 工作负载设计
Groq 3 LPU：超低延迟推理解决方案

此次合作标志着 NVIDIA AI 计算栈全面进入 AWS 云生态系统。

Neocloud 扩张重塑 AI 基础设施市场

SiliconANGLE | 12 小时前 17:30

来源： SiliconANGLE | 12 小时前

Neocloud 的持续扩张正在重塑 AI 基础设施格局，推动：

大规模商业化变现模式创新
推理服务快速增长
企业收入模式多元化

这一趋势反映了 AI 计算需求的爆发式增长和基础设施市场的多元化发展。

Azure 3 月 23 日更新：多项 AI 与云服务增强

Azure Brasil | 17 小时前 17:30

来源： Azure Brasil | 17 小时前

微软 Azure 发布多项更新：

Fabric Mirroring 集成 Azure Database for MySQL（公共预览）
Azure SQL Database Hyperscale 推出 160 和 192vCore Premium 系列选项
Teams 优化 Windows App 在 iOS 和 Android 上正式可用
AI 系统可观测性 增强，支持主动风险检测

多云认证趋势：2026 年职业发展建议

Windows News | 20 小时前 17:30

来源： Windows News | 20 小时前

分析指出，微软对多云场景的日益关注意味着 Azure 专业人员需要了解 AWS 和 Google Cloud 基础知识。建议 2026 年规划认证路径的 Windows 专业人员从微软 Azure Fundamentals (AZ-900) 开始，同时培养多云技能。

机器人与自动驾驶

自动驾驶货运预计 2035 年贡献 700 亿美元 GDP

Auto Connected Car News 12:30

来源： Auto Connected Car News

Aurora 委托 Steer Group 进行的新经济分析显示，自动驾驶卡车运输目前支持的经济活动预计到 2035 年将为 GDP 贡献 700 亿美元，凸显自动驾驶技术的经济潜力。

Waymo 目标 2026 年底每周 100 万次出租车服务

行业报道 12:30

来源： 行业报道

Waymo 设定了到 2026 年底每周提供 100 万次出租车服务的目标，公司正为扩展到 20 多个城市（包括伦敦和东京）奠定基础，目前服务 6 个城市。

Lucid Motors 自动驾驶时间表

Self Driving Cars 360 12:30

来源： Self Driving Cars 360

Lucid Motors 预计 2026 年 Q2 部署免提高速公路驾驶功能；2027 年实现免提高速公路和城市驾驶；2028 年实现 L3 级自动驾驶（允许脱眼驾驶）；2029 年实现 L4 级自动驾驶。

自动驾驶货运经济影响：2035 年贡献 700 亿美元 GDP

Auto Connected Car News 17:30

来源： Auto Connected Car News

Aurora 委托 Steer Group 进行的新经济分析显示：

自动驾驶卡车运输目前支持的经济活动预计到 2035 年将为 GDP 贡献 700 亿美元
凸显自动驾驶技术的巨大经济潜力
货运领域将成为自动驾驶商业化的重要突破口

Waymo 扩张计划：2026 年底每周 100 万次服务

行业报道 17:30

来源： 行业报道

Waymo 设定了雄心勃勃的扩张目标：

2026 年底目标：每周提供 100 万次出租车服务
当前服务城市：6 个
计划扩展城市：20+ 个（包括伦敦和东京等国际城市）

Lucid Motors 自动驾驶路线图

Self Driving Cars 360 17:30

来源： Self Driving Cars 360

Lucid Motors 公布清晰的自动驾驶发展时间表：

2026 年 Q2：部署免提高速公路驾驶功能
2027 年：实现免提高速公路和城市驾驶
2028 年：实现 L3 级自动驾驶（允许脱眼驾驶）
2029 年：实现 L4 级自动驾驶

市场与行业

生成式 AI 聊天机器人市场格局（2026 年 3 月）

First Page Sage 12:30

来源： First Page Sage

最新市场数据显示，主要生成式 AI 聊天机器人在美国市场的竞争态势持续演变，用户偏好和功能差异化成为竞争关键。

多云认证趋势：2026 年职业发展建议

Windows News 12:30

来源： Windows News

对于 2026 年规划认证路径的 Windows 专业人员，建议从微软 Azure Fundamentals (AZ-900) 开始，通过微软视角理解云概念，同时关注多云技能培养。

生成式 AI 聊天机器人市场份额（2026 年 3 月）

First Page Sage 17:30

来源： First Page Sage

最新市场数据显示主要生成式 AI 聊天机器人在美国市场的竞争态势：

用户偏好和功能差异化成为竞争关键
多模态能力和长上下文支持成为标配
垂直领域应用成为新的增长点

AI 训练版权争议：白宫立场明确

Digital Music News | 15 小时前 17:30

来源： Digital Music News | 15 小时前

白宫重申其立场：

AI 训练使用 IP 属于合理使用
建议由法院解决相关争议
鼓励行业通过集体协商达成许可协议

📚 每日学术论文

GLM-OCR Technical Report

Shuaiqi Duan, Yadong Xue, Weihan Wang et al. (智源研究院) 大语言模型与 AGI

作者： Shuaiqi Duan, Yadong Xue, Weihan Wang et al. (智源研究院)
来源： arXiv:2603.10910 | 链接
核心贡献： 提出 GLM-OCR 技术报告，详细介绍基于 GLM 架构的 OCR 系统设计与实现。
创新点： 将大语言模型与 OCR 任务深度融合，实现端到端的文档理解与文本识别，在复杂场景下显著提升识别准确率。

🔗 论文链接

OCR or Not? Rethinking Document Information Extraction in the MLLMs Era

多个机构联合研究大语言模型与 AGI

作者： 多个机构联合研究
来源： arXiv:2603.02789 | 链接
核心贡献： 在多模态大语言模型时代重新审视文档信息提取中 OCR 的必要性，基于真实世界大规模数据集进行系统性分析。
创新点： 发现纯图像模式下的文本提取错误率较高，而引入 OCR 后显著降低；提出 MLLM 与 OCR 系统协同工作的新范式。

🔗 论文链接

From Word to World: Can Large Language Models be Implicit Text-based World Models?

Yixia Li et al. 大语言模型与 AGI

作者： Yixia Li et al.
来源： arXiv:2512.18832 (v2: 2026-03-05) | 链接
核心贡献： 探索大语言模型作为隐式文本世界模型的能力，在五个代表性环境中验证世界模型的有效性。
创新点： 发现充分训练的世界模型能维持连贯的潜在状态，通过动作验证、合成轨迹生成和强化学习热启动显著提升智能体性能；明确了世界建模有效支持智能体学习的边界条件。

🔗 论文链接

Conservative Equilibrium Discovery in Offline Game-Theoretic Multiagent Reinforcement Learning

Austin A. Nguyen, Michael P. Wellman 大语言模型与 AGI

作者： Austin A. Nguyen, Michael P. Wellman
来源： arXiv cs.AI | 链接
核心贡献： 提出离线博弈论多智能体强化学习中的保守均衡发现方法。
创新点： 在不与环境交互的情况下，从静态数据集中发现稳健的均衡策略，为多智能体系统的安全部署提供理论保障。

🔗 论文链接

NeuroHex: Highly-Efficient Hex Coordinate System for Creating World Models to Enable Adaptive AI

Quinn Jacobson, Joe Luo, Jingfei Xu et al. 世界模型与强化学习

作者： Quinn Jacobson, Joe Luo, Jingfei Xu et al.
来源： NICE 2026 | 链接
核心贡献： 提出高效的六边形坐标系统用于构建世界模型，支持自适应 AI 系统。
创新点： 8+1 页论文，9 幅图表，发表于 NICE 2026；六边形坐标系统相比传统网格表示更高效，能更好地捕捉空间关系。

🔗 论文链接

A Survey of World Models in Artificial Intelligence

多个机构联合世界模型与强化学习

作者： 多个机构联合
来源： Preprints.org (2026-03-10) | 链接
核心贡献： 全面综述人工智能领域世界模型的研究进展，涵盖学习方法、应用场景和未来方向。
创新点： 系统梳理了从经典世界模型到基于 JEPA 架构的现代方法（如 MC-JEPA），为研究者提供全面参考。

🔗 论文链接

Learning Interactive World Model for Object-Centric Reinforcement Learning

多个机构联合世界模型与强化学习

作者： 多个机构联合
来源： arXiv 2026 | 链接
核心贡献： 学习交互式世界模型用于以对象为中心的强化学习。
创新点： 将对象中心表示与世界模型结合，提升智能体在复杂环境中的泛化能力和样本效率。

🔗 论文链接

VoxelDiffusionCut: Non-destructive Internal-part Extraction via Iterative Cutting and Structure Estimation

Takumi Hachimine, Yuhwan Kwon, Cheng-Yu Kuo et al. 计算机视觉与图像处理

作者： Takumi Hachimine, Yuhwan Kwon, Cheng-Yu Kuo et al.
来源： arXiv cs.CV | 链接
核心贡献： 提出通过迭代切割和结构估计实现非破坏性内部部件提取的体素扩散方法。
创新点： 结合扩散模型与体素表示，在保持物体完整性的前提下实现内部结构的精确提取，适用于医学影像和工业检测。

🔗 论文链接

BiSe-Unet: A Lightweight Dual-path U-Net with Attention-refined Context for Real-time Medical Image Segmentation

多个机构联合计算机视觉与图像处理

作者： 多个机构联合
来源： 提交至 IEEE EMBC 2026 | 链接
核心贡献： 提出轻量级双路径 U-Net 架构，结合注意力优化的上下文信息，实现实时医学图像分割。
创新点： 在保持高精度的同时显著降低计算开销，适用于资源受限的医疗设备和边缘部署场景。

🔗 论文链接

From Masks to Pixels and Meaning: A New Taxonomy, Benchmark, and Metrics for VLM Image Tampering

Xinyi Shang, Yi Tang, Jiacheng Cui et al. 计算机视觉与图像处理

作者： Xinyi Shang, Yi Tang, Jiacheng Cui et al.
来源： CVPR 2026 Findings | 链接
核心贡献： 提出视觉语言模型图像篡改的新分类体系、基准测试和评估指标。
创新点： 首次系统性研究 VLM 在图像篡改检测中的表现，提供代码和数据集支持；虽未选择加入 CVPR 2026 Findings，但已被录用。

🔗 论文链接

Learning Hierarchical Orthogonal Prototypes for Generalized Few-Shot 3D Point Cloud Segmentation

Yifei Zhao, Fanyu Zhao, Zhongyuan Zhang et al. 计算机视觉与图像处理

作者： Yifei Zhao, Fanyu Zhao, Zhongyuan Zhang et al.
来源： ICME 2026 | 链接
核心贡献： 提出层次化正交原型学习方法，用于广义少样本 3D 点云分割。
创新点： 6 页论文，6 幅图表，2 个表格；通过层次化原型表示提升少样本场景下的泛化能力，被 ICME 2026 录用。

🔗 论文链接

From Plausibility to Verifiability: Risk-Controlled Generative OCR for Vision-Language Models

Weile Gong, Yiping Zuo, Zijian Lu et al. OCR 与文档理解

作者： Weile Gong, Yiping Zuo, Zijian Lu et al.
来源： arXiv cs.CV | 链接
核心贡献： 提出风险控制的生成式 OCR 方法，提升视觉语言模型的文本识别可验证性。
创新点： 从"合理性"到"可验证性"的范式转变，引入风险度量机制确保 OCR 输出的可靠性，适用于高准确度要求的场景。

🔗 论文链接

Deep Learning Network based on Transformers for Multi-label Classification from Capsule Endoscopic Videos

多个机构联合 AI for Science 与交叉应用

作者： 多个机构联合
来源： arXiv cs.CV | 链接
核心贡献： 基于 Transformer 的深度学习网络用于胶囊内窥镜视频的多标签分类。
创新点： 针对 Gastro Competition 任务，微调 Google Vision Transformer (ViT)，实现 224×224 分辨率下的高效分类。

🔗 论文链接

Machine Learning for Geographical Information Science

多个机构联合 AI for Science 与交叉应用

作者： 多个机构联合
来源： International Journal of Geographical Information Science (2026) | 链接
核心贡献： 机器学习在地理信息科学中的应用研究。
创新点： 结合计算机视觉、图像处理与机器学习方法，解决地理空间数据分析中的挑战性问题。

🔗 论文链接

LeRobot: Robotics Learning with Hugging Face

Hugging Face 团队机器人与具身智能

作者： Hugging Face 团队
来源： Hugging Face Blog (2026-03-09) | 链接
核心贡献： 介绍 LeRobot 项目，将 Hugging Face 生态扩展至机器人学习领域。
创新点： 提供标准化的机器人学习数据集、模型和训练工具，降低机器人 AI 的研究门槛；3 月 9 日更新，新增多项功能。

🔗 论文链接

Gemma 3: Google's All New Multimodal, Multilingual, Long Context Open LLM

Google DeepMind 团队大语言模型与多模态

作者： Google DeepMind 团队
来源： Hugging Face Blog | 链接
核心贡献： 发布 Gemma 3 系列开放权重大语言模型，包含 1B、4B、12B、27B 四种参数量版本，提供基座和指令微调版本。
创新点： 原生多模态能力支持图像和文本输入，多语言支持覆盖 100+ 语种，长上下文窗口达 128K tokens；在开放模型中实现接近闭源模型的性能。

🔗 论文链接

State of Open Source on Hugging Face: Spring 2026

Hugging Face 团队大语言模型与多模态

作者： Hugging Face 团队
来源： Hugging Face Blog (2026-03-18) | 链接
核心贡献： 发布 2026 年春季开源 AI 生态报告，韩国国家主权 AI 计划推动 LG AI Research、SK Telecom、Naver Cloud 等机构模型在 Hugging Face Hub trending。
创新点： 2026 年 2 月韩国三款模型同时 trending，标志亚洲 AI 研究力量崛起；报告全面分析开源模型生态发展趋势。

🔗 论文链接

LLM-Model-Comparison-2026 Dataset

SaltTechno 团队大语言模型与多模态

作者： SaltTechno 团队
来源： Hugging Face Datasets | 链接
核心贡献： 发布 2026 年 Q1 v2 版本 LLM 模型对比数据集，涵盖最新模型发布、定价变化和基准测试更新。
创新点： 季度更新机制确保数据时效性，为研究者和开发者提供全面的模型选型参考。

🔗 论文链接

Keyframe-Guided Structured Rewards for RL in Long-Horizon Laboratory Robotics

Yibo Qiu, Shu'ang Sun, Haoliang Ye, Ronald X Xu, Mingzhai Sun 世界模型与强化学习

作者： Yibo Qiu, Shu'ang Sun, Haoliang Ye, Ronald X Xu, Mingzhai Sun
来源： arXiv cs.RO (2026-03) | 链接
核心贡献： 提出关键帧引导的结构化奖励方法，用于长时序实验室机器人强化学习任务。
创新点： 通过关键帧分解复杂任务，设计结构化奖励函数显著提升 RL 在长时序任务中的收敛速度和成功率。

🔗 论文链接

Hippo: High-performance Interior-Point and Projection-based Solver for Generic Constrained Trajectory Optimization

多机构联合世界模型与强化学习

作者： 多机构联合
来源： arXiv cs.RO (2026-03) | 链接
核心贡献： 提出 Hippo 高性能内点法和基于投影的求解器，用于通用约束轨迹优化问题。
创新点： 结合内点法的高效性和投影法的灵活性，在复杂约束条件下实现快速轨迹优化。

🔗 论文链接

DAM-VLA: A Dynamic Action Model-Based Vision-Language-Action Framework for Robot Manipulation

多机构联合世界模型与强化学习

作者： 多机构联合
来源： arXiv cs.RO (2026-03) | 链接
核心贡献： 提出基于动态动作模型的视觉 - 语言 - 动作框架，用于机器人操作任务。
创新点： 将 VLA 框架与动态动作模型结合，提升机器人在复杂操作任务中的适应性和泛化能力。

🔗 论文链接

From Global to Local: Learning Context-Aware Graph Representations for Document Classification and Summarization

Ruangrin Ldallitsakool, Margarita Bugueño, Gerard de Melo 计算机视觉

作者： Ruangrin Ldallitsakool, Margarita Bugueño, Gerard de Melo
来源： arXiv cs.CL | 链接
核心贡献： 学习上下文感知的图表示用于文档分类和摘要任务，实现从全局到局部的层次化建模。
创新点： 结合图神经网络与注意力机制，在文档理解任务中显著提升分类和摘要质量。

🔗 论文链接

Automated Evaluation of LLMs for Effective Machine Translation of Mandarin Chinese to English

多机构联合计算机视觉

作者： 多机构联合
来源： arXiv cs.CL (2026-03) | 链接
核心贡献： 提出自动化评估方法，系统评估大语言模型在中英机器翻译任务中的表现。
创新点： 建立标准化评估框架，揭示不同 LLM 在翻译质量、文化适配和术语一致性方面的差异。

🔗 论文链接

UMI-FT: Universal Manipulation Interface with Force-Torque Sensing for Contact-Rich Tasks

多机构联合机器人学习与操作

作者： 多机构联合
来源： arXiv cs.RO (2026-03) | 链接
核心贡献： 提出 UMI-FT 通用操作接口，集成力矩传感用于接触丰富任务。
创新点： 在白板擦拭、西葫芦串签、灯泡插入三个接触丰富任务中，UMI-FT 使策略能够可靠调节外部接触力和内部抓握力，优于缺乏顺应性或力传感的基线方法。

🔗 论文链接

Continuum Robot Configuration Space Analysis via Backbone Taper Angle

多机构联合机器人学习与操作

作者： 多机构联合
来源： arXiv cs.RO (2026-03) | 链接
核心贡献： 分析连续体机器人骨干锥角对配置空间和可操作性的影响，通过运动捕捉数据验证模型。
创新点： 实现厘米级形状预测精度，演示使用沿连续体机器人路由的内窥镜夹持器进行遥操作抓取。

🔗 论文链接

GRIP: A General Robotic Incremental Potential Contact Simulation Dataset

Siyu Ma, Wenxin Du, Chang Yu, Ying Jiang, Zeshun Zong, Tianyi Xie, Yunuo Chen, Yin Yang, Xuchen Han, Chenfanfu Jiang 机器人学习与操作

作者： Siyu Ma, Wenxin Du, Chang Yu, Ying Jiang, Zeshun Zong, Tianyi Xie, Yunuo Chen, Yin Yang, Xuchen Han, Chenfanfu Jiang
来源： arXiv cs.RO (2025-03, 持续更新) | 链接
核心贡献： 发布 GRIP 数据集，用于统一的可变形 - 刚体耦合抓取研究。
创新点： 提供大规模增量势接触仿真数据，推动机器人抓取领域研究进展。

🔗 论文链接

LLMs as Universal Text Processing Machines for Content Analysis

多机构联合文档理解与 OCR

作者： 多机构联合
来源： arXiv cs.CL (2026-01) | 链接
核心贡献： 将大语言模型概念化为通用文本处理机器，提出在定性和定量内容分析任务中运用 LLM 的综合工作流程。
创新点： 涵盖标注（编码、标签、文本分类）、摘要等三大任务，为社会科学和人文学科研究提供新方法。

🔗 论文链接

Machine Learning for Geographical Information Science

多机构联合 AI for Science 与交叉应用

作者： 多机构联合
来源： International Journal of Geographical Information Science (2026) | 链接
核心贡献： 机器学习在地理信息科学中的综合应用研究。
创新点： 结合计算机视觉、图像处理与机器学习方法，解决地理空间数据分析中的挑战性问题。

🔗 论文链接

Deep Learning for Capsule Endoscopic Video Classification

多机构联合 AI for Science 与交叉应用

作者： 多机构联合
来源： arXiv cs.CV | 链接
核心贡献： 基于 Transformer 的深度学习网络用于胶囊内窥镜视频的多标签分类。
创新点： 针对 Gastro Competition 任务优化 Google ViT，实现 224×224 分辨率下的高效分类，辅助医疗诊断。

🔗 论文链接

Multimodal Vision-Language Models Architecture Documentation

Hugging Face Transformers 团队前沿探索

作者： Hugging Face Transformers 团队
来源： DeepWiki | 链接
核心贡献： 详细记录 transformers 库中视觉 - 语言模型的架构和代码组织。
创新点： 涵盖像素输入（图像和视频帧）的编码、投影和融合机制，为 VLM 研究和开发提供权威参考。

🔗 论文链接

Hugging Face Complete Guide 2026: Models, Datasets, Development

TechAI Mag 团队前沿探索

作者： TechAI Mag 团队
来源： TechAI Mag | 链接
核心贡献： 2026 年 Hugging Face 完全指南，涵盖 200 万 + 模型和数据集。
创新点： 全面覆盖 NLP、计算机视觉（分类、检测、分割）、音频、语音和多模态系统（图像 - 文本、视频 - 文本）。

🔗 论文链接

← 返回首页