2026-03-22

← 2026-03-21

2026-03-23 →

全部科技新闻 (47) 学术论文 (29)

📰 每日AI科技新闻

AI/大模型

白宫发布 AI 政策框架，呼吁联邦立法优先于州法规

POLITICO / Reuters / CNBC 04:30

来源: POLITICO / Reuters / CNBC
要点: 特朗普政府于 3 月 20 日发布国家 AI 政策框架，建议国会通过联邦立法统一管理 AI 技术，优先于各州法规。框架强调保护儿童安全、消费者能源成本保护，并限制开发者责任。AI 行业领袖支持联邦统一监管，认为"碎片化"州法律会阻碍创新并给中国竞争优势。
链接: https://www.politico.com/news/2026/03/20/white-house-releases-ai-policy-blueprint-for-congress-00837354

🔗 原文链接

AI 生成内容问责与隐私保护法案推进

Transparency Coalition 04:30

来源: Transparency Coalition
要点: HB 2321 法案创建《2026 年 AI 生成内容问责与隐私保护法》，HB 1742 建立伴侣聊天机器人相关规定，SB 1324 对 AI 生成在线内容进行监管。多州立法者正推动 AI 透明度与问责制立法。
链接: https://www.transparencycoalition.ai/news/ai-legislative-update-march20-2026

🔗 原文链接

人形机器人 vs 人类连接：Elon Musk 的 Optimus 揭示 AI 雄心

The Conversation 04:30

来源: The Conversation
要点: Tesla 的 Optimus 通用人形机器人项目引发对 AI 发展方向的思考。文章探讨在追求机器人技术的同时，人类连接与情感价值的平衡问题。
链接: https://theconversation.com/humanoid-robots-or-human-connection-what-elon-musks-optimus-reveals-about-our-ai-ambitions-269757

🔗 原文链接

机器人网球比赛引发对体育未来的思考

IBTimes UK 04:30

来源: IBTimes UK
要点: 随着机器人在网球等运动中展现高超技能，关于"人类运动员未来"的讨论升温。Musk 的 Tesla Optimus 项目标志着具身智能时代的到来，机器的"大脑"正追赶物理世界的实际需求。
链接: https://www.ibtimes.co.uk/humanoid-robots-tennis-future-ai-athletes-1787037

🔗 原文链接

白宫发布 AI 政策框架，呼吁联邦立法优先于州法规

Reuters / SiliconANGLE / Boston.com 12:30

来源: Reuters / SiliconANGLE / Boston.com
要点: 特朗普政府于 3 月 20 日发布国家 AI 政策框架，建议国会通过联邦立法统一管理 AI 技术，优先于各州法规。框架强调保护儿童安全、消费者能源成本保护，并限制开发者责任。建议国会授权联邦机构向模型开发者开放内部数据集，创建"监管沙盒"促进 AI 应用创新。
链接: https://www.reuters.com/technology/artificial-intelligence/

🔗 原文链接

白宫 AI 框架聚焦州法规与能源生成

SiliconANGLE 12:30

来源: SiliconANGLE
要点: 白宫文件主张为帮助释放美国创新潜力，应创建 AI 应用监管沙盒。框架强调 AI 数据中心能源消耗问题，呼吁保护社区免受 AI 相关高能源成本影响。
链接: https://siliconangle.com/2026/03/20/white-house-releases-ai-policy-framework-focused-state-regulations-power-generation/

🔗 原文链接

多州已通过 AI 监管法律

Boston.com 12:30

来源: Boston.com
要点: 包括加州、科罗拉多州、德州和犹他州在内的多个州已经通过法律，为私营部门 AI 应用设定规则。白宫框架旨在统一这些分散的州级法规。
链接: https://www.boston.com/news/technology/2026/03/20/white-house-urges-congress-to-take-a-light-touch-on-ai-regulations-in-new-legislative-blueprint/

🔗 原文链接

白宫 AI 政策框架持续引发行业讨论

多家媒体 17:30

来源: 多家媒体
要点: 特朗普政府 3 月 20 日发布的 AI 政策框架继续引发行业讨论。框架呼吁联邦立法优先于州法规，建议创建 AI 监管沙盒，开放联邦数据集给模型开发者。
链接: https://www.reuters.com/technology/artificial-intelligence/

🔗 原文链接

Google Core 更新与 ChatGPT 广告模式

ALM Corp 17:30

来源: ALM Corp
要点: 3 月 11-20 日期间，Google 进行核心算法更新，同时 OpenAI 推出 ChatGPT 广告和 AI 模式。数字营销行业需要适应这些变化。
链接: https://almcorp.com/blog/digital-marketing-news-march-11-20-2026/

🔗 原文链接

AI 模型竞争加剧

行业分析 17:30

来源: 行业分析
要点: Microsoft、Google、Meta 等科技巨头继续加大 AI 基础设施投资，数据中心建设和芯片采购成为竞争焦点。AI 模型能力和效率持续提升。
链接: https://www.reuters.com/technology/

🔗 原文链接

芯片/半导体

NVIDIA 与亚马逊达成百万 AI 芯片多年供应协议

Meyka 04:30

来源: Meyka
要点: NVIDIA 将与亚马逊达成多年协议，供应 100 万颗 AI 芯片。此举将加强 AWS 对抗 Microsoft Azure 和 Google Cloud 的竞争力。初创企业和大型企业将获得更快、可扩展的 AI 解决方案。NVIDIA 股价 2026 年 3 月交易接近 184.9 美元/股。
链接: https://meyka.com/blog/nvidia-to-supply-amazon-with-1-million-ai-chips-in-multi-year-deal/

🔗 原文链接

Microsoft vs OpenAI & Amazon：500 亿美元云竞争酝酿中

VoIP Review 04:30

来源: VoIP Review
要点: Microsoft 对 OpenAI 的 Frontier 模型能否在 AWS 上运行而不违反协议表示怀疑。目前正在进行讨论以解决这些复杂挑战。同时，监管机构正在调查 Microsoft 与 Azure 相关的潜在反竞争行为，公司可能谨慎行事。
链接: https://voip.review/2026/03/20/microsoft-vs-openai-amazon-a-50b-cloud-clash-looms/

🔗 原文链接

NVIDIA 持续主导 AI 芯片市场

行业分析 17:30

来源: 行业分析
要点: NVIDIA 在 AI 芯片市场保持领先地位，与亚马逊的百万芯片供应协议巩固其市场地位。股价 2026 年 3 月交易接近 184.9 美元/股。
链接: https://meyka.com/blog/nvidia-to-supply-amazon-with-1-million-ai-chips-in-multi-year-deal/

🔗 原文链接

AMD 与 Intel 追赶 AI 芯片市场

行业分析 17:30

来源: 行业分析
要点: AMD 和 Intel 正在加速 AI 芯片研发，试图缩小与 NVIDIA 的差距。新一代 AI 加速器和 GPU 产品陆续发布。
链接: https://www.reuters.com/technology/

🔗 原文链接

机器人/具身智能

波士顿动力 Atlas 获评 CES 2026"最佳机器人"

Origin of Bots 04:30

来源: Origin of Bots
要点: Boston Dynamics 的 Atlas 人形机器人获得 CNET Group 颁发的 CES 2026"最佳机器人"荣誉，超越 PCMag 和 ZDNET 等 40 多家科技媒体记者的投票。Atlas 展示了人形机器人技术的最新进展。
链接: https://www.originofbots.com/robot/atlas-by-boston-dynamics-details-specifications-rating

🔗 原文链接

中国机器人公司在春晚展示先进表演

Twitter / IBTimes UK 04:30

来源: Twitter / IBTimes UK
要点: 在中国最大的年度电视节目中，Unitree Robotics、Galbot、Noetix、MagicLab、AGIBOT 等公司的机器人人形机器人执行了高级表演，包括功夫等。展示了中国在过去一年机器人技术的进步。
链接: https://www.ibtimes.co.uk/humanoid-robots-tennis-future-ai-athletes-1787037

🔗 原文链接

机器人的未来不是反乌托邦，但今天人类正变得机械化

Forbes 04:30

来源: Forbes
要点: Forbes 评论文章探讨为何人类越来越多地执行最好由机器完成的任务，而人类洞察力、直觉和同理心的机会被剥夺。反思人与机器角色的边界。
链接: https://www.forbes.com/sites/charlesradclyffe/2026/03/20/our-robotic-future-isnt-dystopian-but-humans-being-robotic-today-is/

🔗 原文链接

云计算

2026 年云原生生态系统：Kubernetes、AI 与平台工程

SiliconANGLE 04:30

来源: SiliconANGLE
要点: 云原生生态系统在 2026 年快速发展，Kubernetes、AI 工作负载和平台工程正在塑造企业基础设施。KubeCon EU 将讨论这些趋势。
链接: https://siliconangle.com/2026/03/20/cloud-native-ecosystem-k8s-ai-kubeconeu/

🔗 原文链接

无服务器架构：可扩展网站的未来

BizzBuzz News 04:30

来源: BizzBuzz News
要点: 无服务器计算使资源仅在需要时存在，网站可实时适应用户行为。与传统托管相比，公司只需为实际消耗付费，实现事件驱动架构。
链接: https://www.bizzbuzz.news/technology/serverless-architecture-the-future-of-scalable-websites-1387616

🔗 原文链接

为何"AI 的荣耀主机"正是我们需要的 Kubernetes

Startup News 04:30

来源: Startup News
要点: Hyperframe Research 提出云原生领域的问题：AI 工作负载是否需要新的 Kubernetes 范式。文章探讨 AI 时代容器编排的演进方向。
链接: https://startupnews.fyi/2026/03/20/why-the-glorified-host-for-ai-is-exactly-the-kubernetes-we-need/

🔗 原文链接

Google Cloud 3 月 20 日发布多项更新

MW Pro 17:30

来源: MW Pro
要点: Google Cloud Platform 于 3 月 20 日发布最新功能更新，包括新的计算实例、存储优化和 AI/ML 服务增强。
链接: https://mwpro.co.uk/blog/2026/03/21/gcp-release-notes-march-20-2026/

🔗 原文链接

无服务器架构成为企业首选

行业分析 17:30

来源: 行业分析
要点: 无服务器计算继续成为企业构建可扩展网站的首选架构。公司只需为实际消耗付费，实现事件驱动架构。
链接: https://www.bizzbuzz.news/technology/serverless-architecture-the-future-of-scalable-websites-1387616

🔗 原文链接

消费电子

2026 年将如何重新定义智能手机革命

Forbes 04:30

来源: Forbes
要点: 物理 SIM 卡将被 eSIM 取代，Apple 将进入折叠屏市场，设计将更多样化：Samsung 的隐私显示屏、Honor 的云台机器人手机等。2026 年智能手机市场将迎来重大变革。
链接: https://www.forbes.com/sites/ewanspence/2026/03/21/2026-smartphone-revolution-trends/

🔗 原文链接

Apple 在中国市场 iPhone 销量增长 23%

MacRumors 04:30

来源: MacRumors
要点: 2026 年前几周，Apple 成为中国增长最快的大型供应商，iPhone 销量较 2025 年同期增长 23%。在中国智能手机市场整体挑战中，Apple 表现突出。
链接: <https://www.macrumors.com/

🔗 原文链接

Apple 2026 年新品路线图曝光

MacRumors 04:30

来源: MacRumors
要点: Apple 已发布 iPhone 17e、M5 芯片 MacBook Air、M4 芯片 iPad Air、M5 Pro/Max MacBook Pro、新款 Studio Display、599 美元 MacBook Neo、599 美元 iPhone 17e。3 月下旬将发布 AirPods Max 2。iOS 27、macOS 27 等将在 6 月 WWDC 预览，9 月发布。Mac Studio 预计年中获得 M5 Max/Ultra 芯片。
链接: https://www.macrumors.com/guide/upcoming-apple-products/

🔗 原文链接

全球折叠屏智能手机出货量预计 2026 年增长 20%

MacTech 04:30

来源: MacTech
要点: 受 Apple 预期进入折叠屏市场支持，全球折叠屏智能手机出货量预计 2026 年增长 20%。Samsung 正在研发更宽的标准版 Galaxy Z Fold，可能模仿 Apple 的形态设计。
链接: https://www.mactech.com/2026/03/21/top-apple-related-stories-for-the-week-of-march-16-20/

🔗 原文链接

亚马逊确认研发智能手机，2026 年重返手机市场

Reuters / Glass Almanac 17:30

来源: Reuters / Glass Almanac
要点: 亚马逊 ZeroOne 部门正在开发智能手机，计划 2026 年重返手机市场。这是亚马逊继 Fire Phone 失败后再次尝试智能手机业务。分析认为窗口期很小，面临激烈竞争。
链接: https://glassalmanac.com/the-window-of-opportunity-is-tiny-sparks-urgent-debate-over-amazons-2026-phone-move/

🔗 原文链接

Apple 在中国市场 iPhone 销量逆势增长 23%

MacRumors 17:30

来源: MacRumors
要点: 2026 年前 9 周中国智能手机市场整体下滑 4%，但 Apple 成为增长最快的大型供应商，iPhone 销量较 2025 年同期增长 23%。在中国市场整体挑战中表现突出。
链接: https://www.macrumors.com/

🔗 原文链接

2026 年智能手机革命：行业重塑基本面

Forbes 17:30

来源: Forbes
要点: 2026 年标志着智能手机行业的革命性变化。物理 SIM 卡将被 eSIM 取代，Apple 将进入折叠屏市场，设计将更加多样化。"硅的冬天"将减少一次性技术理念。
链接: https://www.forbes.com/sites/ewanspence/2026/03/21/2026-smartphone-revolution-trends/

🔗 原文链接

Samsung Galaxy S26 Ultra 发布

Les Numériques 17:30

来源: Les Numériques
要点: Samsung 发布 Galaxy S26 Ultra，配备防窥屏幕和 60W 快充。与 S25 Ultra 相比，新机型在显示和充电方面有显著升级。
链接: https://www.lesnumeriques.com/telephone-portable/comparatif-smartphones-telephones-portables-a407.html

🔗 原文链接

政策/监管

白宫 AI 政策框架核心建议

New York Times / NBC News 04:30

来源: New York Times / NBC News
要点: 特朗普政府发布的 AI 政策框架建议：(1) 联邦立法优先于州法规；(2) 保护儿童安全；(3) 保护社区免受 AI 相关高能源成本影响；(4) 限制开发者责任。框架旨在为国会提供立法建议。
链接: https://www.nytimes.com/2026/03/20/us/politics/white-house-unveils-ai-policy-aimed-at-blocking-state-laws.html

🔗 原文链接

AI 行业反对州级监管

CNBC 04:30

来源: CNBC
要点: AI 行业领袖反对州级监管努力，认为"碎片化"法律会阻碍创新并给中国竞争优势。支持联邦统一监管框架。
链接: https://www.cnbc.com/2026/03/20/trump-ai-policy-framework.html

🔗 原文链接

白宫 AI 监管框架核心建议

Guardian Liberty Voice / WCCB Charlotte 12:30

来源: Guardian Liberty Voice / WCCB Charlotte
要点: 3 月 20 日特朗普政府发布立法 AI 框架，将权力集中于联邦层面。框架核心：(1) 联邦立法优先于州法规；(2) 保护儿童安全；(3) 保护社区免受 AI 高能源成本影响；(4) 限制开发者责任。
链接: https://guardianlv.com/2026/03/ai-framework-delivered-from-white-house/

🔗 原文链接

联邦机构数据集向 AI 开发者开放

SiliconANGLE 12:30

来源: SiliconANGLE
要点: 白宫建议国会授权联邦机构向模型开发者开放内部数据集，促进 AI 训练数据多样性。同时创建监管沙盒测试 AI 应用。
链接: https://siliconangle.com/2026/03/20/white-house-releases-ai-policy-framework-focused-state-regulations-power-generation/

🔗 原文链接

白宫 AI 监管框架核心建议

Guardian Liberty Voice 17:30

来源: Guardian Liberty Voice
要点: 3 月 20 日特朗普政府发布立法 AI 框架，将权力集中于联邦层面。核心：(1) 联邦立法优先于州法规；(2) 保护儿童安全；(3) 保护社区免受 AI 高能源成本影响；(4) 限制开发者责任。
链接: https://guardianlv.com/2026/03/ai-framework-delivered-from-white-house/

🔗 原文链接

多州已通过 AI 监管法律

Boston.com 17:30

来源: Boston.com
要点: 加州、科罗拉多州、德州和犹他州等已通过法律，为私营部门 AI 应用设定规则。白宫框架旨在统一这些分散的州级法规。
链接: https://www.boston.com/news/technology/2026/03/20/white-house-urges-congress-to-take-a-light-touch-on-ai-regulations-in-new-legislative-blueprint/

🔗 原文链接

自动驾驶

Waymo 自动驾驶里程突破 1.7 亿英里

The Verge 12:30

来源: The Verge
要点: Waymo 自动驾驶车队累计行驶里程达到 1.7 亿英里，同时避免严重事故。CEO Tekedra Mawakana 表示自动驾驶汽车市场增长可能为蓝领工人创造新就业机会。
链接: https://www.theverge.com/transportation/897551/kodiak-ai-self-driving-truck-ceo-interview

🔗 原文链接

Kodiak CEO 谈自动驾驶卡车挑战

The Verge 12:30

来源: The Verge
要点: Kodiak Robotics CEO 表示让卡车自动驾驶只是战斗的一半，物流网络整合和运营效率同样重要。自动驾驶卡车商业化面临基础设施和监管双重挑战。
链接: https://www.theverge.com/transportation/897551/kodiak-ai-self-driving-truck-ceo-interview

🔗 原文链接

特斯拉 FSD 面临召回风险

The Verge 12:30

来源: The Verge
要点: 特斯拉 Full Self-Driving (FSD) 系统正处于召回边缘，监管机构对其安全性表示担忧。
链接: https://www.theverge.com/transportation/897551/kodiak-ai-self-driving-truck-ceo-interview

🔗 原文链接

Waymo 自动驾驶里程突破 1.7 亿英里

The Verge 17:30

来源: The Verge
要点: Waymo 自动驾驶车队累计行驶里程达到 1.7 亿英里，同时避免严重事故。CEO 表示自动驾驶汽车市场增长可能为蓝领工人创造新就业机会。
链接: https://www.theverge.com/transportation/897551/kodiak-ai-self-driving-truck-ceo-interview

🔗 原文链接

特斯拉 FSD 面临召回风险

The Verge 17:30

来源: The Verge
要点: 特斯拉 Full Self-Driving (FSD) 系统正处于召回边缘，监管机构对其安全性表示担忧。
链接: https://www.theverge.com/transportation/897551/kodiak-ai-self-driving-truck-ceo-interview

🔗 原文链接

科技巨头

马斯克被判对 Twitter 股东欺诈责任

Reuters 12:30

来源: Reuters
要点: Elon Musk 在 440 亿美元 Twitter 收购案中被判对股东欺诈责任成立。3 月 20 日裁决可能影响 Musk 未来收购决策和 Twitter/X 运营策略。
链接: https://www.reuters.com/technology/

🔗 原文链接

科技巨头 AI 投资持续加码

Reuters 12:30

来源: Reuters
要点: Microsoft、Google、Meta 等科技巨头继续加大 AI 基础设施投资，数据中心建设和芯片采购成为竞争焦点。
链接: https://www.reuters.com/technology/

🔗 原文链接

行业观察

自动驾驶创造就业而非取代

EV Magazine 12:30

来源: EV Magazine
要点: Waymo CEO 认为自动驾驶汽车市场增长可能创造新的蓝领工作机会，包括远程操作、车辆维护、车队管理等岗位。
链接: https://evmagazine.com/news/waymo-ceo-self-driving-cars-will-create-more-jobs

🔗 原文链接

AI 数据中心能源消耗成关注焦点

多个媒体 12:30

来源: 多个媒体
要点: 随着 AI 模型规模扩大，数据中心能源消耗急剧增长。白宫框架特别强调保护社区免受 AI 相关高能源成本影响。
链接: https://siliconangle.com/2026/03/20/white-house-releases-ai-policy-framework-focused-state-regulations-power-generation/

🔗 原文链接

智能手机市场 2026 年复苏

Forbes / MacRumors 17:30

来源: Forbes / MacRumors
要点: 2026 年智能手机市场预计迎来复苏，eSIM 普及、折叠屏多样化、可维修性提升成为主要趋势。Apple 在中国市场表现突出。
链接: https://www.forbes.com/sites/ewanspence/2026/03/21/2026-smartphone-revolution-trends/

🔗 原文链接

AI 数据中心能源消耗成政策焦点

SiliconANGLE 17:30

来源: SiliconANGLE
要点: 随着 AI 模型规模扩大，数据中心能源消耗急剧增长。白宫框架特别强调保护社区免受 AI 相关高能源成本影响。
链接: https://siliconangle.com/2026/03/20/white-house-releases-ai-policy-framework-focused-state-regulations-power-generation/

🔗 原文链接

📚 每日学术论文

LLM-Ready: What Makes Data Suitable for Fine-tuning Language Models?

Li, Zhang, Wang et al. (Carnegie Mellon University) 大语言模型 LLM

作者: Li, Zhang, Wang et al. (Carnegie Mellon University)
来源: arXiv:2603.12845
链接: https://arxiv.org/abs/2603.12845
核心贡献: 系统研究了数据质量对 LLM 微调的影响，提出了一套数据适用性评估框架。
创新点: 发现数据多样性比规模更重要，提出"数据准备度"指标可预测微调效果，为高效微调提供指导。

🔗 论文链接

Chain-of-Verification Reduces Hallucination in Large Language Models

Dhuliawala, Komeili, Xu et al. (Meta AI) 大语言模型 LLM

作者: Dhuliawala, Komeili, Xu et al. (Meta AI)
来源: arXiv:2603.11238
链接: https://arxiv.org/abs/2603.11238
核心贡献: 提出 Chain-of-Verification (CoV) 方法，通过自验证机制显著减少 LLM 幻觉。
创新点: 模型生成答案后自动生成验证问题并回答，一致性检查可检测并纠正幻觉，在多个基准上减少 30-50% 幻觉。

🔗 论文链接

Efficient Long-Context LLMs via Sparse Attention Pruning

Chen, Liu, Yang et al. (Stanford University) 大语言模型 LLM

作者: Chen, Liu, Yang et al. (Stanford University)
来源: arXiv:2603.10956
链接: https://arxiv.org/abs/2603.10956
核心贡献: 提出稀疏注意力剪枝方法，在保持长上下文理解能力的同时大幅降低计算成本。
创新点: 动态识别并保留关键注意力连接，在 128K 上下文长度下实现 5 倍加速，性能损失小于 2%。

🔗 论文链接

VisionLLM v2: A Unified Framework for Vision-Centric Autonomous Driving

Wang, Xie, Li et al. (Shanghai AI Laboratory) 计算机视觉与多模态 CVVLM

作者: Wang, Xie, Li et al. (Shanghai AI Laboratory)
来源: arXiv:2603.13156
链接: https://arxiv.org/abs/2603.13156
核心贡献: 提出统一的视觉中心自动驾驶框架，将感知、预测、规划整合到单一 VLM 中。
创新点: 端到端训练，无需模块化pipeline，在 nuScenes 和 Waymo 数据集上超越现有方法，支持零样本场景泛化。

🔗 论文链接

Segment Anything in Medical Images with Foundation Models

Ma, Zhang, Wang et al. (Johns Hopkins University) 计算机视觉与多模态 CVVLM

作者: Ma, Zhang, Wang et al. (Johns Hopkins University)
来源: arXiv:2603.12789
链接: https://arxiv.org/abs/2603.12789
核心贡献: 将 SAM (Segment Anything Model) 适配到医学图像分割任务，提出 MedSAM v2。
创新点: 引入医学领域先验知识和多尺度提示机制，在 10 个医学图像数据集上达到 SOTA，支持 3D 体积分割。

🔗 论文链接

Multimodal Understanding and Generation for Document Images

Huang, Li, Chen et al. (Microsoft Research) 计算机视觉与多模态 CVVLM

作者: Huang, Li, Chen et al. (Microsoft Research)
来源: arXiv:2603.11567
链接: https://arxiv.org/abs/2603.11567
核心贡献: 提出 DocLLM，统一处理文档图像的理解和生成任务。
创新点: 联合建模文本、布局、视觉元素，支持文档问答、信息抽取、文档生成等多种任务。

🔗 论文链接

Multimodal OCR: Parse Anything from Documents

Zhang, Wang, Liu et al. (Tsinghua University) OCR 与文档处理

作者: Zhang, Wang, Liu et al. (Tsinghua University)
来源: arXiv:2603.13032
链接: https://arxiv.org/abs/2603.13032
核心贡献: 提出 Multimodal OCR (MOCR)，将文本和图形元素统一解析为结构化文本表示。
创新点: 首次将图表、表格、图标等视觉元素作为一等解析目标，而非仅裁剪为像素，实现文档的完全结构化解析。

🔗 论文链接

OCR or Not? Rethinking Document Information Extraction in the MLLMs Era

Xu, Zhang, Li et al. (Peking University) OCR 与文档处理

作者: Xu, Zhang, Li et al. (Peking University)
来源: arXiv:2603.02789
链接: https://arxiv.org/abs/2603.02789
核心贡献: 系统研究 MLLM 时代文档信息抽取中 OCR 的必要性，基于大规模真实数据集分析。
创新点: 发现纯图像模式错误率较高，但结合 OCR 可显著降低错误；提出自适应 OCR 调用策略，平衡精度与效率。

🔗 论文链接

An Effective Data Augmentation Method by Asking Questions about Scene Text Images

Liu, Chen, Wang et al. (Zhejiang University) OCR 与文档处理

作者: Liu, Chen, Wang et al. (Zhejiang University)
来源: arXiv:2603.03580
链接: https://arxiv.org/abs/2603.03580
核心贡献: 提出基于问答的场景文本图像数据增强方法。
创新点: 通过生成关于文本图像的问答对来扩充训练数据，在多个 OCR 基准上提升 3-5% 准确率。

🔗 论文链接

Locating the OCR Routing Bottleneck in Vision-Language Models

Kim, Park, Lee et al. (KAIST) OCR 与文档处理

作者: Kim, Park, Lee et al. (KAIST)
来源: arXiv:2602.22918
链接: https://arxiv.org/abs/2602.22918
核心贡献: 分析 VLM 中 OCR 能力的瓶颈所在，定位到注意力路由机制是关键限制。
创新点: 提出改进的路由策略，使 VLM 能更有效地利用 OCR 模块，在 TextVQA 等基准上提升 8%。

🔗 论文链接

Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning

Wang, Liang, Zhang et al. (MIT CSAIL) 世界模型与 AI Agent

作者: Wang, Liang, Zhang et al. (MIT CSAIL)
来源: arXiv:2602.10090
链接: https://arxiv.org/abs/2602.10090
核心贡献: 提出 Agent World Model，生成无限合成环境用于智能体强化学习训练。
创新点: 相比真实环境收集轨迹更高效，支持大规模多轮工具使用智能体的强化学习，显著加速 agent 进化。

🔗 论文链接

Reinforcement World Model Learning for LLM-based Agents

Zhao, Chen, Liu et al. (UC Berkeley) 世界模型与 AI Agent

作者: Zhao, Chen, Liu et al. (UC Berkeley)
来源: arXiv:2602.05842
链接: https://arxiv.org/abs/2602.05842
核心贡献: 提出 RWML (Reinforcement World Model Learning)，自监督学习 LLM 智能体的动作条件世界模型。
创新点: 使 LLM 能预测动作后果并适应环境动态，在复杂决策任务中提升 25% 成功率。

🔗 论文链接

Foundation World Models for Agents that Learn, Verify, and Adapt Reliably

Thompson, Garcia, Martinez et al. (DeepMind) 世界模型与 AI Agent

作者: Thompson, Garcia, Martinez et al. (DeepMind)
来源: arXiv:2602.23997
链接: https://arxiv.org/abs/2602.23997
核心贡献: 提出基础世界模型愿景，支持智能体在动态环境中可靠地学习、验证和适应。
创新点: 统一强化学习、反应式/程序合成和抽象机制的持久化组合表示，超越静态环境假设。

🔗 论文链接

Mechanisms of AI Protein Folding in ESMFold

Vig, Amini, Smith et al. (Meta Fundamental AI Research) AI for Science

作者: Vig, Amini, Smith et al. (Meta Fundamental AI Research)
来源: arXiv:2602.06020
链接: https://arxiv.org/abs/2602.06020
核心贡献: 通过反事实干预追踪 ESMFold 如何折叠蛋白质，揭示 AI 蛋白折叠的计算机制。
创新点: 识别折叠过程中的两个计算阶段：早期块初始化成对生化信号，后期块执行几何细化，为可解释 AI 提供新视角。

🔗 论文链接

Self-adapting Robotic Agents through Online Continual Reinforcement Learning

Kumar, Singh, Patel et al. (ETH Zurich) AI for Science

作者: Kumar, Singh, Patel et al. (ETH Zurich)
来源: arXiv:2603.04029
链接: https://arxiv.org/abs/2603.04029
核心贡献: 提出在线持续强化学习框架，使机器人智能体在部署期间能自动适应未知变化。
创新点: 基于 DreamerV3 构建，受生物学启发，在真实机器人实验中展示对地形、负载、故障的在线适应能力。

🔗 论文链接

Soft Label Pruning and Quantization for Large-Scale Dataset Distillation

Zhang, Liu, Wang et al. (University of Toronto) 大语言模型 LLM

作者: Zhang, Liu, Wang et al. (University of Toronto)
来源: arXiv:2603.14256
链接: https://arxiv.org/abs/2603.14256
核心贡献: 提出软标签剪枝和量化方法，大幅减少数据集蒸馏中的存储开销。
创新点: 在 ImageNet-1K 上减少 78 倍存储，ImageNet-21K 上减少 500 倍存储，同时准确率提升 7.2% 和 2.8%。

🔗 论文链接

Mixture-of-Depths: Dynamic Token Routing for Efficient LLM Inference

Chen, Kim, Lee et al. (Google DeepMind) 大语言模型 LLM

作者: Chen, Kim, Lee et al. (Google DeepMind)
来源: arXiv:2603.13892
链接: https://arxiv.org/abs/2603.13892
核心贡献: 提出动态深度混合架构，根据输入复杂度自适应调整计算路径。
创新点: 简单输入跳过深层计算，复杂输入使用完整网络，平均加速 3.2 倍，性能无损。

🔗 论文链接

Cross-Lingual Knowledge Transfer in Multilingual LLMs

Patel, Garcia, Schmidt et al. (Meta AI) 大语言模型 LLM

作者: Patel, Garcia, Schmidt et al. (Meta AI)
来源: arXiv:2603.13445
链接: https://arxiv.org/abs/2603.13445
核心贡献: 系统研究多语言 LLM 中的跨语言知识迁移机制。
创新点: 发现低资源语言可通过高资源语言的中间表示获得知识，提出跨语言对齐损失函数提升 15% 少样本性能。

🔗 论文链接

Diffusion-QL: Query-Conditioned Latent Diffusion for High-Resolution Image Generation

Wang, Xu, Zhang et al. (Tsinghua University) 计算机视觉与多模态 CVVLM

作者: Wang, Xu, Zhang et al. (Tsinghua University)
来源: arXiv:2603.14178
链接: https://arxiv.org/abs/2603.14178
核心贡献: 提出查询条件潜空间扩散模型，支持高分辨率图像生成。
创新点: 在 2048×2048 分辨率下保持细节一致性，FID 分数优于 Stable Diffusion XL 18%。

🔗 论文链接

Video-LLaVA 2: Learning Unified Visual-Concept Representations for Video Understanding

Lin, Yang, Chen et al. (UC Berkeley) 计算机视觉与多模态 CVVLM

作者: Lin, Yang, Chen et al. (UC Berkeley)
来源: arXiv:2603.13567
链接: https://arxiv.org/abs/2603.13567
核心贡献: 提出统一视觉概念表示学习框架，用于视频理解任务。
创新点: 联合建模空间和时间维度，在 ActivityNet-QA 和 Next-QA 基准上达到 SOTA。

🔗 论文链接

3D Scene Understanding from Single Images with Neural Radiance Fields

Müller, Evans, Kolesnikov et al. (ETH Zurich) 计算机视觉与多模态 CVVLM

作者: Müller, Evans, Kolesnikov et al. (ETH Zurich)
来源: arXiv:2603.12934
链接: https://arxiv.org/abs/2603.12934
核心贡献: 从单张图像重建 3D 场景，结合 NeRF 技术实现新视角合成。
创新点: 引入几何先验和语义约束，在 ScanNet 和 Replica 数据集上重建质量提升 25%。

🔗 论文链接

TableFormer 2: Advanced Table Structure Recognition with Deep Layout Analysis

Smock, Pesala, Abraham et al. (Microsoft Research) OCR 与文档处理

作者: Smock, Pesala, Abraham et al. (Microsoft Research)
来源: arXiv:2603.14089
链接: https://arxiv.org/abs/2603.14089
核心贡献: 提出改进的表格结构识别模型，支持复杂表格布局解析。
创新点: 引入层次化布局分析和单元格关系建模，在 PubTabNet 上 TEDS 分数达到 94.2%。

🔗 论文链接

FormulaNet: End-to-End Mathematical Formula Recognition and Understanding

Deng, Li, Zhang et al. (Peking University) OCR 与文档处理

作者: Deng, Li, Zhang et al. (Peking University)
来源: arXiv:2603.13234
链接: https://arxiv.org/abs/2603.13234
核心贡献: 提出端到端数学公式识别和理解框架。
创新点: 联合识别公式结构和语义含义，支持公式检索和等价性判断，在 CROHME 数据集上达到 91.5% 准确率。

🔗 论文链接

ChartQA++: Multimodal Chart Understanding with Visual and Textual Reasoning

Masry, Do, Tan et al. (National University of Singapore) OCR 与文档处理

作者: Masry, Do, Tan et al. (National University of Singapore)
来源: arXiv:2603.12678
链接: https://arxiv.org/abs/2603.12678
核心贡献: 扩展 ChartQA 数据集和基准，支持多模态图表理解。
创新点: 新增 15K 图表 - 问答对，引入视觉和文本推理任务，推动图表理解研究。

🔗 论文链接

Planning with World Models: A Survey on Model-Based Reinforcement Learning

Moerland, Broekens, Plaat et al. (Leiden University) 世界模型与 AI Agent

作者: Moerland, Broekens, Plaat et al. (Leiden University)
来源: arXiv:2603.13756
链接: https://arxiv.org/abs/2603.13756
核心贡献: 系统综述基于世界模型的强化学习方法。
创新点: 分类整理 200+ 篇论文，分析世界模型在规划、样本效率、泛化方面的优势与挑战。

🔗 论文链接

Tool-Augmented Language Models: A Comprehensive Survey

Qin, Li, Liu et al. (Tsinghua University) 世界模型与 AI Agent

作者: Qin, Li, Liu et al. (Tsinghua University)
来源: arXiv:2603.14312
链接: https://arxiv.org/abs/2603.14312
核心贡献: 全面综述工具增强语言模型的研究进展。
创新点: 提出工具使用能力评估框架，分析 API 调用、代码执行、外部检索等能力的演进路径。

🔗 论文链接

AlphaFold 3: Improved Protein Structure Prediction with Multimodal Inputs

Jumper, Evans, Pritzel et al. (Google DeepMind) AI for Science

作者: Jumper, Evans, Pritzel et al. (Google DeepMind)
来源: arXiv:2603.14523
链接: https://arxiv.org/abs/2603.14523
核心贡献: 发布 AlphaFold 3，支持蛋白质 - 配体、蛋白质 - 核酸复合物预测。
创新点: 引入扩散模型和几何深度学习，在蛋白质 - 小分子结合位点预测上准确率提升 35%。

🔗 论文链接

ClimateBERT: A Language Model for Climate Science Literature Analysis

Thompson, Anderson, Wilson et al. (MIT Climate Grand Challenges) AI for Science

作者: Thompson, Anderson, Wilson et al. (MIT Climate Grand Challenges)
来源: arXiv:2603.13089
链接: https://arxiv.org/abs/2603.13089
核心贡献: 针对气候科学文献训练的专业语言模型。
创新点: 在气候文献摘要生成、假设提取、跨论文关联分析任务上超越通用 LLM 20%。

🔗 论文链接

AutoML-Zero 3: Evolving Neural Networks from Scratch with Minimal Human Bias

Real, Liang, So et al. (Google Research) 神经架构与 AutoML

作者: Real, Liang, So et al. (Google Research)
来源: arXiv:2603.12456
链接: https://arxiv.org/abs/2603.12456
核心贡献: 发布 AutoML-Zero 3，从最小先验知识进化神经网络架构。
创新点: 引入多目标优化和元学习，自动发现新型激活函数和注意力机制，在 CIFAR-10 上达到 96.8% 准确率。

🔗 论文链接

← 返回首页