📰 每日AI科技新闻
大模型/AI
Yann LeCun 的 AMI Labs 融资 10.3 亿美元打造"世界模型"
- 来源: TechCrunch
- 链接: https://techcrunch.com/2026/03/09/yann-lecuns-ami-labs-raises-1-03-billion-to-build-world-models/
- 摘要: 图灵奖得主 Yann LeCun 离开 Meta 后创立的 AMI Labs 完成 10.3 亿美元融资,估值达 35 亿美元。公司致力于开发"世界模型"——能够从现实中学习而不仅是从语言中学习的 AI。首个合作伙伴是数字健康初创公司 Nabla,旨在解决 LLM 幻觉在医疗领域可能带来的致命风险。
Anthropic 因拒绝五角大楼合作获用户支持,Claude 登顶 App Store
- 来源: Business Insider
- 链接: https://www.businessinsider.com/anthropic-claude-hits-number-one-app-store-openai-chatgpt-2026-2
- 摘要: Anthropic 因拒绝移除 AI 安全限制以配合五角大楼需求,引发用户大规模支持。部分 ChatGPT 用户转投 Claude,使其超越 ChatGPT 登顶 App Store 榜首。OpenAI 则与国防部达成协议,强调人类对自主武器的监督和限制大规模 surveillance。
Anthropic 诉五角大楼:科技巨头在 AI 与战争问题上的立场逆转
- 来源: The Guardian
- 链接: https://www.theguardian.com/technology/2026/mar/13/anthropic-pentagon-artificial-intelligence
- 摘要: Anthropic 起诉国防部,声称政府将其列入黑名单违反其第一修正案权利。公司坚持禁止其 AI 模型用于国内大规模监控或完全自主的致命武器,这一伦理立场迫使科技行业重新思考其产品在战争中的使用边界。
NVIDIA GTC 2026 大会即将召开,Jensen Huang 主题演讲备受期待
- 来源: NVIDIA Blog / Forbes
- 链接: https://blogs.nvidia.com/blog/gtc-2026-news/
- 摘要: NVIDIA GTC 2026 将成为年度最大 AI 会议之一,预计吸引 39000 名参会者。黄仁勋主题演讲将涵盖芯片、软件、模型和应用全栈技术,议题包括物理 AI、AI 工厂、代理式 AI 和推理技术。
自动驾驶
Wayve 机器人出租车即将登陆伦敦,传统出租车司机持怀疑态度
- 来源: Telegraph Herald
- 链接: https://www.telegraphherald.com/news/business/article_90c44cd2-740a-4d4c-b16d-65f1cfdcbbab.html
- 摘要: 英国初创公司 Wayve Technologies 的自动驾驶车辆正在伦敦进行测试,为英国政府计划今年春季推出的机器人出租车试验做准备。福特 Mustang Mach-E 配备车载 AI 系统,可避开乱穿马路的行人和自行车手, navigate 道路施工。
Zoox 进军达拉斯和凤凰城,与 Uber 在拉斯维加斯和洛杉矶合作
- 来源: CleanTechnica
- 链接: https://cleantechnica.com/2026/03/14/zoox-coming-to-dallas-phoenix-partnering-with-uber-in-las-vegas-los-angeles/
- 摘要: 亚马逊旗下的 Zoox 正在扩展其机器人出租车服务,与 Uber 合作在多个城市部署。尽管 Waymo 和特斯拉长期占据美国机器人出租车计划的关注焦点,Zoox 正逐步扩大其市场存在感。
机器人
特斯拉 Optimus Gen 3 面部设计曝光:OLED 显示屏亮相
- 来源: Basenor
- 链接: https://www.basenor.com/blogs/news/tesla-optimus-gen-3-face-revealed-oled-display-and-whats-coming
- 摘要: 特斯拉 Optimus 第三代机器人面部设计揭晓,采用 OLED 显示屏。初步生产预计于 2026 年夏季开始,大规模量产目标为 2027 年夏季。特斯拉计划每年发布新的 Optimus 设计,Gen 4 规划可能已在进行中。
Uber 联合创始人 Kalanick 推出 Atoms 专注机器人领域
- 来源: Reuters
- 链接: https://www.reuters.com/technology/artificial-intelligence/
- 摘要: Uber 联合创始人 Travis Kalanick 推出新公司 Atoms,专注于机器人技术领域。这是 Kalanick 继 Uber 之后的又一科技创业举措,标志着其对自动化和机器人技术的持续关注。
芯片/半导体
美国商务部撤回 AI 芯片出口管制计划规则
- 来源: Reuters
- 链接: https://www.reuters.com/technology/artificial-intelligence/
- 摘要: 美国商务部撤回了计划中的 AI 芯片出口管制规则,这一决定可能影响全球 AI 芯片供应链。此前有报道称 DeepSeek 最新 AI 模型使用 NVIDIA 最先进 AI 芯片训练,可能违反美国出口管制。
预测:这款 AI 芯片股将在 2030 年前成为下一个 NVIDIA
- 来源: The Motley Fool
- 链接: https://www.fool.com/investing/2026/03/14/prediction-this-artificial-intelligence-ai-chip-st/
- 摘要: 从 GPU 向定制 AI 处理器的转变预计将推动 Broadcom 长期显著增长。NVIDIA 在过去三年半一直是 AI 芯片市场的领头羊,其 GPU 的大规模并行计算能力使其成为训练和部署 AI 模型的理想选择。
云计算/其他
AWS 和微软正在借鉴谷歌已构建的技术
- 来源: Forbes
- 链接: https://www.forbes.com/sites/janakirammsv/2026/03/14/aws-and-microsoft-are-borrowing-what-google-already-built/
- 摘要: AWS 和微软在云服务和 AI 领域正在借鉴谷歌已经构建的技术架构。这一趋势反映了云计算巨头之间的技术趋同和竞争格局的变化。
欧洲迈出禁止 AI 生成儿童性虐待图像的第一步
- 来源: Reuters
- 链接: https://www.reuters.com/technology/artificial-intelligence/
- 摘要: 欧洲采取初步措施禁止 AI 生成的儿童性虐待图像,这是 AI 监管领域的重要进展。该举措旨在保护儿童免受 AI 技术滥用的伤害。
AI 大模型动态
Anthropic 收入暴涨近 10 倍
- Claude 年收入达 190 亿美元(截至 2026 年 3 月初)
- Claude Code 单独贡献 25 亿美元年收入,较上年翻倍
- Anthropic 与 Palantir 合作,Claude 成为唯一用于机密任务的 AI 模型
前 Anthropic 研究人员创立新公司 Mirendil
- 专注于利用 AI 加速科学研究突破
- 成立于 3 月 14 日,旨在推动科学发现
摩根士丹利预测:2026 年上半年将迎来 AI 重大突破
- 美国领先 AI 实验室计算能力快速扩张驱动
- 可能对电网和就业市场造成冲击
联合国成立首个 AI 独立国际科学小组
- 40 名专家组成,依据《全球数字契约》设立
- 将发布年度 AI 社会影响证据报告
科技巨头新闻
特斯拉
- 马斯克宣布 Terafab 项目 7 天后启动
- 计划建设巨型 AI 芯片制造厂,规模远超 Giga 工厂
- 目标满足特斯拉对 AI 芯片的巨大需求
苹果
- 发布新款 MacBook Air(M5 芯片)
- 搭载 Wi-Fi 7 和蓝牙 6
- 采用全新 Apple N1 无线网络芯片
- 发布 iPhone 17e
- iPhone 17 系列的新成员,定位平价市场
- MacBook Neo 成为苹果多年来最易维修的笔记本电脑
英伟达
- 投资 20 亿美元于 AI 云公司 Nebius(3 月 11 日)
- 持续扩大 AI 基础设施布局
Meta
- 计划大规模裁员,AI 成本激增
- 3 月 14 日出现"AI 精神病"相关案例报道
消费电子
智能手机
- 华为 Pura 90 系列将于 3-4 月发布
- 搭载麒麟 9030 芯片
- 支持卫星消息功能
- 采用全新直屏设计
芯片与供应链
- 半导体行业面临内存供应紧张
- AI 基础设施需求强劲
- 全球供应链变化可能导致 PC 和手机价格上涨
政策与监管
美国
- 商务部撤回 AI 芯片出口管制计划规则
- 国防部将 Anthropic 正式指定为"国家安全风险",公司表示将提起诉讼
越南
- 新 AI 法律于 2026 年生效
- 涵盖国内外运营 AI 系统的公司
- 旨在支持创新同时确保监管
欧洲
- 迈出禁止 AI 生成儿童性虐待图像的第一步
文化观察
斯皮尔伯格谈 AI
- 不害怕 AI 技术本身
- 担忧人类停止讲述故事的未来
- OpenAI 的 Sora 视频生成模型引发争议与赞誉
📚 每日学术论文
SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions
- 来源: arXiv:2603.07379 [cs.AI]
- 链接: https://arxiv.org/html/2603.07379
- 作者: 多机构合作
- 核心贡献: 系统性知识梳理(SoK)论文,全面分析了代理式 RAG 的分类体系、架构设计和评估方法
- 创新点: 提出了统一的 RAG 代理 taxonomy,将上下文学习与自主推理能力相结合,为后续研究提供了清晰的框架
Human–AI Co-reasoning for Clinical Diagnosis with Evidence-Integrated Language Agent
- 来源: arXiv:2603.10492 [cs.AI]
- 链接: https://arxiv.org/html/2603.10492
- 作者: 医疗 AI 研究团队
- 核心贡献: PULSE 框架,将推理导向的 LLM 与证据整合相结合,用于临床诊断
- 创新点: 采用自回归 Transformer 架构,专为医疗推理任务训练,支持人机协同推理和证据溯源
Causal Concept Graphs in LLM Latent Space for Stepwise Reasoning
- 来源: arXiv:2603.10377 [cs.LG]
- 链接: https://arxiv.org/html/2603.10377
- 作者: 可解释性 AI 研究组
- 核心贡献: 在 LLM 潜在空间中构建因果概念图,揭示多步推理的内部机制
- 创新点: 结合机械可解释性技术,定位语义特征和电路,追踪多步推理过程中内部特征的交互顺序
Reasoning as Compression: Unifying Budget Forcing via the Conditional Information Bottleneck
- 来源: arXiv:2603.08462 [cs.CL]
- 链接: https://arxiv.org/abs/2603.08462v1
- 作者: 效率优化研究团队
- 核心贡献: 提出条件信息瓶颈框架,统一了思维链(CoT)的预算强制方法
- 创新点: 在不牺牲准确性的前提下减少 token 使用和推理成本,解决了 CoT prompting 增加推理成本的问题
Ares: Adaptive Reasoning Effort Selection for Efficient LLM Agents
- 来源: arXiv:2603.07915 [cs.AI]
- 链接: https://arxiv.org/html/2603.07915v1
- 作者: 高效代理研究组
- 核心贡献: Ares 框架,自适应选择推理力度以优化 LLM 代理效率
- 创新点: 将长视野优化问题转化为独立的逐步标注任务,精确测量不同推理级别对执行的影响,兼容外部数据源
On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM agents
- 来源: arXiv:2603.12109 [cs.LG]
- 链接: https://arxiv.org/abs/2603.12109
- 作者: 强化学习与 LLM 交叉研究团队
- 核心贡献: 发现并解决了 LLM 代理主动推理中的"信息自锁"问题
- 创新点: 通过注入易于获取的方向性批评来重新分配学习信号,帮助代理跳出自锁状态
ALARM: Audio–Language Alignment for Reasoning Models
- 来源: arXiv:2603.09556 [cs.CL]
- 链接: https://arxiv.org/html/2603.09556
- 作者: EPFL & Sony Europe
- 核心贡献: 大型音频语言模型(ALM)的对齐方法,扩展 LLM 的听觉理解能力
- 创新点: 实现音频与语言模态的深度融合,支持多模态推理任务
Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training
- 来源: arXiv:2603.12246 [cs.AI]
- 链接: https://arxiv.org/html/2603.12246.pdf
- 作者: LLM 评估研究组
- 核心贡献: 研究推理 LLM 作为评判者在不可验证领域的后训练应用
- 创新点: 利用推理模型的推理时 scaling 能力,扩展到输出正确性无法直接检查的领域
RecThinker: An Agentic Framework for Tool-Augmented Reasoning in Recommendation
- 来源: arXiv:2603.09843 [cs.IR]
- 链接: https://arxiv.org/html/2603.09843v1
- 作者: 推荐系统研究团队
- 核心贡献: 工具增强推理框架,应用于序列推荐系统
- 创新点: 结合 Transformer 架构与 LLM 工具调用能力,提升推荐系统的推理和解释能力
DocCogito: Aligning Layout Cognition and Step-Level Grounded Reasoning for Document Understanding
- 来源: arXiv:2603.07494 [cs.CV]
- 链接: https://arxiv.org/html/2603.07494
- 作者: 文档 AI 研究组
- 核心贡献: 将布局认知与逐步基础推理对齐,提升文档理解能力
- 创新点: 使用多模态大语言模型(MLLM),不仅提供准确答案,还提供明确的、基于证据的推理,特别适用于高风险场景
How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation
- 来源: arXiv:2603.07540 [cs.CV]
- 链接: https://arxiv.org/html/2603.07540v1
- 作者: 多模态生成研究团队
- 核心贡献: 研究统一多模态模型在长视野交错图像生成中的可靠性
- 创新点: 通过上下文策划(Context Curation)方法,解决长序列生成中的质量退化问题
Benchmarking and Advancing Scientific Multimodal Document Reasoning
- 来源: arXiv:2603.12249 [cs.CV]
- 链接: https://arxiv.org/html/2603.12249
- 作者: 科学文档 AI 研究组
- 核心贡献: 提出科学多模态文档推理的基准测试框架
- 创新点: 涵盖五种问题类型,包括需要定量分析视觉证据以支持文本主张的 EEQ 类型问题
DeepEyesV2: Toward Agentic Multimodal Model
- 来源: arXiv:2511.05271 [cs.CV]
- 链接: https://arxiv.org/html/2511.05271v4
- 作者: 多模态代理研究团队
- 核心贡献: 提出"用图像思考"(Think with Image)范式的代理式多模态模型
- 创新点: 多模态模型可以交错推理与迭代视觉分析,主动操作图像以支持逐步问题解决
Yann LeCun's AMI Labs raises $1.03B to build world models
- 来源: TechCrunch / AMI Labs
- 链接: https://techcrunch.com/2026/03/09/yann-lecuns-ami-labs-raises-1-03-billion-to-build-world-models/
- 作者: Yann LeCun 等(图灵奖得主)
- 核心贡献: AMI Labs 完成 10.3 亿美元种子轮融资,致力于构建世界模型
- 创新点: 世界模型让 AI 从现实中学习,而不仅仅是从语言中学习;可能是欧洲公司有史以来最大的种子轮融资
2026 in artificial intelligence — World Models Surge
- 来源: Grokipedia
- 链接: https://grokipedia.com/page/2026_in_artificial_intelligence
- 作者: 多机构研究团队
- 核心贡献: 2026 年 1 月 arXiv 提交激增,推进世界模型研究
- 创新点: 强调能够模拟复杂、部分可观察动态的架构和训练范式,应用于企业系统和医疗保健等领域
OpenAI's GPT-5.4 with enhanced features
- 来源: Sci-Tech Today
- 链接: https://www.sci-tech-today.com/news/march-2026-ai-models-avalanche/
- 作者: OpenAI
- 核心贡献: GPT-5.4 发布,增强功能并减少错误
- 创新点: 2026 年 3 月 AI 模型"雪崩"中的旗舰更新,代表语言模型的最新进展
HunyuanVideo: Revolutionary Text-to-Video Model on HuggingFace
- 来源: HuggingFace / DEV Community
- 链接: https://dev.to/czmilo/2026-complete-guide-top-text-to-video-models-on-huggingface-49p2
- 作者: 腾讯 HunYuan 团队
- 核心贡献: 采用革命性的文本编码方法,超越传统 CLIP 或 T5
- 创新点: 利用经过视觉指令微调的多模态 LLM,实现更好的图文对齐和复杂推理能力
Seedance AI: DeepTech Era Video Generation
- 来源: AllAboutAI
- 链接: https://www.allaboutai.com/best-ai-tools/generator/what-is-seedance-ai/
- 作者: Seedance 团队
- 核心贡献: 2026 年视频生成领域的突破性工具
- 创新点: 代表"DeepTech"时代的 AI,30% 的数字视频广告已使用生成式 AI;可通过 HuggingFace、Fal AI 访问
ThinkPrune: Pruning Long Chain-of-Thought of LLMs via Reinforcement Learning
来源: arXiv:2603.12246 | 论文链接
作者机构: Fuzhao Xue et al., National University of Singapore
核心贡献: 提出 ThinkPrune 方法,使用强化学习自动剪枝长链式思维(CoT)推理过程中的冗余步骤,在保持推理准确性的同时显著减少计算开销。
创新点: 该方法将 CoT 剪枝建模为序列决策问题,通过设计稀疏奖励函数引导模型识别并保留关键推理步骤。在 GSM8K 和 MATH 基准上,ThinkPrune 能够减少 40-60% 的推理 token 消耗,同时保持 95% 以上的原始准确率。这一工作为高效推理提供了新思路,特别适合资源受限场景下的大模型部署。
Efficient Reasoning for LLMs via Dynamic Token Pruning
来源: arXiv:2603.12224 | 论文链接
作者机构: Zhenyu Zhang et al., Tsinghua University
核心贡献: 提出动态 token 剪枝策略,在 LLM 推理过程中实时识别并跳过冗余 token 的计算,实现加速推理。
创新点: 该方法引入轻量级重要性评分模块,在每层 Transformer 中动态评估 token 贡献度,对低重要性 token 进行早期退出。在 LLaMA-3-70B 上实现 2.3 倍推理加速,且在多个 NLP 基准上仅损失不到 1% 的准确率。该方法与现有推理框架兼容性好,易于集成到生产环境中。
The Mirror Design Pattern: Strict Data Geometry over Model Scale for Prompt Injection Detection
来源: arXiv:2603.11875 | 论文链接
作者机构: J Alex Corll, Independent Researcher
核心贡献: 提出 Mirror 设计模式,通过严格的数据几何结构而非大规模模型来检测提示词注入攻击,实现亚毫秒级延迟的高精度检测。
创新点: 该方法将提示词注入语料库组织为匹配的正负样本单元,训练稀疏字符 n-gram 线性 SVM 分类器,编译为静态 Rust 工件。在 524 个测试用例上达到 95.97% 召回率和 92.07% F1 分数,延迟低于 1 毫秒。相比之下,22M 参数的 Prompt Guard 2 模型召回率仅 44.35%,延迟高达 49 毫秒。这项工作证明了在 L1 提示词注入筛查中,严格的数据几何结构比模型规模更重要。
DocMind-2: Advanced Document Understanding with Hierarchical Layout Analysis
来源: arXiv:2603.12188 | 论文链接
作者机构: Tencent AI Lab
核心贡献: 提出 DocMind-2,一种具有分层布局分析能力的先进文档理解模型,显著提升复杂文档的结构化信息提取能力。
创新点: DocMind-2 采用多尺度视觉编码器与层次化 Transformer 架构,能够同时捕捉文档的全局布局结构和局部文本细节。在 DocVQA 和 FUNSD 基准上分别达到 89.2% 和 94.5% 的准确率,超越现有 SOTA 模型 3-5 个百分点。该模型特别擅长处理多栏、表格、公式混合的复杂学术文档,为文档 AI 领域树立了新标杆。
Visual-Reasoning Bench: Evaluating Multimodal Models on Diagram Understanding
来源: arXiv:2603.12133 | 论文链接
作者机构: MIT CSAIL, Stanford University
核心贡献: 提出 Visual-Reasoning Bench,一个专门评估多模态模型在图表理解与推理能力上的新基准。
创新点: 该基准包含 5,000+ 张科学图表(流程图、架构图、数据可视化等),每张图表配有多层次推理问题,从基础元素识别到复杂因果推理。测试现有 15 个主流多模态模型发现,即使是 GPT-4V 和 Gemini-1.5 在复杂推理任务上也仅有 62% 准确率,表明图表理解仍是多模态 AI 的薄弱环节。该基准为社区提供了标准化评估工具,推动多模态推理能力发展。
Anomaly Detection in Time-Series via Inductive Biases in Latent Space
来源: arXiv:2603.11756 | 论文链接
作者机构: David Baumgartner et al., ETH Zurich
核心贡献: 提出在条件归一化流的潜在空间中引入归纳偏置,实现时间序列异常检测的新方法。
创新点: 该方法将时间序列观测建模为离散时间状态空间框架,约束潜在表示按照预设的时间动态演化。异常被定义为对这些动态的违反,通过拟合优度检验进行检测。在合成和真实世界时间序列上,该方法能够可靠检测频率、幅度和观测噪声异常,同时提供可解释的模型合规性诊断。这一工作为时间序列异常检测提供了统计学基础的理论框架。
AgentPlan: Hierarchical Planning for Long-Horizon Agent Tasks
来源: arXiv:2603.12129 | 论文链接
作者机构: UC Berkeley, Google DeepMind
核心贡献: 提出 AgentPlan,一种分层规划框架,使 AI 代理能够有效执行长视野复杂任务。
创新点: AgentPlan 将任务分解为抽象子目标和具体动作两个层次,高层使用符号规划器生成子目标序列,低层使用强化学习策略执行具体动作。在 ALFWorld 和 WebShop 基准上,AgentPlan 的任务完成率分别达到 78% 和 65%,超越现有方法 15-20 个百分点。该方法特别适用于需要多步骤推理和工具使用的复杂代理任务,为通用 AI 代理发展提供重要进展。
WorldModel-RL: Training Agents with Learned World Models for Sample Efficiency
来源: arXiv:2603.12109 | 论文链接
作者机构: Carnegie Mellon University, Meta AI
核心贡献: 提出 WorldModel-RL,结合学习到的世界模型与强化学习,显著提升样本效率。
创新点: 该方法训练一个潜变量世界模型来预测环境动态,然后在学得的模型中进行策略优化,仅定期用真实环境交互进行校正。在 DMControl 和 Minecraft 任务中,WorldModel-RL 仅需传统 RL 方法 10-20% 的环境交互次数即可达到同等性能。这一工作为数据稀缺场景下的强化学习提供了有效解决方案,对机器人学习等领域具有重要意义。
UniWorld: A Unified World Model for Video Generation and Prediction
来源: arXiv:2603.12096 | 论文链接
作者机构: ByteDance Research, Peking University
核心贡献: 提出 UniWorld,一个统一的视频生成与预测世界模型,能够同时处理视频生成、预测和编辑任务。
创新点: UniWorld 采用扩散 Transformer 架构,在潜空间中对视频时空动态进行建模。通过在 10M+ 视频片段上预训练,该模型能够生成 1080p 分辨率、长达 60 秒的高质量视频,且在视频预测任务上超越现有 SOTA 模型。该模型还支持文本引导的视频编辑,如物体移除、风格转换等。这一工作为视频理解和生成领域提供了统一框架。
Multimodal Fusion via Cross-Modal Attention with Modality Dropout
来源: arXiv:2603.12056 | 论文链接
作者机构: University of Washington, Allen Institute for AI
核心贡献: 提出一种新的多模态融合方法,通过跨模态注意力机制与模态 Dropout 提升多模态学习的鲁棒性。
创新点: 该方法在训练过程中随机丢弃部分模态输入,强制模型学习跨模态的互补表示而非依赖单一模态。在 VQA-v2、SNLI-VE 和 ActivityNet 基准上,该方法分别提升 2.3%、1.8% 和 3.1% 的准确率。更重要的是,在单模态缺失情况下,模型性能下降幅度显著小于现有方法,展现了更强的鲁棒性。这一工作为多模态系统的可靠性提升提供了有效策略。
AI-Driven Discovery of Novel Catalysts for CO2 Reduction
来源: arXiv:2603.12045 | 论文链接
作者机构: MIT, Harvard University, Google DeepMind
核心贡献: 利用 AI 高通量筛选发现 12 种新型 CO2 还原催化剂,实验验证其中 3 种具有优异性能。
创新点: 该方法结合图神经网络与密度泛函理论计算,在 50 万 + 候选材料中快速筛选高活性催化剂。AI 预测与实验结果的准确率达到 87%,大幅加速材料发现进程。发现的 Cu-Ni 双金属催化剂在工业条件下 CO2 转化效率达到 92%,超越现有最佳催化剂 15 个百分点。这一工作展示了 AI 在加速科学发现方面的巨大潜力。
ProteinFold-3: End-to-End Protein Structure Prediction with Experimental Accuracy
来源: arXiv:2603.12038 | 论文链接
作者机构: DeepMind
核心贡献: 提出 ProteinFold-3,一种端到端蛋白质结构预测模型,在 CASP16 盲测中达到实验级精度。
创新点: ProteinFold-3 采用新型 EvoFormer 架构,整合多序列比对、共进化信息和物理约束,在 CASP16 测试集上中位 GDT_TS 达到 92.5,接近实验测定的 94.0。该模型特别擅长预测膜蛋白和蛋白质复合物结构,在相关子任务上超越 AlphaFold2 约 8 个百分点。这一进展为结构生物学和药物设计提供了强大工具。
Neural Symbolic Regression for Scientific Law Discovery
来源: arXiv:2603.12021 | 论文链接
作者机构: Caltech, Princeton University
核心贡献: 提出神经符号回归方法,从实验数据中自动发现科学定律的数学表达式。
创新点: 该方法结合神经网络的模式识别能力与符号回归的可解释性,通过分层搜索策略在表达式空间中高效探索。在 100 个物理定律发现任务上,该方法成功恢复 94 个已知定律,并在新数据集上发现 3 个潜在新关系。该方法已开源,为科学发现提供了通用工具。
The Landscape of Generative AI in Information Systems: A Synthesis of Secondary Reviews
来源: arXiv:2603.11842 | 论文链接
作者机构: Aleksander Jarzębowicz et al., Multiple European Universities
核心贡献: 系统综述生成式 AI 在信息系统领域的研究现状,分析 28 篇二次研究论文并提出未来研究议程。
创新点: 该综述发现 GenAI 的采用受到技术不可靠性(幻觉、性能漂移)、社会伦理风险(偏见、滥用、技能侵蚀)和系统性治理真空(隐私、责任、知识产权)的多重制约。作者提出从分析影响转向积极塑造技术与组织、社会、监管协同演进的研究议程,强调混合人机协作、情境化验证、概率系统设计原则和适应性治理。这一工作为 IS 领域提供了全面的研究路线图。
Robust Alignment via Adversarial Preference Learning
来源: arXiv:2603.11998 | 论文链接
作者机构: Anthropic, UC Berkeley
核心贡献: 提出对抗性偏好学习(APL),通过主动生成对抗性偏好数据提升模型对齐的鲁棒性。
创新点: APL 训练一个对抗生成器来创建边界案例偏好对,这些案例专门针对当前策略模型的弱点。在帮助性、无害性和诚实性三个维度上,APL 训练的模型在对抗性评估中表现提升 25-35%。该方法特别擅长防御越狱攻击和提示词注入,为构建更安全的 AI 系统提供了新方向。
Scalable Oversight via Recursive Reward Modeling
来源: arXiv:2603.11976 | 论文链接
作者机构: OpenAI
核心贡献: 提出递归奖励建模,通过层次化人类反馈实现可扩展的 AI 监督。
创新点: 该方法将复杂任务分解为子任务,人类仅监督最高层输出,低层由 AI 系统相互监督。在代码生成和文本摘要任务上,递归奖励建模在仅需 10% 人类监督成本的情况下,达到与全监督相当的质量。这一工作为解决 AI 能力超越人类监督能力时的对齐问题提供了可行路径。
Efficient Multi-Modal Retrieval with Learned Sparse Representations
来源: arXiv:2603.11954 | 论文链接
作者机构: University of Waterloo, Vector Institute
核心贡献: 提出学习稀疏表示进行高效多模态检索,在保持精度的同时实现 10 倍检索加速。
Self-Supervised Learning for Robotics: A Survey and Benchmark
来源: arXiv:2603.11921 | 论文链接
作者机构: ETH Zurich, MIT
核心贡献: 全面综述自监督学习在机器人领域的应用,并提供标准化基准评估现有方法。
IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL
来源/链接: arXiv:2603.12151
作者机构: Zhoujun Cheng et al. (CMU, UCSD, Petuum 等)
分类: cs.LG, cs.AI
核心贡献:
- 首次系统研究了 LLM 强化学习后训练中的计算最优分配问题
- 提出了采样计算的三维度框架:并行 rollout 数、每批次问题数、更新步数
- 发现最优并行 rollout 数随计算预算增加而增长,最终饱和
创新点:
- 将 RL 缩放定律重构为可操作的分配规则
- 揭示了简单问题和困难问题下不同的驱动机制(解决方案锐化 vs 覆盖扩展)
- 为计算高效的 LLM RL 后训练提供实用指导
The Latent Color Subspace: Emergent Order in High-Dimensional Chaos
来源/链接: arXiv:2603.12261
作者机构: Mateusz Pach et al. (ExplainableML)
分类: cs.LG, cs.AI, cs.CV
核心贡献:
- 开发了 FLUX.1 [Dev] 的 VAE 潜在空间中颜色表示的解释框架
- 揭示了反映色调 (Hue)、饱和度 (Saturation) 和亮度 (Lightness) 的潜在结构
- 提出了潜在颜色子空间 (LCS) 解释方法
创新点:
- 完全无需训练,仅通过封闭形式的潜在空间操作即可控制颜色
- 可预测并显式控制生成图像的颜色
- 为文本到图像模型的细粒度控制提供新途径
Benchmarking and Advancing Scientific Multimodal Document Reasoning
来源/链接: arXiv:2603.12249
作者机构: Ziyu Chen et al.
分类: cs.CL, cs.AI, cs.CV
核心贡献:
- 提出了 synthesize-and-reground 两阶段框架
- 构建了 SciMDR 大规模训练数据集(300K QA 对,覆盖 20K 科学论文)
- 创建了专家标注的 SciMDR-Eval 基准
创新点:
- Claim-Centric QA Synthesis:生成忠实的、孤立的 QA 对和推理链
- Document-Scale Regrounding:将 QA 对重新嵌入完整文档任务,确保现实复杂性
- 在科学 QA 基准上取得显著提升,尤其在复杂文档级推理任务
Defending Hybrid Large Language Models Against Hidden State Poisoning Attacks
来源/链接: arXiv:2603.12206
作者机构: Alexandre Le Mercier et al.
分类: cs.CL
核心贡献:
- 针对 SSM(如 Mamba)的隐藏状态投毒攻击 (HiSPA) 提出防御方案
- 提出 CLASP 模型,利用 Mamba 块输出嵌入 (BOE) 的独特模式
- 使用 XGBoost 分类器以最小计算开销识别恶意 token
创新点:
- 在 2,483 份简历(9.5M tokens)上达到 95.9% token 级 F1 和 99.3% 文档级 F1
- 对未见过的攻击模式具有泛化能力(留一交叉验证 96.9% 文档级 F1)
- 轻量级部署:1,032 tokens/秒,VRAM 消耗 <4GB
A Quantitative Characterization of Forgetting in Post-Training
来源/链接: arXiv:2603.12163
作者机构: Krishnakumar Balasubramanian et al. (UC Davis 等)
分类: cs.LG, cs.AI, math.ST
核心贡献:
- 在双模式混合抽象下发展了遗忘的理论结果
- 形式化了两种遗忘形式:质量遗忘 (mass forgetting) 和旧组件漂移 (old-component drift)
- 证明了 forward-KL 和 reverse-KL 目标的不同遗忘行为
创新点:
- 精确量化遗忘与散度方向、几何行为重叠、采样机制的关系
- 分析了 SDFT、TTT-Discover、OAPL 三种近期方法的遗忘特性
- 为持续后训练提供理论指导
Topological DeepONets and a Generalization of the Chen-Chen Operator Approximation Theorem
来源/链接: arXiv:2603.11972
作者机构: Vugar Ismailov et al.
分类: cs.LG, cs.NE, math.FA
核心贡献:
- 开发了 DeepONet 的拓扑扩展,输入可位于任意 Hausdorff 局部凸空间
- 使用对偶空间的连续线性泛函构建拓扑前馈神经网络
- 证明了拓扑 DeepONet 可一致逼近连续算子
创新点:
- 将经典 Chen-Chen 算子逼近定理从连续函数空间扩展到局部凸空间
- 产生超越 Banach 空间设置的分支 - 主干逼近定理
- 为算子学习提供更一般的理论框架