← 2026-04-01

2026-04-02

2026-04-03 →
全部 科技新闻 (16) 学术论文 (20)

📰 每日AI科技新闻

国际新闻

OpenAI 完成创纪录 1220 亿美元融资,估值达 8520 亿美元
  • 来源:The Neuron AI
  • 日期:2026-04-01
  • 摘要:OpenAI 宣布完成新一轮融资,筹集 1220 亿美元,公司估值达到 8520 亿美元。同时,GPT-5.4 模型已正式发布,支持 100 万 token 超长上下文,在编程、计算机使用和工具搜索方面表现卓越。投资者正涌向二级市场购买 Anthropic 股票,Q1 2026 风险投资总额达到创纪录的 2970 亿美元。
  • 原文链接https://www.theneuron.ai/
🔗 原文链接
Anthropic Claude Code 源代码泄露事件
🔗 原文链接
Google 提升 AI Pro 订阅服务存储空间至 5TB
  • 来源:LLM Stats
  • 日期:2026-04-01
  • 摘要:Google 宣布将其每月 19.99 美元的 AI Pro 订阅计划存储空间从 2TB 提升至 5TB,不额外收费。此举旨在与 OpenAI 和 Microsoft 的 AI 服务展开更激烈竞争,为用户提供更多价值。
  • 原文链接https://llm-stats.com/ai-news
🔗 原文链接
MIT 研究人员提升 AI 模型可解释性
  • 来源:MIT News
  • 日期:2026-03-09
  • 摘要:MIT 计算机科学家开发了一种新方法,可以将任何计算机视觉模型转换为能够使用人类可理解的概念解释其预测的模型。该技术通过提取模型在训练过程中已学习的概念,并强制模型使用这些概念进行预测,从而比标准概念瓶颈模型产生更清晰、更简洁的解释。在医疗诊断等高风险场景中,这一技术尤为重要。
  • 原文链接https://news.mit.edu/2026/improving-ai-models-ability-explain-predictions-0309
🔗 原文链接
特斯拉 Optimus Gen 3 人形机器人进入新时代
🔗 原文链接
NVIDIA 投资 20 亿美元于 Marvell 强化 AI 半导体布局
🔗 原文链接
《纽约时报》解雇使用 AI 撰写书评的自由撰稿人
🔗 原文链接
MIT 机器人交通管理系统实现仓库机器人高效协作
  • 来源:MIT News
  • 日期:2026-03-26
  • 摘要:MIT 研究人员开发了一种新的 AI 系统,可以学习保持仓库机器人交通顺畅运行。该系统能够实时决定哪些机器人在每个时刻拥有优先通行权,避免拥堵和碰撞。这一技术有望显著提高自动化仓库的运营效率。
  • 原文链接https://news.mit.edu/topic/robotics
🔗 原文链接
AI 芯片热潮推动无晶圆厂 IC 市场增长
🔗 原文链接
LLM API 定价比较:DeepSeek V3.2 引领性价比
  • 来源:CostGoat
  • 日期:2026-04-01
  • 摘要:最新 LLM API 定价比较显示,DeepSeek V3.2 是性价比最高的选择之一,每百万 token 仅需 0.14/0.28 美元(输入/输出),质量可与昂贵得多的模型相媲美。OpenAI 的 GPT-5 定价约为每百万 token 10/30 美元,而 Anthropic 的 Claude Opus 4.6 为 5/25 美元。免费选项方面,DeepSeek R1、Llama 3.3 70B 和 Gemma 3 可在 OpenRouter 上免费使用。
  • 原文链接https://costgoat.com/compare/llm-api

🔗 原文链接

国内新闻

智谱 AI 营收激增 132%,GLM-5 震撼发布
  • 来源:1950.ai / 知乎
  • 日期:2026-04-01
  • 摘要:智谱 AI 宣布营收同比增长 132%,成为中国大模型市场的一匹黑马。最新发布的 GLM-5 模型在编码和 Agent 应用方面表现卓越,公司声称其能力已接近或超越 Anthropic Claude Opus 4.5 和 Google Gemini 3 Pro。GLM-5 采用开源策略发布,支持长时间运行的 Agent 任务和增强的编码自动化功能,进一步巩固了中国在 LLM 企业解决方案领域的地位。
  • 原文链接https://www.1950.ai/post/zhipu-ai-surges-132-in-revenue-setting-china-s-llm-market-ablaze
🔗 原文链接
智谱 GLM-5.1 面向所有 Coding Plan 用户开放
  • 来源:知乎
  • 日期:2026-03-28
  • 摘要:智谱 AI 宣布 GLM-5.1 模型正式面向所有 Coding Plan 用户开放。用户实测显示,该模型在编程任务上表现惊艳,有开发者称其为"国产最强编程模型"。GLM-5.1 在代码生成、调试和复杂项目理解方面展现出强大能力,为中国开发者提供了高性价比的 AI 编程助手选择。
  • 原文链接https://www.zhihu.com/question/2020954059209803141
🔗 原文链接
中国团队跻身 TerminalBench 全球第二
  • 来源:Min News
  • 日期:2026-04-01
  • 摘要:在 Claude Opus 4.6 和 GPT-5.3-Codex 相继发布后,基础大模型的竞争正式进入实用应用阶段。一个中国团队成功闯入 TerminalBench 全球第二名,在模型规划能力和自主任务保持方面取得了显著进展,展示了中国在 AI 基础模型领域的快速进步。
  • 原文链接https://min.news/en/tech/c64f04af111d07963014d7bd6ba3e9cd.html
🔗 原文链接
智谱 AI 算力告急,采取限流措施
  • 来源:知乎
  • 日期:2026-01-21
  • 摘要:智谱 AI 因最新大语言模型 GLM-4.7 发布后用户量激增而遭遇严重算力瓶颈,不得不紧急采取限流措施。这一事件暴露了 AI 行业在快速扩张期面临的算力资源紧张问题,也反映了国内大模型市场的火热程度。
  • 原文链接https://www.zhihu.com/question/1997433388664131775
🔗 原文链接
智谱 AI 开源 GLM-OCR 模型引关注
  • 来源:知乎
  • 日期:2026-02-03
  • 摘要:智谱 AI 开源的 GLM-OCR 模型引发业界广泛关注。此前 DeepSeek OCR-2 和百度 PaddleOCR-VL-1.5 也相继发布,OCR 领域再次掀起技术竞赛热潮。OCR 作为视觉语言模型的核心能力之一,正在被各厂商重点针对性训练优化。
  • 原文链接https://www.zhihu.com/question/2001997759184593084

🔗 原文链接

研究前沿

arXiv 最新论文精选
  1. OneComp: 生成式 AI 模型压缩的单行革命

    • 作者:Yuma Ichikawa 等
    • 摘要:部署基础模型 increasingly 受限于内存占用、延迟和硬件成本。后训练压缩可以缓解这些问题。
    • 链接:https://arxiv.org/abs/2603.28845
  2. OptiMer: 最优分布向量合并优于数据混合

    • 作者:Haiyue Song, Masao Utiyama
    • 摘要:持续预训练广泛用于使 LLM 适应目标语言和领域,但训练数据的混合比例仍是一个敏感的超参数。
    • 链接:https://arxiv.org/abs/2603.28858
  3. ChartDiff: 图表对理解的大规模基准


🔗 原文链接

📚 每日学术论文

The Triadic Cognitive Architecture: Bounding Autonomous Action via Spatio-Temporal and Epistemic Friction

核心贡献: 提出三元认知架构(TCA),通过连续时间物理框架约束机器推理,解决当前LLM驱动智能体在交互环境中的过度工具使用和长时间 deliberation 等问题。

主要创新点:

  1. 融合非线性滤波理论、黎曼路由几何和最优控制,形式化定义"认知摩擦"概念
  2. 将智能体 deliberation 过程映射到耦合随机控制问题,实现路径依赖的信息获取
  3. 采用HJB启发的停止边界和基于效用的停止条件,替代启发式停止令牌

待解决问题: 如何在更复杂的多智能体环境中扩展该架构;认知摩擦参数的自适应调整机制仍需探索。


🔗 论文链接
Hyperagents

核心贡献: 提出超智能体(Hyperagents)框架,将任务智能体和元智能体整合为单一可编辑程序,实现元认知级别的自我修改,突破固定元机制的局限。

主要创新点:

  1. 元级别修改过程本身可编辑,实现真正的开放式自我改进
  2. 扩展Darwin Gödel Machine创建DGM-Hyperagents,消除领域特定对齐假设
  3. 元级别改进可跨领域迁移并在多次运行中累积

待解决问题: 自我修改的安全性保障机制;在开放-ended系统中如何防止自我改进过程中的目标漂移。


🔗 论文链接
GLM-OCR Technical Report
  • 日期: 2026-03
  • 作者: Shuaiqi Duan, Yadong Xue 等 (智谱AI团队)
  • 论文链接: https://arxiv.org/abs/2603.10910
  • 领域分类: OCR / 文档理解 / 多模态模型

核心贡献: 提出GLM-OCR,一个0.9B参数的高效紧凑多模态模型,专为真实世界文档理解设计,结合0.4B CogViT视觉编码器和0.5B GLM语言解码器。

主要创新点:

  1. 针对OCR任务中标准自回归解码的低效问题,引入改进的解码策略
  2. 在计算效率和识别性能之间实现强平衡
  3. 专注于真实世界文档理解场景

待解决问题: 极端复杂版式文档的识别准确率;低资源语言文档的迁移学习能力。


🔗 论文链接
Qianfan-OCR: A Unified End-to-End Model for Document Intelligence
  • 日期: 2026-03
  • 作者: Daxiang Dong, Mingming Zheng 等 (百度团队)
  • 论文链接: https://arxiv.org/abs/2603.13398
  • 领域分类: OCR / 文档智能 / 视觉语言模型

核心贡献: 提出4B参数的端到端视觉语言模型,统一文档解析、版面分析和文档理解,支持图像到Markdown的直接转换和多样化提示驱动任务。

主要创新点:

  1. 提出"Layout-as-Thought"机制,通过特殊思考令牌触发生成结构化版面表示
  2. 端到端架构同时处理版面分析和内容识别
  3. 支持表格提取、图表理解、文档QA和关键信息提取等多种任务

待解决问题: 大版式文档的处理效率;极端长文档的上下文建模能力。


🔗 论文链接
OmniRoam: World Wandering via Long-Horizon Panoramic Video Generation
  • 日期: 2026-03-31
  • 作者: Yuheng Liu, Xin Lin 等 (Adobe Research等)
  • 论文链接: https://arxiv.org/abs/2603.30045
  • 领域分类: 世界模型 / 视频生成 / 计算机视觉

核心贡献: 提出可控全景视频生成框架,利用全景表示的丰富场景覆盖和固有长程时空一致性,实现长程场景漫游。

主要创新点:

  1. 轨迹控制的视频生成模型创建场景预览
  2. 时间上扩展、空间上上采样生成长程高分辨率视频
  3. 引入合成和真实世界捕获的全景视频数据集

待解决问题: 动态场景中的物体一致性问题;实时生成的计算效率优化。


🔗 论文链接
Explicit World Models for Reliable Human-Robot Collaboration
  • 日期: 2026-01-12
  • 作者: Basura Fernando 等
  • 论文链接: https://arxiv.org/abs/2601.01705
  • 领域分类: 具身智能 / 世界模型 / 人机协作 (AAAI-26)

核心贡献: 提出构建可访问的"显式世界模型"作为人与AI之间共同基础的方法,用于对齐机器人行为与人类期望,而非仅依赖形式化验证。

主要创新点:

  1. 强调人机交互的动态、模糊和主观特性
  2. 通过显式世界模型表示共同基础
  3. 在感知噪声、模糊指令和人机交互等场景下实现可靠性

待解决问题: 世界模型的实时更新机制;多用户场景下的期望冲突处理。


🔗 论文链接
Multimodal Large Language Models as Image Classifiers

核心贡献: 系统研究MLLM分类性能与评估协议和真实标签质量的关键依赖关系,发现许多报道的性能差距实际上是噪声标签和缺陷评估协议的产物。

主要创新点:

  1. 识别并修复常见评估问题:模型输出在类别列表外、弱多选干扰项、缺陷的输出映射
  2. 量化批次大小、图像排序和文本编码器选择等设计选择的影响
  3. 在ReGT数据集上显示MLLM从修正标签中获益最多(+10.8%)

待解决问题: 如何设计更公平的MLLM评估协议;MLLM辅助人类标注的最佳实践。


🔗 论文链接
C-TRAIL: A Commonsense World Framework for Trajectory Planning in Autonomous Driving

核心贡献: 提出基于常识世界的轨迹规划框架C-TRAIL,将LLM派生常识与信任机制耦合指导轨迹规划,解决LLM输出不可靠的安全关键应用风险。

主要创新点:

  1. 双信任机制量化LLM语义关系的可靠性
  2. 通过Dirichlet信任策略将信任加权常识注入MCTS
  3. 闭环Recall-Plan-Update循环实现自适应信任分数细化

待解决问题: 复杂城市环境中的计算效率;信任机制的泛化能力到其他领域。


🔗 论文链接
Advancing Offline Handwritten Text Recognition: A Systematic Review

核心贡献: 全面调研离线手写数据增强和生成技术,系统审查传统方法以及GAN、扩散模型和基于Transformer的方法等深度学习进展。

主要创新点:

  1. 遵循PRISMA方法论,从1,302项初步研究筛选至848项
  2. 覆盖低资源语言和复杂脚本的挑战
  3. 评估现有数据集、评估指标和最新方法

待解决问题: 保持脚本真实性的多样化手写样本生成;复杂书写风格的数据稀缺问题。


🔗 论文链接
CPGNet: Conditional Polarization Guidance for Camouflaged Object Detection
  • 日期: 2026-03-31
  • 作者: 多机构研究团队
  • 论文链接: https://arxiv.org/abs/2603.30008
  • 领域分类: 计算机视觉 / 伪装目标检测 / 偏振成像

核心贡献: 提出非对称RGB-偏振框架CPGNet,引入条件偏振引导机制显式调节RGB特征学习,解决伪装目标检测中与背景高度融合的目标识别问题。

主要创新点:

  1. 轻量级偏振交互模块联合建模互补线索
  2. 条件引导机制使用偏振先验动态调制RGB特征
  3. 偏振边缘引导的频率细化策略增强高频成分

待解决问题: 偏振成像设备的普及度;低光环境下的偏振信息可靠性。


🔗 论文链接
Extending MONA in Camera Dropbox: Reproduction and Learned Approval

核心贡献: 对MONA方法进行复现优先的扩展,在Camera Dropbox环境中确认普通RL(91.5%奖励黑客率)与oracle MONA(0.0%黑客率)的对比,引入模块化学习批准机制。

主要创新点:

  1. 将发布代码库重新打包为标准Python项目
  2. 引入覆盖oracle、噪声、错误指定、学习和校准批准的模块化学习批准套件
  3. 最佳校准学习监督运行实现零观察到的奖励黑客

待解决问题: 学习批准模型的充分前瞻性保持;实际部署中的计算开销优化。


🔗 论文链接
ScoringBench: A Benchmark for Evaluating Tabular Foundation Models

核心贡献: 提出ScoringBench开放基准,计算CRPS、CRLS、Interval Score等适当评分规则的全面套件,解决表格基础模型评估中仅依赖点估计指标的问题。

主要创新点:

  1. 评估TabPFN和TabICL等模型的完整预测分布
  2. 展示模型排名依赖于所选评分规则
  3. 通过git pull request维护排行榜以确保透明性和可复现性

待解决问题: 极端事件敏感应用的评估标准化;不同领域特定的评分规则选择指南。


🔗 论文链接
Physiological and Semantic Patterns in Medical Teams Using an Intelligent Tutoring System
  • 日期: 2026-03-31
  • 作者: Conrad Borchers 等
  • 论文链接: https://arxiv.org/abs/2603.29950
  • 领域分类: AI教育 / 人机协作 / 多模态分析 (AIED 2026)

核心贡献: 研究医学诊断团队中生理信号与对话语义的动态关系,发现生理同步峰值与语义转换时刻相关,成功团队在共享发现时同步,不成功团队在共享不确定性时同步。

主要创新点:

  1. 融合生物信号与对话理解问题解决中的关键时刻
  2. 使用句子嵌入的余弦相似度编码话语段
  3. 定性分析将同步峰值三角化为"关键时刻"

待解决问题: 生理信号解释的泛化性;实时反馈系统的设计挑战。


🔗 论文链接
Structural Compactness as a Complementary Criterion for Explanation Quality

核心贡献: 引入最小生成树紧凑性(MST-C)图结构度量,捕获归因的高阶几何属性(如扩散和凝聚),解决归因质量评估中定量评估解释可读性的困难。

主要创新点:

  1. 将扩散和凝聚组件组合为单一紧凑性评分
  2. 可靠区分不同解释方法并暴露模型间的基本结构差异
  3. 提供自包含的解释紧凑性诊断

待解决问题: 与人类感知对齐的紧凑性度量验证;复杂深度学习架构中的扩展应用。


🔗 论文链接
Large Language Models for Computer-Aided Design: A Survey

核心贡献: 全面调研LLM在计算机辅助设计中的应用,涵盖CAD代码生成、参数化CAD生成、视觉-语言模型等方向,为该交叉领域提供系统性综述。

主要创新点:

  1. 系统分类LLM在CAD领域的应用场景
  2. 覆盖从自然语言描述生成CAD模型的最新进展
  3. 提出该领域未来的研究方向和挑战

待解决问题: 复杂3D几何的精确表示;设计意图的准确理解和建模。


🔗 论文链接
VibeVoice Technical Report

核心贡献: VibeVoice使用下一令牌扩散和高效连续语音分词器合成长篇多说话人语音,在性能和保真度方面实现优异表现。

主要创新点:

  1. 下一令牌扩散架构用于语音合成
  2. 高效连续语音分词器
  3. 长篇多说话人语音生成能力

待解决问题: 实时合成的延迟优化;跨语言语音合成的质量一致性。


🔗 论文链接
Multi-Agent Collaboration via Evolving Orchestration
  • 日期: 2025-05-26
  • 作者: 14位作者的多机构团队
  • 论文链接: https://arxiv.org/abs/2505.19591
  • 领域分类: 多智能体系统 / 智能体协作 / 强化学习

核心贡献: 提出中央编排器通过强化学习动态指导LLM智能体,在不同任务中实现卓越的多智能体协作并降低计算成本。

主要创新点:

  1. 动态编排策略根据任务变化调整智能体协作方式
  2. 强化学习优化编排决策
  3. 可扩展至多智能体场景

待解决问题: 编排器的泛化能力;动态环境中的实时决策效率。


🔗 论文链接
Very Large-Scale Multi-Agent Simulation in AgentScope
  • 日期: 2024-07-25
  • 作者: 多机构研究团队
  • 论文链接: https://arxiv.org/abs/2407.17789
  • 领域分类: 多智能体系统 / 大规模模拟 / 分布式系统

核心贡献: 增强AgentScope平台的可扩展性、效率和易用性,通过分布式机制、灵活环境和用户友好工具支持大规模多智能体模拟。

主要创新点:

  1. 分布式机制支持大规模智能体模拟
  2. 灵活的环境配置系统
  3. 用户友好的开发和调试工具

待解决问题: 万级智能体规模的性能瓶颈;复杂交互模式的真实建模。


🔗 论文链接
今日论文分布
领域 数量 占比
多模态大模型/视觉语言模型 6篇 33%
OCR/文档理解 3篇 17%
具身智能/世界模型 5篇 28%
AI安全/可解释性 3篇 17%
其他(教育、语音等) 1篇 5%
核心趋势洞察
  1. 文档智能技术突破: GLM-OCR和Qianfan-OCR代表端到端文档理解的新方向,统一架构正在取代传统的多阶段流水线。

  2. 自改进AI的元认知探索: Hyperagents框架将自我改进提升到元级别,可能开启AI系统能力自我加速的新范式。

  3. 世界模型走向实用化: 从全景视频生成到自动驾驶轨迹规划,世界模型正在从概念走向实际应用。

  4. 评估方法论反思: 多篇论文关注评估协议的公平性和准确性,MLLM分类评估的研究揭示了现有benchmark的系统性偏差。


← 返回首页