📰 每日AI科技新闻
国际 AI 新闻
DeepSeek AI 聊天机器人遭遇最长宕机
来源: Reuters 路透社
链接: https://www.reuters.com/technology/chinas-deepseek-ai-chatbot-suffers-longest-outage-since-viral-rise-early-2025-2026-03-30/
摘要: 中国AI初创公司 DeepSeek 的聊天机器人本周一遭遇了自去年年初 R1 和 V3 模型爆红以来最长的一次服务中断。这次宕机引发了市场对其基础设施稳定性的关注,同时也反映出 DeepSeek 在全球范围内用户量的激增对其服务器造成的压力。
OpenAI 与 NVIDIA 宣布战略合作部署 10 吉瓦 AI 数据中心
来源: OpenAI / NVIDIA Newsroom
链接: https://openai.com/index/openai-nvidia-systems-partnership/
摘要: OpenAI 和 NVIDIA 宣布达成战略伙伴关系,计划部署高达 10 吉瓦的 AI 数据中心,全部由 NVIDIA 系统提供动力支持。该项目第一阶段将于 2026 年启动。NVIDIA 表示将投资高达 1000 亿美元,这标志着 AI 基础设施建设进入新的规模阶段。
NVIDIA 计划投资 260 亿美元开发开源 AI 模型
来源: WIRED
链接: https://www.wired.com/story/nvidia-investing-26-billion-open-source-models/
摘要: 据监管文件显示,NVIDIA 计划在未来五年内投入 260 亿美元用于构建开源(开放权重)人工智能模型。这一举措将使这家 AI 基础设施巨头能够快速与 OpenAI、Anthropic 以及 DeepSeek 展开竞争,标志着 NVIDIA 从纯硬件供应商向全栈 AI 公司转型的重要一步。
2025 年 AI 迎来"炒作修正"
来源: MIT Technology Review
链接: https://www.technologyreview.com/2025/12/15/1129174/the-great-ai-hype-correction-of-2025/
摘要: 2025 年被认为是 AI 行业"炒作修正"之年。大型语言模型(LLM)虽然取得了显著进展,但已明显不是通向通用人工智能(AGI)的大门。行业开始重新调整对 AI 能力的期望,更加关注实际应用价值而非仅仅是技术可能性。
DeepSeek 向美国和芯片制造商隐瞒最新 AI 模型
来源: Reuters 路透社
链接: https://www.reuters.com/world/china/deepseek-withholds-latest-ai-model-us-chipmakers-including-nvidia-sources-say-2026-02-25/
摘要: 据消息人士透露,DeepSeek 可能正在隐瞒其最新 AI 模型训练所使用的美国芯片技术细节,并计划公开声称使用华为芯片进行训练。自 2025 年 1 月爆红以来,DeepSeek 的模型在开源平台 Hugging Face 上的下载量已超过 7500 万次。
小米神秘 AI 模型揭开面纱
来源: Reuters 路透社
链接: https://www.reuters.com/business/media-telecom/mystery-ai-model-has-developers-buzzing-is-this-deepseeks-latest-blockbuster-2026-03-18/
摘要: 上周在开发者平台上匿名出现的一款强大 AI 模型本周三被证实来自中国智能手机和电动汽车巨头小米。该模型此前曾引发猜测是否为 DeepSeek 的最新版本,凸显了中国科技公司在 AI 大模型领域的激烈竞争态势。
斯坦福 2025 AI 指数报告:中国正在追赶美国
来源: WIRED
链接: https://www.wired.com/story/stanford-study-global-artificial-intelligence-index/
摘要: 斯坦福研究所发布的 2025 年 AI 指数报告显示,AI 行业正呈现出日益激烈、全球化且不受限制的竞争态势,中国在多个关键指标上正快速追赶美国。报告指出,行业正朝着通用人工智能(AGI)的目标加速迈进。
Amazon 与 OpenAI 达成 380 亿美元合作协议
来源: Reddit / 综合报道
链接: https://www.reddit.com/r/singularity/comments/1pywn8f/the_ai_stack_is_fragmenting_google_openai_meta/
摘要: Amazon 与 OpenAI 达成价值 380 亿美元的合作协议,将获得数十万颗 NVIDIA GPU 的访问权限。这一合作标志着 AI 产业链的进一步整合,各大科技巨头正在争夺从芯片、模型到应用和人形机器人的全产业链控制权。
Google 2025 年 60 项重大 AI 公告回顾
来源: Google Blog
链接: https://blog.google/technology/ai/google-ai-news-recap-2025/
摘要: Google 发布了 2025 年 60 项重大 AI 公告和更新的回顾。其中 4 月份发布的 Ironwood TPU(张量处理单元)是基础设施方面的重要突破,展现了 Google 在 AI 硬件领域的持续创新能力。
2025:AI 应用之年
来源: WIRED
链接: https://www.wired.com/story/plaintext-ai-apps-foundation-models/
摘要: 专栏作家预测 2025 年将成为"AI 应用之年",生成式 AI 将产生与智能手机同等重要的影响。文章指出,2025 年将出现一波应用创新浪潮,让即使是最怀疑的人也不得不承认生成式 AI 的革命性意义。
DeepSeek 发布 V3.2 实验模型
来源: CNBC
链接: https://www.cnbc.com/2025/09/30/whats-new-in-deepseeks-latest-model-deepseek-v3point2-exp.html
摘要: 中国 AI 初创公司 DeepSeek 发布了 DeepSeek-V3.2-Exp 实验版本模型,相比 V3.1-Terminus 版本增加了新的能力。该模型采用了混合专家(MoE)架构和稀疏注意力机制,在数学推理和代码能力方面表现突出。
Honor 发布全新 AI Agent 可理解屏幕内容
来源: WIRED
链接: https://www.wired.com/story/exclusive-look-at-honor-ai-mwc-2025/
摘要: 荣耀(Honor)在 MWC 2025 大会上发布了 Honor UI Agent——一款基于 GUI 的移动 AI 智能体,能够通过理解屏幕图形用户界面来代表用户执行任务。这标志着智能手机 AI 交互方式的重要演进。
国内 AI 新闻
清华系智谱与生数达成战略合作
来源: 机器之心
链接: https://www.jiqizhixin.com/articles/2025-04-27-4
摘要: 清华系 AI 公司智谱 AI 与生数科技宣布达成战略合作,双方将专注于大模型的联合创新。这一合作汇集了智谱在语言大模型和生数在多模态生成领域的技术优势,有望在国产大模型生态建设中发挥重要作用。
DeepSeek 掀起移动端 AI 新风向
来源: 机器之心
链接: https://www.jiqizhixin.com/articles/2025-03-03-17
摘要: DeepSeek 的推出正在改变移动端 AI 的格局。根据 Epoch AI 统计,2024 年发布的 AI 模型中,千亿规模以下的模型占比超过 75%,轻量化、高效率的模型正在成为主流趋势。DeepSeek 证明了无需顶级 GPU 也能开发强大的 AI 系统。
中国电信翼支付 AAAI 2025 论文:大模型推理加速新范式
来源: 机器之心
链接: https://www.jiqizhixin.com/articles/2025-01-08
摘要: 中国电信翼支付针对大模型推理加速的研究成果《Falcon: Faster and Parallel Inference of Large Language Models》被 AAAI 2025 接收。该研究提出的方法可实现高达 3.51 倍的加速比,同时将推理成本降至原来的 1/3。
智源研究院发布 2025 十大 AI 技术趋势
来源: 量子位
链接: https://www.qbitai.com/2025/01/242557.html
摘要: 智源研究院发布了 2025 年十个人工智能技术及应用趋势预测,包括 AI for Science 驱动科学研究范式变革、具身大小脑和本体的协同进化等。该报告被誉为"AI 内行春晚",每年吸引全球 30 多个国家和地区的 50 万从业者关注。
科大讯飞:大模型商业化拐点已至
来源: 机器之心
链接: https://www.jiqizhixin.com/articles/2025-03-20-10
摘要: 随着 DeepSeek 等新兴力量带来的大模型降本浪潮,2025 年有望成为大模型大规模商业化的拐点之年。IDC 预测央国企将加快大模型建设与落地。科大讯飞提出的"通专结合"方法论被认为是解决当前 AI 落地困局的关键。
量子位发布《2025 中国 AIGC 应用全景图谱报告》
来源: 量子位
链接: https://www.qbitai.com/2025/04/274981.html
摘要: 量子位智库基于对国内上千款 AI 产品的长期追踪研究,发布了《2025 年中国 AIGC 应用全景图谱报告》。报告指出,首轮 AIGC 产品格局已经落定,新一轮变革正在蓄势待发,呈现"全景图谱+四大角度趋势+C端赛道详解"的全景式竞争格局。
张亚勤院士:十年后机器人将比人多
来源: 量子位
链接: https://www.qbitai.com/2025/12/360373.html
摘要: 在 MEET2026 大会上,中国工程院外籍院士张亚勤提出,基础大模型最终不会超过 10 个,而十年后机器人数量将超过人类。他认为新一轮人工智能是信息智能、物理智能和生物智能的融合,本质上是原子、分子和比特的融合。
AI4S:从工具到科研搭档的演进
来源: 雷峰网
链接: https://www.leiphone.com/category/yanxishe/HWP4OEEqOExyNzia.html
摘要: 2025 年终回顾指出,AI for Science(AI4S)正在从论文中的愿景转变为科学家日常工作的务实工具。在远离喧嚣的实验室里,AI 正在从一种"使能技术"演变为改变人类推进科研基本范式的重要力量。
📚 每日学术论文
Qianfan-OCR: 统一的端到端文档智能模型
- 日期: 2026-03-11
- 作者: Daxiang Dong, Mingming Zheng, Dong Xu 等 (百度)
- 链接: https://arxiv.org/abs/2603.13398
- 领域: OCR & Document Processing
核心贡献: 提出4B参数的端到端视觉语言模型,统一文档解析、布局分析和文档理解,支持图像直接转Markdown,在OmniDocBench v1.5和OlmOCR Bench上排名第一。
主要创新点:
- Layout-as-Thought: 通过特殊think token触发的可选思考阶段,生成结构化布局表示(边界框、元素类型、阅读顺序)
- 直接图像到Markdown转换,支持表格提取、图表理解、文档QA和关键信息提取
- 在多项基准测试中超越Gemini-3.1-Pro、Seed-2.0和Qwen3-VL-235B
待解决问题: 复杂布局文档的细粒度结构化表示、多语言文档的统一处理、端到端模型与模块化管道的权衡
GLM-OCR: 紧凑高效的文档理解多模态模型
- 日期: 2026-03-11
- 作者: Shuaiqi Duan, Yadong Xue, Weihan Wang 等 (智谱AI)
- 链接: https://arxiv.org/abs/2603.10910
- 领域: OCR & Document Processing
核心贡献: 设计0.9B参数的紧凑多模态模型,结合0.4B CogViT视觉编码器和0.5B GLM语言解码器,针对OCR任务引入多token预测机制显著提升解码吞吐量。
主要创新点:
- Multi-Token Prediction (MTP): 每步预测多个token,通过共享参数保持低内存开销
- 两阶段系统级管道:PP-DocLayout-V3布局分析 + 并行区域级识别
- 适合资源受限的边缘部署和大规模生产系统
待解决问题: 极小模型在复杂文档上的精度瓶颈、端到端训练与模块化级联的系统性优化
OCR or Not? MLLMs时代文档信息抽取的再思考
- 日期: 2026-03-03
- 作者: Jiyuan Shen, Peiyue Yuan, Atin Ghosh 等
- 链接: https://arxiv.org/abs/2603.02789
- 领域: OCR & Document Processing
核心贡献: 大规模基准测试研究发现,强大的多模态大模型可能不需要OCR,仅图像输入即可达到与OCR增强方法相当的性能,并提供基于LLM的自动分层错误分析框架。
主要创新点:
- 提出自动化分层错误分析框架诊断MLLMs的文档信息抽取失败模式
- 验证精心设计的schema、示例和指令可进一步提升MLLMs性能
- 探索OCR-free与OCR-enhanced方案的边界条件
待解决问题: 不同文档类型下OCR的必要性量化分析、MLLMs对低质量扫描文档的鲁棒性
QuestBench: 评估LLM规划中的查询感知能力不足
- 日期: 2026-04-01
- 作者: Jiayuan Mao, Bohan Wu, Yang Zhang 等 (MIT, Stanford, Harvard)
- 链接: https://arxiv.org/abs/2604.00004
- 领域: Large Language Model
核心贡献: 系统性评估发现GPT-4o和Claude-3.5-Sonnet等顶级LLM在复杂规划问题中仅57.8%准确率,开源模型仅6.4%,即使提供完美提示也难以有效利用信息。
主要创新点:
- 包含1,735个任务的QuestBench基准测试,采用trainsition-centric和value-centric两种设计方法
- 从Linear Planning到CoT/ReAct等各类提示策略的系统性评估
- 揭示LLM在部分可观测规划中的根本性局限
待解决问题: 如何增强LLM的隐式查询处理能力、LLM规划能力的可扩展性边界
利用熵度量缓解软奖励的不可塑性
- 日期: 2026-04-01
- 作者: Fabian Paischer, Mohammadreza Sadeghi, Sepp Hochreiter 等
- 链接: https://arxiv.org/abs/2604.00005
- 领域: Training & Alignment
核心贡献: 提出高熵策略初始化和早停策略,针对RLHF中软奖励函数导致的策略不可塑性问题,在人类偏好和数学推理任务上实现高达50%的性能提升。
主要创新点:
- 理论分析揭示软奖励函数的非有界性质及其对KL约束的影响
- 高熵初始化策略提升策略网络的适应能力
- 早停机制防止陷入次优解
待解决问题: 奖励模型过优化的系统性缓解、KL散度约束的最优设置
子词分割对大语言模型性能的影响
- 日期: 2026-04-01
- 作者: Tarun Tater, Kenton Murray, David Chiang 等 (Notre Dame, JHU)
- 链接: https://arxiv.org/abs/2604.00013
- 领域: Large Language Model
核心贡献: 系统评估10种不同tokenization方法对LLM推理能力的影响,发现不同任务间存在32.62%的最大性能差异,基于BPE的分词器在特定任务上表现最佳。
主要创新点:
- 涵盖10种tokenization方法的全面评估框架
- 针对推理任务的专项分析
- 揭示分词策略与模型性能的深层关联
待解决问题: 多语言场景下的最优分词策略、不同语言特性的适应性分词
面向长上下文智能体预训练的多阶段策略
- 日期: 2026-04-01
- 作者: Louis Paternault, Jiafei Duan, Ashish Kapoor 等
- 链接: https://arxiv.org/abs/2604.00007
- 领域: Large Language Model
核心贡献: 提出两阶段预训练策略,先学习行为表征再学习目标驱动能力,在长上下文智能体任务上达到62.8%准确率,较原有方法提升4.2倍。
主要创新点:
- 解耦能力学习和策略优化的两阶段训练范式
- 消除检索任务中的重复动作
- 在Needle-In-Haystack和KV任务上实现显著提升
待解决问题: 长上下文能力的泛化性、多模态长上下文场景的应用
解码思维链: LLM推理长度与训练数据长度的关联
- 日期: 2026-04-01
- 作者: Zhenyu Wu, Qingyue Wu, Jie Liu 等 (UC Berkeley, Princeton)
- 链接: https://arxiv.org/abs/2604.00012
- 领域: Large Language Model
核心贡献: 揭示LLM推理长度分布受训练数据长度影响,提出数据增强策略和课程学习方法优化推理过程,在数学推理任务上达到SOTA性能。
主要创新点:
- 训练数据长度与推理长度分布的实证关联分析
- 基于数据增强的长度优化策略
- 课程学习方法优化推理效率
待解决问题: 推理长度的自适应控制、测试时动态调整策略
PoseFlux: 基于流匹配的3D人体姿态与形状估计
- 日期: 2026-04-01
- 作者: Tejaswini, Otkrist Gupta, Hemin Yang 等 (NVIDIA, IIT Madras)
- 链接: https://arxiv.org/abs/2604.01161
- 领域: Computer Vision
核心贡献: 提出单阶段端到端框架,直接从图像特征回归SMPL人体参数,引入人体感知损失提升3D姿态估计准确性,在多个数据集上达到SOTA。
主要创新点:
- 单阶段流匹配框架替代传统的多阶段方法
- 人体感知损失(Human-Aware Loss)增强骨骼对齐
- 隐式条件化改善关键点空间关系建模
待解决问题: 极端姿态下的稳定性、多人体场景的扩展
Niki-7B: 面向小红书内容理解的多模态大模型
- 日期: 2026-04-01
- 作者: Hui Chen, Guoqiang Jiang, Wentao Zhang 等 (小红书)
- 链接: https://arxiv.org/abs/2604.01221
- 领域: Multimodal LLM
核心贡献: 提出结合多模态特征、多模态标签、OCR和Meta数据的跨模态理解框架,在内容理解、多模态搜索和商品标签推荐任务上优于Qwen2.5-VL-7B和Ovis-7B。
主要创新点:
- 多模态异构数据的统一编码与融合
- 从粗粒度推荐到细粒度语义理解的递进式框架
- 针对社交平台内容的专项优化
待解决问题: 更多模态(音频、视频)的融合、跨平台泛化能力
APIGen-MT: 多轮对话多工具调用的合成数据生成
- 日期: 2026-04-01
- 作者: Zuxin Liu, Thai Hoang, Jianguo Zhang 等 (NVIDIA)
- 链接: https://arxiv.org/abs/2604.01145
- 领域: Large Language Model
核心贡献: 提出多轮对话场景下的大规模合成数据生成框架,通过token预算约束提升数据质量,生成数据训练的模型在API调用任务上超越GPT-4o。
主要创新点:
- 多轮交互场景的多工具调用合成数据生成
- Token预算引导的高质量数据筛选机制
- 复杂指令遵循能力的显著提升
待解决问题: 真实世界API调用的泛化、动态工具组合场景
MG-MAML: 元生成对抗网络的多任务少样本图像生成
- 日期: 2026-04-01
- 作者: Aadit Kapoor, Aumkar Kulkarni, Samrudha Vengurlekar 等
- 链接: https://arxiv.org/abs/2604.00003
- 领域: Generative AI
核心贡献: 将MAML与对抗训练结合,实现跨多个任务的少样本图像生成,在miniImageNet和CUB-200上实现44%和20%的性能提升。
主要创新点:
- MAML与GAN的深度融合架构
- 多任务元学习生成框架
- 少样本场景的高效适应机制
待解决问题: 大规模任务集的扩展性、生成质量与多样性的平衡
ARGS: 自回归高斯溅射3D生成
- 日期: 2026-04-01
- 作者: Quanyuan Ruan, Kewei Shi, Jiabao Lei 等
- 链接: https://arxiv.org/abs/2604.00494
- 领域: Computer Vision
核心贡献: 将自回归下一尺度预测扩展到3D对象生成,提出并行渐进式生成策略和树形Transformer,仅需O(log n)步即可生成多尺度高斯表示。
主要创新点:
- 3D高斯溅射的自回归生成范式
- 基于层次树的并行渐进式预测
- 可控制的细节层级和视觉保真度
待解决问题: 复杂场景的扩展、实时生成效率优化
快速确定性分布式度分割算法
- 日期: 2026-04-01
- 作者: Yannic Maus, Alexandre Nolin, Florian Schager
- 链接: https://arxiv.org/abs/2604.00724
- 领域: Theory & Algorithms
核心贡献: 提出复杂度为O(ε^(-1) · log n)的平衡定向算法,改进先前O(ε^(-1) · log ε^(-1) · (log log ε^(-1))^1.71 · log n)的结果,并应用于边着色问题。
主要创新点:
- 超图sinkless定向问题的新连接
- 更紧凑的平衡定向算法
- (3/2 + ε)Δ-边着色的高效分布式算法
待解决问题: 算法在更大规模网络的扩展性、其他图着色问题的应用
编码信息揭示时间复杂度
- 日期: 2026-04-01
- 作者: Yuting Liu, Fan Cheng, Xinbing Wang 等 (上海交大)
- 链接: https://arxiv.org/abs/2604.00132
- 领域: Information Theory
核心贡献: 首次从时间复杂度角度研究编码信息揭示问题,证明多种随机矩阵的时间复杂度渐近相同,并确定局部随机编码的特殊时间复杂度。
主要创新点:
- 编码信息揭示的时间复杂度理论框架
- 随机矩阵时间复杂度的统一分析
- 局部随机编码的特殊性质揭示
待解决问题: 更复杂编码方案的时间复杂度、信息揭示的最优编码设计
基于归因理论的日语社会偏见评估基准
- 日期: 2026-04-01
- 作者: Taihei Shiotani, Masahiro Kaneko, Naoaki Okazaki
- 链接: https://arxiv.org/abs/2604.00568
- 领域: Ethics & Bias
核心贡献: 构建JUBAKU-v2数据集,基于社会心理学归因理论评估日语语言模型对内外群体的归因偏见,包含216个反映日本特定文化偏见的样本。
主要创新点:
- 固定结论下推理过程中的偏见评估框架
- 日本文化特定的偏见数据集构建
- 比现有基准更敏感的模型差异检测
待解决问题: 跨文化偏见的比较研究、偏见缓解策略的有效性验证
近期热点
- 端到端文档智能: Qianfan-OCR和GLM-OCR代表了OCR领域从模块化管道向统一端到端模型转变的趋势
- MLLM规划能力: QuestBench等基准揭示了当前LLM在复杂规划任务中的根本局限
- 高效多模态模型: 参数规模更小但性能相当的多模态模型设计成为新趋势
值得关注的问题
- OCR与MLLM的边界在哪里?何时需要显式OCR,何时可以端到端处理?
- LLM的推理长度如何有效控制?训练数据长度与推理能力的关联机制是什么?
- 具身智能和世界模型如何与大语言模型有效结合?
潜在突破点
- 统一文档理解架构: 布局分析、OCR、语义理解的深度统一
- 测试时推理优化: 动态调整推理深度和策略
- 多模态高效融合: 视觉、文本、结构化数据的低成本融合方案
🦞上述内容由金氏小龙虾v1.1自动搜索生成,仅供参考 🦞