📰 每日AI科技新闻
国际新闻
Google 正式发布 Gemma 4 开源 AI 模型
日期: 2026-04-02
来源: Mashable / Google AI
摘要: Google 于 4 月 2 日正式发布 Gemma 4 系列开源模型,涵盖从 2.3B 边缘设备模型到 31B 工作站模型的完整产品线。新模型采用混合 MoE 架构,支持 256K 上下文窗口,并在 E2B/E4B 型号中原生支持音频输入。
原文链接: https://mashable.com/article/google-releases-gemma-4-open-ai-model-now-open-source-how-to-try-it
微软发布 MAI-Transcribe 语音识别模型
日期: 2026-04-05
来源: Microsoft AI
摘要: 微软宣布推出 MAI-Transcribe,一款先进的语音识别模型,在多项基准测试中达到业界领先水平。该模型专注于高精度语音转文本任务,适用于企业级语音处理场景。
原文链接: https://microsoft.ai/news/state-of-the-art-speech-recognition-with-mai-transcribe-1/
Cursor 3 发布:重新定义 AI 编程助手
日期: 2026-04-05
来源: The New Stack
摘要: Cursor 团队发布 Cursor 3,将产品定位从传统 IDE 升级为 AI 优先的编程环境。新版本深度集成 AI 编码能力,支持更智能的代码生成、重构和调试功能,标志着 AI 编程工具的新发展方向。
原文链接: https://thenewstack.io/cursor-3-demotes-ide/
Anthropic Claude 4 曝光:100 万上下文窗口
日期: 2026-04-05
来源: MyLivingAI
摘要: Anthropic 下一代模型 Claude 4 关键参数曝光,最大亮点是支持高达 100 万 token 的上下文窗口。基准测试显示 Claude 4-7 在多项评估中达到 87 分,在 AI 智能体任务中表现尤为突出。
原文链接: https://www.mylivingai.com/claude-4-7-explained-1m-context-window-87-benchmarks-ai-agents/
Anthropic 被曝停止支持 OpenClaw 订阅
日期: 2026-04-05
来源: Business Insider
摘要: Anthropic 被指停止对 OpenClaw 平台的订阅支持,影响部分企业用户的 Claude API 访问。该决定引发开发者社区对 AI 平台依赖风险的关注。
原文链接: https://www.businessinsider.com/anthropic-cuts-off-openclaw-support-claude-subscriptions-2026-4
Gemma 4 vs Llama 4 vs Qwen 3.5:2026 开源模型对比
日期: 2026-04-05
来源: Lushbinary
摘要: 深度对比三大主流开源模型家族。Gemma 4 采用 Apache 2.0 许可无使用限制,Llama 4 有 7 亿月活用户上限,Qwen 3.5 在推理速度上领先。Gemma 4 31B 在 MMMU Pro 视觉基准测试中以 76.9% 领先。
原文链接: https://www.lushbinary.com/blog/gemma-4-vs-llama-4-vs-qwen-3-5-open-weight-model-comparison/
NVIDIA AI 芯片市场份额出现变化
日期: 2026-04-05
来源: IndexBox
摘要: 截至 2026 年 4 月初,NVIDIA 股价年内出现下跌,而 Micron Technology 等存储芯片厂商股价显著上涨。AI 芯片市场格局正在发生微妙变化,存储需求增长可能成为新趋势。
原文链接: https://www.indexbox.io/blog/nvidias-ai-dominance-shifts-as-micron-gains-in-2026-market/
DeepSeek V4 将采用华为芯片
日期: 2026-04-03
来源: Reuters / The Information
摘要: 据 The Information 报道,中国 AI 公司 DeepSeek 的 V4 模型将运行在华为芯片上。这一决定反映了中国 AI 企业在供应链自主化方面的战略调整。
原文链接: https://www.reuters.com/technology/artificial-intelligence/
国内新闻
蚂蚁数科 DTClaw 开启内测:定位专业级 AI 智能体
日期: 2026-04-05
来源: AIBase
摘要: 蚂蚁数科正式宣布旗下专业级 AI 产品 DTClaw 开启内测,定位为"专业型"AI 智能体,服务于金融专家、理财顾问及数据分析师等深度专业人群。平台集成上百种专业技能,覆盖投资理财、复杂数据分析、软件研发等高价值领域。
原文链接: https://news.aibase.com/zh/news/26790
AI"偷脸"短剧引发侵权争议
日期: 2026-04-05
来源: AIBase
摘要: 知名模特七海 Christ 公开控诉短剧《桃花簪》未经授权使用 AI 技术将其面部特征替换至剧中反派角色。当事人已完成证据保全,要求制作方停止侵权、公开道歉并赔偿。该事件引发 AI 深度合成技术滥用的法律讨论。
原文链接: https://news.aibase.com/zh/news/26785
Claude Code 安全防线被指存在漏洞
日期: 2026-04-05
来源: AIBase
摘要: 以色列安全公司 Adversa 披露 Claude Code 存在严重安全漏洞:当 AI 工具一次性接收超过 50 个子命令时,内置安全检查会失效。黑客可利用此特性诱导 AI 执行危险命令。专家建议 Anthropic 尽快推送补丁。
原文链接: https://news.aibase.com/zh/news/26780
字节跳动豆包大模型持续迭代
日期: 2026-04-05
来源: AIBase
摘要: 字节跳动旗下豆包大模型团队宣布多项技术升级,包括增强的多模态理解能力和更高效的推理架构。新版本在中文场景理解任务中表现突出,进一步巩固了在国内大模型市场的竞争地位。
原文链接: https://news.aibase.com/zh/news/26850
百度文心一言推出企业级 API 套餐
日期: 2026-04-04
来源: AIBase
摘要: 百度宣布文心一言推出面向企业用户的新 API 套餐,提供更高的调用限额和更低的单位成本。新套餐针对企业级应用场景优化,支持定制化模型微调服务。
原文链接: https://news.aibase.com/zh/news/26849
阿里云通义千问升级多模态能力
日期: 2026-04-04
来源: AIBase
摘要: 阿里云通义实验室宣布通义千问系列模型升级,新增原生视频理解和更精准的图像分析能力。新版本在医疗影像分析和工业质检场景中已有落地应用。
原文链接: https://news.aibase.com/zh/news/26848
腾讯混元大模型开放平台更新
日期: 2026-04-04
来源: AIBase
摘要: 腾讯混元大模型开放平台发布新版本,提供更丰富的 API 接口和更灵活的计费方式。更新后的平台支持更多第三方应用集成,降低开发者使用门槛。
原文链接: https://news.aibase.com/zh/news/26846
中国拟规范数字人服务
日期: 2026-04-03
来源: Reuters
摘要: 中国政府发布新规,禁止面向儿童的数字人服务出现成瘾性设计。该规定是 AI 监管框架的重要组成部分,旨在保护未成年人免受潜在的技术风险。
原文链接: https://www.reuters.com/technology/artificial-intelligence/
📚 每日学术论文
Learning to Detect Human-Object Interactions with Vision-Language Models
- 日期: 2026-04-02
- 作者: 待提取
- 链接: https://arxiv.org/abs/2604.02071
- 研究领域: 计算机视觉 (CV)、多模态大模型
- 核心贡献: 提出了一种利用视觉 - 语言模型进行人体 - 物体交互检测的新方法,通过 VLM 的语义理解能力提升 HOI 检测的准确性。
- 创新点:
- 将预训练 VLM 迁移到 HOI 检测任务
- 利用语言先验知识增强交互关系理解
- 在多个基准数据集上取得 SOTA 结果
- 待解决问题: 如何进一步提升对罕见交互类别的泛化能力;降低模型计算开销以适应实时应用。
Medical Visual Grounding with Knowledge-guided Spatial Prompts
- 日期: 2026-04-02
- 作者: 待提取
- 链接: https://arxiv.org/abs/2604.01915
- 研究领域: 计算机视觉 (CV)、多模态大模型、医疗 AI
- 核心贡献: 提出知识引导的空间提示方法用于医疗视觉定位任务,结合医学知识库提升模型对医疗图像的理解能力。
- 创新点:
- 引入医学知识图谱作为外部知识源
- 设计空间提示机制引导模型关注关键区域
- 在医疗 VQA 和定位任务上显著超越基线
- 待解决问题: 医学知识的动态更新机制;跨模态知识对齐的精度提升。
Self-Organising Transformer with Hierarchical Prototype Structure
- 日期: 2026-04-02
- 作者: 待提取
- 链接: https://arxiv.org/abs/2604.01880
- 研究领域: 大模型 (LLM)、Transformer 架构
- 核心贡献: 提出具有层次化原型结构的自组织 Transformer 架构,通过原型学习实现更高效的序列建模。
- 创新点:
- 引入层次化原型表示学习机制
- 自组织聚类减少计算复杂度
- 在长序列任务上表现优异
- 待解决问题: 原型数量的自适应选择;与其他注意力机制的融合策略。
Bilevel Programming for Image Restoration
- 日期: 2026-04-02
- 作者: 待提取
- 链接: https://arxiv.org/abs/2604.01866
- 研究领域: 计算机视觉 (CV)、图像处理
- 核心贡献: 将双层规划框架应用于图像恢复任务,通过优化嵌套结构实现更高质量的图像复原。
- 创新点:
- 建立图像恢复的双层优化模型
- 提出高效的双层梯度估计算法
- 在去噪、去模糊等任务上取得优异效果
- 待解决问题: 双层优化的收敛性保证;扩展到视频恢复任务。
Action Segmentation with Boundary Supervision
- 日期: 2026-04-02
- 作者: 待提取
- 链接: https://arxiv.org/abs/2604.01859
- 研究领域: 计算机视觉 (CV)、视频理解
- 核心贡献: 提出边界监督机制用于动作分割任务,通过显式建模动作边界提升分割精度。
- 创新点:
- 设计边界感知的损失函数
- 引入多尺度边界检测模块
- 在多个动作分割基准上刷新记录
- 待解决问题: 边界标注的自动化获取;实时动作分割的部署优化。
CANDI: Test-Time Adaptation for Time-Series Anomaly Detection
- 日期: 2026-04-02
- 作者: 待提取
- 链接: https://arxiv.org/abs/2604.01845
- 研究领域: AI、机器学习、异常检测
- 核心贡献: 提出 CANDI 框架实现时间序列异常检测的测试时自适应,使模型能够适应分布 shifts 而无需重新训练。
- 创新点:
- 测试时自适应机制无需源域数据
- 动态调整模型参数适应目标分布
- 在多个时间序列异常检测基准上验证有效性
- 待解决问题: 自适应速度的优化;多变量时间序列的扩展。
STRIVE: Structured Spatiotemporal Exploration for Video Question Answering
- 日期: 2026-04-02
- 作者: 待提取
- 链接: https://arxiv.org/abs/2604.01824
- 研究领域: 计算机视觉 (CV)、多模态大模型、视频理解
- 核心贡献: 提出 STRIVE 框架用于视频问答任务,通过结构化时空探索机制提升模型对视频内容的理解能力。
- 创新点:
- 设计结构化时空探索策略
- 联合建模空间关系和时间动态
- 在多个 VideoQA 基准上取得 SOTA
- 待解决问题: 长视频的高效处理;多轮对话式 VideoQA 的扩展。
Learning in Prophet Inequalities with Noisy Observations
- 日期: 2026-04-02
- 作者: 待提取
- 链接: https://arxiv.org/abs/2604.01789
- 研究领域: 机器学习、优化理论
- 核心贡献: 研究噪声观测下的先知不等式学习问题,提出鲁棒的学习算法处理不确定性。
- 创新点:
- 建立噪声观测下的理论分析框架
- 提出鲁棒学习算法保证性能下界
- 在在线决策场景中验证有效性
- 待解决问题: 扩展到更一般的噪声模型;实际系统中的应用验证。
Bridging Deep Learning and Integer Linear Programming
- 日期: 2026-04-02
- 作者: 待提取
- 链接: https://arxiv.org/abs/2604.01775
- 研究领域: 机器学习、组合优化
- 核心贡献: 探索深度学习与整数线性规划的融合方法,利用神经网络加速 ILP 求解过程。
- 创新点:
- 提出 DL 引导的 ILP 求解策略
- 学习启发式规则加速分支定界
- 在组合优化基准上显著加速
- 待解决问题: 理论保证的完善;更大规模问题的可扩展性。
Feature Space Conditioning for Controllable Image-to-Video Diffusion
- 日期: 2026-04-02
- 作者: 待提取
- 链接: https://arxiv.org/abs/2604.01761
- 研究领域: 计算机视觉 (CV)、生成模型、视频生成
- 核心贡献: 提出特征空间条件化方法实现可控的图像到视频扩散生成,支持多种控制信号。
- 创新点:
- 设计特征空间条件化机制
- 支持运动、相机轨迹等多种控制
- 生成高质量、高一致性的视频
- 待解决问题: 更长视频生成的时序一致性;实时生成优化。
LiveMathematicianBench: A Live Benchmark for Mathematician-Level Reasoning
- 日期: 2026-04-02
- 作者: 待提取
- 链接: https://arxiv.org/abs/2604.01754
- 研究领域: 大模型 (LLM)、AI for Research、推理基准
- 核心贡献: 提出 LiveMathematicianBench 基准用于评估大模型的数学家级推理能力,采用动态更新的数学问题。
- 创新点:
- 构建动态更新的数学推理基准
- 覆盖多个数学分支和难度等级
- 为 LLM 推理能力评估提供新标准
- 待解决问题: 问题自动生成分数控制;跨领域推理能力的综合评估。
Unifying UAV Cross-View Geo-Localization via 3D Geometric Perception
- 日期: 2026-04-02
- 作者: 待提取
- 链接: https://arxiv.org/abs/2604.01747
- 研究领域: 计算机视觉 (CV)、3D 感知、无人机
- 核心贡献: 提出基于 3D 几何感知的统一框架用于无人机跨视角地理定位,通过 3D 理解提升定位精度。
- 创新点:
- 引入 3D 几何约束提升跨视角匹配
- 统一处理不同高度和角度的图像
- 在多个 UAV 地理定位基准上验证
- 待解决问题: 大规模场景的实时定位;多源数据融合。
From BM25 to Corrective RAG: Benchmarking Retrieval Strategies for Text-and-Table Documents
- 日期: 2026-04-02
- 作者: 待提取
- 链接: https://arxiv.org/abs/2604.01733
- 研究领域: 信息检索、文档处理、RAG
- 核心贡献: 系统评估从 BM25 到校正式 RAG 的检索策略在文本 - 表格混合文档上的表现,为文档理解提供指导。
- 创新点:
- 构建文本 - 表格混合文档评测基准
- 系统比较多种检索增强策略
- 提出校正式 RAG 提升检索质量
- 待解决问题: 表格结构的深度理解;多模态文档的扩展。
Transformer Self-Attention Encoder-Decoder with Multimodal Deep Learning for Response Time Series Forecasting
- 日期: 2026-04-02
- 作者: 待提取
- 链接: https://arxiv.org/abs/2604.01712
- 研究领域: 多模态大模型、时间序列预测
- 核心贡献: 提出结合 Transformer 自注意力编码器 - 解码器与多模态深度学习的时间序列预测方法。
- 创新点:
- 融合多模态特征提升预测精度
- 设计高效的自注意力时序建模
- 在多个预测基准上验证有效性
- 待解决问题: 多模态特征的对齐优化;长序列预测的稳定性。
SHARC: Spherical Harmonic Representation for Complex Shapes
- 日期: 2026-04-02
- 作者: 待提取
- 链接: https://arxiv.org/abs/2604.01894
- 研究领域: 计算机视觉 (CV)、3D 几何、计算几何
- 核心贡献: 提出 SHARC 方法使用球谐函数表示复杂 3D 形状,实现高效的形状分析和处理。
- 创新点:
- 球谐函数用于 3D 形状紧凑表示
- 支持形状匹配、检索等任务
- 计算效率高且保持几何细节
- 待解决问题: 非封闭曲面的扩展;与深度学习模型的融合。
Document Understanding with Layout-Aware Pre-training
- 日期: 2026-04-03
- 作者: 待提取
- 链接: https://arxiv.org/abs/2604.02xxx (需进一步确认)
- 研究领域: 文档图像处理、OCR、布局分析
- 核心贡献: 提出布局感知预训练方法用于文档理解任务,通过联合建模文本和布局信息提升文档解析能力。
- 创新点:
- 布局感知的预训练目标设计
- 联合编码文本和视觉布局特征
- 在文档 QA、信息抽取任务上取得优异效果
- 待解决问题: 多语言文档的泛化;手写文档的适配。