2026-04-06

← 2026-04-05

2026-04-07 →

📰 每日AI科技新闻

国际新闻

Google 正式发布 Gemma 4 开源 AI 模型

Mashable / Google AI 09:00

日期： 2026-04-02
来源： Mashable / Google AI
摘要： Google 于 4 月 2 日正式发布 Gemma 4 系列开源模型，涵盖从 2.3B 边缘设备模型到 31B 工作站模型的完整产品线。新模型采用混合 MoE 架构，支持 256K 上下文窗口，并在 E2B/E4B 型号中原生支持音频输入。
原文链接： https://mashable.com/article/google-releases-gemma-4-open-ai-model-now-open-source-how-to-try-it

🔗 原文链接

微软发布 MAI-Transcribe 语音识别模型

Microsoft AI 09:00

日期： 2026-04-05
来源： Microsoft AI
摘要： 微软宣布推出 MAI-Transcribe，一款先进的语音识别模型，在多项基准测试中达到业界领先水平。该模型专注于高精度语音转文本任务，适用于企业级语音处理场景。
原文链接： https://microsoft.ai/news/state-of-the-art-speech-recognition-with-mai-transcribe-1/

🔗 原文链接

Cursor 3 发布：重新定义 AI 编程助手

The New Stack 09:00

日期： 2026-04-05
来源： The New Stack
摘要： Cursor 团队发布 Cursor 3，将产品定位从传统 IDE 升级为 AI 优先的编程环境。新版本深度集成 AI 编码能力，支持更智能的代码生成、重构和调试功能，标志着 AI 编程工具的新发展方向。
原文链接： https://thenewstack.io/cursor-3-demotes-ide/

🔗 原文链接

Anthropic Claude 4 曝光：100 万上下文窗口

MyLivingAI 09:00

日期： 2026-04-05
来源： MyLivingAI
摘要： Anthropic 下一代模型 Claude 4 关键参数曝光，最大亮点是支持高达 100 万 token 的上下文窗口。基准测试显示 Claude 4-7 在多项评估中达到 87 分，在 AI 智能体任务中表现尤为突出。
原文链接： https://www.mylivingai.com/claude-4-7-explained-1m-context-window-87-benchmarks-ai-agents/

🔗 原文链接

Anthropic 被曝停止支持 OpenClaw 订阅

Business Insider 09:00

日期： 2026-04-05
来源： Business Insider
摘要： Anthropic 被指停止对 OpenClaw 平台的订阅支持，影响部分企业用户的 Claude API 访问。该决定引发开发者社区对 AI 平台依赖风险的关注。
原文链接： https://www.businessinsider.com/anthropic-cuts-off-openclaw-support-claude-subscriptions-2026-4

🔗 原文链接

Gemma 4 vs Llama 4 vs Qwen 3.5：2026 开源模型对比

Lushbinary 09:00

日期： 2026-04-05
来源： Lushbinary
摘要： 深度对比三大主流开源模型家族。Gemma 4 采用 Apache 2.0 许可无使用限制，Llama 4 有 7 亿月活用户上限，Qwen 3.5 在推理速度上领先。Gemma 4 31B 在 MMMU Pro 视觉基准测试中以 76.9% 领先。
原文链接： https://www.lushbinary.com/blog/gemma-4-vs-llama-4-vs-qwen-3-5-open-weight-model-comparison/

🔗 原文链接

NVIDIA AI 芯片市场份额出现变化

IndexBox 09:00

日期： 2026-04-05
来源： IndexBox
摘要： 截至 2026 年 4 月初，NVIDIA 股价年内出现下跌，而 Micron Technology 等存储芯片厂商股价显著上涨。AI 芯片市场格局正在发生微妙变化，存储需求增长可能成为新趋势。
原文链接： https://www.indexbox.io/blog/nvidias-ai-dominance-shifts-as-micron-gains-in-2026-market/

🔗 原文链接

DeepSeek V4 将采用华为芯片

Reuters / The Information 09:00

日期： 2026-04-03
来源： Reuters / The Information
摘要： 据 The Information 报道，中国 AI 公司 DeepSeek 的 V4 模型将运行在华为芯片上。这一决定反映了中国 AI 企业在供应链自主化方面的战略调整。
原文链接： https://www.reuters.com/technology/artificial-intelligence/

🔗 原文链接

国内新闻

蚂蚁数科 DTClaw 开启内测：定位专业级 AI 智能体

AIBase 09:00

日期： 2026-04-05
来源： AIBase
摘要： 蚂蚁数科正式宣布旗下专业级 AI 产品 DTClaw 开启内测，定位为"专业型"AI 智能体，服务于金融专家、理财顾问及数据分析师等深度专业人群。平台集成上百种专业技能，覆盖投资理财、复杂数据分析、软件研发等高价值领域。
原文链接： https://news.aibase.com/zh/news/26790

🔗 原文链接

AI"偷脸"短剧引发侵权争议

AIBase 09:00

日期： 2026-04-05
来源： AIBase
摘要： 知名模特七海 Christ 公开控诉短剧《桃花簪》未经授权使用 AI 技术将其面部特征替换至剧中反派角色。当事人已完成证据保全，要求制作方停止侵权、公开道歉并赔偿。该事件引发 AI 深度合成技术滥用的法律讨论。
原文链接： https://news.aibase.com/zh/news/26785

🔗 原文链接

Claude Code 安全防线被指存在漏洞

AIBase 09:00

日期： 2026-04-05
来源： AIBase
摘要： 以色列安全公司 Adversa 披露 Claude Code 存在严重安全漏洞：当 AI 工具一次性接收超过 50 个子命令时，内置安全检查会失效。黑客可利用此特性诱导 AI 执行危险命令。专家建议 Anthropic 尽快推送补丁。
原文链接： https://news.aibase.com/zh/news/26780

🔗 原文链接

字节跳动豆包大模型持续迭代

AIBase 09:00

日期： 2026-04-05
来源： AIBase
摘要： 字节跳动旗下豆包大模型团队宣布多项技术升级，包括增强的多模态理解能力和更高效的推理架构。新版本在中文场景理解任务中表现突出，进一步巩固了在国内大模型市场的竞争地位。
原文链接： https://news.aibase.com/zh/news/26850

🔗 原文链接

百度文心一言推出企业级 API 套餐

AIBase 09:00

日期： 2026-04-04
来源： AIBase
摘要： 百度宣布文心一言推出面向企业用户的新 API 套餐，提供更高的调用限额和更低的单位成本。新套餐针对企业级应用场景优化，支持定制化模型微调服务。
原文链接： https://news.aibase.com/zh/news/26849

🔗 原文链接

阿里云通义千问升级多模态能力

AIBase 09:00

日期： 2026-04-04
来源： AIBase
摘要： 阿里云通义实验室宣布通义千问系列模型升级，新增原生视频理解和更精准的图像分析能力。新版本在医疗影像分析和工业质检场景中已有落地应用。
原文链接： https://news.aibase.com/zh/news/26848

🔗 原文链接

腾讯混元大模型开放平台更新

AIBase 09:00

日期： 2026-04-04
来源： AIBase
摘要： 腾讯混元大模型开放平台发布新版本，提供更丰富的 API 接口和更灵活的计费方式。更新后的平台支持更多第三方应用集成，降低开发者使用门槛。
原文链接： https://news.aibase.com/zh/news/26846

🔗 原文链接

中国拟规范数字人服务

Reuters 09:00

日期： 2026-04-03
来源： Reuters
摘要： 中国政府发布新规，禁止面向儿童的数字人服务出现成瘾性设计。该规定是 AI 监管框架的重要组成部分，旨在保护未成年人免受潜在的技术风险。
原文链接： https://www.reuters.com/technology/artificial-intelligence/

🔗 原文链接

📚 每日学术论文

Learning to Detect Human-Object Interactions with Vision-Language Models

待提取论文推荐列表

日期： 2026-04-02
作者： 待提取
链接： https://arxiv.org/abs/2604.02071
研究领域： 计算机视觉 (CV)、多模态大模型
核心贡献： 提出了一种利用视觉 - 语言模型进行人体 - 物体交互检测的新方法，通过 VLM 的语义理解能力提升 HOI 检测的准确性。
创新点：
- 将预训练 VLM 迁移到 HOI 检测任务
- 利用语言先验知识增强交互关系理解
- 在多个基准数据集上取得 SOTA 结果
待解决问题： 如何进一步提升对罕见交互类别的泛化能力；降低模型计算开销以适应实时应用。

🔗 论文链接

Medical Visual Grounding with Knowledge-guided Spatial Prompts

待提取论文推荐列表

日期： 2026-04-02
作者： 待提取
链接： https://arxiv.org/abs/2604.01915
研究领域： 计算机视觉 (CV)、多模态大模型、医疗 AI
核心贡献： 提出知识引导的空间提示方法用于医疗视觉定位任务，结合医学知识库提升模型对医疗图像的理解能力。
创新点：
- 引入医学知识图谱作为外部知识源
- 设计空间提示机制引导模型关注关键区域
- 在医疗 VQA 和定位任务上显著超越基线
待解决问题： 医学知识的动态更新机制；跨模态知识对齐的精度提升。

🔗 论文链接

Self-Organising Transformer with Hierarchical Prototype Structure

待提取论文推荐列表

日期： 2026-04-02
作者： 待提取
链接： https://arxiv.org/abs/2604.01880
研究领域： 大模型 (LLM)、Transformer 架构
核心贡献： 提出具有层次化原型结构的自组织 Transformer 架构，通过原型学习实现更高效的序列建模。
创新点：
- 引入层次化原型表示学习机制
- 自组织聚类减少计算复杂度
- 在长序列任务上表现优异
待解决问题： 原型数量的自适应选择；与其他注意力机制的融合策略。

🔗 论文链接

Bilevel Programming for Image Restoration

待提取论文推荐列表

日期： 2026-04-02
作者： 待提取
链接： https://arxiv.org/abs/2604.01866
研究领域： 计算机视觉 (CV)、图像处理
核心贡献： 将双层规划框架应用于图像恢复任务，通过优化嵌套结构实现更高质量的图像复原。
创新点：
- 建立图像恢复的双层优化模型
- 提出高效的双层梯度估计算法
- 在去噪、去模糊等任务上取得优异效果
待解决问题： 双层优化的收敛性保证；扩展到视频恢复任务。

🔗 论文链接

Action Segmentation with Boundary Supervision

待提取论文推荐列表

日期： 2026-04-02
作者： 待提取
链接： https://arxiv.org/abs/2604.01859
研究领域： 计算机视觉 (CV)、视频理解
核心贡献： 提出边界监督机制用于动作分割任务，通过显式建模动作边界提升分割精度。
创新点：
- 设计边界感知的损失函数
- 引入多尺度边界检测模块
- 在多个动作分割基准上刷新记录
待解决问题： 边界标注的自动化获取；实时动作分割的部署优化。

🔗 论文链接

CANDI: Test-Time Adaptation for Time-Series Anomaly Detection

待提取论文推荐列表

日期： 2026-04-02
作者： 待提取
链接： https://arxiv.org/abs/2604.01845
研究领域： AI、机器学习、异常检测
核心贡献： 提出 CANDI 框架实现时间序列异常检测的测试时自适应，使模型能够适应分布 shifts 而无需重新训练。
创新点：
- 测试时自适应机制无需源域数据
- 动态调整模型参数适应目标分布
- 在多个时间序列异常检测基准上验证有效性
待解决问题： 自适应速度的优化；多变量时间序列的扩展。

🔗 论文链接

STRIVE: Structured Spatiotemporal Exploration for Video Question Answering

待提取论文推荐列表

日期： 2026-04-02
作者： 待提取
链接： https://arxiv.org/abs/2604.01824
研究领域： 计算机视觉 (CV)、多模态大模型、视频理解
核心贡献： 提出 STRIVE 框架用于视频问答任务，通过结构化时空探索机制提升模型对视频内容的理解能力。
创新点：
- 设计结构化时空探索策略
- 联合建模空间关系和时间动态
- 在多个 VideoQA 基准上取得 SOTA
待解决问题： 长视频的高效处理；多轮对话式 VideoQA 的扩展。

🔗 论文链接

Learning in Prophet Inequalities with Noisy Observations

待提取论文推荐列表

日期： 2026-04-02
作者： 待提取
链接： https://arxiv.org/abs/2604.01789
研究领域： 机器学习、优化理论
核心贡献： 研究噪声观测下的先知不等式学习问题，提出鲁棒的学习算法处理不确定性。
创新点：
- 建立噪声观测下的理论分析框架
- 提出鲁棒学习算法保证性能下界
- 在在线决策场景中验证有效性
待解决问题： 扩展到更一般的噪声模型；实际系统中的应用验证。

🔗 论文链接

Bridging Deep Learning and Integer Linear Programming

待提取论文推荐列表

日期： 2026-04-02
作者： 待提取
链接： https://arxiv.org/abs/2604.01775
研究领域： 机器学习、组合优化
核心贡献： 探索深度学习与整数线性规划的融合方法，利用神经网络加速 ILP 求解过程。
创新点：
- 提出 DL 引导的 ILP 求解策略
- 学习启发式规则加速分支定界
- 在组合优化基准上显著加速
待解决问题： 理论保证的完善；更大规模问题的可扩展性。

🔗 论文链接

Feature Space Conditioning for Controllable Image-to-Video Diffusion

待提取论文推荐列表

日期： 2026-04-02
作者： 待提取
链接： https://arxiv.org/abs/2604.01761
研究领域： 计算机视觉 (CV)、生成模型、视频生成
核心贡献： 提出特征空间条件化方法实现可控的图像到视频扩散生成，支持多种控制信号。
创新点：
- 设计特征空间条件化机制
- 支持运动、相机轨迹等多种控制
- 生成高质量、高一致性的视频
待解决问题： 更长视频生成的时序一致性；实时生成优化。

🔗 论文链接

LiveMathematicianBench: A Live Benchmark for Mathematician-Level Reasoning

待提取论文推荐列表

日期： 2026-04-02
作者： 待提取
链接： https://arxiv.org/abs/2604.01754
研究领域： 大模型 (LLM)、AI for Research、推理基准
核心贡献： 提出 LiveMathematicianBench 基准用于评估大模型的数学家级推理能力，采用动态更新的数学问题。
创新点：
- 构建动态更新的数学推理基准
- 覆盖多个数学分支和难度等级
- 为 LLM 推理能力评估提供新标准
待解决问题： 问题自动生成分数控制；跨领域推理能力的综合评估。

🔗 论文链接

Unifying UAV Cross-View Geo-Localization via 3D Geometric Perception

待提取论文推荐列表

日期： 2026-04-02
作者： 待提取
链接： https://arxiv.org/abs/2604.01747
研究领域： 计算机视觉 (CV)、3D 感知、无人机
核心贡献： 提出基于 3D 几何感知的统一框架用于无人机跨视角地理定位，通过 3D 理解提升定位精度。
创新点：
- 引入 3D 几何约束提升跨视角匹配
- 统一处理不同高度和角度的图像
- 在多个 UAV 地理定位基准上验证
待解决问题： 大规模场景的实时定位；多源数据融合。

🔗 论文链接

From BM25 to Corrective RAG: Benchmarking Retrieval Strategies for Text-and-Table Documents

待提取论文推荐列表

日期： 2026-04-02
作者： 待提取
链接： https://arxiv.org/abs/2604.01733
研究领域： 信息检索、文档处理、RAG
核心贡献： 系统评估从 BM25 到校正式 RAG 的检索策略在文本 - 表格混合文档上的表现，为文档理解提供指导。
创新点：
- 构建文本 - 表格混合文档评测基准
- 系统比较多种检索增强策略
- 提出校正式 RAG 提升检索质量
待解决问题： 表格结构的深度理解；多模态文档的扩展。

🔗 论文链接

Transformer Self-Attention Encoder-Decoder with Multimodal Deep Learning for Response Time Series Forecasting

待提取论文推荐列表

日期： 2026-04-02
作者： 待提取
链接： https://arxiv.org/abs/2604.01712
研究领域： 多模态大模型、时间序列预测
核心贡献： 提出结合 Transformer 自注意力编码器 - 解码器与多模态深度学习的时间序列预测方法。
创新点：
- 融合多模态特征提升预测精度
- 设计高效的自注意力时序建模
- 在多个预测基准上验证有效性
待解决问题： 多模态特征的对齐优化；长序列预测的稳定性。

🔗 论文链接

SHARC: Spherical Harmonic Representation for Complex Shapes

待提取论文推荐列表

日期： 2026-04-02
作者： 待提取
链接： https://arxiv.org/abs/2604.01894
研究领域： 计算机视觉 (CV)、3D 几何、计算几何
核心贡献： 提出 SHARC 方法使用球谐函数表示复杂 3D 形状，实现高效的形状分析和处理。
创新点：
- 球谐函数用于 3D 形状紧凑表示
- 支持形状匹配、检索等任务
- 计算效率高且保持几何细节
待解决问题： 非封闭曲面的扩展；与深度学习模型的融合。

🔗 论文链接

Document Understanding with Layout-Aware Pre-training

待提取论文推荐列表

日期： 2026-04-03
作者： 待提取
链接： https://arxiv.org/abs/2604.02xxx (需进一步确认)
研究领域： 文档图像处理、OCR、布局分析
核心贡献： 提出布局感知预训练方法用于文档理解任务，通过联合建模文本和布局信息提升文档解析能力。
创新点：
- 布局感知的预训练目标设计
- 联合编码文本和视觉布局特征
- 在文档 QA、信息抽取任务上取得优异效果
待解决问题： 多语言文档的泛化；手写文档的适配。

🔗 论文链接

← 返回首页