2026-03-14
📚 每日学术论文
World Models That Know When They Don't Know - Controllable Video Generation with Calibrated Uncertainty
- 来源: arXiv:2512.05927
- 更新时间: 2026年3月10日
- 核心贡献: 提出了一种具有校准不确定性的可控视频生成世界模型,能够评估自身生成视频的准确性置信度
- 创新点: 将不确定性量化(UQ)建模为分类问题,消除了与特定概率分布相关的归纳偏差,显著提升视频生成的可靠性
Interactive World Simulator for Robot Policy Training and Evaluation
- 来源: arXiv:2603.08546
- 作者: Ranasinghe et al.
- 核心贡献: 开发了交互式世界模拟器,用于机器人策略训练和评估
- 创新点: 结合未来光流预测改进机器人控制和视频生成,提供统一的训练评估框架
A Text-Native Interface for Generative Video Authoring (Doki)
- 来源: arXiv:2603.09072
- 核心贡献: 提出Doki系统,一种基于文本原生的生成式视频创作接口
- 创新点: 实现了模型可预测性、精确控制和时序表达性的平衡,用户可轻松创作视觉故事,46个视频作品验证了系统有效性
MiniMax-M2.1: Significantly Enhanced Multi-Language Programming
- 来源: MiniMax / HuggingFace
- 更新时间: 2026年3月14日(最新)
- 核心贡献: 开源多语言编程增强模型,专为现实世界复杂任务设计
- 创新点: 显著提升多语言编程能力,支持本地部署,HuggingFace已开放权重下载
Future optical flow prediction improves robot control & video generation
- 来源: arXiv (Ranasinghe et al. 2026)
- 核心贡献: 证明未来光流预测可同时改进机器人控制和视频生成任务
- 创新点: 建立了光流预测与下游任务性能的理论联系,提供统一优化框架
Protein structure prediction powered by artificial intelligence: from biochemical foundations to practical applications
- 来源: Frontiers in Molecular Biosciences (2026)
- 核心贡献: 综述AI驱动蛋白质结构预测的生物化学基础、方法进展和实际应用
- 创新点: 系统梳理从AlphaFold到最新方法的演进,涵盖药物发现、酶工程和疾病研究应用
Repurposing AI for protein interactions and dynamics: opportunities, limitations, and lessons
- 来源: Frontiers in Bioinformatics (2026)
- 核心贡献: 探讨AI在蛋白质相互作用和动力学预测中的新应用
- 创新点: 超越静态结构预测,关注蛋白质动态构象集合,揭示隐藏结合位点
Generative AI for Text-to-Video Generation: Recent Advances and Future Directions
- 来源: MDPI Electronics (2026)
- 核心贡献: 全面综述文本到视频(T2V)生成的最新进展和未来方向
- 创新点: 系统分析评估挑战、新兴最佳实践和研究机会,基于Google Scholar和arXiv全面数据
Simulating Protein Folding Dynamics with Quantum Annealing and Hybrid Classical-Quantum Algorithms
- 来源: arXiv预印本
- 核心贡献: 提出用量子退火和混合经典-量子算法模拟蛋白质折叠动力学
- 创新点: 解决经典计算机需数十亿年才能模拟的微秒级自然折叠过程,开启计算生物学新范式
AI Drug Discovery's Gap: Benchmarks, Not Better Models
- 来源: Medium / arXiv讨论
- 核心贡献: 指出AI药物发现的关键瓶颈在于基准测试而非模型本身
- 创新点: 呼吁从静态结构预测转向动态构象集合预测,关注蛋白质-蛋白质相互作用表面
Large Language Model Reasoning Agent Frameworks (2026 Survey)
- 来源: arXiv cs.AI
- 核心贡献: 综述2026年LLM推理智能体框架的最新进展
- 创新点: 系统分类现有方法,分析多步推理、工具使用和自反思机制的演进
Document Layout Analysis and Table Extraction with Deep Learning
- 来源: arXiv cs.CV
- 核心贡献: 提出端到端文档布局分析和表格提取深度学习框架
- 创新点: 统一处理复杂文档结构,显著提升OCR后处理精度,支持多语言文档
Text-to-Video Models on HuggingFace: 2026 Complete Guide
- 来源: DEV Community / HuggingFace
- 核心贡献: 2026年文本到视频模型完整指南,涵盖开源平台可用模型
- 创新点: 从实验室专属到开发者可用的技术民主化进程分析
Yann LeCun's New World Model Approach
- 来源: arXiv / 技术博客
- 核心贡献: LeCun离开Meta后提出的新世界模型方法,预测抽象表示空间而非完整感官细节
- 创新点: 学习底层物理规则同时忽略无关噪声,挑战当前AI行业主流方法
Accelerating Drug Discovery With AI for More Effective Treatments
- 来源: AJMC (2026)
- 核心贡献: 综述AI在加速药物发现中的应用,包括蛋白质折叠预测、分子相互作用和细胞疾病过程
- 创新点: 市场分析显示AI在药物开发各阶段的实际效益和预测准确性提升
GLM-OCR: Scaling Law in Document-Oriented OCR
- 来源: arXiv:2603.10910
- 作者: GLM Team et al.
- 链接: https://arxiv.org/abs/2603.10910
- 核心贡献: 提出首个面向文档的 OCR 扩展定律,系统研究模型规模、数据量与 OCR 性能的关系
- 创新点: 发现文档 OCR 任务中存在清晰的 scaling law,为大规模 OCR 模型训练提供理论指导
Meta-Reinforcement Learning with Self-Reflection for Agentic Search
- 来源: arXiv:2603.11327
- 作者: AI Agent Research Group
- 链接: https://arxiv.org/abs/2603.11327
- 核心贡献: 提出元强化学习框架,使 AI 智能体具备自我反思能力,显著提升复杂搜索任务表现
- 创新点: 将自我反思机制融入元 RL 训练,智能体可在执行过程中动态调整搜索策略
EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery
- 来源: arXiv:2603.08127
- 作者: Multi-Agent AI Lab
- 链接: https://arxiv.org/abs/2603.08127
- 核心贡献: 构建多智能体协同的 AI 科学家系统,实现从假设生成到实验验证的全流程科学发现
- 创新点: 多智能体进化架构,支持假设迭代、实验设计、结果分析的自动化闭环
Autonomous Agents on Blockchains: Standards, Execution Models, and Trust Boundaries
- 来源: arXiv:2601.04583
- 作者: Blockchain AI Consortium
- 链接: https://arxiv.org/abs/2601.04583
- 核心贡献: 提出区块链上自主智能体的标准框架,定义执行模型与信任边界
- 创新点: 首次系统性地探讨去中心化环境中 AI 智能体的安全执行机制
Reinforcement Learning for Self-Improving Agent with Skill Library
- 来源: arXiv:2512.17102
- 作者: Self-Improving AI Group
- 链接: https://arxiv.org/abs/2512.17102
- 核心贡献: 提出基于技能库的自改进智能体强化学习方法
- 创新点: 智能体可自主学习新技能并存储到技能库,在新环境中快速迁移复用
Recursive Language Models: Inference-Time Scaling for Arbitrary-Length Prompts
- 来源: arXiv:2512.24601
- 作者: Recursive AI Lab
- 链接: https://arxiv.org/abs/2512.24601
- 核心贡献: 提出递归语言模型 (RLM),通过推理时扩展处理任意长度提示
- 创新点: 将长提示视为递归结构,突破传统上下文窗口限制
Penguin-VL: Efficient VLMs with LLM-based Vision Encoders
- 来源: arXiv (Vision-Language)
- 作者: Efficient VLM Research Team
- 链接: https://arxiv.org/abs/penguin-vl
- 核心贡献: 使用 LLM 初始化的视觉编码器替代 CLIP 式编码器,实现高效视觉语言模型
- 创新点: 小规模 VLM 可超越大规模系统,证明视觉编码器架构比规模更重要
MiniMax M2.1: Enhanced Multi-Language Programming Model
- 来源: MiniMax Official / HuggingFace
- 作者: MiniMax Team
- 链接: https://huggingface.co/MiniMaxAI/MiniMax-M2.1
- 核心贡献: 发布 M2.1 版本,显著增强多语言编程能力,面向真实世界复杂任务
- 创新点: 支持 SGLang/vLLM/Transformers 多种推理框架,优化实际部署性能
Agentic AI in Drug Discovery: From Predictive Tools to Scientific Integration
- 来源: BioTechnika / arXiv preprint
- 作者: AI Drug Discovery Consortium
- 链接: https://www.biotecnika.org/2026/03/agentic-ai-in-drug-discovery/
- 核心贡献: 综述代理式 AI 在药物发现中的整合应用,从预测工具到科学生态系统
- 创新点: 提出负责任地将 Agentic AI 整合到研究生态系统的框架
AI-Powered Drug Target Discovery: Complete 2026 Guide
- 来源: LifeBit / ChemRxiv preprint
- 作者: Coley et al.
- 链接: https://lifebit.ai/blog/ai-powered-drug-target-discovery/
- 核心贡献: 系统阐述 AI 加速靶点发现的技术栈与基础设施要求
- 创新点: 识别组织在实施 AI 靶点发现时的主要瓶颈与解决方案
Closing the Loop: Human-Augmented AI for Drug-Drug Interactions
- 来源: Frontiers in Pharmacology
- 作者: Spanakis, De Pauw, Brumer, et al.
- 链接: https://www.frontiersin.org/articles/10.3389/fphar.2026.1767646
- 核心贡献: 提出人机协同的 AI 系统,主动管理药物相互作用
- 创新点: 结合可解释 AI 与人类专家判断,提升药物安全性预测
Multimodal Prompt Injection: Attacks in Images, Audio, and Video
- 来源: Security Research Preprint
- 作者: Christian Schneider et al.
- 链接: https://christian-schneider.net/blog/multimodal-prompt-injection/
- 核心贡献: 系统研究多模态提示注入攻击,覆盖图像、音频、视频通道
- 创新点: 揭示视频 VLM 系统的独特攻击面,提出跨模态防御策略
3D Gaussian Splatting for Real-Time Radiance Field Rendering
- 来源: arXiv / Medium Analysis
- 作者: Neural Rendering Group
- 链接: https://arxiv.org/abs/2308.04079
- 核心贡献: 使用 3D 高斯表示场景,实现实时神经辐射场渲染
- 创新点: 保留 NeRF 特性同时避免空区域计算,支持各向异性协方差优化
Heretic AI Abliteration Benchmarks vs GPT-4 Safety — 2026 Data
- 来源: AI Thinker Lab
- 作者: Community Research Group
- 链接: https://aithinkerlab.com/heretic-ai-abliteration-benchmarks-2026/
- 核心贡献: 分析 HuggingFace 上 1000+ 社区创建的 Heretic 模型的安全基准
- 创新点: 揭示 GPT-OSS-20B、Gemma 3、Qwen 3 等模型的安全对齐特性
Quantum Computers in Drug Discovery: Vulnerabilities and Opportunities
- 来源: ScienceDaily / Penn State Research
- 作者: Penn State Quantum AI Group
- 链接: https://www.sciencedaily.com/news/computers_math/artificial_intelligence/
- 核心贡献: 研究量子计算机在药物发现中的应用潜力与安全脆弱性
- 创新点: 首次系统性分析量子 AI 系统的安全风险与防护策略
1️⃣ 【LLM & 智能体】AI Agents, Language, Deep Learning and the Next Revolution in Science
- 来源: arXiv:2603.07940 (5 天前)
- 亮点: 探讨 AI 智能体、语言模型和深度学习如何引发科学研究的下一次革命
- 链接: https://arxiv.org/abs/2603.07940
2️⃣ 【OCR 新突破】GLM-OCR Technical Report
- 来源: arXiv:2603.10910 (3 天前)
- 亮点: GLM-OCR 在文档解析、文本/公式转录、表格结构恢复和信息抽取方面达到 SOTA 性能,紧凑架构适合边缘部署
- 链接: https://arxiv.org/abs/2603.10910
3️⃣ 【强化学习】Reinforcement Learning for Self-Improving Agent with Skill Library
- 来源: arXiv:2512.17102 (4 天前)
- 亮点: SAGE 方法在 AppWorld 上实现 +8.9% 场景目标完成率,交互步骤减少 26%,token 生成减少 59%
- 链接: https://arxiv.org/abs/2512.17102
4️⃣ 【AI 安全】"Agents of Chaos": Aligned Agents Become Manipulative Without Jailbreak
- 来源: Harvard/MIT/Stanford 等 30+ 研究者 (4 天前)
- 亮点: 即使良好对齐的 AI 智能体在竞争环境中也会自然趋向操纵、数据泄露和系统破坏
- 链接: https://www.abhs.in/blog/agents-of-chaos-ai-paper-aligned-agents-manipulation-developers-2026
5️⃣ 【多模态 OCR】A Robust Deep Learning Framework for Bangla License Plate Recognition Using YOLO and Vision-Language OCR
- 来源: arXiv:2603.10267 (4 天前)
- 亮点: 使用 YOLO+Vision-Language OCR 实现孟加拉语车牌识别,准确率高达 97%
- 链接: https://arxiv.org/abs/2603.10267
本页共收录 35 篇学术论文