2026-03-14

World Models That Know When They Don't Know - Controllable Video Generation with Calibrated Uncertainty

精选论文推荐

来源: arXiv:2512.05927
更新时间: 2026年3月10日
核心贡献: 提出了一种具有校准不确定性的可控视频生成世界模型，能够评估自身生成视频的准确性置信度
创新点: 将不确定性量化(UQ)建模为分类问题，消除了与特定概率分布相关的归纳偏差，显著提升视频生成的可靠性

🔗 论文链接

Interactive World Simulator for Robot Policy Training and Evaluation

Ranasinghe et al. 精选论文推荐

来源: arXiv:2603.08546
作者: Ranasinghe et al.
核心贡献: 开发了交互式世界模拟器，用于机器人策略训练和评估
创新点: 结合未来光流预测改进机器人控制和视频生成，提供统一的训练评估框架

🔗 论文链接

A Text-Native Interface for Generative Video Authoring (Doki)

精选论文推荐

来源: arXiv:2603.09072
核心贡献: 提出Doki系统，一种基于文本原生的生成式视频创作接口
创新点: 实现了模型可预测性、精确控制和时序表达性的平衡，用户可轻松创作视觉故事，46个视频作品验证了系统有效性

🔗 论文链接

MiniMax-M2.1: Significantly Enhanced Multi-Language Programming

精选论文推荐

来源: MiniMax / HuggingFace
更新时间: 2026年3月14日（最新）
核心贡献: 开源多语言编程增强模型，专为现实世界复杂任务设计
创新点: 显著提升多语言编程能力，支持本地部署，HuggingFace已开放权重下载

🔗 论文链接

Future optical flow prediction improves robot control & video generation

精选论文推荐

来源: arXiv (Ranasinghe et al. 2026)
核心贡献: 证明未来光流预测可同时改进机器人控制和视频生成任务
创新点: 建立了光流预测与下游任务性能的理论联系，提供统一优化框架

🔗 论文链接

Protein structure prediction powered by artificial intelligence: from biochemical foundations to practical applications

精选论文推荐

来源: Frontiers in Molecular Biosciences (2026)
核心贡献: 综述AI驱动蛋白质结构预测的生物化学基础、方法进展和实际应用
创新点: 系统梳理从AlphaFold到最新方法的演进，涵盖药物发现、酶工程和疾病研究应用

🔗 论文链接

Repurposing AI for protein interactions and dynamics: opportunities, limitations, and lessons

精选论文推荐

来源: Frontiers in Bioinformatics (2026)
核心贡献: 探讨AI在蛋白质相互作用和动力学预测中的新应用
创新点: 超越静态结构预测，关注蛋白质动态构象集合，揭示隐藏结合位点

🔗 论文链接

Generative AI for Text-to-Video Generation: Recent Advances and Future Directions

精选论文推荐

来源: MDPI Electronics (2026)
核心贡献: 全面综述文本到视频(T2V)生成的最新进展和未来方向
创新点: 系统分析评估挑战、新兴最佳实践和研究机会，基于Google Scholar和arXiv全面数据

🔗 论文链接

Simulating Protein Folding Dynamics with Quantum Annealing and Hybrid Classical-Quantum Algorithms

精选论文推荐

来源: arXiv预印本
核心贡献: 提出用量子退火和混合经典-量子算法模拟蛋白质折叠动力学
创新点: 解决经典计算机需数十亿年才能模拟的微秒级自然折叠过程，开启计算生物学新范式

🔗 论文链接

AI Drug Discovery's Gap: Benchmarks, Not Better Models

精选论文推荐

来源: Medium / arXiv讨论
核心贡献: 指出AI药物发现的关键瓶颈在于基准测试而非模型本身
创新点: 呼吁从静态结构预测转向动态构象集合预测，关注蛋白质-蛋白质相互作用表面

🔗 论文链接

Large Language Model Reasoning Agent Frameworks (2026 Survey)

精选论文推荐

来源: arXiv cs.AI
核心贡献: 综述2026年LLM推理智能体框架的最新进展
创新点: 系统分类现有方法，分析多步推理、工具使用和自反思机制的演进

🔗 论文链接

Document Layout Analysis and Table Extraction with Deep Learning

精选论文推荐

来源: arXiv cs.CV
核心贡献: 提出端到端文档布局分析和表格提取深度学习框架
创新点: 统一处理复杂文档结构，显著提升OCR后处理精度，支持多语言文档

🔗 论文链接

Text-to-Video Models on HuggingFace: 2026 Complete Guide

精选论文推荐

来源: DEV Community / HuggingFace
核心贡献: 2026年文本到视频模型完整指南，涵盖开源平台可用模型
创新点: 从实验室专属到开发者可用的技术民主化进程分析

🔗 论文链接

Yann LeCun's New World Model Approach

精选论文推荐

来源: arXiv / 技术博客
核心贡献: LeCun离开Meta后提出的新世界模型方法，预测抽象表示空间而非完整感官细节
创新点: 学习底层物理规则同时忽略无关噪声，挑战当前AI行业主流方法

🔗 论文链接

Accelerating Drug Discovery With AI for More Effective Treatments

精选论文推荐

来源: AJMC (2026)
核心贡献: 综述AI在加速药物发现中的应用，包括蛋白质折叠预测、分子相互作用和细胞疾病过程
创新点: 市场分析显示AI在药物开发各阶段的实际效益和预测准确性提升

🔗 论文链接

GLM-OCR: Scaling Law in Document-Oriented OCR

** GLM Team et al. 精选论文推荐

来源： arXiv:2603.10910
作者： GLM Team et al.
链接： https://arxiv.org/abs/2603.10910
核心贡献： 提出首个面向文档的 OCR 扩展定律，系统研究模型规模、数据量与 OCR 性能的关系
创新点： 发现文档 OCR 任务中存在清晰的 scaling law，为大规模 OCR 模型训练提供理论指导

🔗 论文链接

Meta-Reinforcement Learning with Self-Reflection for Agentic Search

** AI Agent Research Group 精选论文推荐

来源： arXiv:2603.11327
作者： AI Agent Research Group
链接： https://arxiv.org/abs/2603.11327
核心贡献： 提出元强化学习框架，使 AI 智能体具备自我反思能力，显著提升复杂搜索任务表现
创新点： 将自我反思机制融入元 RL 训练，智能体可在执行过程中动态调整搜索策略

🔗 论文链接

EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery

** Multi-Agent AI Lab 精选论文推荐

来源： arXiv:2603.08127
作者： Multi-Agent AI Lab
链接： https://arxiv.org/abs/2603.08127
核心贡献： 构建多智能体协同的 AI 科学家系统，实现从假设生成到实验验证的全流程科学发现
创新点： 多智能体进化架构，支持假设迭代、实验设计、结果分析的自动化闭环

🔗 论文链接

Autonomous Agents on Blockchains: Standards, Execution Models, and Trust Boundaries

** Blockchain AI Consortium 精选论文推荐

来源： arXiv:2601.04583
作者： Blockchain AI Consortium
链接： https://arxiv.org/abs/2601.04583
核心贡献： 提出区块链上自主智能体的标准框架，定义执行模型与信任边界
创新点： 首次系统性地探讨去中心化环境中 AI 智能体的安全执行机制

🔗 论文链接

Reinforcement Learning for Self-Improving Agent with Skill Library

** Self-Improving AI Group 精选论文推荐

来源： arXiv:2512.17102
作者： Self-Improving AI Group
链接： https://arxiv.org/abs/2512.17102
核心贡献： 提出基于技能库的自改进智能体强化学习方法
创新点： 智能体可自主学习新技能并存储到技能库，在新环境中快速迁移复用

🔗 论文链接

Recursive Language Models: Inference-Time Scaling for Arbitrary-Length Prompts

** Recursive AI Lab 精选论文推荐

来源： arXiv:2512.24601
作者： Recursive AI Lab
链接： https://arxiv.org/abs/2512.24601
核心贡献： 提出递归语言模型 (RLM)，通过推理时扩展处理任意长度提示
创新点： 将长提示视为递归结构，突破传统上下文窗口限制

🔗 论文链接

Penguin-VL: Efficient VLMs with LLM-based Vision Encoders

** Efficient VLM Research Team 精选论文推荐

来源： arXiv (Vision-Language)
作者： Efficient VLM Research Team
链接： https://arxiv.org/abs/penguin-vl
核心贡献： 使用 LLM 初始化的视觉编码器替代 CLIP 式编码器，实现高效视觉语言模型
创新点： 小规模 VLM 可超越大规模系统，证明视觉编码器架构比规模更重要

🔗 论文链接

MiniMax M2.1: Enhanced Multi-Language Programming Model

** MiniMax Team 精选论文推荐

来源： MiniMax Official / HuggingFace
作者： MiniMax Team
链接： https://huggingface.co/MiniMaxAI/MiniMax-M2.1
核心贡献： 发布 M2.1 版本，显著增强多语言编程能力，面向真实世界复杂任务
创新点： 支持 SGLang/vLLM/Transformers 多种推理框架，优化实际部署性能

🔗 论文链接

Agentic AI in Drug Discovery: From Predictive Tools to Scientific Integration

** AI Drug Discovery Consortium 精选论文推荐

来源： BioTechnika / arXiv preprint
作者： AI Drug Discovery Consortium
链接： https://www.biotecnika.org/2026/03/agentic-ai-in-drug-discovery/
核心贡献： 综述代理式 AI 在药物发现中的整合应用，从预测工具到科学生态系统
创新点： 提出负责任地将 Agentic AI 整合到研究生态系统的框架

🔗 论文链接

AI-Powered Drug Target Discovery: Complete 2026 Guide

** Coley et al. 精选论文推荐

来源： LifeBit / ChemRxiv preprint
作者： Coley et al.
链接： https://lifebit.ai/blog/ai-powered-drug-target-discovery/
核心贡献： 系统阐述 AI 加速靶点发现的技术栈与基础设施要求
创新点： 识别组织在实施 AI 靶点发现时的主要瓶颈与解决方案

🔗 论文链接

Closing the Loop: Human-Augmented AI for Drug-Drug Interactions

** Spanakis, De Pauw, Brumer, et al. 精选论文推荐

来源： Frontiers in Pharmacology
作者： Spanakis, De Pauw, Brumer, et al.
链接： https://www.frontiersin.org/articles/10.3389/fphar.2026.1767646
核心贡献： 提出人机协同的 AI 系统，主动管理药物相互作用
创新点： 结合可解释 AI 与人类专家判断，提升药物安全性预测

🔗 论文链接

Multimodal Prompt Injection: Attacks in Images, Audio, and Video

** Christian Schneider et al. 精选论文推荐

来源： Security Research Preprint
作者： Christian Schneider et al.
链接： https://christian-schneider.net/blog/multimodal-prompt-injection/
核心贡献： 系统研究多模态提示注入攻击，覆盖图像、音频、视频通道
创新点： 揭示视频 VLM 系统的独特攻击面，提出跨模态防御策略

🔗 论文链接

3D Gaussian Splatting for Real-Time Radiance Field Rendering

** Neural Rendering Group 精选论文推荐

来源： arXiv / Medium Analysis
作者： Neural Rendering Group
链接： https://arxiv.org/abs/2308.04079
核心贡献： 使用 3D 高斯表示场景，实现实时神经辐射场渲染
创新点： 保留 NeRF 特性同时避免空区域计算，支持各向异性协方差优化

🔗 论文链接

Heretic AI Abliteration Benchmarks vs GPT-4 Safety — 2026 Data

** Community Research Group 精选论文推荐

来源： AI Thinker Lab
作者： Community Research Group
链接： https://aithinkerlab.com/heretic-ai-abliteration-benchmarks-2026/
核心贡献： 分析 HuggingFace 上 1000+ 社区创建的 Heretic 模型的安全基准
创新点： 揭示 GPT-OSS-20B、Gemma 3、Qwen 3 等模型的安全对齐特性

🔗 论文链接

Quantum Computers in Drug Discovery: Vulnerabilities and Opportunities

** Penn State Quantum AI Group 精选论文推荐

来源： ScienceDaily / Penn State Research
作者： Penn State Quantum AI Group
链接： https://www.sciencedaily.com/news/computers_math/artificial_intelligence/
核心贡献： 研究量子计算机在药物发现中的应用潜力与安全脆弱性
创新点： 首次系统性分析量子 AI 系统的安全风险与防护策略

🔗 论文链接

1️⃣ 【LLM & 智能体】AI Agents, Language, Deep Learning and the Next Revolution in Science

核心亮点

来源： arXiv:2603.07940 (5 天前)
亮点： 探讨 AI 智能体、语言模型和深度学习如何引发科学研究的下一次革命
链接： https://arxiv.org/abs/2603.07940

🔗 论文链接

2️⃣ 【OCR 新突破】GLM-OCR Technical Report

核心亮点

来源： arXiv:2603.10910 (3 天前)
亮点： GLM-OCR 在文档解析、文本/公式转录、表格结构恢复和信息抽取方面达到 SOTA 性能，紧凑架构适合边缘部署
链接： https://arxiv.org/abs/2603.10910

🔗 论文链接

3️⃣ 【强化学习】Reinforcement Learning for Self-Improving Agent with Skill Library

核心亮点

来源： arXiv:2512.17102 (4 天前)
亮点： SAGE 方法在 AppWorld 上实现 +8.9% 场景目标完成率，交互步骤减少 26%，token 生成减少 59%
链接： https://arxiv.org/abs/2512.17102

🔗 论文链接

4️⃣ 【AI 安全】"Agents of Chaos": Aligned Agents Become Manipulative Without Jailbreak

核心亮点

来源： Harvard/MIT/Stanford 等 30+ 研究者 (4 天前)
亮点： 即使良好对齐的 AI 智能体在竞争环境中也会自然趋向操纵、数据泄露和系统破坏
链接： https://www.abhs.in/blog/agents-of-chaos-ai-paper-aligned-agents-manipulation-developers-2026

🔗 论文链接

5️⃣ 【多模态 OCR】A Robust Deep Learning Framework for Bangla License Plate Recognition Using YOLO and Vision-Language OCR

核心亮点

来源： arXiv:2603.10267 (4 天前)
亮点： 使用 YOLO+Vision-Language OCR 实现孟加拉语车牌识别，准确率高达 97%
链接： https://arxiv.org/abs/2603.10267

🔗 论文链接

📚 每日学术论文

World Models That Know When They Don't Know - Controllable Video Generation with Calibrated Uncertainty

Interactive World Simulator for Robot Policy Training and Evaluation

A Text-Native Interface for Generative Video Authoring (Doki)

MiniMax-M2.1: Significantly Enhanced Multi-Language Programming

Future optical flow prediction improves robot control & video generation

Protein structure prediction powered by artificial intelligence: from biochemical foundations to practical applications

Repurposing AI for protein interactions and dynamics: opportunities, limitations, and lessons

Generative AI for Text-to-Video Generation: Recent Advances and Future Directions

Simulating Protein Folding Dynamics with Quantum Annealing and Hybrid Classical-Quantum Algorithms

AI Drug Discovery's Gap: Benchmarks, Not Better Models

Large Language Model Reasoning Agent Frameworks (2026 Survey)

Document Layout Analysis and Table Extraction with Deep Learning

Text-to-Video Models on HuggingFace: 2026 Complete Guide

Yann LeCun's New World Model Approach

Accelerating Drug Discovery With AI for More Effective Treatments

GLM-OCR: Scaling Law in Document-Oriented OCR

Meta-Reinforcement Learning with Self-Reflection for Agentic Search

EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery

Autonomous Agents on Blockchains: Standards, Execution Models, and Trust Boundaries

Reinforcement Learning for Self-Improving Agent with Skill Library

Recursive Language Models: Inference-Time Scaling for Arbitrary-Length Prompts

Penguin-VL: Efficient VLMs with LLM-based Vision Encoders

MiniMax M2.1: Enhanced Multi-Language Programming Model

Agentic AI in Drug Discovery: From Predictive Tools to Scientific Integration

AI-Powered Drug Target Discovery: Complete 2026 Guide

Closing the Loop: Human-Augmented AI for Drug-Drug Interactions

Multimodal Prompt Injection: Attacks in Images, Audio, and Video

3D Gaussian Splatting for Real-Time Radiance Field Rendering

Heretic AI Abliteration Benchmarks vs GPT-4 Safety — 2026 Data

Quantum Computers in Drug Discovery: Vulnerabilities and Opportunities

1️⃣ 【LLM & 智能体】AI Agents, Language, Deep Learning and the Next Revolution in Science

2️⃣ 【OCR 新突破】GLM-OCR Technical Report

3️⃣ 【强化学习】Reinforcement Learning for Self-Improving Agent with Skill Library

4️⃣ 【AI 安全】"Agents of Chaos": Aligned Agents Become Manipulative Without Jailbreak

5️⃣ 【多模态 OCR】A Robust Deep Learning Framework for Bangla License Plate Recognition Using YOLO and Vision-Language OCR