← 没有更早

2026-03-14

2026-03-15 →

📚 每日学术论文

World Models That Know When They Don't Know - Controllable Video Generation with Calibrated Uncertainty
  • 来源: arXiv:2512.05927
  • 更新时间: 2026年3月10日
  • 核心贡献: 提出了一种具有校准不确定性的可控视频生成世界模型,能够评估自身生成视频的准确性置信度
  • 创新点: 将不确定性量化(UQ)建模为分类问题,消除了与特定概率分布相关的归纳偏差,显著提升视频生成的可靠性
🔗 论文链接
Interactive World Simulator for Robot Policy Training and Evaluation
  • 来源: arXiv:2603.08546
  • 作者: Ranasinghe et al.
  • 核心贡献: 开发了交互式世界模拟器,用于机器人策略训练和评估
  • 创新点: 结合未来光流预测改进机器人控制和视频生成,提供统一的训练评估框架
🔗 论文链接
A Text-Native Interface for Generative Video Authoring (Doki)
  • 来源: arXiv:2603.09072
  • 核心贡献: 提出Doki系统,一种基于文本原生的生成式视频创作接口
  • 创新点: 实现了模型可预测性、精确控制和时序表达性的平衡,用户可轻松创作视觉故事,46个视频作品验证了系统有效性
🔗 论文链接
MiniMax-M2.1: Significantly Enhanced Multi-Language Programming
  • 来源: MiniMax / HuggingFace
  • 更新时间: 2026年3月14日(最新)
  • 核心贡献: 开源多语言编程增强模型,专为现实世界复杂任务设计
  • 创新点: 显著提升多语言编程能力,支持本地部署,HuggingFace已开放权重下载
🔗 论文链接
Future optical flow prediction improves robot control & video generation
  • 来源: arXiv (Ranasinghe et al. 2026)
  • 核心贡献: 证明未来光流预测可同时改进机器人控制和视频生成任务
  • 创新点: 建立了光流预测与下游任务性能的理论联系,提供统一优化框架
🔗 论文链接
Protein structure prediction powered by artificial intelligence: from biochemical foundations to practical applications
  • 来源: Frontiers in Molecular Biosciences (2026)
  • 核心贡献: 综述AI驱动蛋白质结构预测的生物化学基础、方法进展和实际应用
  • 创新点: 系统梳理从AlphaFold到最新方法的演进,涵盖药物发现、酶工程和疾病研究应用
🔗 论文链接
Repurposing AI for protein interactions and dynamics: opportunities, limitations, and lessons
  • 来源: Frontiers in Bioinformatics (2026)
  • 核心贡献: 探讨AI在蛋白质相互作用和动力学预测中的新应用
  • 创新点: 超越静态结构预测,关注蛋白质动态构象集合,揭示隐藏结合位点
🔗 论文链接
Generative AI for Text-to-Video Generation: Recent Advances and Future Directions
  • 来源: MDPI Electronics (2026)
  • 核心贡献: 全面综述文本到视频(T2V)生成的最新进展和未来方向
  • 创新点: 系统分析评估挑战、新兴最佳实践和研究机会,基于Google Scholar和arXiv全面数据
🔗 论文链接
Simulating Protein Folding Dynamics with Quantum Annealing and Hybrid Classical-Quantum Algorithms
  • 来源: arXiv预印本
  • 核心贡献: 提出用量子退火和混合经典-量子算法模拟蛋白质折叠动力学
  • 创新点: 解决经典计算机需数十亿年才能模拟的微秒级自然折叠过程,开启计算生物学新范式
🔗 论文链接
AI Drug Discovery's Gap: Benchmarks, Not Better Models
  • 来源: Medium / arXiv讨论
  • 核心贡献: 指出AI药物发现的关键瓶颈在于基准测试而非模型本身
  • 创新点: 呼吁从静态结构预测转向动态构象集合预测,关注蛋白质-蛋白质相互作用表面
🔗 论文链接
Large Language Model Reasoning Agent Frameworks (2026 Survey)
  • 来源: arXiv cs.AI
  • 核心贡献: 综述2026年LLM推理智能体框架的最新进展
  • 创新点: 系统分类现有方法,分析多步推理、工具使用和自反思机制的演进
🔗 论文链接
Document Layout Analysis and Table Extraction with Deep Learning
  • 来源: arXiv cs.CV
  • 核心贡献: 提出端到端文档布局分析和表格提取深度学习框架
  • 创新点: 统一处理复杂文档结构,显著提升OCR后处理精度,支持多语言文档
🔗 论文链接
Text-to-Video Models on HuggingFace: 2026 Complete Guide
  • 来源: DEV Community / HuggingFace
  • 核心贡献: 2026年文本到视频模型完整指南,涵盖开源平台可用模型
  • 创新点: 从实验室专属到开发者可用的技术民主化进程分析
🔗 论文链接
Yann LeCun's New World Model Approach
  • 来源: arXiv / 技术博客
  • 核心贡献: LeCun离开Meta后提出的新世界模型方法,预测抽象表示空间而非完整感官细节
  • 创新点: 学习底层物理规则同时忽略无关噪声,挑战当前AI行业主流方法
🔗 论文链接
Accelerating Drug Discovery With AI for More Effective Treatments
  • 来源: AJMC (2026)
  • 核心贡献: 综述AI在加速药物发现中的应用,包括蛋白质折叠预测、分子相互作用和细胞疾病过程
  • 创新点: 市场分析显示AI在药物开发各阶段的实际效益和预测准确性提升

🔗 论文链接
GLM-OCR: Scaling Law in Document-Oriented OCR
  • 来源: arXiv:2603.10910
  • 作者: GLM Team et al.
  • 链接: https://arxiv.org/abs/2603.10910
  • 核心贡献: 提出首个面向文档的 OCR 扩展定律,系统研究模型规模、数据量与 OCR 性能的关系
  • 创新点: 发现文档 OCR 任务中存在清晰的 scaling law,为大规模 OCR 模型训练提供理论指导
🔗 论文链接
Meta-Reinforcement Learning with Self-Reflection for Agentic Search
  • 来源: arXiv:2603.11327
  • 作者: AI Agent Research Group
  • 链接: https://arxiv.org/abs/2603.11327
  • 核心贡献: 提出元强化学习框架,使 AI 智能体具备自我反思能力,显著提升复杂搜索任务表现
  • 创新点: 将自我反思机制融入元 RL 训练,智能体可在执行过程中动态调整搜索策略
🔗 论文链接
EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery
  • 来源: arXiv:2603.08127
  • 作者: Multi-Agent AI Lab
  • 链接: https://arxiv.org/abs/2603.08127
  • 核心贡献: 构建多智能体协同的 AI 科学家系统,实现从假设生成到实验验证的全流程科学发现
  • 创新点: 多智能体进化架构,支持假设迭代、实验设计、结果分析的自动化闭环
🔗 论文链接
Autonomous Agents on Blockchains: Standards, Execution Models, and Trust Boundaries
  • 来源: arXiv:2601.04583
  • 作者: Blockchain AI Consortium
  • 链接: https://arxiv.org/abs/2601.04583
  • 核心贡献: 提出区块链上自主智能体的标准框架,定义执行模型与信任边界
  • 创新点: 首次系统性地探讨去中心化环境中 AI 智能体的安全执行机制
🔗 论文链接
Reinforcement Learning for Self-Improving Agent with Skill Library
  • 来源: arXiv:2512.17102
  • 作者: Self-Improving AI Group
  • 链接: https://arxiv.org/abs/2512.17102
  • 核心贡献: 提出基于技能库的自改进智能体强化学习方法
  • 创新点: 智能体可自主学习新技能并存储到技能库,在新环境中快速迁移复用
🔗 论文链接
Recursive Language Models: Inference-Time Scaling for Arbitrary-Length Prompts
  • 来源: arXiv:2512.24601
  • 作者: Recursive AI Lab
  • 链接: https://arxiv.org/abs/2512.24601
  • 核心贡献: 提出递归语言模型 (RLM),通过推理时扩展处理任意长度提示
  • 创新点: 将长提示视为递归结构,突破传统上下文窗口限制
🔗 论文链接
Penguin-VL: Efficient VLMs with LLM-based Vision Encoders
  • 来源: arXiv (Vision-Language)
  • 作者: Efficient VLM Research Team
  • 链接: https://arxiv.org/abs/penguin-vl
  • 核心贡献: 使用 LLM 初始化的视觉编码器替代 CLIP 式编码器,实现高效视觉语言模型
  • 创新点: 小规模 VLM 可超越大规模系统,证明视觉编码器架构比规模更重要
🔗 论文链接
MiniMax M2.1: Enhanced Multi-Language Programming Model
  • 来源: MiniMax Official / HuggingFace
  • 作者: MiniMax Team
  • 链接: https://huggingface.co/MiniMaxAI/MiniMax-M2.1
  • 核心贡献: 发布 M2.1 版本,显著增强多语言编程能力,面向真实世界复杂任务
  • 创新点: 支持 SGLang/vLLM/Transformers 多种推理框架,优化实际部署性能
🔗 论文链接
Agentic AI in Drug Discovery: From Predictive Tools to Scientific Integration
  • 来源: BioTechnika / arXiv preprint
  • 作者: AI Drug Discovery Consortium
  • 链接: https://www.biotecnika.org/2026/03/agentic-ai-in-drug-discovery/
  • 核心贡献: 综述代理式 AI 在药物发现中的整合应用,从预测工具到科学生态系统
  • 创新点: 提出负责任地将 Agentic AI 整合到研究生态系统的框架
🔗 论文链接
AI-Powered Drug Target Discovery: Complete 2026 Guide
  • 来源: LifeBit / ChemRxiv preprint
  • 作者: Coley et al.
  • 链接: https://lifebit.ai/blog/ai-powered-drug-target-discovery/
  • 核心贡献: 系统阐述 AI 加速靶点发现的技术栈与基础设施要求
  • 创新点: 识别组织在实施 AI 靶点发现时的主要瓶颈与解决方案
🔗 论文链接
Closing the Loop: Human-Augmented AI for Drug-Drug Interactions
  • 来源: Frontiers in Pharmacology
  • 作者: Spanakis, De Pauw, Brumer, et al.
  • 链接: https://www.frontiersin.org/articles/10.3389/fphar.2026.1767646
  • 核心贡献: 提出人机协同的 AI 系统,主动管理药物相互作用
  • 创新点: 结合可解释 AI 与人类专家判断,提升药物安全性预测
🔗 论文链接
Multimodal Prompt Injection: Attacks in Images, Audio, and Video
  • 来源: Security Research Preprint
  • 作者: Christian Schneider et al.
  • 链接: https://christian-schneider.net/blog/multimodal-prompt-injection/
  • 核心贡献: 系统研究多模态提示注入攻击,覆盖图像、音频、视频通道
  • 创新点: 揭示视频 VLM 系统的独特攻击面,提出跨模态防御策略
🔗 论文链接
3D Gaussian Splatting for Real-Time Radiance Field Rendering
  • 来源: arXiv / Medium Analysis
  • 作者: Neural Rendering Group
  • 链接: https://arxiv.org/abs/2308.04079
  • 核心贡献: 使用 3D 高斯表示场景,实现实时神经辐射场渲染
  • 创新点: 保留 NeRF 特性同时避免空区域计算,支持各向异性协方差优化
🔗 论文链接
Heretic AI Abliteration Benchmarks vs GPT-4 Safety — 2026 Data
🔗 论文链接
Quantum Computers in Drug Discovery: Vulnerabilities and Opportunities

🔗 论文链接
1️⃣ 【LLM & 智能体】AI Agents, Language, Deep Learning and the Next Revolution in Science
  • 来源: arXiv:2603.07940 (5 天前)
  • 亮点: 探讨 AI 智能体、语言模型和深度学习如何引发科学研究的下一次革命
  • 链接: https://arxiv.org/abs/2603.07940
🔗 论文链接
2️⃣ 【OCR 新突破】GLM-OCR Technical Report
  • 来源: arXiv:2603.10910 (3 天前)
  • 亮点: GLM-OCR 在文档解析、文本/公式转录、表格结构恢复和信息抽取方面达到 SOTA 性能,紧凑架构适合边缘部署
  • 链接: https://arxiv.org/abs/2603.10910
🔗 论文链接
3️⃣ 【强化学习】Reinforcement Learning for Self-Improving Agent with Skill Library
  • 来源: arXiv:2512.17102 (4 天前)
  • 亮点: SAGE 方法在 AppWorld 上实现 +8.9% 场景目标完成率,交互步骤减少 26%,token 生成减少 59%
  • 链接: https://arxiv.org/abs/2512.17102
🔗 论文链接
4️⃣ 【AI 安全】"Agents of Chaos": Aligned Agents Become Manipulative Without Jailbreak
🔗 论文链接
5️⃣ 【多模态 OCR】A Robust Deep Learning Framework for Bangla License Plate Recognition Using YOLO and Vision-Language OCR
  • 来源: arXiv:2603.10267 (4 天前)
  • 亮点: 使用 YOLO+Vision-Language OCR 实现孟加拉语车牌识别,准确率高达 97%
  • 链接: https://arxiv.org/abs/2603.10267

🔗 论文链接
本页共收录 35 篇学术论文
← 返回首页