📚 每日学术论文
GLM-OCR Technical Report
作者: Shuaiqi Duan, Yadong Xue, Weihan Wang et al. (智源研究院)
来源: arXiv:2603.10910 | 链接
核心贡献: 提出 GLM-OCR 技术报告,详细介绍基于 GLM 架构的 OCR 系统设计与实现。
创新点: 将大语言模型与 OCR 任务深度融合,实现端到端的文档理解与文本识别,在复杂场景下显著提升识别准确率。
OCR or Not? Rethinking Document Information Extraction in the MLLMs Era
作者: 多个机构联合研究
来源: arXiv:2603.02789 | 链接
核心贡献: 在多模态大语言模型时代重新审视文档信息提取中 OCR 的必要性,基于真实世界大规模数据集进行系统性分析。
创新点: 发现纯图像模式下的文本提取错误率较高,而引入 OCR 后显著降低;提出 MLLM 与 OCR 系统协同工作的新范式。
From Word to World: Can Large Language Models be Implicit Text-based World Models?
作者: Yixia Li et al.
来源: arXiv:2512.18832 (v2: 2026-03-05) | 链接
核心贡献: 探索大语言模型作为隐式文本世界模型的能力,在五个代表性环境中验证世界模型的有效性。
创新点: 发现充分训练的世界模型能维持连贯的潜在状态,通过动作验证、合成轨迹生成和强化学习热启动显著提升智能体性能;明确了世界建模有效支持智能体学习的边界条件。
Conservative Equilibrium Discovery in Offline Game-Theoretic Multiagent Reinforcement Learning
作者: Austin A. Nguyen, Michael P. Wellman
来源: arXiv cs.AI | 链接
核心贡献: 提出离线博弈论多智能体强化学习中的保守均衡发现方法。
创新点: 在不与环境交互的情况下,从静态数据集中发现稳健的均衡策略,为多智能体系统的安全部署提供理论保障。
NeuroHex: Highly-Efficient Hex Coordinate System for Creating World Models to Enable Adaptive AI
作者: Quinn Jacobson, Joe Luo, Jingfei Xu et al.
来源: NICE 2026 | 链接
核心贡献: 提出高效的六边形坐标系统用于构建世界模型,支持自适应 AI 系统。
创新点: 8+1 页论文,9 幅图表,发表于 NICE 2026;六边形坐标系统相比传统网格表示更高效,能更好地捕捉空间关系。
A Survey of World Models in Artificial Intelligence
作者: 多个机构联合
来源: Preprints.org (2026-03-10) | 链接
核心贡献: 全面综述人工智能领域世界模型的研究进展,涵盖学习方法、应用场景和未来方向。
创新点: 系统梳理了从经典世界模型到基于 JEPA 架构的现代方法(如 MC-JEPA),为研究者提供全面参考。
Learning Interactive World Model for Object-Centric Reinforcement Learning
作者: 多个机构联合
来源: arXiv 2026 | 链接
核心贡献: 学习交互式世界模型用于以对象为中心的强化学习。
创新点: 将对象中心表示与世界模型结合,提升智能体在复杂环境中的泛化能力和样本效率。
VoxelDiffusionCut: Non-destructive Internal-part Extraction via Iterative Cutting and Structure Estimation
作者: Takumi Hachimine, Yuhwan Kwon, Cheng-Yu Kuo et al.
来源: arXiv cs.CV | 链接
核心贡献: 提出通过迭代切割和结构估计实现非破坏性内部部件提取的体素扩散方法。
创新点: 结合扩散模型与体素表示,在保持物体完整性的前提下实现内部结构的精确提取,适用于医学影像和工业检测。
BiSe-Unet: A Lightweight Dual-path U-Net with Attention-refined Context for Real-time Medical Image Segmentation
作者: 多个机构联合
来源: 提交至 IEEE EMBC 2026 | 链接
核心贡献: 提出轻量级双路径 U-Net 架构,结合注意力优化的上下文信息,实现实时医学图像分割。
创新点: 在保持高精度的同时显著降低计算开销,适用于资源受限的医疗设备和边缘部署场景。
From Masks to Pixels and Meaning: A New Taxonomy, Benchmark, and Metrics for VLM Image Tampering
作者: Xinyi Shang, Yi Tang, Jiacheng Cui et al.
来源: CVPR 2026 Findings | 链接
核心贡献: 提出视觉语言模型图像篡改的新分类体系、基准测试和评估指标。
创新点: 首次系统性研究 VLM 在图像篡改检测中的表现,提供代码和数据集支持;虽未选择加入 CVPR 2026 Findings,但已被录用。
Learning Hierarchical Orthogonal Prototypes for Generalized Few-Shot 3D Point Cloud Segmentation
作者: Yifei Zhao, Fanyu Zhao, Zhongyuan Zhang et al.
来源: ICME 2026 | 链接
核心贡献: 提出层次化正交原型学习方法,用于广义少样本 3D 点云分割。
创新点: 6 页论文,6 幅图表,2 个表格;通过层次化原型表示提升少样本场景下的泛化能力,被 ICME 2026 录用。
From Plausibility to Verifiability: Risk-Controlled Generative OCR for Vision-Language Models
作者: Weile Gong, Yiping Zuo, Zijian Lu et al.
来源: arXiv cs.CV | 链接
核心贡献: 提出风险控制的生成式 OCR 方法,提升视觉语言模型的文本识别可验证性。
创新点: 从"合理性"到"可验证性"的范式转变,引入风险度量机制确保 OCR 输出的可靠性,适用于高准确度要求的场景。
Deep Learning Network based on Transformers for Multi-label Classification from Capsule Endoscopic Videos
作者: 多个机构联合
来源: arXiv cs.CV | 链接
核心贡献: 基于 Transformer 的深度学习网络用于胶囊内窥镜视频的多标签分类。
创新点: 针对 Gastro Competition 任务,微调 Google Vision Transformer (ViT),实现 224×224 分辨率下的高效分类。
Machine Learning for Geographical Information Science
作者: 多个机构联合
来源: International Journal of Geographical Information Science (2026) | 链接
核心贡献: 机器学习在地理信息科学中的应用研究。
创新点: 结合计算机视觉、图像处理与机器学习方法,解决地理空间数据分析中的挑战性问题。
LeRobot: Robotics Learning with Hugging Face
作者: Hugging Face 团队
来源: Hugging Face Blog (2026-03-09) | 链接
核心贡献: 介绍 LeRobot 项目,将 Hugging Face 生态扩展至机器人学习领域。
创新点: 提供标准化的机器人学习数据集、模型和训练工具,降低机器人 AI 的研究门槛;3 月 9 日更新,新增多项功能。
Gemma 3: Google's All New Multimodal, Multilingual, Long Context Open LLM
作者: Google DeepMind 团队
来源: Hugging Face Blog | 链接
核心贡献: 发布 Gemma 3 系列开放权重大语言模型,包含 1B、4B、12B、27B 四种参数量版本,提供基座和指令微调版本。
创新点: 原生多模态能力支持图像和文本输入,多语言支持覆盖 100+ 语种,长上下文窗口达 128K tokens;在开放模型中实现接近闭源模型的性能。
State of Open Source on Hugging Face: Spring 2026
作者: Hugging Face 团队
来源: Hugging Face Blog (2026-03-18) | 链接
核心贡献: 发布 2026 年春季开源 AI 生态报告,韩国国家主权 AI 计划推动 LG AI Research、SK Telecom、Naver Cloud 等机构模型在 Hugging Face Hub trending。
创新点: 2026 年 2 月韩国三款模型同时 trending,标志亚洲 AI 研究力量崛起;报告全面分析开源模型生态发展趋势。
LLM-Model-Comparison-2026 Dataset
作者: SaltTechno 团队
来源: Hugging Face Datasets | 链接
核心贡献: 发布 2026 年 Q1 v2 版本 LLM 模型对比数据集,涵盖最新模型发布、定价变化和基准测试更新。
创新点: 季度更新机制确保数据时效性,为研究者和开发者提供全面的模型选型参考。
Keyframe-Guided Structured Rewards for RL in Long-Horizon Laboratory Robotics
作者: Yibo Qiu, Shu'ang Sun, Haoliang Ye, Ronald X Xu, Mingzhai Sun
来源: arXiv cs.RO (2026-03) | 链接
核心贡献: 提出关键帧引导的结构化奖励方法,用于长时序实验室机器人强化学习任务。
创新点: 通过关键帧分解复杂任务,设计结构化奖励函数显著提升 RL 在长时序任务中的收敛速度和成功率。
Hippo: High-performance Interior-Point and Projection-based Solver for Generic Constrained Trajectory Optimization
作者: 多机构联合
来源: arXiv cs.RO (2026-03) | 链接
核心贡献: 提出 Hippo 高性能内点法和基于投影的求解器,用于通用约束轨迹优化问题。
创新点: 结合内点法的高效性和投影法的灵活性,在复杂约束条件下实现快速轨迹优化。
DAM-VLA: A Dynamic Action Model-Based Vision-Language-Action Framework for Robot Manipulation
作者: 多机构联合
来源: arXiv cs.RO (2026-03) | 链接
核心贡献: 提出基于动态动作模型的视觉 - 语言 - 动作框架,用于机器人操作任务。
创新点: 将 VLA 框架与动态动作模型结合,提升机器人在复杂操作任务中的适应性和泛化能力。
From Global to Local: Learning Context-Aware Graph Representations for Document Classification and Summarization
作者: Ruangrin Ldallitsakool, Margarita Bugueño, Gerard de Melo
来源: arXiv cs.CL | 链接
核心贡献: 学习上下文感知的图表示用于文档分类和摘要任务,实现从全局到局部的层次化建模。
创新点: 结合图神经网络与注意力机制,在文档理解任务中显著提升分类和摘要质量。
Automated Evaluation of LLMs for Effective Machine Translation of Mandarin Chinese to English
作者: 多机构联合
来源: arXiv cs.CL (2026-03) | 链接
核心贡献: 提出自动化评估方法,系统评估大语言模型在中英机器翻译任务中的表现。
创新点: 建立标准化评估框架,揭示不同 LLM 在翻译质量、文化适配和术语一致性方面的差异。
UMI-FT: Universal Manipulation Interface with Force-Torque Sensing for Contact-Rich Tasks
作者: 多机构联合
来源: arXiv cs.RO (2026-03) | 链接
核心贡献: 提出 UMI-FT 通用操作接口,集成力矩传感用于接触丰富任务。
创新点: 在白板擦拭、西葫芦串签、灯泡插入三个接触丰富任务中,UMI-FT 使策略能够可靠调节外部接触力和内部抓握力,优于缺乏顺应性或力传感的基线方法。
Continuum Robot Configuration Space Analysis via Backbone Taper Angle
作者: 多机构联合
来源: arXiv cs.RO (2026-03) | 链接
核心贡献: 分析连续体机器人骨干锥角对配置空间和可操作性的影响,通过运动捕捉数据验证模型。
创新点: 实现厘米级形状预测精度,演示使用沿连续体机器人路由的内窥镜夹持器进行遥操作抓取。
GRIP: A General Robotic Incremental Potential Contact Simulation Dataset
作者: Siyu Ma, Wenxin Du, Chang Yu, Ying Jiang, Zeshun Zong, Tianyi Xie, Yunuo Chen, Yin Yang, Xuchen Han, Chenfanfu Jiang
来源: arXiv cs.RO (2025-03, 持续更新) | 链接
核心贡献: 发布 GRIP 数据集,用于统一的可变形 - 刚体耦合抓取研究。
创新点: 提供大规模增量势接触仿真数据,推动机器人抓取领域研究进展。
LLMs as Universal Text Processing Machines for Content Analysis
作者: 多机构联合
来源: arXiv cs.CL (2026-01) | 链接
核心贡献: 将大语言模型概念化为通用文本处理机器,提出在定性和定量内容分析任务中运用 LLM 的综合工作流程。
创新点: 涵盖标注(编码、标签、文本分类)、摘要等三大任务,为社会科学和人文学科研究提供新方法。
Machine Learning for Geographical Information Science
作者: 多机构联合
来源: International Journal of Geographical Information Science (2026) | 链接
核心贡献: 机器学习在地理信息科学中的综合应用研究。
创新点: 结合计算机视觉、图像处理与机器学习方法,解决地理空间数据分析中的挑战性问题。
Deep Learning for Capsule Endoscopic Video Classification
作者: 多机构联合
来源: arXiv cs.CV | 链接
核心贡献: 基于 Transformer 的深度学习网络用于胶囊内窥镜视频的多标签分类。
创新点: 针对 Gastro Competition 任务优化 Google ViT,实现 224×224 分辨率下的高效分类,辅助医疗诊断。