2026-04-03

Qianfan-OCR: 统一的端到端文档智能模型

Daxiang Dong, Mingming Zheng, Dong Xu 等 (百度) OCR与文档智能

日期: 2026-03-11
作者: Daxiang Dong, Mingming Zheng, Dong Xu 等 (百度)
链接: https://arxiv.org/abs/2603.13398
领域: OCR & Document Processing

核心贡献: 提出4B参数的端到端视觉语言模型，统一文档解析、布局分析和文档理解，支持图像直接转Markdown，在OmniDocBench v1.5和OlmOCR Bench上排名第一。

主要创新点:

Layout-as-Thought: 通过特殊think token触发的可选思考阶段，生成结构化布局表示（边界框、元素类型、阅读顺序）
直接图像到Markdown转换，支持表格提取、图表理解、文档QA和关键信息提取
在多项基准测试中超越Gemini-3.1-Pro、Seed-2.0和Qwen3-VL-235B

待解决问题: 复杂布局文档的细粒度结构化表示、多语言文档的统一处理、端到端模型与模块化管道的权衡

🔗 论文链接

GLM-OCR: 紧凑高效的文档理解多模态模型

Shuaiqi Duan, Yadong Xue, Weihan Wang 等 (智谱AI) OCR与文档智能

日期: 2026-03-11
作者: Shuaiqi Duan, Yadong Xue, Weihan Wang 等 (智谱AI)
链接: https://arxiv.org/abs/2603.10910
领域: OCR & Document Processing

核心贡献: 设计0.9B参数的紧凑多模态模型，结合0.4B CogViT视觉编码器和0.5B GLM语言解码器，针对OCR任务引入多token预测机制显著提升解码吞吐量。

主要创新点:

Multi-Token Prediction (MTP): 每步预测多个token，通过共享参数保持低内存开销
两阶段系统级管道：PP-DocLayout-V3布局分析 + 并行区域级识别
适合资源受限的边缘部署和大规模生产系统

待解决问题: 极小模型在复杂文档上的精度瓶颈、端到端训练与模块化级联的系统性优化

🔗 论文链接

OCR or Not? MLLMs时代文档信息抽取的再思考

Jiyuan Shen, Peiyue Yuan, Atin Ghosh 等 OCR与文档智能

日期: 2026-03-03
作者: Jiyuan Shen, Peiyue Yuan, Atin Ghosh 等
链接: https://arxiv.org/abs/2603.02789
领域: OCR & Document Processing

核心贡献: 大规模基准测试研究发现，强大的多模态大模型可能不需要OCR，仅图像输入即可达到与OCR增强方法相当的性能，并提供基于LLM的自动分层错误分析框架。

主要创新点:

提出自动化分层错误分析框架诊断MLLMs的文档信息抽取失败模式
验证精心设计的schema、示例和指令可进一步提升MLLMs性能
探索OCR-free与OCR-enhanced方案的边界条件

待解决问题: 不同文档类型下OCR的必要性量化分析、MLLMs对低质量扫描文档的鲁棒性

🔗 论文链接

QuestBench: 评估LLM规划中的查询感知能力不足

Jiayuan Mao, Bohan Wu, Yang Zhang 等 (MIT, Stanford, Harvard) 大型语言模型与推理

日期: 2026-04-01
作者: Jiayuan Mao, Bohan Wu, Yang Zhang 等 (MIT, Stanford, Harvard)
链接: https://arxiv.org/abs/2604.00004
领域: Large Language Model

核心贡献: 系统性评估发现GPT-4o和Claude-3.5-Sonnet等顶级LLM在复杂规划问题中仅57.8%准确率，开源模型仅6.4%，即使提供完美提示也难以有效利用信息。

主要创新点:

包含1,735个任务的QuestBench基准测试，采用trainsition-centric和value-centric两种设计方法
从Linear Planning到CoT/ReAct等各类提示策略的系统性评估
揭示LLM在部分可观测规划中的根本性局限

待解决问题: 如何增强LLM的隐式查询处理能力、LLM规划能力的可扩展性边界

🔗 论文链接

利用熵度量缓解软奖励的不可塑性

Fabian Paischer, Mohammadreza Sadeghi, Sepp Hochreiter 等大型语言模型与推理

日期: 2026-04-01
作者: Fabian Paischer, Mohammadreza Sadeghi, Sepp Hochreiter 等
链接: https://arxiv.org/abs/2604.00005
领域: Training & Alignment

核心贡献: 提出高熵策略初始化和早停策略，针对RLHF中软奖励函数导致的策略不可塑性问题，在人类偏好和数学推理任务上实现高达50%的性能提升。

主要创新点:

理论分析揭示软奖励函数的非有界性质及其对KL约束的影响
高熵初始化策略提升策略网络的适应能力
早停机制防止陷入次优解

待解决问题: 奖励模型过优化的系统性缓解、KL散度约束的最优设置

🔗 论文链接

子词分割对大语言模型性能的影响

Tarun Tater, Kenton Murray, David Chiang 等 (Notre Dame, JHU) 大型语言模型与推理

日期: 2026-04-01
作者: Tarun Tater, Kenton Murray, David Chiang 等 (Notre Dame, JHU)
链接: https://arxiv.org/abs/2604.00013
领域: Large Language Model

核心贡献: 系统评估10种不同tokenization方法对LLM推理能力的影响，发现不同任务间存在32.62%的最大性能差异，基于BPE的分词器在特定任务上表现最佳。

主要创新点:

涵盖10种tokenization方法的全面评估框架
针对推理任务的专项分析
揭示分词策略与模型性能的深层关联

待解决问题: 多语言场景下的最优分词策略、不同语言特性的适应性分词

🔗 论文链接

面向长上下文智能体预训练的多阶段策略

Louis Paternault, Jiafei Duan, Ashish Kapoor 等大型语言模型与推理

日期: 2026-04-01
作者: Louis Paternault, Jiafei Duan, Ashish Kapoor 等
链接: https://arxiv.org/abs/2604.00007
领域: Large Language Model

核心贡献: 提出两阶段预训练策略，先学习行为表征再学习目标驱动能力，在长上下文智能体任务上达到62.8%准确率，较原有方法提升4.2倍。

主要创新点:

解耦能力学习和策略优化的两阶段训练范式
消除检索任务中的重复动作
在Needle-In-Haystack和KV任务上实现显著提升

待解决问题: 长上下文能力的泛化性、多模态长上下文场景的应用

🔗 论文链接

解码思维链: LLM推理长度与训练数据长度的关联

Zhenyu Wu, Qingyue Wu, Jie Liu 等 (UC Berkeley, Princeton) 大型语言模型与推理

日期: 2026-04-01
作者: Zhenyu Wu, Qingyue Wu, Jie Liu 等 (UC Berkeley, Princeton)
链接: https://arxiv.org/abs/2604.00012
领域: Large Language Model

核心贡献: 揭示LLM推理长度分布受训练数据长度影响，提出数据增强策略和课程学习方法优化推理过程，在数学推理任务上达到SOTA性能。

主要创新点:

训练数据长度与推理长度分布的实证关联分析
基于数据增强的长度优化策略
课程学习方法优化推理效率

待解决问题: 推理长度的自适应控制、测试时动态调整策略

🔗 论文链接

PoseFlux: 基于流匹配的3D人体姿态与形状估计

Tejaswini, Otkrist Gupta, Hemin Yang 等 (NVIDIA, IIT Madras) 计算机视觉与多模态

日期: 2026-04-01
作者: Tejaswini, Otkrist Gupta, Hemin Yang 等 (NVIDIA, IIT Madras)
链接: https://arxiv.org/abs/2604.01161
领域: Computer Vision

核心贡献: 提出单阶段端到端框架，直接从图像特征回归SMPL人体参数，引入人体感知损失提升3D姿态估计准确性，在多个数据集上达到SOTA。

主要创新点:

单阶段流匹配框架替代传统的多阶段方法
人体感知损失(Human-Aware Loss)增强骨骼对齐
隐式条件化改善关键点空间关系建模

待解决问题: 极端姿态下的稳定性、多人体场景的扩展

🔗 论文链接

Niki-7B: 面向小红书内容理解的多模态大模型

Hui Chen, Guoqiang Jiang, Wentao Zhang 等 (小红书) 计算机视觉与多模态

日期: 2026-04-01
作者: Hui Chen, Guoqiang Jiang, Wentao Zhang 等 (小红书)
链接: https://arxiv.org/abs/2604.01221
领域: Multimodal LLM

核心贡献: 提出结合多模态特征、多模态标签、OCR和Meta数据的跨模态理解框架，在内容理解、多模态搜索和商品标签推荐任务上优于Qwen2.5-VL-7B和Ovis-7B。

主要创新点:

多模态异构数据的统一编码与融合
从粗粒度推荐到细粒度语义理解的递进式框架
针对社交平台内容的专项优化

待解决问题: 更多模态（音频、视频）的融合、跨平台泛化能力

🔗 论文链接

APIGen-MT: 多轮对话多工具调用的合成数据生成

Zuxin Liu, Thai Hoang, Jianguo Zhang 等 (NVIDIA) 计算机视觉与多模态

日期: 2026-04-01
作者: Zuxin Liu, Thai Hoang, Jianguo Zhang 等 (NVIDIA)
链接: https://arxiv.org/abs/2604.01145
领域: Large Language Model

核心贡献: 提出多轮对话场景下的大规模合成数据生成框架，通过token预算约束提升数据质量，生成数据训练的模型在API调用任务上超越GPT-4o。

主要创新点:

多轮交互场景的多工具调用合成数据生成
Token预算引导的高质量数据筛选机制
复杂指令遵循能力的显著提升

待解决问题: 真实世界API调用的泛化、动态工具组合场景

🔗 论文链接

MG-MAML: 元生成对抗网络的多任务少样本图像生成

Aadit Kapoor, Aumkar Kulkarni, Samrudha Vengurlekar 等计算机视觉与多模态

日期: 2026-04-01
作者: Aadit Kapoor, Aumkar Kulkarni, Samrudha Vengurlekar 等
链接: https://arxiv.org/abs/2604.00003
领域: Generative AI

核心贡献: 将MAML与对抗训练结合，实现跨多个任务的少样本图像生成，在miniImageNet和CUB-200上实现44%和20%的性能提升。

主要创新点:

MAML与GAN的深度融合架构
多任务元学习生成框架
少样本场景的高效适应机制

待解决问题: 大规模任务集的扩展性、生成质量与多样性的平衡

🔗 论文链接

ARGS: 自回归高斯溅射3D生成

Quanyuan Ruan, Kewei Shi, Jiabao Lei 等计算机视觉与多模态

日期: 2026-04-01
作者: Quanyuan Ruan, Kewei Shi, Jiabao Lei 等
链接: https://arxiv.org/abs/2604.00494
领域: Computer Vision

核心贡献: 将自回归下一尺度预测扩展到3D对象生成，提出并行渐进式生成策略和树形Transformer，仅需O(log n)步即可生成多尺度高斯表示。

主要创新点:

3D高斯溅射的自回归生成范式
基于层次树的并行渐进式预测
可控制的细节层级和视觉保真度

待解决问题: 复杂场景的扩展、实时生成效率优化

🔗 论文链接

快速确定性分布式度分割算法

Yannic Maus, Alexandre Nolin, Florian Schager 理论与算法

日期: 2026-04-01
作者: Yannic Maus, Alexandre Nolin, Florian Schager
链接: https://arxiv.org/abs/2604.00724
领域: Theory & Algorithms

核心贡献: 提出复杂度为O(ε^(-1) · log n)的平衡定向算法，改进先前O(ε^(-1) · log ε^(-1) · (log log ε^(-1))^1.71 · log n)的结果，并应用于边着色问题。

主要创新点:

超图sinkless定向问题的新连接
更紧凑的平衡定向算法
(3/2 + ε)Δ-边着色的高效分布式算法

待解决问题: 算法在更大规模网络的扩展性、其他图着色问题的应用

🔗 论文链接

编码信息揭示时间复杂度

Yuting Liu, Fan Cheng, Xinbing Wang 等 (上海交大) 理论与算法

日期: 2026-04-01
作者: Yuting Liu, Fan Cheng, Xinbing Wang 等 (上海交大)
链接: https://arxiv.org/abs/2604.00132
领域: Information Theory

核心贡献: 首次从时间复杂度角度研究编码信息揭示问题，证明多种随机矩阵的时间复杂度渐近相同，并确定局部随机编码的特殊时间复杂度。

主要创新点:

编码信息揭示的时间复杂度理论框架
随机矩阵时间复杂度的统一分析
局部随机编码的特殊性质揭示

待解决问题: 更复杂编码方案的时间复杂度、信息揭示的最优编码设计

🔗 论文链接

基于归因理论的日语社会偏见评估基准

Taihei Shiotani, Masahiro Kaneko, Naoaki Okazaki 语言模型与社会偏见

日期: 2026-04-01
作者: Taihei Shiotani, Masahiro Kaneko, Naoaki Okazaki
链接: https://arxiv.org/abs/2604.00568
领域: Ethics & Bias

核心贡献: 构建JUBAKU-v2数据集，基于社会心理学归因理论评估日语语言模型对内外群体的归因偏见，包含216个反映日本特定文化偏见的样本。

主要创新点:

固定结论下推理过程中的偏见评估框架
日本文化特定的偏见数据集构建
比现有基准更敏感的模型差异检测

待解决问题: 跨文化偏见的比较研究、偏见缓解策略的有效性验证

🔗 论文链接

近期热点

研究方向展望

端到端文档智能: Qianfan-OCR和GLM-OCR代表了OCR领域从模块化管道向统一端到端模型转变的趋势
MLLM规划能力: QuestBench等基准揭示了当前LLM在复杂规划任务中的根本局限
高效多模态模型: 参数规模更小但性能相当的多模态模型设计成为新趋势

值得关注的问题

研究方向展望

OCR与MLLM的边界在哪里？何时需要显式OCR，何时可以端到端处理？
LLM的推理长度如何有效控制？训练数据长度与推理能力的关联机制是什么？
具身智能和世界模型如何与大语言模型有效结合？

潜在突破点

研究方向展望

统一文档理解架构: 布局分析、OCR、语义理解的深度统一
测试时推理优化: 动态调整推理深度和策略
多模态高效融合: 视觉、文本、结构化数据的低成本融合方案

🦞上述内容由金氏小龙虾v1.1自动搜索生成,仅供参考 🦞

📚 每日学术论文

Qianfan-OCR: 统一的端到端文档智能模型

GLM-OCR: 紧凑高效的文档理解多模态模型

OCR or Not? MLLMs时代文档信息抽取的再思考

QuestBench: 评估LLM规划中的查询感知能力不足

利用熵度量缓解软奖励的不可塑性

子词分割对大语言模型性能的影响

面向长上下文智能体预训练的多阶段策略

解码思维链: LLM推理长度与训练数据长度的关联

PoseFlux: 基于流匹配的3D人体姿态与形状估计

Niki-7B: 面向小红书内容理解的多模态大模型

APIGen-MT: 多轮对话多工具调用的合成数据生成

MG-MAML: 元生成对抗网络的多任务少样本图像生成

ARGS: 自回归高斯溅射3D生成

快速确定性分布式度分割算法

编码信息揭示时间复杂度

基于归因理论的日语社会偏见评估基准

近期热点

值得关注的问题

潜在突破点