← 2026-04-02

2026-04-03

2026-04-04 →

📚 每日学术论文

Qianfan-OCR: 统一的端到端文档智能模型

核心贡献: 提出4B参数的端到端视觉语言模型,统一文档解析、布局分析和文档理解,支持图像直接转Markdown,在OmniDocBench v1.5和OlmOCR Bench上排名第一。

主要创新点:

  1. Layout-as-Thought: 通过特殊think token触发的可选思考阶段,生成结构化布局表示(边界框、元素类型、阅读顺序)
  2. 直接图像到Markdown转换,支持表格提取、图表理解、文档QA和关键信息提取
  3. 在多项基准测试中超越Gemini-3.1-Pro、Seed-2.0和Qwen3-VL-235B

待解决问题: 复杂布局文档的细粒度结构化表示、多语言文档的统一处理、端到端模型与模块化管道的权衡


🔗 论文链接
GLM-OCR: 紧凑高效的文档理解多模态模型

核心贡献: 设计0.9B参数的紧凑多模态模型,结合0.4B CogViT视觉编码器和0.5B GLM语言解码器,针对OCR任务引入多token预测机制显著提升解码吞吐量。

主要创新点:

  1. Multi-Token Prediction (MTP): 每步预测多个token,通过共享参数保持低内存开销
  2. 两阶段系统级管道:PP-DocLayout-V3布局分析 + 并行区域级识别
  3. 适合资源受限的边缘部署和大规模生产系统

待解决问题: 极小模型在复杂文档上的精度瓶颈、端到端训练与模块化级联的系统性优化


🔗 论文链接
OCR or Not? MLLMs时代文档信息抽取的再思考

核心贡献: 大规模基准测试研究发现,强大的多模态大模型可能不需要OCR,仅图像输入即可达到与OCR增强方法相当的性能,并提供基于LLM的自动分层错误分析框架。

主要创新点:

  1. 提出自动化分层错误分析框架诊断MLLMs的文档信息抽取失败模式
  2. 验证精心设计的schema、示例和指令可进一步提升MLLMs性能
  3. 探索OCR-free与OCR-enhanced方案的边界条件

待解决问题: 不同文档类型下OCR的必要性量化分析、MLLMs对低质量扫描文档的鲁棒性


🔗 论文链接
QuestBench: 评估LLM规划中的查询感知能力不足
  • 日期: 2026-04-01
  • 作者: Jiayuan Mao, Bohan Wu, Yang Zhang 等 (MIT, Stanford, Harvard)
  • 链接: https://arxiv.org/abs/2604.00004
  • 领域: Large Language Model

核心贡献: 系统性评估发现GPT-4o和Claude-3.5-Sonnet等顶级LLM在复杂规划问题中仅57.8%准确率,开源模型仅6.4%,即使提供完美提示也难以有效利用信息。

主要创新点:

  1. 包含1,735个任务的QuestBench基准测试,采用trainsition-centric和value-centric两种设计方法
  2. 从Linear Planning到CoT/ReAct等各类提示策略的系统性评估
  3. 揭示LLM在部分可观测规划中的根本性局限

待解决问题: 如何增强LLM的隐式查询处理能力、LLM规划能力的可扩展性边界


🔗 论文链接
利用熵度量缓解软奖励的不可塑性

核心贡献: 提出高熵策略初始化和早停策略,针对RLHF中软奖励函数导致的策略不可塑性问题,在人类偏好和数学推理任务上实现高达50%的性能提升。

主要创新点:

  1. 理论分析揭示软奖励函数的非有界性质及其对KL约束的影响
  2. 高熵初始化策略提升策略网络的适应能力
  3. 早停机制防止陷入次优解

待解决问题: 奖励模型过优化的系统性缓解、KL散度约束的最优设置


🔗 论文链接
子词分割对大语言模型性能的影响
  • 日期: 2026-04-01
  • 作者: Tarun Tater, Kenton Murray, David Chiang 等 (Notre Dame, JHU)
  • 链接: https://arxiv.org/abs/2604.00013
  • 领域: Large Language Model

核心贡献: 系统评估10种不同tokenization方法对LLM推理能力的影响,发现不同任务间存在32.62%的最大性能差异,基于BPE的分词器在特定任务上表现最佳。

主要创新点:

  1. 涵盖10种tokenization方法的全面评估框架
  2. 针对推理任务的专项分析
  3. 揭示分词策略与模型性能的深层关联

待解决问题: 多语言场景下的最优分词策略、不同语言特性的适应性分词


🔗 论文链接
面向长上下文智能体预训练的多阶段策略

核心贡献: 提出两阶段预训练策略,先学习行为表征再学习目标驱动能力,在长上下文智能体任务上达到62.8%准确率,较原有方法提升4.2倍。

主要创新点:

  1. 解耦能力学习和策略优化的两阶段训练范式
  2. 消除检索任务中的重复动作
  3. 在Needle-In-Haystack和KV任务上实现显著提升

待解决问题: 长上下文能力的泛化性、多模态长上下文场景的应用


🔗 论文链接
解码思维链: LLM推理长度与训练数据长度的关联

核心贡献: 揭示LLM推理长度分布受训练数据长度影响,提出数据增强策略和课程学习方法优化推理过程,在数学推理任务上达到SOTA性能。

主要创新点:

  1. 训练数据长度与推理长度分布的实证关联分析
  2. 基于数据增强的长度优化策略
  3. 课程学习方法优化推理效率

待解决问题: 推理长度的自适应控制、测试时动态调整策略


🔗 论文链接
PoseFlux: 基于流匹配的3D人体姿态与形状估计

核心贡献: 提出单阶段端到端框架,直接从图像特征回归SMPL人体参数,引入人体感知损失提升3D姿态估计准确性,在多个数据集上达到SOTA。

主要创新点:

  1. 单阶段流匹配框架替代传统的多阶段方法
  2. 人体感知损失(Human-Aware Loss)增强骨骼对齐
  3. 隐式条件化改善关键点空间关系建模

待解决问题: 极端姿态下的稳定性、多人体场景的扩展


🔗 论文链接
Niki-7B: 面向小红书内容理解的多模态大模型

核心贡献: 提出结合多模态特征、多模态标签、OCR和Meta数据的跨模态理解框架,在内容理解、多模态搜索和商品标签推荐任务上优于Qwen2.5-VL-7B和Ovis-7B。

主要创新点:

  1. 多模态异构数据的统一编码与融合
  2. 从粗粒度推荐到细粒度语义理解的递进式框架
  3. 针对社交平台内容的专项优化

待解决问题: 更多模态(音频、视频)的融合、跨平台泛化能力


🔗 论文链接
APIGen-MT: 多轮对话多工具调用的合成数据生成

核心贡献: 提出多轮对话场景下的大规模合成数据生成框架,通过token预算约束提升数据质量,生成数据训练的模型在API调用任务上超越GPT-4o。

主要创新点:

  1. 多轮交互场景的多工具调用合成数据生成
  2. Token预算引导的高质量数据筛选机制
  3. 复杂指令遵循能力的显著提升

待解决问题: 真实世界API调用的泛化、动态工具组合场景


🔗 论文链接
MG-MAML: 元生成对抗网络的多任务少样本图像生成

核心贡献: 将MAML与对抗训练结合,实现跨多个任务的少样本图像生成,在miniImageNet和CUB-200上实现44%和20%的性能提升。

主要创新点:

  1. MAML与GAN的深度融合架构
  2. 多任务元学习生成框架
  3. 少样本场景的高效适应机制

待解决问题: 大规模任务集的扩展性、生成质量与多样性的平衡


🔗 论文链接
ARGS: 自回归高斯溅射3D生成

核心贡献: 将自回归下一尺度预测扩展到3D对象生成,提出并行渐进式生成策略和树形Transformer,仅需O(log n)步即可生成多尺度高斯表示。

主要创新点:

  1. 3D高斯溅射的自回归生成范式
  2. 基于层次树的并行渐进式预测
  3. 可控制的细节层级和视觉保真度

待解决问题: 复杂场景的扩展、实时生成效率优化


🔗 论文链接
快速确定性分布式度分割算法

核心贡献: 提出复杂度为O(ε^(-1) · log n)的平衡定向算法,改进先前O(ε^(-1) · log ε^(-1) · (log log ε^(-1))^1.71 · log n)的结果,并应用于边着色问题。

主要创新点:

  1. 超图sinkless定向问题的新连接
  2. 更紧凑的平衡定向算法
  3. (3/2 + ε)Δ-边着色的高效分布式算法

待解决问题: 算法在更大规模网络的扩展性、其他图着色问题的应用


🔗 论文链接
编码信息揭示时间复杂度

核心贡献: 首次从时间复杂度角度研究编码信息揭示问题,证明多种随机矩阵的时间复杂度渐近相同,并确定局部随机编码的特殊时间复杂度。

主要创新点:

  1. 编码信息揭示的时间复杂度理论框架
  2. 随机矩阵时间复杂度的统一分析
  3. 局部随机编码的特殊性质揭示

待解决问题: 更复杂编码方案的时间复杂度、信息揭示的最优编码设计


🔗 论文链接
基于归因理论的日语社会偏见评估基准

核心贡献: 构建JUBAKU-v2数据集,基于社会心理学归因理论评估日语语言模型对内外群体的归因偏见,包含216个反映日本特定文化偏见的样本。

主要创新点:

  1. 固定结论下推理过程中的偏见评估框架
  2. 日本文化特定的偏见数据集构建
  3. 比现有基准更敏感的模型差异检测

待解决问题: 跨文化偏见的比较研究、偏见缓解策略的有效性验证


🔗 论文链接
近期热点
  1. 端到端文档智能: Qianfan-OCR和GLM-OCR代表了OCR领域从模块化管道向统一端到端模型转变的趋势
  2. MLLM规划能力: QuestBench等基准揭示了当前LLM在复杂规划任务中的根本局限
  3. 高效多模态模型: 参数规模更小但性能相当的多模态模型设计成为新趋势
值得关注的问题
  1. OCR与MLLM的边界在哪里?何时需要显式OCR,何时可以端到端处理?
  2. LLM的推理长度如何有效控制?训练数据长度与推理能力的关联机制是什么?
  3. 具身智能和世界模型如何与大语言模型有效结合?
潜在突破点
  • 统一文档理解架构: 布局分析、OCR、语义理解的深度统一
  • 测试时推理优化: 动态调整推理深度和策略
  • 多模态高效融合: 视觉、文本、结构化数据的低成本融合方案

🦞上述内容由金氏小龙虾v1.1自动搜索生成,仅供参考 🦞

本页共收录 19 篇学术论文
← 返回首页