olmOCR 2 - AI2开源的多模态文档解析模型

作者:Jam 发布时间: October 28, 2025 分类:技术 No Comments

olmOCR 2是Allen Institute for Artificial Intelligence（AI2）开源的多模态文档解析模型，是olmOCR的升级版本。将数字化的打印文档（如 PDF）高效转换为干净、自然排序的纯文本。基于Qwen2.5-VL-7B模型，通过强化学习（RLVR）优化，结合合成数据生成与单元测试机制，解决传统OCR在复杂场景（如数学公式、表格、多列布局）中的精度问题。在文档解析任务中表现突出，尤其在处理复杂格式和结构化内容时，准确率显著高于同类模型。例如，在数学公式识别、表格数据提取等任务中，能更精准地还原文档内容。

>>展开阅读

Jam's Blog II

JamLee.Life 心情演绎

olmOCR 2 - AI2开源的多模态文档解析模型