DeepOCR - 基于DeepSeek-OCR模型的开源复刻项目

作者:Jam 发布时间: November 10, 2025 分类:技术 No Comments

DeepOCR 是开源复刻项目，实现 DeepSeek-OCR 的核心架构，通过光学压缩技术高效处理文本信息。核心是 DeepEncoder，由 SAM-base（处理高分辨率图像）、16×卷积压缩器（减少 token 数量）和 CLIP-large（处理压缩后的特征）组成。这种设计在保持高分辨率处理能力的同时，显著降低了激活内存和 token 数量。DeepOCR 采用两阶段训练流程：第一阶段使用 LLaVA-CC3M 数据集进行视觉 - 语言对齐训练；第二阶段使用 olmOCR 数据集进行 OCR 特定预训练。通过这种训练方法，DeepOCR 在 OmniDocBench 和 olmOCR 基准测试中表现出色，尤其在英文文本识别和表格解析任务中，验证了光学压缩的有效性。

>>展开阅读

Jam's Blog II

JamLee.Life 心情演绎

DeepOCR - 基于DeepSeek-OCR模型的开源复刻项目