太强了!只需用新模型打开 Deepseek 即可在视觉上
发布时间:2025-10-21 09:33
机器的心脏报告是机器编辑部门的核心,我们可以通过文本到图像的方法实现近 10 倍的上下文丢失。没想到Deepseek刚刚开启了一个新模型,就是OCR模型。可以看到,该模型的参数量为3B,上线不久,下载量就超过100次。该项目由 Deepseek 三位研究员 Weihaoran Wei、Yaofeng Sun 和 Yukun Li 共同完成。其中一位魏浩然曾就职于步星科技,主导开发了GOT-OCR2.0系统(ARXIV:2409.01704),旨在实现“第二代OCR”。该项目在 GitHub 上获得了超过 7800 颗星。因此,由其主导Deepseek的OCR项目是有道理的。论文标题:Deepseek -ocr: Contexts of Optical Compression 项目地址:https://github.com/deepseek-ai/deepseek-ocr 论文地址:https://github.com/deepseek-ai/deepseek-ocr/blob/main/deepseek_ocr_paper.pdfhuggingface:https://huggingface。co/deepseek-ai/deepseek-ocrdeepseek表示,DeepSeek -OCr模型是对通过光学2D映射技术压缩长文本上下文的可行性的初步探索。该模型主要由两个主要组件组成:DeepenCoder和Deepseek3B-moe-A570m解码器。其中,DeepenCoder作为主引擎,不仅可以在高分辨率输入下保持低激活状态,还可以实现高压缩比,从而生成适量的视觉令牌。实验数据表明,当文本token数量在视觉token数量的10倍以内(即压缩率为10×)时,模型的解码率(OCR)可以达到97%;即使压缩率达到20倍,OCR准确率仍保持在60%左右。这一结果表明该方法在LLM记忆中的长期上下文压缩和遗忘机制等研究方向具有巨大潜力。此外,Deepseek-OCC还表现出很高的实用价值。在 Omnidocbench 中 benchmark,它仅使用 100 个视觉标记就优于 GOT-OCR2.0(每页 256 个标记);同时,使用少于800个视觉令牌优于Mineru2.0(平均每页超过6000个令牌)。在实际生产环境中,单个A100-40G GPU每天可以生成超过20万页(200K+)的LLM/VLM训练数据。 Deepseek-OCh 在端到端模型测试中以最小的视觉标记成本实现了最先进的性能。 DeepSeek-OCR:上下文光学压缩 Deepseek 探索的技术可以概括如下: 使用视觉模态作为文本信息的有效压缩介质。这意味着什么?我们知道,包含文档文本的图像可以用比相应文本更少的标记来表示丰富的信息,这表明通过视觉标记进行光学压缩可以实现更高的压缩率。基于这个视角,Deepseek从LLM中心重新审视了视觉语言模型(VLM)他们的研究重点是视觉编码器如何提高法学硕士处理文本信息的效率,而不是人们擅长的主要视觉问答(VQA)任务。 Deepseek 表示,OCR 的工作作为连接视觉和语言的中间模态,为这种视觉文本压缩范式提供了理想的实验平台,因为它在视觉和文本表示之间建立了自然的压缩-解压映射,同时提供维度分析。这就是 Deepseek-OCC 诞生的地方。它是专为高效视觉文本压缩而设计的 VLM。如下图所示,Deepseek-OCC采用统一的端到端VLM架构,由编码器和解码器组成。其中,编码器(IE DeepenCoder)负责提取图像特征并对视觉表示进行标记化和压缩。解码器用于根据图像令牌a生成所需的结果nd 立即词(提示)。 DeepenCoder的参数值约为3.8亿(380m),主要由80m的SAM-base和300m的clip-large串联而成。解码器采用3B MOE架构,激活参数大小为5.7亿(570m)。 DeepenCoderDeepseek 研究发现,要探索上下文光学压缩的可行性,我们需要一个具有以下特性的视觉编码器: 1. 能够处理高分辨率; 2、高分辨率激活成本低; 3、视觉标记数量少; 4.支持多分辨率输入; 5. 参数平均值。然而,现有的开源程序员并不能完全满足所有这些条件。因此,Deepseek 设计了一种新颖的视觉编码器,名为 DeepEcoder。 Deepencod ER主要由carrycomponent组成:基于窗口注意力的视觉感知分量获取特征和使用密集全局注意力的分量视觉知识获取特征。根据预训练结果根据之前的相关研究,团队分别使用SAM-Base(patch size 16)和clip-large作为这两个组件的主要架构。对于剪辑,他们删除了第一个嵌入层补丁,因为它的输入不再是图像,而是来自先前过程的输出标记。在这两个组件之间,团队借鉴了 Vary 的设计(参见论文《Vary:Scaling Vision Vocabulary for Large Vision-Language Models》),并使用 2 层卷积模块将视觉 token 减少了 16 倍。每个卷积层的内核大小为3,步长为2,填充为1,通道数从256递增到1024。假设我们输入一张1024×1024的图像,DeepenCoder会将其分割为1024/16 x 1024/16 = 4096个补丁标记。由于编码器的前半部分主要由窗口注意力组成,并且参数大小只有80m,因此其激活成本是可以接受的。在进入全球关注之前,这4096个代币将经过压缩模块,e 数字变为 4096/16 = 256,从而控制总体激活内存。 Moe 解码器 该模型的解码器使用 DeepseekMoe,特别是 DeepSeek-3B-Moe。仿真过程中,模型激活了 64 个路由专家中的 6 个和 2 个共享专家,激活体积约为 570m (570m)。 3B的DeepseekMoe适合以领域为中心的研究(这里是OCR)VLM研究,因为它不仅捕获了3D模型的表达能力,而且还享有5亿参数(500m)的小模型的识别效率。解码器根据 Deepencoder 压缩的潜在视觉标记重建原始文本表示,如下所示:其中 Z 是来自 DeepenCoder 的压缩潜在(视觉)标记,并且是重建的文本表示。 F_DEC 函数表示紧凑语言模型可以通过 OCR 式训练有效学习的非线性映射。 Deepseek 设想大规模语言模型可以包含多种功能通过专门的预训练优化更自然地进行。数据引擎Deepseek还为Deepseek-OCrData构建了复杂多样的训练,包括: OCR 1.0数据,主要包括传统的gawain OCR,如场景图像OCR和文档OCR; OCR 2.0数据,主要包括分析复杂人工图像的任务,如标准图表、化学公式、平面几何分析数据;通用视觉数据,主要用于向Deepseek-OCK注入一些通用的图像理解能力,并维护通用的视觉界面。在数据方面,Deepseek 也产生了许多对 OCR 任务有用的设计。详细内容请参考原论文。训练过程 该模型的训练过程非常简单,主要分为两个阶段: DeepenCoder 独立训练 DeepSeek-Ocrdeepencoder 训练遵循 Vary 的方法,使用紧凑的语言模型,并使用下一个预测框架 g Tokens 来训练 DeepenCoder。我在这个阶段,Deepseek使用了前面提到的所有OCR 1.0和2.0数据,以及从Laion数据集中采样的1亿条正常数据。所有数据均使用 ADAMW 优化器和余弦退火调度器进行 2 个周期的训练,批量大小为 1280,学习率为 5E-5。训练序列的长度为4096。DeepENCoder准备好后,进行Deepseek-OCr训练。整个培训过程在HAI-LLM平台上进行。整个模型采用管道并行(PP),分为4个部分,其中DeepenCoder覆盖两个部分,解码器覆盖两个部分。对于DeepenCoder,Deepseek将SAM和compressor视为视觉分词器,将其放置在PP0中并冻结其参数;而部分clip作为layer的输入embedding,放在PP1中,其权重不被冻结,参与训练。对于语言模型部分,由于Deepseek3B-Moe有12层,因此他们在PP2和PP3中各放置6层。钍他们使用 20 个节点(每个节点有 8 个 A100-40G GPU)进行训练,数据并行度(DP)为 40,全局批量大小为 640。优化器是 ADAMW,结合基于步骤的调度器,初始学习率为 3E-5。对于纯文本数据,训练速度为每天 900 亿个 token;对于多模态数据,训练速度为每天 700 亿个代币。实验结果视觉文本压缩研究选择FOX基准数据集来验证Deepseek-OCC对文本密集型文档的压缩和解压缩能力。如表2所示,在10倍压缩比下,模型解码准确率几乎可以达到97%。当压缩比超过10×时,性能开始下降,他们认为可能有两个原因:长文档的布局更加复杂,导致信息分布不均匀;在 512 × 512 或 640 × 640 分辨率下,长文本会变得模糊。当压缩比接近20×时,作者发现模型的准确率仍然可以达到60%左右。 OCR Deepseek-OCC的实际表现不仅仅是一个实验模型,而且具有很强的实践能力。结果如表3所示。 具体来说:当仅使用100个视觉令牌(分辨率640×640)时,Deepseek-OCC的性能超过使用256个令牌的GOT-OCR2.0;当使用400个视觉token时(其中有效token为285,aof分辨率为1280×1280),其性能与当前的SOTA模型相当;此外,当使用少于 800 个视觉令牌(即 Gundam 模式)时,Deepseek-OCH 优于需要近 7,000 个视觉令牌的 Mineru2.0。这些结果表明,Deepseek-OCC在实际应用中表现出了非常强的性能和效率,并且由于更高的代币压缩率,在研究和扩展空间方面具有更高的潜力。表4的结果表明,不同类型的文档对视觉标记有不同的要求:对于幻灯片d文档中,只需要64个视觉标记就可以达到满意的识别结果;对于书籍和报告文档,100 个视觉标记可以实现更好的性能。如图7、8、9、10定性学习所示,该模型可以对图表、几何图形、化学公式甚至自然图像进行深入分析,只需使用统一的提示词(prompt)即可完成。多语言识别:对于PDF文档,Deepseek-OC支持近百种语言的识别。图11显示了Deepseek-OCR的阿拉伯语和僧伽罗语视觉识别结果。通用视觉理解:此外,Deepseek-OCC还具有一定水平的通用图像理解能力。相关可视化结果如图12所示。返回搜狐查看更多