免费体验!优刻得极速部署DeepSeek-OCR
昨天,DeepSeek开源了DeepSeek-OCR(Optical Character Recognition, 光学字符识别)模型,参数量为3B,采用创新的“上下文光学压缩”(Contexts Optical Compression)技术,通过文本转图像实现信息的高效压缩。目前,优刻得模型服务平台UModelVerse和算力共享平台优云智算已经部署DeepSeek-OCR,欢迎登录免费体验。
UModelVerse和优云智算已部署DeepSeek-OCR
把等量的文本token转化为视觉token后,DeepSeek-OCR能用更少的token数表达相近的文本内容,为解决大语言模型在长文本处理中的高算力开销提供了新的思路。实验数据显示,当文本token数量在视觉token的10倍以内(即压缩率 <10×)时,模型的解码精度可达97%;即使压缩率高达20倍,准确率依旧能保持在60%左右。

在Fox基准上的压缩性能
在OmniDocBench上,它只使用100个视觉token就超越了GOT-OCR2.0(每页256个token),并且在使用少于800个视觉tokens的情况下,性能超过了MinerU2.0(平均每页近7000个token)。在生产环境中,DeepSeek-OCR可以每天在单个A100-40G GPU上生成20万页以上的训练数据,为大规模文档理解和多模态模型训练提供支持。

Omnidocbench基准下的性能表现
什么是上下文光学压缩?
过去几年,AI模型的上下文能力不断被拉长——从4K到128K,再到上百万token,但代价是成倍增加的算力与显存消耗。一张包含文档文本的图像,可以用比等效数字文本少得多的token来表示丰富信息。这表明,通过视觉token进行光学压缩可以实现更高的压缩比。
DeepSeek-OCR模型通过将文本“光学化”,把原本数千个文字token压缩成几百个视觉token,再由语言模型解码回原文。OCR任务作为连接视觉和语言的中间模态,为视觉-文本压缩范式提供了理想的试验平台,因为它在视觉和文本表示之间建立了自然的压缩-解压缩映射,提供了可量化的评估指标。
技术架构:两大核心组件
DeepSeek-OCR的架构分为两部分。一是DeepEncoder,一个专为高压缩、高分辨率文档处理设计的视觉编码器;二是DeepSeek3B-MoE,一个轻量级混合专家语言解码器。

DeepSeek-OCR由DeepEncoder和DeepSeek-3B-MoE组成
DeepEncoder采用SAM+CLIP的双结构设计,通过局部窗口注意力结合全局注意力实现高保真视觉理解,并用一个双层的16×卷积压缩模块显著减少vision token数量。
在解码端,DeepSeek采用自研DeepSeek3B-MoE架构,推理时仅激活6个专家模块,总激活参数量约5.7亿。这种“按需激活”的机制让模型既具备强表达能力,又能保持低延迟和高能效,极其适合文档OCR、图文生成等场景。
实际应用价值
DeepSeek-OCR具备版面识别与OCR 2.0能力,可通过二次模型调用实现文档图像的进一步解析。
在金融研究报告中,DeepSeek-OCR能自动提取文档中图表的结构化信息,这一功能对金融与科学领域尤为重要。

金融和科研领域中重要数据表现形式
在书籍与论文场景中,深度解析模式可以为文档中的自然图像生成丰富的描述。只需一个提示,模型即可自动识别图像类型并输出所需结果。

为书籍和文章中的自然图像生成丰富的描述
对于化学文献,模型不仅可识别化学结构式,还能将其转化为SMILES格式,展现出在STEM(科学、技术、工程与数学)领域的潜在应用价值。

模型可识别化学结构式
除专注于文档解析外,DeepSeek-OCR还保留了一定的通用视觉理解能力,包括图像描述、物体检测、目标定位(grounding)等任务。在提供相应提示词后,模型能够详细描述图像内容、定位特定对象,甚至在包含文本的图像中执行OCR识别任务。

图像描述、目标检测、定位等功能
“上下文光学压缩”验证了视觉模态在文本压缩中的有效性,为大语言模型处理超长上下文提供了新的解决路径。从行业视角看,DeepSeek-OCR展示了另一种提高模型效率的可能路径——优化信息表达方式。这一思路为未来在VLM视觉token优化、上下文压缩机制以及大模型遗忘机制等方向的研究提供了有价值的参考。
登录UModelVerse免费体验
步骤一:注册并登录UCloud云平台
平台地址:
https://console.ucloud.cn/modelverse/model-center
步骤二:实名认证
使用模型服务前用户需要完成实名认证。
步骤三:免费体验
点击即可免费体验DeepSeek-OCR。

登录优云智算免费体验
步骤一:注册并登录优云智算平台
平台地址:
console.compshare.cn
步骤二:实名认证
使用模型服务前用户需要完成实名认证。
步骤三:免费体验
点击即可免费体验DeepSeek-OCR。



