梁文锋藏了一手,DeepSeek新模型突然发布
他强任他强,清风拂山岗。
一、DeepSeek-OCR来了
不同于其他模型天天“卷”,最后跑分多几个点。
这次,DeepSeek团队研发出真东西了。
10月20日,DeepSeek(深度求索)在开源社区Hugging Face上发布了新模型DeepSeek-OCR。
这个模型可以说直接把目前的AI提升了一个维度。

图源:GitHub
长期以来,“长文本处理”一直是个令AI圈头疼的问题,目前市面上的各种模型,几乎都没有很好的方法可以解决。
这个问题的一个直接体现就是,不少用户在和AI聊天的时候,AI突然弹出“对话消息到达上限”。
不是AI不想聊了,是AI做不到了。

图源:小红书
这是什么原因呢?
因为市面上各种AI模型工作的一个核心逻辑是逐词处理,即用户丢给AI一个文本内容,它需要把每个字词,都转换成Token,也就是AI能够处理的基本语言单位,再对信息进行处理。
不仅如此,在每读一个新词后,为了和上下文串联起来,AI需要把这个词和之前所有出现过的词,都建立一次联系。
类似于你去一个新环境,现在来了一个陌生人,你要去了解他,他要了解你。
等你们熟悉了,又来了一个陌生人,现在你们三都要互相了解,完了之后,又来了第四个、第五个......
这个成本,可以说是呈指数级的。
这也就是技术上常说的,计算复杂度是N的平方。

图源:百度
其实在2月份,DeepSeek刚出现的时候,为了解决这个问题,团队采用了稀疏注意力机制。
这个机制就是将文本压缩为粗粒度语义块,动态筛选关键片段,结合局部滑动窗口,在保留了全局理解的基础上,提炼重点内容进行思考,从而减少了多余的计算。

图源:CSDN
这种方法在一定程度上缓解了计算的复杂度,不过它没有根治问题。而且在面对超长文本的时候,它还有造成信息缺失的风险。
市面上各种模型也尝试采取各种方法,去解决超长文本的问题,但也只是在逐词处理的逻辑上缝缝补补。
而这一次,DeepSeek-OCR直接掀桌子了。
为什么一定要逐词处理,直接看图不是更快吗?
于是,它整了一项技术叫“上下文光学压缩”。

图源:Github
这里的OCR全称是Optical Character Recognition,即光学字符识别。
这项技术不算新鲜,出现于上个世纪,最早用于将文字自动识别录入到电脑中,一般和扫描仪配套使用。
随着技术不断完善,OCR运用的场景也越来越多,现在可以也指从图像中提取文本的技术。
比如大家常用的微信,在图片消息的编辑栏里,会有一项提取文字,点一下,图片中的文字就变成了可以被选取、复制、粘贴的状态了。

图源:微信
在目前的Deepseek版本中,OCR技术也有应用。
点击加号,用户可以上传文件和图片,要求Deepseek根据给的文件生成内容,不过这种功能仅限于识别文字。

图源:Deepseek
当遇到没有文字的纯图片时,Deepseek也发懵了。

图片:Deepseek
总而言之,传统OCR技术的主要作用对象是文字,不论是纸上的文字,还是图中的文字。
但是现在,DeepSeek-OCR把OCR的识别范围扩大到了整张图。
在获取信息的阶段,DeepSeek-OCR会根据图片内容生成一份Markdown文档。
这个文档不仅可以保留图片中的内容,还能最大限度还原图片中的排版位置。

图源:百度
在文档中,用户可以随意编辑被提取的内容,包括文字、链接、表格等图片中所包含的信息。
在分析信息的阶段,DeepSeek-OCR颠覆了过往“逐字处理”的逻辑,而是直接把内容压缩成一张图,通过直接看图的方式分析信息。
类似于现在有一本几千页的书,你让AI帮你总结内容。
以前AI 的逻辑需要把这本书的所有文字,一个一个转换成token,然后建立其中的关联,进行计算,最后输出。
但是DeepSeek-OCR则是直接把这本书拍照,拍成几千张图片,让AI去看图,从而分析这本书中的内容信息。
简单来说,就是以前AI处理信息的方式是“读”,而DeepSeek-OCR处理信息的方式是“看”。

图源:差评
这样做的好处主要有三点:
一是信息处理效率显著提升。
DeepSeek-OCR将整页文档视为一个整体图像进行视觉编码,能够对海量文本信息进行并行处理,而不是在文字线性的逻辑中进行序列转化,尤其面对超长文本的时候,它的内容吞吐量提升是指数级的。
二是信息输出结构性更强。
DeepSeek-OCR看到信息后生成的是Markdown文档,对图像有整体感知,能够精确解析复杂文档中各类信息的层级关系,比如标题和正文,图表和阐释等。
三是信息处理的噪音更少。
在获取信息的时候,DeepSeek-OCR能从上下文中推断和补全局部模糊或残缺的文字信息,容错能力更增强。
此外,相比于传统AI依赖“版面分析-文字识别-后处理”的多模块流水线,DeepSeek-OCR采用端到端架构,从图像直接生成最终结果,不仅简化了流程,还从根本上减少了由于模块间衔接不当造成的错误。

图源:百度
总而言之,DeepSeek-OCR改变了模型对于信息获取的逻辑,在本质上是视觉驱动的。
相比于过去的被动吃掉内容,DeepSeek-OCR是主动去寻找信息。
这和以前的AI不同,它不再是一个单纯的工具,而是可以同步完成文字识别、图像描述、图文关联问答等任务,成为一个真正的内容理解系统。
二、从一维到二维
从“读”信息,到“看”信息。
这是AI从一维到二维的转变。
相比于过去,DeepSeek-OCR目前能获取和存储的信息量都大大提升。
而支撑这一点的是DeepSeek-OCR的“压缩”机制,这也是DeepSeek-OCR此次另一大创新点。
DeepSeek团队计算了“原来的文本token总数”和“压缩后的视觉token总数”之间的比例,简称为“压缩比”。
根据DeepSeek团队的论文数据,在保持96.5%的识别准确率的前提下,压缩比可以达到10倍。

图源:DeepSeek-OCR论文
简单来说,就是在信息准确率不错的情况下,压缩后的视觉token总数比文本token总数低了十倍。
既降低了算力负担,还提高了信息处理效率。
DeepSeek-OCR这次升级算得上是一举两得。
反映到实际应用中,这意味着以后用户和DeepSeek-OCR的对话数量上限会被提高。

图源:DeepSeek
在论文中,DeepSeek团队也解释了“压缩”功能的原理。
首先,AI只会把最近10轮的聊天记录,采用文本的形式记住。其他时间久远的文本聊天记录,AI会自动渲染成图片,通过编码器,把这张图进行压缩,然后存到记忆里。
其次,当你需要调用其中某个信息的时候,AI的解码器,也就是一个已经学会了看图的模型,会翻看之前的聊天“截屏”,找到你提的问题,并读取相应的信息。
最后,AI会将找到的信息,分析确认后,重新发送给你。

图源:DeepSeek-OCR论文
这就是DeepSeek-OCR的工作架构。
10月20日,官方发布,我国的人工智能企业已经超过了5000家,与人工智能相关的专利数已经占全球60%,算力总规模位居全球第二。
一个有关人工智能的未来正加速到来。
DeepSeek-OCR新模型的出现,无疑是给AI提供了更多想象空间。
值得一提的是,在DeepSeek-OCR的压缩机制中,对于那些非常久远,并且年久不用的上下文信息,AI会进一步渲染,压缩成更小的图像。
团队提到这个灵感来自于人类:人类的记忆会随着时间的推移而衰退,人类的视觉感知会随着空间距离的拉远而退化。
或许在不久的某一天,AI真的会给人类带来一个新的世界。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn