梁文锋藏了一手,DeepSeek新模型突然发布

李迎
2025-10-24 14:24

他强任他强,清风拂山岗。

一、DeepSeek-OCR来了

不同于其他模型天天“卷”,最后跑分多几个点。

这次,DeepSeek团队研发出真东西了。

10月20日,DeepSeek(深度求索)在开源社区Hugging Face上发布了新模型DeepSeek-OCR

这个模型可以说直接把目前的AI提升了一个维度。

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

图源:GitHub

长期以来,“长文本处理”一直是个令AI圈头疼的问题,目前市面上的各种模型,几乎都没有很好的方法可以解决。

这个问题的一个直接体现就是,不少用户在和AI聊天的时候,AI突然弹出“对话消息到达上限”

不是AI不想聊了,是AI做不到了。

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

图源:小红书

这是什么原因呢?

因为市面上各种AI模型工作的一个核心逻辑是逐词处理,即用户丢给AI一个文本内容,它需要把每个字词,都转换成Token,也就是AI能够处理的基本语言单位,再对信息进行处理。

不仅如此,在每读一个新词后,为了和上下文串联起来,AI需要把这个词和之前所有出现过的词,都建立一次联系

类似于你去一个新环境,现在来了一个陌生人,你要去了解他,他要了解你。

等你们熟悉了,又来了一个陌生人,现在你们三都要互相了解,完了之后,又来了第四个、第五个......

这个成本,可以说是呈指数级的。

这也就是技术上常说的,计算复杂度是N的平方。

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

图源:百度

其实在2月份,DeepSeek刚出现的时候,为了解决这个问题,团队采用了稀疏注意力机制

这个机制就是将文本压缩为粗粒度语义块,动态筛选关键片段,结合局部滑动窗口,在保留了全局理解的基础上,提炼重点内容进行思考,从而减少了多余的计算。

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

图源:CSDN

这种方法在一定程度上缓解了计算的复杂度,不过它没有根治问题。而且在面对超长文本的时候,它还有造成信息缺失的风险。

市面上各种模型也尝试采取各种方法,去解决超长文本的问题,但也只是在逐词处理的逻辑上缝缝补补。

而这一次,DeepSeek-OCR直接掀桌子了

为什么一定要逐词处理,直接看图不是更快吗?

于是,它整了一项技术叫“上下文光学压缩”。

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

图源:Github

这里的OCR全称是Optical Character Recognition,即光学字符识别

这项技术不算新鲜,出现于上个世纪,最早用于将文字自动识别录入到电脑中,一般和扫描仪配套使用。

随着技术不断完善,OCR运用的场景也越来越多,现在可以也指从图像中提取文本的技术

比如大家常用的微信,在图片消息的编辑栏里,会有一项提取文字,点一下,图片中的文字就变成了可以被选取、复制、粘贴的状态了。

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

图源:微信

在目前的Deepseek版本中,OCR技术也有应用。

点击加号,用户可以上传文件和图片,要求Deepseek根据给的文件生成内容,不过这种功能仅限于识别文字。

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

图源:Deepseek

当遇到没有文字的纯图片时,Deepseek也发懵了。

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

图片:Deepseek

总而言之,传统OCR技术的主要作用对象是文字,不论是纸上的文字,还是图中的文字。

但是现在,DeepSeek-OCR把OCR的识别范围扩大到了整张图

在获取信息的阶段,DeepSeek-OCR会根据图片内容生成一份Markdown文档。

这个文档不仅可以保留图片中的内容,还能最大限度还原图片中的排版位置。

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

图源:百度

在文档中,用户可以随意编辑被提取的内容,包括文字、链接、表格等图片中所包含的信息。

在分析信息的阶段,DeepSeek-OCR颠覆了过往“逐字处理”的逻辑,而是直接把内容压缩成一张图,通过直接看图的方式分析信息。

类似于现在有一本几千页的书,你让AI帮你总结内容。

以前AI 的逻辑需要把这本书的所有文字,一个一个转换成token,然后建立其中的关联,进行计算,最后输出。

但是DeepSeek-OCR则是直接把这本书拍照,拍成几千张图片,让AI去看图,从而分析这本书中的内容信息。

简单来说,就是以前AI处理信息的方式是“读”,而DeepSeek-OCR处理信息的方式是“看”。

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

图源:差评

这样做的好处主要有三点

一是信息处理效率显著提升。

DeepSeek-OCR将整页文档视为一个整体图像进行视觉编码,能够对海量文本信息进行并行处理,而不是在文字线性的逻辑中进行序列转化,尤其面对超长文本的时候,它的内容吞吐量提升是指数级的。

二是信息输出结构性更强。

DeepSeek-OCR看到信息后生成的是Markdown文档,对图像有整体感知,能够精确解析复杂文档中各类信息的层级关系,比如标题和正文,图表和阐释等。

三是信息处理的噪音更少。

在获取信息的时候,DeepSeek-OCR能从上下文中推断和补全局部模糊或残缺的文字信息,容错能力更增强。

此外,相比于传统AI依赖“版面分析-文字识别-后处理”的多模块流水线,DeepSeek-OCR采用端到端架构,从图像直接生成最终结果,不仅简化了流程,还从根本上减少了由于模块间衔接不当造成的错误。

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

图源:百度

总而言之,DeepSeek-OCR改变了模型对于信息获取的逻辑,在本质上是视觉驱动的。

相比于过去的被动吃掉内容,DeepSeek-OCR是主动去寻找信息。

这和以前的AI不同,它不再是一个单纯的工具,而是可以同步完成文字识别、图像描述、图文关联问答等任务,成为一个真正的内容理解系统。

二、从一维到二维

从“读”信息,到“看”信息。

这是AI从一维到二维的转变。

相比于过去,DeepSeek-OCR目前能获取和存储的信息量都大大提升。

而支撑这一点的是DeepSeek-OCR的“压缩”机制,这也是DeepSeek-OCR此次另一大创新点。

DeepSeek团队计算了“原来的文本token总数”和“压缩后的视觉token总数”之间的比例,简称为“压缩比”。

根据DeepSeek团队的论文数据,在保持96.5%的识别准确率的前提下,压缩比可以达到10倍。

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

图源:DeepSeek-OCR论文

简单来说,就是在信息准确率不错的情况下,压缩后的视觉token总数比文本token总数低了十倍

既降低了算力负担,还提高了信息处理效率。

DeepSeek-OCR这次升级算得上是一举两得。

反映到实际应用中,这意味着以后用户和DeepSeek-OCR的对话数量上限会被提高。

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

图源:DeepSeek

在论文中,DeepSeek团队也解释了“压缩”功能的原理。

首先,AI只会把最近10轮的聊天记录,采用文本的形式记住。其他时间久远的文本聊天记录,AI会自动渲染成图片,通过编码器,把这张图进行压缩,然后存到记忆里。

其次,当你需要调用其中某个信息的时候,AI的解码器,也就是一个已经学会了看图的模型,会翻看之前的聊天“截屏”,找到你提的问题,并读取相应的信息。

最后,AI会将找到的信息,分析确认后,重新发送给你。

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

图源:DeepSeek-OCR论文

这就是DeepSeek-OCR的工作架构。

10月20日,官方发布,我国的人工智能企业已经超过了5000家,与人工智能相关的专利数已经占全球60%,算力总规模位居全球第二。

一个有关人工智能的未来正加速到来。

DeepSeek-OCR新模型的出现,无疑是给AI提供了更多想象空间。

值得一提的是,在DeepSeek-OCR的压缩机制中,对于那些非常久远,并且年久不用的上下文信息,AI会进一步渲染,压缩成更小的图像。

团队提到这个灵感来自于人类:人类的记忆会随着时间的推移而衰退,人类的视觉感知会随着空间距离的拉远而退化。

或许在不久的某一天,AI真的会给人类带来一个新的世界。

1、该内容为作者独立观点,不代表电商派观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
相关阅读
梁文锋急需一场胜仗,来扭转市场信心。
10月21日消息,DeepSeek-AI团队发布《DeepSeek-OCR:Contexts Optical Compression》论文,提出利用视觉模态压缩长文本上下文的方法。Hugging Face页面显示,该模型的参数量为3B。
3月26日消息,阿里通义千问与DeepSeek均于昨日低调开源了两款模型。阿里发布了更适合本地部署的高性能“多模态模型”Qwen2.5-VL-32B,DeepSeek则将此前热门的“基座模型”V3更新到0324版本,并官宣在魔搭社区上架开源。截至目前,魔搭社区模型总数已超4万个,已成为中国最大的AI开源社区。
DeepSeek-V3.1正式发布
8月21日消息,DeepSeek正式发布DeepSeek-V3.1。官方App与网页端模型已同步升级为DeepSeek-V3.1。用户可以通过“深度思考”按钮,实现思考模式与非思考模式的自由切换。相比DeepSeek-R1-0528,DeepSeek-V3.1-Think能在更短时间内给出答案。通过Post-Training优化,模型在工具使用与智能体任务中的表现有较大提升。
2月20日消息,上海钢联公告称,目前,公司技术团队已完成“小钢”全面接入DeepSeek API,并完成对应的测试评估,效果较好的AI摘要功能已经切到DeepSeek提供服务,同时也已经完成Deepseek-R1 32B模型私有化部署;当前正在基于钢联“宗师”过往训练中积累的高质量语料进行训练和微调工作,预计2月底前完成DeepSeek“宗师”行业模型的研发工作。后续将根据测试情况,预计在二季度开放给正式用户体验。
新一轮中美AI“装备竞赛”开始了。
3月1日消息,同程旅行日前宣布,同程程模型将全面接入DeepSeek,成为首家接入DeepSeek模型的OTA平台。同程程是同程旅行自主研发的旅游行业专属模型,未来将与DeepSeek深度协同,为用户提供专业、智能的旅行解决方案。目前该功能已进入内测阶段,预计3月上旬正式面向用户开放。
3月10日消息,猎网近日宣布全面接入国产开源大模型DeepSeek R1,“宝”AI精灵已上线,通过深度融合AI技术,猎网将重塑电子元器件采购流程,为工程师、采购商和终端工厂提供从选型、替代到方案设计的高效支持。