小红书开源首款多模态大模型

刘峰
2025-08-07 17:54

8月7日消息,小红书hi lab(人文智能实验室)开源了其首款多模态大模型dots.vlm1,这一模型基于DeepSeek V3打造,并配备了由小红书自研的12亿参数视觉编码器NaViT,具备多模态理解与推理能力。这一模型可以看懂复杂的图文图表,理解表情包背后的含义,分析两款产品的配料表差异,还能判断博物馆中文物、画作的名称和背景信息。

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

图源:Hugging Face

hi lab称,在主要的视觉评测集上,dots.vlm1的整体表现已接近当前领先模型,如Gemini 2.5 Pro与Seed-VL1.5 thinking,尤其在MMMU、MathVision、OCR Reasoning等多个基准测试中显示出较强的图文理解与推理能力。在典型的文本推理任务(如AIME、GPQA、LiveCodeBench)上,dots.vlm1的表现大致相当于DeepSeek-R1-0528,在数学和代码能力上已具备一定的通用性,但在GPQA等更多样的推理任务上仍存在差距。

总体来看,dots.vlm1在视觉多模态能力方面已接近SOTA(最佳性能)水平,在文本推理方面达到了主流模型的性能。但hi lab也强调,dots.vlm1在部分细分任务上仍与最优结果存在一定距离,需要在架构设计与训练数据上进一步优化。目前,dots.vlm1已上传至开源托管平台Hugging Face,用户还可以在Hugging Face上的体验链接中免费使用这一模型。

今年6月6日,小红书开源了其首款大语言模型,并在之后开源了用于OCR的专用模型,以及视觉、奖励模型等前沿方向的研究成果。

1、该内容为作者独立观点,不代表电商派观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
相关阅读
2月19日消息,AI创业公司“月之暗面”近期已完成新一轮超10亿美金融资,投资方包括红杉中国、、美团、阿里,老股东跟投。本轮融资后,月之暗面估值已达约25亿美金,为国内模型领域的头部企业之一。自ChatGPT掀起全球浪潮以来,这也是国内AI模型公司迄今获得的单轮最大金额融资。据了解,月之暗面当前已经在秘密研发通用模态模型,预计今年内将推出。
1月13日消息,在去年冬天借由烤红薯传递社区温暖的“红薯慢闪店”,今年再度开张。相比于去年仅在上海和武汉开张,今年的“红薯慢闪店”增设了成都与西安的摊位,最终将在全国4城同期开张。据了解,只要是的“红薯”,就能来到这些摊位领取一颗烤红薯以及周边产品。今年在更城市开张的“红薯慢闪店”中,每一款烤红薯的包装上都写着“一颗薯,两份暖”。
10月20日消息,上海市商务委员会近日公布了第二批“上海市直播电商基地”名单,宝尊凭借其在直播电商领域的表现和创新能力,成功入选。目前,宝尊创意内容商业中心已覆盖包括天猫、京东、抖音、平台直播及创意综艺直播,直播间层高、面积、硬件配置均属行业领先,能为品牌提供高质量的全渠道直播服务。
发现更电商领域的新可能。
种草学(杭州)培训中心帮助更品牌了解,掌握最新种草实操玩法,找到生意新增量。
4月8日消息,雀巢集团近日与北京工区进行JBP签约仪式。未来,双方将以共赢为目的,更好地服务消费者,创造行业辐射效应。此次与雀巢集团达成深度合作,将科学种草的营销优势扩大到太太乐、徐福记等更雀巢旗下品牌。雀巢大中华大区首席市场官曲向明在交流中多次提到的关键词是“创新”,对于雀巢这样的成熟品牌而言,在做创新营销玩法时,前置洞察用户真实的需求是非常重要的。
电商,做生活方式的主理人。
离上市有
上市之路一波三折。