美团自研大语言模型“LongCat”正式开源
大模型赛道迎来新玩家。
美团正式开源了自主研发的大语言模型LongCat-Flash,参数规模达到5600亿,采用混合专家(MoE)架构,激活参数动态计算。美团选择以MIT协议开源LongCat-Flash,模型代码已部署在Hugging Face和GitHub平台。开源版本支持SGLang和vLLM框架部署,提供基础适配文档,降低了企业级应用门槛。

图源:ThinklnAl社区公众号
据了解,LongCat-Flash的核心创新在于“动态计算”技术。传统MoE模型通常固定激活一定比例的专家参数,而LongCat-Flash通过自适应算法,根据输入内容的复杂度动态调整激活参数数量。例如,在处理简单任务时,仅激活186亿参数;而在处理复杂推理任务时,最多可激活313亿参数,平均激活规模为270亿。
LongCat-Flash还采用了Shortcut-connected MoE (ScMoE)设计,扩大了计算-通信重叠窗口。结合定制化基础设施优化,这个设计让模型能在数万个加速器上训练,推理速度超过每秒100个token。

图源:美团
LongCat已在美团内部广泛应用,覆盖客服、销售、研发等核心业务。作为扎根于本地生活领域的巨头,美团如今也在对AI积极发力,并让AI在具体的应用场景中发挥作用。正如美团CEO王兴所言:我很关注AI,我们对于AI的策略是进攻,而不是防守。“我们会利用我们所拥有的一切来尝试进攻,主动去在AI方面实现我们的领先地位。”
在今年3月的美团财报电话会议中,王兴更透露了有关美团AI战略的相关内容。具体而言,美团的AI战略建立在三个层面上:首先,AI at work,需要把AI运用在所有员工的工作和运营中,大幅提升十万员工的工作效率和体验。其次,AI in products:美团将用AI改造既有2B和2C端的产品和服务,也将打造全新的AI native products。第三,Building LLM(大语言模型):美团将继续积极投入大模型Capex(资本支出),完善自研基座模型能力。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
