豆包大模型团队开源基准测试集SuperGPQA

田宁
2025-03-04 11:53

3月4日消息,豆包大模型团队近日开源SuperGPQA,一个领域全面且具备高区分度的知识推理基准测试。该数据集构建了覆盖285个研究生级学科、包含26529道专业问题的评估体系,不仅涵盖主流学科,更将轻工业、农业、服务科学等长尾学科纳入其中,展现出全面学科的覆盖广度,填补了长尾知识评估领域的空白。

1、该内容为作者独立观点,不代表电商派观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
相关阅读
2月10日消息,豆包模型团队联合北京交通大学、中国科学技术大学共同开发的视频生成实验模型“VideoWorld”正式开源。不同于Sora 、DALL-E 、Midjourney等主流多模态模型,VideoWorld在业界首次实现无需依赖语言模型,即可认知世界。
6月17日消息,豆包电脑版已全量上线AI播客功能。用户上传PDF或网页链接后,可一键生成双人对话的播客节目,语音效果高度拟人,对话流畅、自然。该能力基于豆包模型团队推出的语音播客模型。目前,豆包App也已开启小流量测试,将于近期全量上线。
9月11日消息,据报道,字节正在探索将模型与硬件结合,既自己开发AI硬件,也会与外部硬件公司合作。报道称,字节AI硬件相关团队正在开发一款与豆包模型豆包App联动的智能耳机,同时在推动豆包模型与其它手机厂商的智能助手合作,此外字节同时在探索AI眼镜方向,可能会投资一家新公司或组建内部团队。对于以上消息,截至发稿,字节跳动方面暂无回应。
6月23日消息,字节跳动的用户增长团队做了一个名为“探饭”的AI产品,搭载的是豆包模型,其开发公司为北京有竹居网络技术有限公司,经查询,为字节跳动的全资子公司。据悉,探饭主要为用户提供美食相关的智能向导服务,在实际体验过程中,还发现通过探饭也能够购买团购套餐或点外卖,以及AI点菜。知情人士就此表示:“探饭”是抖音生活服务结合AI推荐功能做的一个小范围尝试,目前仅支持抖音小程序。
11月27日消息,据36氪报道,字节跳动近期成立了一个新AI部门Flow,技术负责人为字节跳动技术副总裁洪定坤,业务带头人为字节模型团队的负责人朱文佳。Flow主要聚焦在AI应用层。在帖中,其表示是字节跳动旗下AI创新业务团队,“目前已经在国内和海外分别上线豆包和Cici两款产品,有多个AI相关创新产品孵化中”。在此次调整中,字节也从飞书、抖音等各个BU抽调人选,到这一部门做一款新的C端产品。
据报道,字节豆包团队有一些基于模型软硬件结合的探索,目前还在初期。除字节外,美团也在探索AI和硬件结合的可能性,正在研发一款名为“俏鱼”的AI业务,并和儿童穿戴设备厂商“小天才”达成合作,其自研的“俏鱼乐伴”的AI语音互动式APP将搭载在小天才Z10手表上。
6月11日消息,火山引擎FORCE原动力大会现场,火山引擎总裁谭待表示,截至今年5月底,火山引擎豆包模型tokens日均调用量已经达到16.4万亿,是发布时的137倍。根据IDC市场数据,火山引擎占据46.4%的市场份额。
6月11日消息,火山引擎FORCE原动力大会上,火山引擎总裁谭待正式发布豆包模型1.6,并宣布将采用统一定价模式。在价格方面,豆包模型也再一次降低,最低为2.6元/百万tokens,相较于豆包模型1.5与DeepSeek-R1的7元/百万tokens的价格,大幅下降63%。
1月22日消息,字节跳动发布豆包模型1.5Pro版本。目前,Doubao-1.5-pro已在豆包APP灰度上线,开发者也可在火山引擎直接调用API。据介绍,该模型具有低训练/推理成本,高效模型结构,全面提升了多模态能力、推理能力。在知识、代码、推理、中文等多项公开测评基准上成绩全球领先。同时,在模型训练过程中,Doubao-1.5-pro未使用任何其他模型生成的数据。