字节和北大合作研发识典古籍官网 现已上线685部古籍

李伊
2023-02-24 11:49

2月24日消息,在字节跳动与北京大学的合作之下,识典古籍官网现已上线了685部古籍,包括双方参与设计与研发的《永乐大典》高清影像数据库,用户可以登录官网或者在今日头条古籍频道查看已上线古籍。

据了解,古籍数字化业务的研发复杂度很高,例如古籍的格式里,大字是正文,小字是注解,单独一列的大字是标题。

为了把这些复杂的结构区分开,字节方面定义了一套古籍的元数据协议。字节团队将一页一页的古籍变成了结构化的数据,可以满足行业通用的 TEI(Text Encoding Initiative)元数据标准,能区分章节、标题、内文,方便搜索、翻看,而且还能进一步编辑整理。

format-jpg

(图源:识典古籍官网)

借助飞书文档提供的SDK,字节已经为合作方北大的专家学者们提供了古籍整理平台,便于精校现有古籍、增加新的书目。

识典古籍是由“北京大学—字节跳动数字人文开放实验室”研发的古籍数字化平台,该平台于2022年10月正式上线测试版,并向公众免费开放。

未来三年,“识典古籍”将陆续完成一万种古籍的智能化整理工作,基本覆盖儒家、道家和佛学的核心典籍目录,届时将全部免费开放。

“识典古籍”项目负责人介绍,该平台当前主要使用了三种技术,包括文字识别、自动标点和命名实体识别。目前行业内OCR识别准确率平均为93%至94%,“识典古籍”的准确率为96%至97%。

format-jpg

(图源:字节跳动技术范儿公众号)

值得一提的是,日前,36氪报道称,字节跳动在大模型上已有所布局,分别在语言和图像两种模态上发力。字节跳动相关技术负责人对此回应:技术中台在这些领域有探索,还很初期,不成熟。

一名知情人士透露,语言大模型团队由字节搜索部门牵头,目前团队规模在十数人左右。图片大模型团队则由产品研发与工程架构部下属的智能创作团队牵头。

另有知情人士表示,字节跳动语言大模型团队在今年组建,探索方向主要为与搜索、广告等下游业务的结合,“搜索业务部门、AI Lab和AML(应用机器学习)团队都调了一部分人支援语言大模型,团队目前的预期是在今年年中推出大模型”。

format-jpg

1、该内容为作者独立观点,不代表电商派观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
相关阅读
10月11日消息,由“北京大学—字节跳动数字人文开放实验室”研发的古籍数字化平台“古籍”测试版正式上线。上述实验室系今年3月北京大学与字节跳动合作成立,将人工智能技术应用于古籍资源的智能化整理。“古籍”平台上线,即是双方合作的最新进展。同时,“古籍”书目将持续更新,后续将上线手机移动版。
3月18日消息,近日,字节跳动向北大教育基金提供捐赠,全面支持“北京大学-字节跳动数字人文开放实验室”的工作,研发古籍数字化平台,搭建一座古籍“智能化数字图书馆”。字节跳动北大合作搭建开放、共享、高质量的古籍数字化平台,在保护整理中华文化资源的同时,推动这些资源向大众开放。该平台可以是读者的数字化古籍阅读工具,也可以是学者、爱好者的一站式古籍数字化智能整理平台。
由“北京大学—字节跳动数字人文开放实验室”研发的古籍数字化平台“古籍”测试版正式上线。
4月15日消息,北京时间4月15日上午8,2024阿里巴巴全球数学竞赛预选赛正式交卷。阿里巴巴全球数学竞赛组委会介绍,2024年起,阿里巴巴全球数学竞赛决定向AI开放,鼓励探索AI的潜力上限,推动AI在数学领域的研究应用创新。AI挑战赛吸引了全球563支队伍踊跃报名,主要来自全球知名高校院所与企业,包括北大、清华、牛津、中国科学院、AWS、字节跳动等。
北京大学-字节跳动数字人文开放实验室将研发古籍数字化平台,搭建古籍“智能化数字图书馆”。
8月14日消息,为推动全模态大模型的研究与应用,字节跳动Seed团队发布并开源了全模态PyTorch原生训练框架——VeOmni。据介绍,VeOmni采用以模型为中心的分布式训练方案,可将复杂的分布式并行逻辑与模型计算解耦,为全模态模型组合设置高效的并行训练方案。这一方式可大幅降低工程开销,提升训练效率扩展性,将数周的工程开发时间缩短至几天。
8月4日消息,字节跳动正式启动2026校园招聘。本次校招面向2026年应届毕业生开放超5000个offer机会,覆盖研发、产品、运营等八大职类。相较于字节跳动2025年校招4000+的招聘规模,本次校招呈现显著扩招态势。数据显示,研发类岗位招聘数量同比增长23%,其中,算法、前端、客户端增幅最大。非研发岗位需求增长明显,计划招募1500余人,从业务分布看,抖音、电商、火山引擎、飞书、剪映等业务团队均释放大量岗位,其中,产品经理、数据分析等热门方向录用机会更高。
8月1日消息,2025 RoboCup机器人世界杯人形组成人组比赛,即:RoboCupSoccer Humanoid League AdultSize,在巴西萨尔瓦多落下帷幕。由字节跳动Seed团队与清华大学赵明国教授团队合作研发的人形机器人运动算法HumanoidKick,帮助清华火神队获得冠军。这是中国机器人足球队首次在机器人世界杯该组别夺冠。