字节跳动辟谣推出中文版Sora

宋妤
2024-02-20 11:12

2月20日消息,有市场消息称,在Sora引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。与Gen-2、Pink1.0等模型不同的是,Boximator可以通过文本精准控制生成视频中人物或物体的动作。

对此,字节跳动相关人士回应称,Boximator是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

format-jpg

图源:新浪科技

据了解,OpenAI近日推出了文字生成视频模型——Sora,Sora能够根据用户输入的提示词、文本指令或静态图像,生成长达一分钟的视频,既能实现多角度镜头的自然切换,还包含复杂的场景和生动的角色表情。

2月19日,AI视频概念股大幅走强,当虹科技、万兴科技、因赛集团、数码视讯、易点天下、蓝色光标等涨超10%。

360集团创始人周鸿祎表示,Sora的技术思路完全不一样。之前做视频做图用的都是Diffusion,是多个真实图片的组合。这次OpenAI利用其大语言模型优势,把LLM和Diffusion结合起来训练,让Sora实现了对现实世界的理解和对世界的模拟两层能力,这样产生的视频才是真实的,才能跳出2D的范围模拟真实的物理世界。

format-jpg

Sora演示视频 图源:OpenAI

值得一提的是,目前抖音集团多部门加大AI技术研发,并调集多位高管跟进,现在已有多款AI产品开启内测。

其中,Flow部门是抖音在AI技术研究和产品研发的排头兵,进展最快。该部门已经推出了豆包(Cici)、扣子(Coze)等AI产品外,另有AI角色互动APP“话炉”、AI产品“PicPic”正在内测和研发阶段。

除了Flow,抖音集团的其他重要业务部门也正在加码AI产品服务,包括抖音电商、抖音生活服务、火山引擎、巨量引擎、稀土掘金、今日头条、大力教育、剪映等。

1、该内容为作者独立观点,不代表电商派观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
相关阅读
12月12日消息,据界面新闻,字节跳动旗下创作工具剪映和CapCut,在2024年实现了超过三位数收入增长,总收入正接近百亿元人民币。同时,剪映和CapCut的全球月活用户也已经超过8亿。2024年初,抖音集团前CEO张楠调任到剪映部门,负责剪映和CapCut的相关业务。张楠当时在内部信中表示,非常看好AI给创作工具带来的机会和前景。今年5月,剪映推出了AI创作工具即梦。随后,字节图、图视频等方向推出的新模型,大多都第一时间在即梦落地。
9月2日消息,即梦AI携手火山引擎全面开放API服务,包括图3.0、图3.1、图图3.0、视频生成3.0pro、数字人OmniHuman、动作模仿DreamActor M1等多款即梦AI同源前沿模型,为企业级用户提供丰富优质的图像及视频生成和编辑服务。开发者无需额外申请,通过自助下单即可快速完成接入。
12月5日消息,字节跳动旗下智能AI助手豆包升级图能力,支持一键生成指定文本。用户可以在图提示词中加入文本要求,如“一张带有‘新年快乐’的图”,即可生成带有指定文字的图片。目前该功能已经在豆包APP开启测试,即梦也已小范围测试。
2月26日消息,字节发布图开放模型SDXL-Lightning。据知情人士透露,字节跳动的SDXL-Lightning通过渐进式对抗蒸馏的技术,实现前所未有的生成速度。该模型能够在2步或4步内生成极高质量和分辨率的图像,将生成速度加快十倍,是1024分辨率下速度最快的图模型,计算成本则降低为十分之一。
9月12日消息,国际知名评测机构Artificial Analysis发布消息称,字节跳动Seedream 4.0已登顶图及图像编辑排行榜榜首,在两个领域都超越了谷歌的 Gemini 2.5 Flash 。Seedream 4.0是字节跳动最新发布的豆包图像创作模型。该模型集成了图、图像编辑、多图融合、组图生成等多种能力,最高支持4K分辨率图像生成,已在豆包App、即梦AI、扣子等产品上线,并通过火山引擎开放给企业客户。
9月9日消息,字节跳动Seed团队正式发布新一代图像创作模型Seedream 4.0。据介绍,Seedream 4.0采用同一套构架实现图与通用编辑能力,融合常识和推理能力,相比前代模型Seedream 3.0和SeedEdit 3.0,在多模态效果、速度和可用性均实现显著突破。
5月15日消息,在今日的2024春季火山引擎FORCE原动力大会,字节跳动正式发布自研大模型“豆包大模型”,该大模型包含豆包通用模型、语音合成模型、图模型等一共9个模型,已在字节跳动内部50多个业务和场景进行过应用。
4月17日消息,在火山引擎FORCE LINK AI创新巡展,火山引擎总裁谭待公布豆包1.5深度思考模型,该模型将正式面向企业提供服务。谭待表示,豆包1.5深度思考模型能够结合视觉理解提供更多功能,例如根据照片分析地貌,或在旅行时辅助点餐、完成企业项目管理流程图。此外,豆包图模型3.0升级,带来包括更美观的文字排版,更精细的图片生成能力,以及2k图片直出能力。
5月15日消息,火山引擎主办的FORCE原动力大会在京举行。会上发布的数据显示,截至目前,字节跳动旗下大模型豆包App目前总下载量已经突破1亿,双端月活跃用户突破2600万,智能体创建总数800万。会上,字节豆包大模型正式开启对外服务,据悉,豆包大模型包含豆包通用模型Pro、豆包通用模型liti、豆包·角色扮演模型、豆包·语音合成模型、豆包·声音复刻模型、豆包·语音识别模型、豆包·图模型、豆包·Function Call模型。