通义万相2.5系列模型发布,可生成音画同步视频

电商派
2025-09-24 13:01

9月24日,在2025杭州云栖大会上,阿里发布通义万相Wan2.5preview系列模型,涵盖文生视频、图生视频、文生图和图像编辑四大模型,其中,通义万相2.5视频生成模型能生成和画面匹配的人声、音效和音乐BGM,首次实现音画同步的视频生成能力,进一步降低电影级视频创作的门槛。即日起,用户可在阿里云百炼平台调用API,或在通义万相官网直接体验。

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

全新的通义万相2.5在创作能力上实现了全面升级:视频生成时长从5秒提升至10秒,单次生成可实现更完整的剧情故事;支持24帧每秒的1080P高清视频生成,画面质量进一步提升,满足电影级场景的创作需求;与此同时,模型指令遵循能力进一步提升,在视频生成任务中可理解运镜等复杂连续变化指令控制,图像编辑任务也可以跟随指令一键实现人物变身、风格变化等效果。

据介绍,相比前几代通义万相模型,通义万相2.5在技术架构上实现了重大更新:首次采用原生多模态架构,在同一套框架下支持理解和生成等多种任务,支持文本、图像、视频、音频多种模态的输入和输出,能实现音画同步的视频生成等多模态能力。用户输入提示词即可生成人声、环境音效和背景音乐,并且精准与画面内容、人物口型匹配,让视频演绎更加生动形象。通义万相2.5也支持输入一段音频作为参考,来驱动文字或图片生成音画同步的视频。

例如,输入Prompt:仰视角度拍摄,全景,日光,晴天光,侧光,暖色调,中心构图。一名外国男子在城市公园的水泥广场上玩滑板,他约二十多岁,身材健硕,深色短发藏在黑色棒球帽下,身穿深灰色连帽上衣和黑色工装裤,脚踩一双黑白拼色运动鞋。镜头从低角度仰拍,突出其腾空动作的张力。他站在滑板上加速前行,身体前倾,双臂自然张开以维持平衡;随后猛然跃起,右脚轻踢板尾,滑板在空中完成180度翻转,他迅速下压接住滑板,双脚精准落回板面,稳稳着地后继续向前滑行。背景中,三两名滑板者在远处滑行穿梭,梧桐树叶在微风中轻轻摇曳,阳光穿过树叶间隙洒下斑驳光影,投射在地面和滑板轮迹上。伴随着节奏鲜明的都市电子音乐,背景传来轮子摩擦地面的沙沙声与远处隐约的交谈声。男子落地瞬间轻哼一声“Yeah!”,语气轻快自信。

通义万相能精准理解复杂指令的多个关键词,生成一段男子滑板的动感视频,不仅实现动作、拍摄角度和光影遵循指令,视频展现的人声、滑板滚动音效以及背景音也和画面内容、指令保持同步。

此次,通义万相2.5还全面升级了图像生成能力,可生成中英文文字和图表,包含复杂文字排版、艺术海报、流程图、架构图等,同时支持图像编辑功能,输入一句话即可完成P图。

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

通义万相模型家族已支持文生图、文生视频、图生视频、人声生视频和动作生成等10多种视觉创作能力,累计生成3.9亿张图片、7000万个视频。自今年 2 月以来,通义万相已连续开源20多款模型,在开源社区和三方平台的下载量已超3000万,是开源社区最受欢迎的视频生成模型之一。

1、该内容为作者独立观点,不代表电商派观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
相关阅读
9月19日消息,在2024栖大会上,阿里通义发布全新视频生成模型,可生成影视级高清视频,可应用于影视创作、动画设计、广告设计等领域。即日起,所有用户可通过通义APP及通义官网免费体验。
1月9日消息,阿里通义推出2.1视频生成模型,在大幅度复杂运动、物理规律遵循、艺术表现等方面全面提升。根据权威评测榜单VBench的信息显示,新版通义登上榜首位置。
通义基于阿里通义”大模型能力打造,用户可以在通义中输入提示词,以输出应图像。
“我们做模型不是为了和其他模型竞争,而是把促进中国大模型生态的繁荣作为首要目标,大模型创业公司提供全方位的服务。”
7月7日消息,2023世界人工智能大会期间,阿里宣布推出通义大模型家族新成员通义。据介绍,这是一款进化中的AI绘画模型,支持文生图等功能。目前,通义已经上线,并正式面向公众展开邀测。
8月27日消息,阿里正式开源多模态视频生成模型通义“Wan2.2-S2V”,仅需一张静态图片和一段音频,即可生成电影级数字人视频。目前,模型已在通义官网上线。
5月15日消息,阿里巴巴正式开源通义Wan2.1-VACE,这是业界功能最全的视频生成与编辑模型,单一模型可同时支持文生视频、图像参考视频生成、视频重绘、视频局部编辑、视频背景延展以及视频时长延展等全系列生成和编辑能力。该模型拥有1.3B和14B两个版本,其中1.3B版本可在消费级显卡运行,开发者可在GitHub、Huggingface及魔搭社区下载体验。该模型还将逐步在通义官网、阿里百炼上线,可满足广告设计、影视制作及短视频创作等场景需求。
9月22日消息,阿里联合中国邮政推出首套亚运AIGC个性化实体邮票,该邮票由阿里AI绘画创作大模型通义创作,选取杭州六大城市地标作为主画面,进行人工智能辅助创作生成的杭州地标的“未来图景”。该套个性化邮票共有6枚,呈现6个杭州城市地标画面,采用虚实结合的表现方式,左侧为杭州城市地标实景,右侧应用通义大模型基于杭州城市地标创作而成。
9月14日消息,阿里通义将在栖大会期间发布视频生成大模型,目前通义App频道和通义PC端已上线“视频生成”入口,仅支持用户预约,但未开放使用。页面内容显示,全新发布的视频生成大模型是由通义实验室自主研发,包含“文生视频”和“图生视频”两种创作模式。
11月21日消息,Qwen2.5-Turbo上线阿里百炼平台,模型上下文长度扩展至百万tokens。据介绍,Qwen2.5-Turbo是通义千问团队回应社区对处理更长序列的需求推出的全新版本模型。该模型支持100超长上下文,当于100万个英文单词或150万个汉字。
电商派
电商派,看电商!