电商AI生图革命!Vidu Q1参考生图全面赋能电商视觉生产,正面对标Nano Banana

电商派
2025-09-09 15:02

AI生图领域,终于迎来中国力量的高光时刻。

在Google发布Nano Banana仅10天后,生数科技旗下视频大模型Vidu于9月9日正式推出Vidu Q1参考生图功能,以支持7张参考图输入打破国内生成上限,并在一致性、还原度等关键指标上全面超越Flux.1 Kontext,正面对标Nano Banana。

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

这意味着,一直由国际巨头主导的AI生图赛道,首次出现了具备差异化竞争力、甚至局部实现超越的中国创业公司。Vidu Q1参考生图的发布,不仅是一次技术迭代,更是一场围绕AI生图领域的国产逆袭。

此次Vidu 发布的Q1参考生图主要有五大亮点:

Vidu  Q1参考生图以“参考够多,还原够真”为核心,主要包括五大亮点:

1. 参考数量行业领先

同时支持7张参考图输入,可控性强。

2. 主体一致性更强

在多人、多场景、多次生成下,依旧保证人物/主体的面貌与特征不跑偏。

3. 高还原度,真实感更强

在保持参考图特征的同时,还原度高,更贴近用户原始输入,真正做到“所见即所得”。

4. 创作自由度极高

一张图 + 一句提示词,就能自由换装、换背景、自由合成。支持多人同场景或者多人多场景,满足复杂剧情、合影、多角色电商等场景。

5. 支持1080P高清分辨率,中文语义理解更强

一、对标谷歌Nano Banana,国产AI生图迎来突破

通过多组案例对比可清晰看出,Vidu Q1参考生图在生成一致性方面显著优于Flux.1 Kontext,并在部分场景中媲美甚至超越Nano Banana:

在人物拿着电饭煲的案例中,Nano Banana frequently 出现物体悬空、摆放不合理的问题,生成的饭碗并未放置到合理位置,而Vidu生成结果自然合理,符合物理规律;

案例1:

prompt:图1人物拿着图2展示

输入图:

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

生成结果对比:

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

Vidu

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

Nano Banana

在案例2中,Kontext容易出现眼镜丢失、背景错乱、人脸不一致等问题,Nano Banan 服饰变成了白色连衣裙,同时耳环也与原图不一样。在此案例中,Vidu 则能精准还原每一处细节,同时保持人脸、服饰、道具、场景都与原图一致。

prompt:图1人物戴着图2,手里拿着图3,在图4场景中

输入图:

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

生成结果对比:

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

Vidu

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

Flux.1 Kontext

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

Nano Banana

再来比较下各家AI生图对于细节的还原度。

在案例3中,Nano Banana的人物左眼双眼皮消失,Midjourney人物凭空多了副眼镜,即梦的人物发型和卫衣服装都发生了变化,Kontext脸上多了很多斑点。Vidu则在人物脸部细节特征和服饰细节特征上都做到了非常准确地还原。

prompt:参考图中人物,修改背景为人物在班里座位上认真听课

输入图:

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

输出结果:

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

Vidu

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

Nano  Banana

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

Midjourney

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

即梦

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

Flux.1 Kontext

在局部补全、物体延展等需要强推理能力的任务中,Vidu也表现出更强的语义理解和画面延伸能力。

以下面的双彩虹照片为例,要求补全另外半边彩虹。

案例4:

prompt:把彩虹的右半边补全,形成半圆彩虹

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

生成结果对比:

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

Vidu

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

Nano Banana

在上图的例子中,Nano Banana 并没有理解提示词中补全彩虹的意思,彩虹只出现了另外半边,而Vidu Q1参考生图则做到了将没有出现在图片中的另外半边彩虹补全,形成了完整挂在天上的双彩虹景象,表现出了极高的画面理解能力和一致性。

从第三方评测机构来看,Vidu在AI参考生图的一致性指标上超过了谷歌的Nano Banana 和Kontext ,位居第一。

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

在一致性、真实性、清晰度、美学、语义理解等综合指标评分中位居第二,仅次于谷歌Nano Banana。

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

值得一提的是,在能力全面对标Nano Banana 的同时,Vidu Q1参考生图对国内用户也更为友好,无需翻墙,操作更为简单,对于中文理解更强。相对于Nano Banna无法指定输出图片比例,Vidu 可支持多种比例图片输出,同时Vidu Q1参考生图支持1080P高清像素,更适合商用场景。

二、三大模式全覆盖:合成、替换、变换解锁行业创新应用

除了过硬的一致性,Vidu Q1参考生图还支持“合成+替换+变换”三大模式,可覆盖电商、广告、动漫、影视、设计等多行业场景。

万物皆可合成

Vidu Q1 参考生图支持让不同人物同框或者将某个人物或者商品放入具体场景中,让想象中的画面成真,让不可能成为可能。

1、复杂场景合成

通过指定某主体在某个场景中做什么,可以生成高大上的杂志封面、商品海报、动漫短剧分镜。

比如你可以用Vidu Q1 参考生图制作时尚杂志封面。

案例5:

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

画面中每个主体精准还原,背景换成室内有光线的房间后,男士和羊的光影也随之变化,画面十分逼真。

中秋节来临,Vidu Q1参考生图也能成为电商、设计师们的提效神器。

案例6:

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

Vidu Q1参考生图还可用于创意营销的产品素材,比如让林黛玉代言川贝枇杷膏。产品包装的细节、颜色、质感都与原图保持完全一致,古代人物与现代商品间的互动,有种穿越古今的反差感。

案例7:

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

2、人物、商品同框场景

利用Vidu Q1参考生图功能,即可和你喜欢的明星同框。

比如输入你和明星的照片和大头贴框,即可生成你和泰勒斯威夫特在海边的合影照,融合自然,仿佛是在某个海边拍的偶遇照片。

案例8:

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

3、服装流行元素合成

Vidu Q1参考生图在服装设计领域也有广泛的应用场景。

用Vidu Q1参考生图把裙子换上今年夏天最时髦的碎花花纹,变身最潮达人。

案例9:

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

万物皆可替

Vidu Q1参考图中的人物、道具、场景都可以随意替换,不仅可玩性高,而且也大幅提高创意资产复用率,不到半小时即可批量产出实用产品宣传素材、海报大片。

1、场景替换

十一假期来临,利用Vidu Q1参考生图,帮助用户解锁热门旅游地,再也不用”人从众”中各种找角度拍照,也无需等待黄金拍照时间,即可快速生成完美旅游打卡照。

比如下图案例,遗憾错过日照金山,直接用Vidu Q1参考生图将背景换成日照金山的背景,即刻生成人生照片。

案例10:

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

品牌方也可以通过替换不同的背景,打造更多样化的使用场景,传递不同的品牌调性,促进销售转化。

比如将图一的蓝色便携音响换成户外森林和岩石的背景,适配不同的季节,体现别具一格的生活品味。

案例11:

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

2、道具替换

同样的背景,通过道具替换,可产出一系列产品素材图,适用于TO C 玩法以及产品上新场景。

比如利用Vidu Q1 参考生图将超现实主义画家雷尼·马格利特的名画《人类之子》的经典绿苹果替换成茄子、拖鞋、南瓜,生成一系列趣味组图。

案例12:

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

3、主体替换

还可以通过主体替换的方式实现影视剧、海报的角色替换。

仍然以上图为例 ,将《人类之子》中的男人换成黄仁勋,保持背景不变。可以看到黄仁勋戴着《人类之子》中的帽子,穿着标志性的皮夹克,视野部分被绿色苹果遮住,完美复刻经典艺术画。

案例13:

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

4、AI虚拟换装

《穿Prada 的女魔头2》正在紧锣密鼓拍摄中,曾经《穿Prada的女魔头》中的女主角安妮.海瑟薇在一天的拍摄中就需要换4套服装,换装速度之频繁令人印象深刻。而现在利用Vidu Q1参考生图,服装模特不到5分钟就可实现迅速换装,对于消费者来说,也可以通过AI换装直观感受试穿效果。

让模特在银白色现代化的室内房间中,分别换上西服、晚礼服、紧身装、休闲运动装,效果非常出片。

案例14:

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

Vidu Q1参考生图也支持同时换装+换场景。比如用AI生成霉霉的结婚现场照。

案例15:

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

万物皆可变:

Vidu Q1参考生图不仅仅能实现替换、合成,而且还可实现线稿转3D、照片转手办、转冰箱贴、线稿上色、老照片修复等酷炫功能。

1、线稿转3D

Vidu Q1参考生图能将复杂的建筑设计图,直接转化为3D立体模型图,建筑细节精准还原,省去复杂的建模流程。

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

2、线稿上色

通过指定建筑物替换成木头材质,并为周围的景观涂色,生成一张上色后的建筑效果图。

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

3、变成冰箱贴

Vidu Q1参考生还可以一张普通的平面照片直接变成立体冰箱贴,真实得如商场售卖的纪念品。

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

4、变身手办

当然最近很火的手办玩法,Vidu Q1参考生图也能稳定发挥,不仅支持二次元转手办,还可以让真人直接变成桌面手办,与真人简直神同步。

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

5、局部放大/缩小

以上述《人类之子》的图片为例,通过提示词图片中的南瓜分别变大1倍、1.5倍。

输出图:

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

变大1倍

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

变大1.5倍

5、特效画面

Vidu 还支持用户解锁特效玩法,让动漫人物自带特效。

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

结合Vidu Q1首尾帧功能,短发女生后面的金色光环自动旋转了起来,效果惊艳,仿佛在召唤某种神秘魔法。

三、从追赶到超越,AI创业公司的进阶之路

作为Vidu首款参考生图产品,Vidu Q1一经推出便实现对谷歌Nano Banana的全面对标,在AI生图这一巨头云集的赛道中展现出中国创业公司的硬核技术实力。

Vidu Q1参考生图的发布,是中国AI多模态领域的一次重要突破。它证明了中国团队不仅能够紧跟国际发展,更能在关键技术上实现差异化创新甚至局部超越。在AI生图走向“生产级”应用的关键节点,Vidu终于为中国公司争得了一席之地。

1、该内容为作者独立观点,不代表电商派观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
相关阅读
7月20日消息,联想官网14周年庆之际,公司宣布官网与百度文心一格展开AIGC领域深度合作,将基于联想官网的私人定制特色业务,推出AI生成图片的外观定制服务。据介绍,与文心一格的合作,是联想以AI跨界的方式,满足用户在AIGC火热应用下内容创作和消费需求,引领AI消费趋势。为庆祝14周年,联想官网还推出多项促销活动和超值福利,如全面升级成14天无理由退换货,购物赢万元旅行基金、学生认证享12期免息、企业用户注册享1600元礼券等。
360集团创始人周鸿祎发布主题为“三六零人工智能总动员”的内部信。
当电商AI化,AI来了。
4月29日消息,抖音的Flow部门上线了一款名为“星绘”的APP,这是一款AI相机类的产品。据悉,星绘提供丰富的AI能力,可以创建处在AI世界的用户,还能够定制多样的分身效果。打开“星绘”APP后,会默认让用户创建一个AI分身,需要上传或拍摄3张头像照片,经过数十分钟分钟的等待后,即可创建出一个基于用户的AI分身。该分身会处在不同的虚拟世界中,比如侏罗纪世界、雪地等,并在每个世界中生成多张不同造型的AI照片。
2月29日消息,据报道,字节跳动正在AI大模型领域秘密研发多个产品,其中包括多模态数字人产品以及AIAI视频产品等。一位知情人士透露,其在去年下半年见到了字节跳动多模态数字人产品的demo,整体感觉还不错。另据了解,字节跳动旗下剪映已在数月前组建封闭团队,秘密研发AI产品。目前,该团队仍处于严格保密阶段,研发的产品还未上线。对此消息,字节跳动方面尚未回应。
2月29日消息,字节跳动概念异动拉升,广集团涨停,广博股份、天龙集团、天娱数科等快速跟涨。消息面上,字节跳动正在AI大模型领域秘密研发多个产品,其中包括多模态数字人产品以及AIAI视频产品等。
2月7日消息,今天早些时候,张楠宣布辞任抖音CEO,并表示未来将把精力聚焦在剪映的发展。不久之后,据报道,张楠给剪映业务也发布了一封内部信。张楠在内部信中透露,2023 年自己就已经更多参与到剪映的业务、战略讨论中,并且“为全力投入准备了很久”。接近剪映的人士透露,过去一年,张楠已经把绝大多数精力倾斜到剪映相关业务,并亲自带队寻求在AI辅助创作有所突破,即将推出一个AI和视频的产品。
8月11日消息,快手生产、社交业务负责人肖新攀日前表示,快手APP、快影、一甜相机正在探索AIAI推荐文案、AI素材、AI照相馆等一系列AIGC功能和效果玩法,近期还将内测AI四格漫画、AI生成影视解说脚本、AI生成商品介绍脚本、AI一键Vlog剪辑等能力。
9月15日消息,快手在短视频评论区开始内测AI功能“快手AI玩评”。用户通过输入各种创意文字,可一键生成海量风格图片,更便捷的在评论区进行趣味互动。