EMO来了!通义APP推出照片唱歌功能

电商报
2024-04-25 17:26

把一段音频、一张照片输入AI模型,就能让图中人物开口唱歌说话,让奥黛丽赫本唱《上春山》、陶俑仕女说英文RAP、爱因斯坦说中文段子。不久前,这款名为EMO的模型因为阿里通义实验室的一篇论文火遍海内外,模型的产品化进程也广受关注。4月25日,EMO终于上线通义APP,开放给所有用户免费使用。

打开通义APP,进入“全民舞台”频道,就可来到EMO产品页面“全民唱演”。在歌曲、热梗、表情包中任选一款模板,上传肖像照片,EMO随即就能合成视频。

format-jpg

通义APP首批上线了80多个EMO模板,包括热门歌曲《上春山》《野狼disco》等,网络热梗“钵钵鸡”“回手掏”等。目前通义APP暂不开放用户自定义音频,用户只能选择APP预置的音频来生成视频。

EMO是通义实验室研发的AI模型,其背后的肖像说话(Talking Head)技术是当前大热的AIGC领域。EMO之前的Talking Head技术都需针对人脸、人头或者身体部分做3D建模,通义实验室在业界率先提出了弱控制设计,无需建模就可驱动肖像开口说话,不仅降低视频生成成本,还大幅提升了视频生成质量。EMO学习并编码了人类表达情绪的能力,能将音频内容和人物的表情、嘴型匹配,还能把音频的语气特征和情绪色彩反映到人物微表情上。

2月底,通义实验室公布相关论文,EMO随之成为继SORA之后最受关注的AI模型之一。现在,通义APP让所有人都可免费体验前沿模型的创造力。未来,EMO技术有望应用于数字人、数字教育、影视制作、虚拟陪伴、电商直播等场景。

通义APP近期爆款频出,现象级应用“全民舞王”曾在社交平台掀起“兵马俑跳科目三”“金毛跳舞”的热潮,全民舞王背后的模型Animate Anyone也出自通义实验室。近期,通义APP还陆续推出了超长文档解析、AI编码助手、AI会议助手等免费实用功能。通义大模型正在成为越来越多用户的超级AI助手。

1、该内容为作者独立观点,不代表电商派观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
相关阅读
11月14日消息,阿里巴巴旗下的人工智能应用“通义APP迎来了重大的品牌升级,正式更名为 “千问”。伴随着此次更名,软件版本号从3.60.0直接升级至5.0.0,目前“千问”APP已正式登陆苹果App Store和各大安卓应用商店。就在昨天,有消息称阿里巴巴秘密启动了“千问”项目,基于其最强的Qwen大模型打造同名个人AI助手,目标是全面对标ChatGPT,加入全球AI应用的顶级竞赛。
1月2日消息,阿里巴巴日前发布2024年度AI答卷显示,今年淘宝上线的AI产品“生意管家”已累计服务400万商家,帮助中小商家生成超1亿件商品及营销素材。阿里国际站推出的“Al生意助手”全球已有超过6万中小企业使用,发布的商品规模已达700万。阿里巴巴还披露了通义APP的最新进展。目前,全球开发者基于不断迭代的Qwen系列模型二次开发的衍生模型已经超过8万个。
11月21日消息,2024年世界互联网大会“互联网企业家论坛”在浙江乌镇召开。阿里巴巴CEO吴泳铭在发言中表示,AI最大的价值绝不仅仅是在手机上做出一两个超级App,而是推动各行各业的生产力变革。发展AI需要建设繁荣的技术、产品和市场生态。目前,30多万家企业已经接入阿里“通义”大模型,用AI重构代码开发、药物研发、太空探索、生产制造等业务场景。
3月2日消息,阿里巴巴AI的总称和核心品牌统一为千问,千问大模型(Qwen)涵盖基础大模型与专业领域模型,千问APP是我们在C端的旗舰AI应用。统一名称之后,阿里巴巴大模型品牌中文为“千问大模型”,英文为“Qwen”,“通义实验室”为阿里巴巴集团旗下AI机构的组织名称。
4月10日消息,从国家网信办官网获悉,为促进生成式人工智能服务创新发展和规范应用,网信部门会同相关部门按照《生成式人工智能服务管理暂行办法》要求,有序开展生成式人工智能服务备案工作,目前已有117个大模型完成这项工作。从公开信息可以看到,完成生成式人工智能服务备案的大模型包括中国移动九天、百度文心一言、阿里巴巴通义千问、华为云盘古、腾讯混元助手、OPPO安第斯、vivo蓝心等。
4月1日消息,阿里巴巴通义实验室宣布发布CoPaw 1.0新版本,围绕四大方面升级CoPaw的能力:为CoPaw量身定制的小模型、安全机制、多智能体协同、以及记忆管理。
9月12日消息,阿里巴巴通义千问发布下一代基础模型架构Qwen3-Next,并开源了基于该架构的Qwen3-Next-80B-A3B系列模型。该结构相比Qwen3的MoE模型结构,进行了以下核心改进:混合注意力机制、高稀疏度MoE结构、一系列训练稳定友好的优化,以及提升推理效率的多token预测机制。
7月22日消息,阿里巴巴通义千问更新旗舰版Qwen3模型,推出Qwen3-235B-A22B-FP8非思考模式 的更新版本。新的Qwen3模型通用能力明显提升,包括指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等方面,在GQPA(知识)、AIME25(数学)、LiveCodeBench(编程)、Arena-Hard、BFCL等众多测评中表现出色,超过Kimi-K2、DeepSeek-V3等顶级开源模型以及Claude-Opus4-Non-thinking等领先闭源模型。
6月17日消息,阿里巴巴通义千问推出基于苹果MLX框架深度优化的全部Qwen3系列模型。团队将一次性开源32款官方Qwen3 MLX模型,从而实现Mac Pro、Mac Studio、Mac mini、MacBook、iPad和iPhone均可部署Qwen3。
据知情人士透露,阿里巴巴通义实验室应用视觉团队负责人薄列峰已于4月30日低调离职。