阿里通义首个音频生成模型ThinkSound正式开源
2025-07-05 17:11:19
分享
7月5日消息,阿里“通义大模型”公众号发文宣布,通义实验室首个音频生成模型ThinkSound现已正式开源,将打破“静音画面”的想象力局限。ThinkSound首次将CoT(Chain-of-Thought,思维链)应用到音频生成领域,让AI学会一步步“想清楚”画面事件与声音之间的关系,从而实现高保真、强同步的空间音频生成——不只是“看图配音”,而是真正“听懂画面”。
更加详细情况,请关注本站最新动态。