首页
快讯
观察
Toggle theme
字节跳动辟谣推出中文版Sora
2024-02-20 10:47:23
2月20日消息,今日有消息称,在Sora引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型—Boximator。与Gen-2、Pink1.0等模型不同的是,Boximator可以通过
文本
精准控制生成视频中人物或物体的动作。对此,字节跳动相关人士回应称,Boximator是视频生成领域控制对象运动的技术
方法
研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。
饿了么即将上线“在线语音转文字”功能
2024-03-06 14:55:27
3月6日消息,饿了么即将上线在线语音转文字功能,将在线聊天中语音消息实时转化为
文本
,帮助无声骑士及时“听到”商家和顾客的需求。为了帮助无声骑士表达更礼貌、更有温度,饿了么上线电子沟通卡,针对普通送达、超时送达、问路、取餐等不同场景,无声骑士可以向商家、路人、顾客直接面对面文字展示或语音播放设置内容。
阿里推出“通义听悟高校公益计划”
2024-03-19 11:22:12
3月19日消息,阿里推出“通义听悟高校公益计划”,所有中国大陆高校师生通过教育邮箱认证后,均可直接免费获赠500小时音视频转写时长,存储空间从20G拓展至200G。AI转写可通过语音识别技术将音视频快速转为
文本
,是许多高校学生日常学习科研的刚需功能。作为国内首个开放公测的大模型产品,去年6月发布以来,通义听悟累计已有上百万用户,活跃用户日均转写音视频3次以上,平台每天处理字符数约20亿字。
库克:苹果的生成式AI将在今年晚些时候宣布
2024-03-20 15:49:59
3月20日消息,苹果公司CEO蒂姆·库克今日现身上海。当被问及“iPhone在AI上有何进展时”,库克表示,AI已经运用在了苹果产品的各方面,例如Apple Watch的摔倒检测以及iPhone的预测性
文本
输入等功能,都是由AI来完成驱动的。这也是其首度在中国谈及AI话题。库克同时重申,“苹果的生成式AI,在今年晚些时候会有新闻宣布。”
钉钉AI助理升级 加入多模态、工作流等能力
2024-03-28 14:17:58
3月28日消息,钉钉AI助理升级,上线图片理解、文档速读、工作流等产品能力,率先探索多模态、长
文本
与RPA技术在AI应用的落地。基于阿里通义千问大模型,升级后的钉钉 AI 助理拥有更强的视觉推理能力和长
文本
速读能力,甚至可以通过多轮交互进一步做智能问答。
阿里通义千问2.5大模型发布
2024-05-09 10:16:42
5月9日消息,通义千问2.5大模型今日发布。阿里云智能集团首席技术官周靖人称,在中文语境下,
文本
理解、
文本
生成、知识问答&生活建议、闲聊&对话,和安全风险等多项能力上赶超GPT-4。
阿里云:通义千问GPT-4级主力模型降价97%
2024-05-21 10:38:00
5月21日消息,阿里云宣布,通义千问GPT-4级主力模型Qwen-Long,API输入价格从0.02元/千tokens降至0.0005元/千tokens,直降97%,1块钱可以买200万tokens。据介绍,这款模型最高支持1千万tokens长
文本
输入,降价后约为GPT-4价格的1/400。
快手可灵大模型发布图生视频及视频续写功能
2024-06-21 15:36:13
6月21日消息,快手视频生成大模型“可灵”再度进化,正式推出图生视频功能,支持将任意静态图像转化为生动的5s精彩视频,搭配创作者输入的不同
文本
,可生成多种多样的运动效果。可灵还同步发布了业内领先的视频续写功能,支持对已生成的视频一键续写和连续多次续写,单次可让视频延续约5秒,最长可生成约3分钟视频。
快手可灵大模型可续写生成最长约3分钟视频
2024-06-23 10:59:17
6月23日消息,快手的视频生成大模型“可灵”近日正式推出图生视频功能,支持用任意静态图像生成5s视频,并且可搭配不同的
文本
内容,实现丰富的视觉叙事 。同时,可灵还发布了业内领先的视频续写功能,可为已生成的视频(含文生视频及图生视频)提供便捷的一键续写和连续多次续写,将视频最长可延伸至约3分钟,充分显示了可灵强大的想象力与精细的可控性,极大地拓展了视频大模型的创作边界。
阿里通义开源音频语言模型Qwen2-Audio
2024-08-13 11:17:32
8月13日消息,阿里通义大模型继续开源,Qwen2系列开源家族新增音频语言模型Qwen2-Audio。Qwen2-Audio可以不需
文本
输入,直接进行语音问答,理解并分析用户输入的音频信号,包括人声、自然音、音乐等。该模型在多个权威测评中都显著超越先前的最佳模型。通义团队还同步推出了一套全新的音频理解模型测评基准,相关论文已入选本周正在举办的国际顶会ACL 2024。
百度宣布文心一言APP正式升级为文小言
2024-09-04 09:17:32
9月4日消息,百度官宣文心一言APP正式升级为文小言,定位百度旗下“新搜索”智能助手。文小言推出了富媒体搜索、多模态输入、
文本
与图片创作、高拟真数字人等“新搜索”能力,同时首发记忆和自由订阅等功能。此外,文小言即日起将免费开放文心4.0大模型能力,所有用户整个九月均可免费使用。
快手可灵AI面向全球发布1.5模型
2024-09-19 17:17:17
9月19日消息,可灵AI面向全球发布升级,视频生成新增可灵1.5模型,在画面质量、动态质量、
文本
响应度等方面均有大幅提升。同时,可灵AI还引入了全新的“运动笔刷”功能,进一步提升视频生成的精准控制能力。据介绍,自今年6月发布以来,这已经是可灵AI累计第9次迭代,目前已有超260万人使用过可灵AI,并累计生成超2700万个视频、5300万张图片。
阿里AI To C开放数百AI招聘岗位
2025-02-19 11:23:08
2月19日消息,阿里AI To C业务近期开启大规模人员招聘,开放招聘岗位达到数百个,集中在AI大模型相关的产品、技术研发岗位,主要方向包含
文本
、多模态大模型、AI Agent等前沿技术与应用。
通义千问全模态模型Qwen2.5-Omni开源
2025-03-27 09:22:23
3月27日消息,通义千问发布并开源首个端到端全模态大模型通义千问Qwen2.5-Omni-7B,可同时处理
文本
、图像、音频和视频等多种输入,并实时生成
文本
与自然语音合成输出。在权威的多模态融合任务OmniBench等测评中,Qwen2.5-Omni刷新业界纪录,全维度远超Google的Gemini-1.5-Pro等同类模型。
李彦宏:DeepSeek不是万能的,多模态才是未来基础模型的标配
2025-04-26 11:44:46
4月26日消息,Create2025百度AI开发者大会日前在武汉举办,百度创始人李彦宏发表了题为《模型的世界 应用的天下》的演讲。谈到DeepSeek,李彦宏称,百度各个业务线第一时间接入了DeepSeek,但DeepSeek也不是万能的,它只能处理单一的
文本
,还不能理解声音、图片、视频等多媒体内容,同时幻觉率比较高,很多场合不能放心使用。“它最大的问题是慢和贵,中国市场上绝大多数大模型API的价格都更低,而且反应速度更快。”
Shopify推出新AI工具 商家凭关键词即可搭建完整在线商店
2025-05-22 09:57:35
5月22日消息,Shopify周三推出一项生成式人工智能功能,允许其电子商务平台上的商家通过输入描述性关键词来搭建在线商店。这款 “AI 商店构建器” 可根据关键词生成三种商店布局,包含完整的图片和
文本
内容,帮助卖家大幅减少设计商店网站所需的时间和资源。
Shopify Shop应用支持购买订阅产品
2025-06-04 14:53:39
6月4日消息, Shopify宣布,自6月23日起,客户可直接在Shop应用中查看并购买订阅产品,商家可以在后台的订阅设置中管理相关功能。对于多变体产品,更新后的Shop应用可支持基于颜色和
文本
的变体选项展示,有助于更全面地展示商品。
自如等8家公司被纳入北京首批押金托管企业名单
2021-03-01 21:07:29
据介绍,按照规定,自3月1日起,企业向承租人收取的押金应当通过北京房地产中介行业协会建立的专用账户托管,且收取的押金数额不得超过1个月租金。北京房地产中介行业协会会长李文杰表示,此次公布的8家企业,均积极落实主管部门发布的新规,率先使用本市住房租赁合同示范
文本
,同时严格落实租金托管等监管措施。下一步,协会作为行业自律组织,将进一步引导企业严格落实各项政策要求、依法依规诚信经营。
阿里联合清华大学发布中文多模态预训练AI模型M6
2021-03-03 10:06:52
3月3日消息,阿里巴巴与清华大学联合发布中文多模态预训练AI模型M6。据介绍,预训练语言模型是让AI具备认知能力的关键技术,此次发布的M6模型参数规模达到1000亿,其理解和生成能力超越传统AI。《电商报》获悉,日前,阿里巴巴还与智源研究院、清华大学等联合研究团队发布面向认知的超大规模新型预训练模型“文汇”。该模型能提升AI的理解能力,还可基于常识实现AI创作,未来将应用于
文本
理解、人机交互、视觉问答等场景。
携程关联公司公开“语音通话的质检
方法
、系统”专利
2021-03-17 10:26:09
3月17日消息,天眼查资料显示,携程关联公司携程计算机技术 有限公司3月16日公开一项“语音通话的质检
方法
、系统、设备及存储介质”专利,公开号为CN112509582A,申请日期为2020年11月24日。本发明通过在语音识别架构中引入了异步带同步的QMQ机制确保了语音通话数据获得过程的稳定性,并通过对语音通话数据进行自动语音识别处理得到对应的转写
文本
,基于转写
文本
完成质检处理,从而解决了语音通话质检效率较低、实时性不够和成本较高的问题。
‹‹
‹
1
2
3
4
5
›
››