首页
快讯
观察
Toggle theme
阿里云智能发布音视频AI通义听悟 6月1日正式公测
2023-06-01 10:35:57
6月1日消息,阿里云智能于今日发布通义听悟,6月1日正式公测。阿里云智能CTO周靖人表示,通义听悟是依托通义千问大模型和音视频AI模型的AI助手,可进行实时
语音
识别
,实现对话的实时记录、多
语言
翻译、发言总结、提取PPT、内容规整等。
阿里推出“通义听悟高校公益计划”
2024-03-19 11:22:12
3月19日消息,阿里推出“通义听悟高校公益计划”,所有中国大陆高校师生通过教育邮箱认证后,均可直接免费获赠500小时音视频转写时长,存储空间从20G拓展至200G。AI转写可通过
语音
识别
技术将音视频快速转为文本,是许多高校学生日常学习科研的刚需功能。作为国内首个开放公测的大模型产品,去年6月发布以来,通义听悟累计已有上百万用户,活跃用户日均转写音视频3次以上,平台每天处理字符数约20亿字。
阿里巴巴联合中科院研发AI“听音识人”
2021-03-25 09:36:06
通过训练AI模型,研究表情和声音的关系。给定一段声音和仅有一张正确人脸的若干张图片,AI将为该声音找到“主人”。在“1对N”的匹配实验中,AI还能对声音归属人脸的“可能性”进行排序。据介绍,在
语音
识别
方面,达摩院提出SAN-M网络结构及基于SCAMA的流式端到端
语音
识别
框架,提升计算效率的同时,还将高难度场景中的
语音
识别
错误率降低近三成。
阿里达摩院发布超大规模
语言
模型PLUG
2021-04-19 12:00:16
4月19日消息,阿里巴巴达摩院今日发布超大规模
语言
模型PLUG,该模型参数规模达270亿,是目前全球规模最大的中文纯文本预训练
语言
模型。通过训练AI模型,研究表情和声音的关系。给定一段声音和仅有一张正确人脸的若干张图片,AI将为该声音找到“主人”。据介绍,在
语音
识别
方面,达摩院提出SAN-M网络结构及基于SCAMA的流式端到端
语音
识别
框架,提升计算效率的同时,还将高难度场景中的
语音
识别
错误率降低近三成。
美团“智能头盔”外观专利获授权
2022-01-14 15:50:25
1月14日消息,天眼查信息显示,美团关联公司北京三快在线科技有限公司于1月14日获得3项“智能头盔”外观专利授权,授权公告号分别为CN307063245S、CN307063244S、CN307063246S,申请日均为2021年8月13日。值得一提的是,近日,饿了么在上海等城市试点智能头盔,计划今年在全国发放超10万顶。为了提升
语音
识别
的准确度,智能头盔搭载了独立降噪控制芯片,降低环境噪音后可以使
语音
识别
更为精准。除了普通话外,智能头盔还能够
识别
如东北话、广东话等多种方言。
亚马逊设立10亿美元基金 支持供应链和物流技术
2022-04-22 08:50:26
4月22日消息,据报道,亚马逊设立一个规模为10亿美元的基金,为供应链和物流技术提供支持。据悉,该基金名为亚马逊产业创新基金,专注于新技术开发,这些新技术可以提高配送速度,改善仓库和物流员工的体验。一些创业公司得到了新基金的支持,比如Modjoul,它开发穿戴安全技术,可以通过发出警报、提供建议保护用户,防止身体受伤。该公司还设立了Alex Fund,支持
语音
识别
及其它技术。
抖音上线2022世界杯“无障碍字幕直播间”
2022-11-22 17:47:07
11月22日消息,在今年世界杯期间,抖音上线了无障碍直播间。用户观看赛事直播时选择“无障碍字幕”,即可通过文字实时了解比赛解说。该功能由火山同传提供技术支持,据介绍,火山同传是火山翻译旗下的AI同传产品,可以实时进行多种语言的
语音
识别
和转写,输出同传字幕。在这30秒中,翻译人员会对AI字幕进行二次校对审核,在低延时的条件下输出更精准的字幕。此外,针对本次世界杯赛事,火山同传还优化了字幕样式。
平安健康“一分钟诊所”获得日本优良设计奖
2023-11-28 17:01:51
11月28日消息,平安健康近日获得了素有“东方设计奥斯卡奖”之称的日本优良设计奖 ,获奖作品“一分钟诊所”是其自主研发的国内首个商业化运营的医疗健康智能终端。它占地不到3平方米,由智能药柜和独立问诊室两部分组成,通过Al辅助诊疗系统和医疗领域
语音
识别
技术,远程链接了平安健康22个科室近5万名内外部医生团队、健身教练、营养师和心理咨询师,实现线上问诊、开方、购药等一站式服务。
字节旗下大模型豆包App总下载量破亿
2024-05-15 10:42:59
5月15日消息,火山引擎主办的FORCE原动力大会在京举行。会上发布的数据显示,截至目前,字节跳动旗下大模型豆包App目前总下载量已经突破1亿,双端月活跃用户突破2600万,智能体创建总数800万。会上,字节豆包大模型正式开启对外服务,据悉,豆包大模型包含豆包通用模型Pro、豆包通用模型liti、豆包·角色扮演模型、豆包·
语音
合成模型、豆包·声音复刻模型、豆包·
语音
识别
模型、豆包·文生图模型、豆包·Function Call模型。
小米小爱
语音
App下线天津话等4项方言
识别
能力
2023-02-01 17:45:17
小米的小爱
语音
App近期迎来了6.2.3.3519更新。更新内容包括:下线方言
识别
中河北话等4项
识别
能力,另外优化了若干已知问题。
小米小爱
语音
App下线山东话(济南)等4项方言
识别
能力
2023-02-01 16:58:28
2月1日消息,据网友反馈,近期小米的小爱
语音
App迎来了6.2.3.3519更新,其中下线了方言
识别
中河北话、山东话 、山西话 (太原)、天津话4项
识别
能力,另外优化了若干已知问题。
支付宝小程序云推出3大功能 支持
识别
文字、图片、情绪
2023-11-01 12:00:33
新功能包括:文字
识别
,支持快速
识别
照片录入文字;视觉智能,支持自动检测和
识别
图片违规与否;自然语言处理,支持理解和分析用户发的
语音
、文字、图片。
携程关联公司公开“外呼场景下的分机
识别
方法”专利
2021-04-09 10:35:53
4月9日消息,天眼查资料显示,携程关联公司携程计算机技术 有限公司4月9日公开一项“外呼场景下的分机
识别
方法、系统、设备及存储介质”专利,公开号为CN112637432A,申请日期为2020年12月22日。本申请提高了
语音
机器人对接酒店等外呼对象的效率以及外呼接通率。股权穿透图显示,携程计算机技术(上海)有限公司由携程投资(上海)有限公司100%全资持股,认缴金额800万美元。
支付宝小程序云上线“云AI”
2023-11-01 15:51:39
11月1日消息,支付宝小程序云服务又升级了,全新推出文字
识别
、智能视觉和自然语言处理等3项智能应用功能。同时开放丰富的“自然语言处理”能力,提供对于文本、
语音
中意义和情感的挖掘理解,助力小程序智能升级,并为企业提供有价值的市场和产品策略分析。
嘀嗒出行上线全新“顺风车驾驶安全智能管家”
2024-08-06 09:31:53
“顺风车驾驶安全智能管家”基于手机传感器等一系列特征信息,设计专属
识别
算法模型,目前已可实现对车主超速、急加速、急减速、打电话、玩手机等五大危险及分心驾驶行为的主动实时
识别
,并通过行中实时
语音
提醒、行后驾驶行为报告、行为分扣减及封禁等阶梯式管控手段,来有效提升车主驾驶安全意识,改善驾驶习惯。
阿里达摩院“字幕机顶盒”入驻聋人家庭及社区
2021-02-20 12:58:44
2月20日消息,春节前夕,首批由中国聋人协会指导研发、阿里巴巴达摩院免费提供精准
语音
技术及算力的字幕机顶盒,入驻全国上百个聋人家庭及社区。同时,第三方评测显示,达摩院
语音
AI对新闻节目
识别
准确率高达,在同类技术中处于领先水平。阿里巴巴达摩院
语音
实验室负责人鄢志杰表示,达摩院将持续输出最先进的
语音
技术帮助听障群体消除与外部世界的信息鸿沟,为他们实现无障碍沟通、生活、工作提供长期公益支持。
小米汽车正式接入VLM视觉
语言
大模型
2024-12-23 17:37:30
12月23日消息,小米汽车宣布,小米SU7 1.4.5 OTA已开始推送,共13项新增功能,26项体验优化。本次更新正式接入VLM视觉
语言
大模型,系统可
识别
复杂道路环境和特殊交通规则区域,并通过文字和
语音
提示。此外,充电地图升级,与蔚来、小鹏、理想达成充电补能网络合作。
阿里达摩院新专利可提升声纹特征提取准确性
2023-06-13 10:38:10
6月13日消息,天眼查APP显示,近日,阿里巴巴达摩院 科技有限公司“声纹特征提取方法、说话人
识别
方法、模型训练方法及装置”专利公开。专利摘要显示,主要技术方案包括:获取包含
语音
的音频段;提取音频段的频谱特征输入声纹提取模型。本申请能够提升声纹特征提取的准确性。
阿里云推出全新人工智能会议助理“听悟”
2021-10-21 17:44:44
10月21日消息,阿里云今日于云栖大会上展示全新人工智能会议助理“听悟”,同时发布云电脑的升级性能,以满足市场对自动化办公系统的需求。据了解,“听悟”由阿里巴巴旗下达摩院
语音
实验室研发,能将会议的
语音
内容实时转化为书面会议纪录,普通话
识别
准确率高达98%,有效提升了会议内容整理效率。
百度“盲人导航眼镜”专利获授权
2023-05-09 14:02:38
5月9日消息,天眼查App显示,5月9日,北京百度网讯科技有限公司申请的“盲人导航眼镜”外观设计专利获授权。摘要显示,本外观设计产品用于为盲人用户的出行进行导航,并且可以用于接收用户语音指令、
识别
路线上的障碍物以及为用户提供
语音
导航信息和避障提示信息。专利图片显示,该导航眼镜前面以及左右两边疑似均设有摄像头。
‹‹
‹
1
2
3
›
››