搜索

阿里云智能发布音视频AI通义听悟 6月1日正式公测
2023-06-01 10:35:57
6月1日消息，阿里云智能于今日发布通义听悟，6月1日正式公测。阿里云智能CTO周靖人表示，通义听悟是依托通义千问大模型和音视频AI模型的AI助手，可进行实时语音识别，实现对话的实时记录、多语言翻译、发言总结、提取PPT、内容规整等。
阿里推出“通义听悟高校公益计划”
2024-03-19 11:22:12
3月19日消息，阿里推出“通义听悟高校公益计划”，所有中国大陆高校师生通过教育邮箱认证后，均可直接免费获赠500小时音视频转写时长，存储空间从20G拓展至200G。AI转写可通过语音识别技术将音视频快速转为文本，是许多高校学生日常学习科研的刚需功能。作为国内首个开放公测的大模型产品，去年6月发布以来，通义听悟累计已有上百万用户，活跃用户日均转写音视频3次以上，平台每天处理字符数约20亿字。
阿里巴巴联合中科院研发AI“听音识人”
2021-03-25 09:36:06
通过训练AI模型，研究表情和声音的关系。给定一段声音和仅有一张正确人脸的若干张图片，AI将为该声音找到“主人”。在“1对N”的匹配实验中，AI还能对声音归属人脸的“可能性”进行排序。据介绍，在语音识别方面，达摩院提出SAN-M网络结构及基于SCAMA的流式端到端语音识别框架，提升计算效率的同时，还将高难度场景中的语音识别错误率降低近三成。
阿里达摩院发布超大规模语言模型PLUG
2021-04-19 12:00:16
4月19日消息，阿里巴巴达摩院今日发布超大规模语言模型PLUG，该模型参数规模达270亿，是目前全球规模最大的中文纯文本预训练语言模型。通过训练AI模型，研究表情和声音的关系。给定一段声音和仅有一张正确人脸的若干张图片，AI将为该声音找到“主人”。据介绍，在语音识别方面，达摩院提出SAN-M网络结构及基于SCAMA的流式端到端语音识别框架，提升计算效率的同时，还将高难度场景中的语音识别错误率降低近三成。
美团“智能头盔”外观专利获授权
2022-01-14 15:50:25
1月14日消息，天眼查信息显示，美团关联公司北京三快在线科技有限公司于1月14日获得3项“智能头盔”外观专利授权，授权公告号分别为CN307063245S、CN307063244S、CN307063246S，申请日均为2021年8月13日。值得一提的是，近日，饿了么在上海等城市试点智能头盔，计划今年在全国发放超10万顶。为了提升语音识别的准确度，智能头盔搭载了独立降噪控制芯片，降低环境噪音后可以使语音识别更为精准。除了普通话外，智能头盔还能够识别如东北话、广东话等多种方言。
亚马逊设立10亿美元基金支持供应链和物流技术
2022-04-22 08:50:26
4月22日消息，据报道，亚马逊设立一个规模为10亿美元的基金，为供应链和物流技术提供支持。据悉，该基金名为亚马逊产业创新基金，专注于新技术开发，这些新技术可以提高配送速度，改善仓库和物流员工的体验。一些创业公司得到了新基金的支持，比如Modjoul，它开发穿戴安全技术，可以通过发出警报、提供建议保护用户，防止身体受伤。该公司还设立了Alex Fund，支持语音识别及其它技术。
抖音上线2022世界杯“无障碍字幕直播间”
2022-11-22 17:47:07
11月22日消息，在今年世界杯期间，抖音上线了无障碍直播间。用户观看赛事直播时选择“无障碍字幕”，即可通过文字实时了解比赛解说。该功能由火山同传提供技术支持，据介绍，火山同传是火山翻译旗下的AI同传产品，可以实时进行多种语言的语音识别和转写，输出同传字幕。在这30秒中，翻译人员会对AI字幕进行二次校对审核，在低延时的条件下输出更精准的字幕。此外，针对本次世界杯赛事，火山同传还优化了字幕样式。
平安健康“一分钟诊所”获得日本优良设计奖
2023-11-28 17:01:51
11月28日消息，平安健康近日获得了素有“东方设计奥斯卡奖”之称的日本优良设计奖，获奖作品“一分钟诊所”是其自主研发的国内首个商业化运营的医疗健康智能终端。它占地不到3平方米，由智能药柜和独立问诊室两部分组成，通过Al辅助诊疗系统和医疗领域语音识别技术，远程链接了平安健康22个科室近5万名内外部医生团队、健身教练、营养师和心理咨询师，实现线上问诊、开方、购药等一站式服务。
字节旗下大模型豆包App总下载量破亿
2024-05-15 10:42:59
5月15日消息，火山引擎主办的FORCE原动力大会在京举行。会上发布的数据显示，截至目前，字节跳动旗下大模型豆包App目前总下载量已经突破1亿，双端月活跃用户突破2600万，智能体创建总数800万。会上，字节豆包大模型正式开启对外服务，据悉，豆包大模型包含豆包通用模型Pro、豆包通用模型liti、豆包·角色扮演模型、豆包·语音合成模型、豆包·声音复刻模型、豆包·语音识别模型、豆包·文生图模型、豆包·Function Call模型。
小米小爱语音App下线天津话等4项方言识别能力
2023-02-01 17:45:17
小米的小爱语音App近期迎来了6.2.3.3519更新。更新内容包括：下线方言识别中河北话等4项识别能力，另外优化了若干已知问题。
小米小爱语音App下线山东话（济南）等4项方言识别能力
2023-02-01 16:58:28
2月1日消息，据网友反馈，近期小米的小爱语音App迎来了6.2.3.3519更新，其中下线了方言识别中河北话、山东话、山西话（太原）、天津话4项识别能力，另外优化了若干已知问题。
支付宝小程序云推出3大功能支持识别文字、图片、情绪
2023-11-01 12:00:33
新功能包括：文字识别，支持快速识别照片录入文字；视觉智能，支持自动检测和识别图片违规与否；自然语言处理，支持理解和分析用户发的语音、文字、图片。
携程关联公司公开“外呼场景下的分机识别方法”专利
2021-04-09 10:35:53
4月9日消息，天眼查资料显示，携程关联公司携程计算机技术有限公司4月9日公开一项“外呼场景下的分机识别方法、系统、设备及存储介质”专利，公开号为CN112637432A，申请日期为2020年12月22日。本申请提高了语音机器人对接酒店等外呼对象的效率以及外呼接通率。股权穿透图显示，携程计算机技术（上海）有限公司由携程投资（上海）有限公司100%全资持股，认缴金额800万美元。
支付宝小程序云上线“云AI”
2023-11-01 15:51:39
11月1日消息，支付宝小程序云服务又升级了，全新推出文字识别、智能视觉和自然语言处理等3项智能应用功能。同时开放丰富的“自然语言处理”能力，提供对于文本、语音中意义和情感的挖掘理解，助力小程序智能升级，并为企业提供有价值的市场和产品策略分析。
嘀嗒出行上线全新“顺风车驾驶安全智能管家”
2024-08-06 09:31:53
“顺风车驾驶安全智能管家”基于手机传感器等一系列特征信息，设计专属识别算法模型，目前已可实现对车主超速、急加速、急减速、打电话、玩手机等五大危险及分心驾驶行为的主动实时识别，并通过行中实时语音提醒、行后驾驶行为报告、行为分扣减及封禁等阶梯式管控手段，来有效提升车主驾驶安全意识，改善驾驶习惯。
阿里达摩院“字幕机顶盒”入驻聋人家庭及社区
2021-02-20 12:58:44
2月20日消息，春节前夕，首批由中国聋人协会指导研发、阿里巴巴达摩院免费提供精准语音技术及算力的字幕机顶盒，入驻全国上百个聋人家庭及社区。同时，第三方评测显示，达摩院语音AI对新闻节目识别准确率高达，在同类技术中处于领先水平。阿里巴巴达摩院语音实验室负责人鄢志杰表示，达摩院将持续输出最先进的语音技术帮助听障群体消除与外部世界的信息鸿沟，为他们实现无障碍沟通、生活、工作提供长期公益支持。
小米汽车正式接入VLM视觉语言大模型
2024-12-23 17:37:30
12月23日消息，小米汽车宣布，小米SU7 1.4.5 OTA已开始推送，共13项新增功能，26项体验优化。本次更新正式接入VLM视觉语言大模型，系统可识别复杂道路环境和特殊交通规则区域，并通过文字和语音提示。此外，充电地图升级，与蔚来、小鹏、理想达成充电补能网络合作。
阿里达摩院新专利可提升声纹特征提取准确性
2023-06-13 10:38:10
6月13日消息，天眼查APP显示，近日，阿里巴巴达摩院科技有限公司“声纹特征提取方法、说话人识别方法、模型训练方法及装置”专利公开。专利摘要显示，主要技术方案包括：获取包含语音的音频段；提取音频段的频谱特征输入声纹提取模型。本申请能够提升声纹特征提取的准确性。
阿里云推出全新人工智能会议助理“听悟”
2021-10-21 17:44:44
10月21日消息，阿里云今日于云栖大会上展示全新人工智能会议助理“听悟”，同时发布云电脑的升级性能，以满足市场对自动化办公系统的需求。据了解，“听悟”由阿里巴巴旗下达摩院语音实验室研发，能将会议的语音内容实时转化为书面会议纪录，普通话识别准确率高达98%，有效提升了会议内容整理效率。
百度“盲人导航眼镜”专利获授权
2023-05-09 14:02:38
5月9日消息，天眼查App显示，5月9日，北京百度网讯科技有限公司申请的“盲人导航眼镜”外观设计专利获授权。摘要显示，本外观设计产品用于为盲人用户的出行进行导航，并且可以用于接收用户语音指令、识别路线上的障碍物以及为用户提供语音导航信息和避障提示信息。专利图片显示，该导航眼镜前面以及左右两边疑似均设有摄像头。