设为首页
收藏本站
请登录
立即注册
论坛首页
BBS
充值赞助
申请提现
提现排行榜
排行榜
Ranklist
友链申请
搜索
本版
文章
帖子
群组
用户
请
登录
后使用快捷导航
没有账号?
立即注册
友情链接
当前位置:
»
论坛首页
›
YOLO图像识别
›
前言资讯
›
语音识别未成熟 亚马逊Alexa通过半监督学习减少误差 ...
收藏
0
回复
语音识别未成熟 亚马逊Alexa通过半监督学习减少误差
IP属地:
香港
76
0
脆脆鲨
2023-9-22 13:16:57
|
显示全部楼层
|
阅读模式
【CNMO新闻】深度神经网络需要时间来进行训练,对于语音识别系统更应如此。传统模型语料库包括数千小时的转录语音片段,因此,亚马逊Alexa部门的科学家正在研究如何加快这一过程。近日,他们报道表示他们取得了重大进展。
Alexa Speech小组的应用科学家Minhua Wu和同事在论文中描述了一种语音识别器,它可以以半监督的方式识别数据模式。他们声称一个实验模型训练了800小时的注释数据和7200小时的未注释数据,与基线相比,该设计使字的错误率降低了20%。
亚马逊Alexa
正如他们解释的那样,自动语音识别系统由三个核心组件组成,分别是声学模型、发音模型和语言模型。声学模型输入短音频样本或帧,并且每帧输出数千概率。在所提出的方法中,声学模型的输出被馈送到发音模型,该发音模型将senone序列转换为可能的单词并将其递送给语言模型,语言模型则负责编码单词序列的概率。最后,所有三个人工智能系统一起在给定音频输入的情况下找到最可能的单词序列。
该论文的作者首先寻求了优化声学模型的最大准确度,并最大限度地减少输出序列的误差。他们报告表示,这使得学生模型的对应物更加准确,并带来了学生模型的相对改进。接下来,他们从音乐、电视和其他媒体收集音频样本并处理它们,以模拟闭室声学,从而为训练数据增加了噪音。对于训练集中的每个语音示例,他们都会随机选择一到三个噪声样本添加到其中。
在测试中,该团队使用了另外两个语料库。一组是干净的音频样本,而另一组样本则是包含噪音的。其中,表现最佳的学生模型首先使用所有添加了噪音的8000小时数据,并根据教师模型的每帧输出进行优化,然后对800小时的注释数据进行训练。相对于使用800小时手工标记的清洁数据训练的教师模型来看,它的清洁测试数据的错误率降低了10%,噪声测试数据降低了29%,重新录制数据错误率降低了20%。该研究计划于2019年春天在布莱顿举行的声学、语音和信号处理国际会议上进行展示。
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
返回列表
发新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
脆脆鲨
管理员
关注
4885
主题
0
粉丝
0
关注
这家伙很懒,什么都没留下!
OCR文字识别工具和文件整合包
2024-8-28
Topaz Video AI v3.4.4 人工智能视频画质增强和修复软件
2024-8-28
VITS_fast_finetune 语音模型一键训练整合包
2024-8-28
Stable Diffusion整合包v4.9发布!解压即用 防爆显存 三分钟入门AI绘画 ☆更新 ☆训练
2024-8-28
Yolo_v8轻量版全套工具及易模块和例子支持CPU CUDA10 11
2024-8-28
发新帖
24小时热帖
Topaz Video AI v3.4.4 人工智能视频画质增
2024-08-28
VITS_fast_finetune 语音模型一键训练整合
2024-08-28
Stable Diffusion整合包v4.9发布!解压即用
2024-08-28
Yolo_v8轻量版全套工具及易模块和例子支持C
2024-08-28
AI再显神通!将大脑信号转为语音 准确率最
2023-09-20
Copyright © 2001-2025
Discuz Team.
Powered by
Discuz!
X3.5
|
网站地图