首页 资讯 民生 科技 财经 汽车 房产 娱乐 文化 能源 公益 时尚 健康 图片

5G

旗下栏目: 滚动 5G 数码 智能 IT 家电

天津大学教授党建武:发布第三代语音评测技术,智言科技领跑语音智能

来源:中国网 作者:复兴网科技 发布时间:2023-05-17
摘要:智言科技第三代语音评测技术,基于端到端神经网络框架,提高了识别鲁棒性,速度快、准确率高,支持多题型评测,助力教育培训考试,服务覆盖数百万用户。

语音测评技术是指利用语音识别和语音分析的技术,从发音本身(发音准确度、音调、重读、连读、语调、韵律等)和语言学特征特征(如词法、语法、句法等)对口语发音进行评价和诊断。中、英文语音评测技术已广泛应用于中、英文听说教学、中高考、社会化考试等各类语言学习考试场景,可以帮助用户提高中英文口语水平和发音能力。

但语音评测技术也面临着一些问题,例如:准确率容易受到说话人的口音、语速、录音环境等因素的影响,不利于正确反馈语音评测效果;离线环境下,语音识别测评对移动端算力和内存要求大;不同年龄、不同的地域对于评分的尺度要求不一样等等……

这些目前语音测评领域里存在的问题,都向研究者提出了一个问题:未来,我们该如何发展人工智能语音评测技术,从而实现语音评测又快、又稳、又准确?智言科技首席科学家党建武以及他带领的团队给出的答案是:智言第三代语音评测技术。

第一代语音测评技术是统计模型,基于GMM-HMM的框架构建声学模型和线性模型来进行打分;第二代是混合统计模型(hybrid models),第二代系统需要构建对齐模型、声学模型、语言模型、评分模型等多个模型,存在多个模型训练难度大、模型之间存在级联错误、鲁棒性差等问题。

基于此,智言科技团队基于端到端神经网络框架构建了智言第三代发音评测技术体系,端到端模型融合对齐模型、声学和语言模型,让模型结构更加统一,更好地适应语音信号的多样性和复杂性,针对不同的口音、语速、噪声环境等,提高了识别的鲁棒性,并充分发挥大规模的数据效果。基于第三代框架技术,智言开发出了评分准、速度快、鲁棒性高的AI语音评测系统。

发展第三代语音评测技术提速语音技术进度条

在党建武教授看来,基于端到端神经网络技术的第三代语音评测技术,会让智言科技在语音智能领域占领高地。

早在一年前,党建武教授就着手带领团队进行第三代语音评测技术的研究。第三代语音评测技术团队依托于天津大学天津市认知计算与应用重点实验室,由天津大学党建武教授领衔,团队的研发人员,80%为硕士和博士学位,先后承担过众多国家级研究项目。

在发音机制及控制的生理计算建模、言语习得、远场语音识别、声纹识别、智能语音交互、机器翻译等智能语音方面成就斐然,多次参与国际大赛表现卓越。在INTERSPEECH 2022和ICASSP 2022等语音国际顶会中,智言科技团队还有20多篇篇语音论文被纳用,科技理论与应用实力名列前茅。

智言第三代语音评测技术就是以端到端神经网络框架为基础,在之前技术的基础上进行了多项创新而研发的。它不仅融合了语言模型,还使用了多任务学习算法,同时对音素和单词建模,从而让测评更准确,性能更稳定。

在离线情况下,端到端框架还将计算内存缩减50%左右,同时将计算速度提升50%,让移动端也能够轻松地支持音标、单词、句子、篇章等全部基础题型。数据增强技术还从噪音、语速、混响、语音振幅和跨信道等多角度将训练集扩充到数万小时,让模型在多变地实际应用场景中也能够发挥稳定的效果,提升模型的鲁棒性。

助力教育培训考试,提供智能语言能力评估

怎样让语音评测技术在多变的实际场景中依然能够发挥稳定的测评效果,使得评测又快又准是语音测评一直在不断追求的目标。目前,由党建武教授带领的智言科技团队就在朝这样的方向探索。经过一年多的试验,发布了基于第三代发音评测技术的评测平台,该平台支持在线和离线调用,支持多题型的评测,如音标、单词、句子、篇章、问答、口语作文、选读等,支持中文和英文两个语种,响应迅速,真正做到快、准、稳。

党建武教授在采访中也提到了未来的发展方向,他认为智言科技第三代语音测评技术已经得到了多个国内外知名教育机构和企业的认可和使用,服务覆盖了数百万用户,并拥有多项国家级专利和奖项,他将与智言科技继续保持紧密合作,共同推动语音测评技术的发展,为教育、培训、考试等场景提供更高效、更客观、更智能的语言能力评估服务。

责任编辑:复兴网科技
关于我们 | 联系我们 | 广告服务 | 法律声明 | 招聘信息 | 网站地图

复兴网版权所有,未经书面授权禁止使用

复兴时报社主办 版权所有:复兴时报社 © 2014-2023 CHINAFXNEWS.com All Rights Reserved.

举报邮箱: chinafxnews@163.com

电脑版 | 移动版