智能声纹识别系统(开源工具ASV-Subtools)
ASV-Subtools的设计理念在于代码高度复用的同时保持模块分化和开发自由,因此具有高效性、可读性、通用性、灵活性四大特性。使用者可以轻松上手并只需通过简单的编辑配置文件就能探索不同的网络架构,实现最优异的性能。
一、项目分类
关键核心技术突破
二、成果简介
声纹识别是指从说话人的语音信号中提取声纹特征,并通过有效的分类识别模型,对说话人的身份进行校验和鉴别。声纹识别广泛应用于刑侦、人机交互声纹口令验证、银行声纹身份验证等领域。得益于深度学习的发展,声纹识别的性能在不断提升,但落地难度也相应提高。
ASV-Subtools是厦门大学智能语音实验室(XMUSPEECH)于2020年6月推出的一套高效、易于扩展的声纹识别开源工具,该工具是基于Kaldi与Pytorch开发的,充分结合了Kaldi 在语音信号和后端处理的高效性以及PyTorch 开发和训练神经网络的便捷灵活性。自开源以来,ASV-Subtools就以卓越的性能和灵活便捷的框架受到国内外重点科研院所和研发人员的青睐。
ASV-Subtools的设计理念在于代码高度复用的同时保持模块分化和开发自由,因此具有高效性、可读性、通用性、灵活性四大特性。使用者可以轻松上手并只需通过简单的编辑配置文件就能探索不同的网络架构,实现最优异的性能。
相较于语音领域的其他开源工具,ASV-Subtools专注于声纹领域的研究,不仅先后为东方语种、CNSRC等国内外知名竞赛中提供基线系统和技术支持,同时在声纹领域公开的VoxCeleb数据集上也在不断刷新着SOTA的结果。
为了加快声纹产品的落地,厦门大学智能语音实验室(XMUSPEECH)与厦门天聪智能软件有限公司(TalentedSoft)合作,共同为ASV-Subtools的开发与更新做出贡献。目前ASV-Subtools已打通声纹识别从算法研究到产品落地的全流程,技术成熟度已达到可以量产的水平。
GitHub:https://github.com/Snowdar/asv-subtools
厦门大学
2022-07-28