在线工具大全

使用魔搭开发自己的语音AI：从入门到精通

出处： mp.weixin.qq.com 作者：达摩院语音实验室

语音AI是最早从实验室走向应用的AI技术，其发展史就是不断创新、解锁应用的历史，从1995年 Dragon Dictate的桌面孤立词语音识别，到2011年苹果的手机语音助手SIRI，再到当下百花齐放的各种智能语音应用。由于技术的快速进步，以及各大云计算厂商以API形式提供的语音AI能力，目前开发者已能便捷使用语音AI去搭建应用。但API也存在局限性，不少开发者希望获得更多、更底层的把控力，希望对API背后AI模型有更深入的了解；不只是开发应用，还可以开发模型；不只是调用API接口，还可以通过对模型的训练或微调（fine-tuning），以提升实际应用效果。为了让所有满怀创意的开发者实现更高水平的创新，在最近推出的魔搭社区ModelScope上，阿里达摩院首批开源开放了40多个语音AI模型，公有云上广受欢迎的付费模型这次也免费开放。模型背后，我们提供了训练或微调脚本工具链，含盖语音AI各个主要方向。下面，就让我们以语音合成、语音识别、语音信号处理为例，来展示如何玩转魔搭社区的语音AI模型。

阿里巴巴技术

查看原文

227 技术 lddgo 分享于 2022-12-01

简体中文