当前市场上有许多智能对话助手,包括ChatGPT、Bing AI Chat等。但无一例外的是,这些产品,都需要您连接互联网。
在边缘设备上部署类似模型,以实现无需联网、低延迟的智能对话助手,这一需求尚未得到充分满足。
最近,正在 Jetson 上探索相关应用,期待在离线和低延迟方面取得一些突破,欢迎感兴趣的朋友一起交流。
昨天把本地大模型部署好了,并实现了 GPU 加速推理:
接下来,妙不可言的部分来了。
语音识别-ASR和语音合成-TTS,也要在边缘设备上完成,一个完全懂你的小助手,应将你的个人隐私牢牢守护。
本次分享,就给大家盘点:几款亲测好用的,ASR和TTS离线部署方案。
1. 离线语音识别ASR
1.1 faster-whisper
Whisper 相信大家都不陌生,由 OpenAI 开发,已经更新到 v3。
faster-whisper 则是用 CTranslate2 重新实现 Whisper,加速比达到4倍,需要的内存更少。
项目地址:https://github.com/SYSTRAN/faster-whisper
为了实现 Jetson GPU 加速推理,首先尝试了 Jetson Containers 提供的镜像,不过构建失败。
无奈之下,找到了 faster-whisper-server 这个项目,服务端提供 OpenAI 兼容的 API。
尽管 docker 镜像提供 GPU 支持,但在 Jetson 中用不了,只能选