Jetson 开发系列：离线低延迟的语音解决方案

最新推荐文章于 2025-06-27 09:09:34 发布

原创

最新推荐文章于 2025-06-27 09:09:34 发布 · 2.8k 阅读

·

20

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #物联网

当前市场上有许多智能对话助手，包括ChatGPT、Bing AI Chat等。但无一例外的是，这些产品，都需要您连接互联网。

在边缘设备上部署类似模型，以实现无需联网、低延迟的智能对话助手，这一需求尚未得到充分满足。

最近，正在 Jetson 上探索相关应用，期待在离线和低延迟方面取得一些突破，欢迎感兴趣的朋友一起交流。

昨天把本地大模型部署好了，并实现了 GPU 加速推理：

接下来，妙不可言的部分来了。

语音识别-ASR和语音合成-TTS，也要在边缘设备上完成，一个完全懂你的小助手，应将你的个人隐私牢牢守护。

本次分享，就给大家盘点：几款亲测好用的，ASR和TTS离线部署方案。

1. 离线语音识别ASR

1.1 faster-whisper

Whisper 相信大家都不陌生，由 OpenAI 开发，已经更新到 v3。

faster-whisper 则是用 CTranslate2 重新实现 Whisper，加速比达到4倍，需要的内存更少。

项目地址：https://github.com/SYSTRAN/faster-whisper

为了实现 Jetson GPU 加速推理，首先尝试了 Jetson Containers 提供的镜像，不过构建失败。

参考：https://github.com/dusty-nv/jetson-containers/tree/master/packages/speech/faster-whisper

无奈之下，找到了 faster-whisper-server 这个项目，服务端提供 OpenAI 兼容的 API。

尽管 docker 镜像提供 GPU 支持，但在 Jetson 中用不了，只能选

最低0.47元/天解锁文章

新学期VIP享超值加赠

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

AI码上来 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。