funasr 实时语音本地部署
时间: 2025-05-11 19:21:51 浏览: 202
### FunASR 实时语音识别本地部署教程
#### 1. 软件概述
FunASR 是一款由阿里巴巴达摩院开发的实时语音识别工具,支持本地和云端部署。其核心组件包括 Paraformer-large 非流式语音识别模型、Paraformer-large 流式语音识别模型以及标点预测 (PUNC) 和语音端点检测 (VAD)[^1]。
#### 2. 环境准备
在开始部署之前,请确保目标机器满足以下条件:
- Python 版本 ≥ 3.7。
- 安装必要的依赖项,可以通过运行以下命令完成:
```bash
pip install websockets funasr modelscope huggingface_hub -U
```
此命令会自动下载并安装 `websockets`、`funasr`、`modelscope` 和 `huggingface_hub` 库及其所需的所有依赖项[^3]。
#### 3. 下载预训练模型
FunASR 提供了多个预训练模型,可以根据实际需求选择合适的版本。以下是获取模型的方法:
##### 方法一:通过 ModelScope 平台下载
访问 [ModelScope](https://www.modelscope.cn/) 并搜索 “FunASR”,找到对应的模型页面后点击下载按钮。推荐使用的模型包括:
- **Paraformer-large**: 性能优越的非流式语音识别模型。
- **FSMN-VAD**: 工业级语音活动检测模型。
- **CT-Transformer-PUNC**: 文本后处理标点符号预测模型。
##### 方法二:直接克隆 GitHub 仓库
如果无法联网或希望快速测试,可以克隆官方 GitHub 仓库并按照说明操作:
```bash
git clone https://github.com/alibaba-damo-academy/FunASR.git
cd FunASR
```
#### 4. 启动服务
完成上述准备工作后,启动 FunASR 的实时语音识别服务。具体步骤如下:
##### 步骤 1: 编辑配置文件
进入项目目录下的 `conf` 文件夹,编辑默认配置文件(如 `config.yaml`),设置模型路径和其他参数。
##### 步骤 2: 运行脚本
执行以下命令以启动 WebSocket 或 HTTP 接口的服务:
```bash
python funasr/bin/asr_inference_modelscope.py --inference_mode websocket --model_name paraformer-large-vad-punc-online
```
其中,`--inference_mode` 参数指定推理模式(WebSocket 或其他方式),而 `--model_name` 则定义所加载的具体模型名称[^2]。
#### 5. 使用客户端连接
一旦服务成功启动,即可利用任何支持 WebSocket 协议的应用程序发送音频数据进行实时转写。例如,在 Python 中实现简单的客户端代码如下所示:
```python
import asyncio
import websockets
async def send_audio():
uri = "ws://localhost:8090"
async with websockets.connect(uri) as ws:
await ws.send(b'your-audio-data-here')
response = await ws.recv()
print(f"Transcription result: {response}")
asyncio.get_event_loop().run_until_complete(send_audio())
```
以上即为完整的 FunASR 实时语音识别本地部署流程。
---
阅读全文
相关推荐


















