WhisperLiveKit: 实时、本地语音转文本与翻译
项目概述
WhisperLiveKit 是一款开源的实时语音转文本工具,专注于提供高效、低延迟的语音转录。它可以在本地浏览器中直接进行语音转文本,并兼具说话人识别功能。该工具面向多种应用场景,提升交流的便利性与效率。
核心特点
- 实时转录:WhisperLiveKit 用于实时语音转录,让您的话在说的同时即刻显示在屏幕上。
- 本地处理:数据处理在本地进行,确保隐私与数据安全,避免将音频数据上传至云端。
- 多用户支持:可同时支持多个用户进行语音转录,适合会议和课堂使用。
- 高效算法:集成了最新的语音处理研究,确保更快的响应时间和更准确的转录结果。
技术架构
WhisperLiveKit 利用一系列先进的技术,如 SimulStreaming 和 WhisperStreaming,来实现低延迟的语言处理。这些技术通过智能缓冲和增量处理,解决了传统语音转录中的上下文丢失问题。
安装与快速启动
安装
在您的环境中安装 WhisperLiveKit:
pip install whisperlivekit
注意:使用 WhisperLiveKit 之前,请确保已安装 FFmpeg。不同操作系统的安装方式如下:
操作系统 | 安装命令 |
---|---|
Ubuntu/Debian | sudo apt install ffmpeg |
MacOS | brew install ffmpeg |
Windows | 访问 FFmpeg 官网 下载 .exe 文件并添加至 PATH |
快速启动
-
启动转录服务器:
whisperlivekit-server --model base --language en
-
打开浏览器,访问
http://localhost:8000
,开始说话,您的话语将实时显示。
请查看 tokenizer.py 以获取支持的所有语言列表。
可选依赖项
如需使用额外功能,可以安装以下依赖项:
可选功能 | 安装命令 |
---|---|
使用 Sortformer 实现说话人识别 | git+https://github.com/NVIDIA/NeMo.git@main#egg=nemo_toolkit[asr] |
使用 Diart 实现说话人识别 |