开启实时语音转写新时代，尽在WhisperLiveKit！

人工智能我来了

已于 2025-09-02 22:16:23 修改

阅读量1.7k

点赞数 44

CC 4.0 BY-SA版权

分类专栏：人工智能 AI 文章标签：人工智能

于 2025-09-02 08:08:51 首次发布

WhisperLiveKit: 实时、本地语音转文本与翻译

WhisperLiveKit Demo

WhisperLiveKit 是一款开源的实时语音转文本工具，专注于提供高效、低延迟的语音转录。它可以在本地浏览器中直接进行语音转文本，并兼具说话人识别功能。该工具面向多种应用场景，提升交流的便利性与效率。

Architecture

WhisperLiveKit 利用一系列先进的技术，如 SimulStreaming 和 WhisperStreaming，来实现低延迟的语言处理。这些技术通过智能缓冲和增量处理，解决了传统语音转录中的上下文丢失问题。

在您的环境中安装 WhisperLiveKit:

pip install whisperlivekit

注意：使用 WhisperLiveKit 之前，请确保已安装 FFmpeg。不同操作系统的安装方式如下：

操作系统	安装命令
Ubuntu/Debian	`sudo apt install ffmpeg`
MacOS	`brew install ffmpeg`
Windows	访问 FFmpeg 官网下载 .exe 文件并添加至 PATH

启动转录服务器：

whisperlivekit-server --model base --language en

打开浏览器，访问 http://localhost:8000，开始说话，您的话语将实时显示。

请查看 tokenizer.py 以获取支持的所有语言列表。

如需使用额外功能，可以安装以下依赖项：

可选功能	安装命令
使用 Sortformer 实现说话人识别	`git+https://github.com/NVIDIA/NeMo.git@main#egg=nemo_toolkit[asr]`
使用 Diart 实现说话人识别

新学期VIP享超值加赠