Python语音助手综合实战项目

原创于 2025-08-20 14:24:28 发布 · 422 阅读

CC 4.0 BY-SA版权

简介：本项目利用Python开发了一个简易版的智能语音交互系统，提供教育性质的AI技术实践平台。关键技术包括语音识别、图灵机器人API、音频处理、自然语言处理、语音合成、事件驱动编程、图形用户界面设计以及错误处理与优化。通过这个项目，开发者可以综合运用多领域的知识技能，深入理解并实现一个实用的语音助手。
Python语音助手.rar

1. Python语音助手的构建基础

构建一个Python语音助手的旅程始于理解其基本构建块。首先，我们必须掌握Python的基本语法和编程逻辑。Python因其简洁性和易读性而被广泛采用，在语音助手的开发中表现出色。我们将讨论如何设置Python环境、了解其核心库如 speech_recognition 用于识别和 pyttsx3 用于文本到语音转换，以及如何利用它们构建简单而有效的语音交互应用。

1.1 Python环境的搭建和配置

在深入构建语音助手之前，确保你的开发环境已经就绪是至关重要的。Python的安装是一个直接的过程，推荐使用 Anaconda 进行管理，因为它提供了包管理工具 conda 以及一个友好的界面 Anaconda Navigator ，这可以帮助我们方便地安装和管理第三方库。

安装Python和Anaconda之后，我们可以使用conda命令创建一个隔离的开发环境，然后在该环境中安装特定的Python包。如下示例：

conda create -n voice_assistant python=3.8
conda activate voice_assistant
pip install speech_recognition pyttsx3

以上代码块展示了创建一个名为 voice_assistant 的新环境，并激活它，最后安装了开发语音助手所需的 speech_recognition 和 pyttsx3 库。

2. 语音识别实现

2.1 语音识别的基本概念和原理

2.1.1 语音信号的处理和分析

语音识别技术的核心之一是对语音信号的处理和分析，这一过程包括但不限于以下几个步骤：

采样与量化 ：语音信号通过麦克风等设备转换为模拟信号，经过模拟/数字转换器（ADC）采样并量化为数字信号。
预处理 ：对数字信号进行滤波、去噪等操作，消除无关信息，增强语音特征。
特征提取 ：通过傅里叶变换等数学变换方法从信号中提取有用的信息特征，如梅尔频率倒谱系数（MFCC）。
模式匹配 ：将提取的特征与预先训练好的模型中的特征模板进行匹配，得到识别结果。

graph TD
A[语音信号] --> B[采样与量化]
B --> C[预处理]
C --> D[特征提取]
D --> E[模式匹配]

2.1.2 语音识别的模式匹配和算法

语音识别的模式匹配通常依赖于统计模型或深度学习模型。经典的模式匹配算法包括：

动态时间规整（DTW） ：一种基于模板的匹配算法，用于处理不同时间长度的语音信号匹配问题。
隐马尔可夫模型（HMM） ：一种基于概率的模型，适合处理时序数据的识别问题。
深度神经网络（DNN）和卷积神经网络（CNN） ：利用神经网络的强大特征提取和分类能力，显著提高了识别准确率。

2.2 Python中的语音识别技术实现

2.2.1 使用Python进行语音信号的采集和处理

Python提供了丰富的库来进行语音信号的采集和处理，如 pyaudio 用于音频I/O操作， numpy 和 scipy 用于信号处理。以下是使用 pyaudio 采集音频的代码示例：

import pyaudio
import wave

CHUNK = 1024
FORMAT = pyaudio.paInt16
CHANNELS = 2
RATE = 44100

p = pyaudio.PyAudio()
stream = p.open(format=FORMAT,
                channels=CHANNELS,
                rate=RATE,
                input=True,
                frames_per_buffer=CHUNK)

print("Recording...")

frames = []

while True:
    data = stream.read(CHUNK)
    frames.append(data)
    if len(data) < CHUNK:
        break

print("Finished recording.")

stream.stop_stream()
stream.close()
p.terminate()

wf = wave.open('output.wav', 'wb')
wf.setnchannels(CHANNELS)
wf.setsampwidth(p.get_sample_size(FORMAT))
wf.setframerate(RATE)
wf.writeframes(b''.join(frames))
wf.close()

此代码块会采集一段音频并保存为WAV格式文件，其中 CHUNK 为每次读取的帧数， FORMAT 、 CHANNELS 和 RATE 分别定义了音频格式、通道数和采样率。

2.2.2 利用开源库进行语音识别的实践操作

开源库如 speech_recognition 为Python语音识别提供了简洁的API，以下是使用 speech_recognition 库的示例代码：

import speech_recognition as sr

recognizer = sr.Recognizer()

with sr.Microphone() as source:
    print("Please say something...")
    audio = recognizer.listen(source)

try:
    text = recognizer.recognize_google(audio)
    print("You said: " + text)
except sr.UnknownValueError:
    print("Google Speech Recognition could not understand audio")
except sr.RequestError as e:
    print("Could not request results from Google Speech Recognition service; {0}".format(e))

在这段代码中， speech_recognition 首先使用默认的麦克风设备进行音频采集，然后调用Google的语音识别服务进行实时转写。在异常处理部分，代码分别处理了识别失败和请求错误的情况。

通过这两个实践操作，我们可以看到Python在语音信号采集和识别方面的强大能力，这为构建一个完整的语音识别系统打下了坚实的基础。接下来，在第三章中我们将探讨如何通过图灵机器人API来扩展语音助手的功能。

3. 图灵机器人API使用

3.1 图灵机器人API概述

3.1.1 图灵机器人的功能和应用场景

图灵机器人是一种基于自然语言处理技术的对话系统，旨在模拟人类的交流方式，为用户提供智能化的交互体验。它融合了语言模型、意图识别、实体抽取、对话管理等多个模块，能够处理用户的各种查询和请求。

图灵机器人主要应用在以下几个方面：

客户服务： 提供24小时在线客户支持，解答用户咨询，处理订单和预约等。
个人助理： 帮助用户管理日程、设置提醒、发送消息等。
教育学习： 作为教学辅助工具，进行语言学习、知识问答等。
娱乐互动： 提供聊天、游戏、互动式故事等娱乐功能。

3.1.2 API的接入和认证机制

图灵机器人API允许开发者在自己的应用程序中嵌入智能对话功能。接入API通常需要以下步骤：

注册图灵机器人账户： 访问图灵机器人的官方网站，注册并创建一个机器人实例。
获取API密钥： 在创建机器人实例后，通常会生成一个API密钥或者App ID，用于后续请求的认证。
阅读文档： 阅读官方文档了解API的细节，包括请求格式、参数、响应结果等。
编写代码： 根据文档编写代码，向图灵机器人的API发送请求，并处理返回的数据。
认证机制： API请求一般需要在HTTP头部中包含API密钥，以确保请求的安全性。

开发者需要确保API密钥的安全，防止泄露。一旦API密钥泄露，应立即在图灵机器人的控制台中进行更换。

3.2 图灵机器人API在Python中的应用

3.2.1 发送请求与接收响应的编程方法

在Python中，我们可以使用 requests 库来发送HTTP请求，从而与图灵机器人的API进行交互。以下是一个简单的示例代码：

import requests

# 替换成你的API密钥和API端点
API_KEY = 'your_api_key'
ENDPOINT = 'http://api.tuling123.com/openapi/api'

def send_request(query):
    params = {
        'key': API_KEY,
        'info': query,
        'uid': '0'
    }
    response = requests.post(ENDPOINT, params=params)
    return response.json()

query = "今天天气怎么样？"
response = send_request(query)

print(response)

在这个代码示例中，我们定义了一个 send_request 函数，它接受一个问题或命令作为参数，并向图灵机器人的API端点发送一个HTTP POST请求。返回的响应被解析为JSON格式并打印出来。

3.2.2 结合语音识别结果调用API处理流程

结合第二章中介绍的语音识别功能，我们可以将语音识别的结果作为查询发送给图灵机器人，并处理返回的结果。这个过程涉及到几个步骤：

语音信号处理： 使用麦克风捕获用户语音并将其转换为数字信号。
语音识别： 利用语音识别技术将语音信号转换为文本。
发送请求： 将识别出的文本作为查询发送给图灵机器人API。
处理响应： 接收API的响应，并根据需要进一步处理或直接显示给用户。

以下是结合前面章节内容的一个完整流程示例：

import speech_recognition as sr
import requests

# 语音识别和图灵机器人API的初始化
recognizer = sr.Recognizer()
API_KEY = 'your_api_key'
ENDPOINT = 'http://api.tuling123.com/openapi/api'

def send_tuling_request(text):
    params = {
        'key': API_KEY,
        'info': text,
        'uid': '0'
    }
    response = requests.post(ENDPOINT, params=params)
    return response.json()

def process_voice_input():
    with sr.Microphone() as source:
        print("请说话：")
        audio_data = recognizer.listen(source)
        try:
            text = recognizer.recognize_google(audio_data, language='zh-CN')
            print("你说的是：" + text)
            # 处理语音识别结果
            response = send_tuling_request(text)
            # 输出图灵机器人的回复
            print(response)
        except sr.UnknownValueError:
            print("无法理解语音")
        except sr.RequestError as e:
            print("语音服务出错; {0}".format(e))

process_voice_input()

在这个示例中，我们首先使用 speech_recognition 库识别用户的语音输入，然后将识别出的文本发送给图灵机器人API，并打印出机器人的回复。这段代码展示了如何将语音识别的结果用于与图灵机器人的交互，并实现一个基本的语音助手功能。

4. 音频I/O处理

音频I/O处理是构建语音助手的基础设施之一，它涉及音频信号的采集、处理、输出和回放。在这一章节中，我们将深入探讨音频I/O的理论基础和在Python中的实践应用。

4.1 音频输入输出的基本知识

音频处理技术是语音助手技术的重要组成部分，它需要对音频信号进行数字化、编码和解码，实现高质量的声音输出和输入。以下将对音频格式、编码以及音频设备和I/O接口进行介绍。

4.1.1 音频格式和编码

音频格式指的是音频数据的组织形式，它决定了声音数据的存储和传输方式。常见的音频格式包括WAV、MP3、AAC等。WAV格式通常为非压缩格式，适合于高质量音频的存储，但在存储和传输时占用较多空间。MP3和AAC则是流行的有损压缩格式，能够在较低的比特率下提供较好的音质。

音频编码是将模拟音频信号转换成数字信号的过程，通常通过采样和量化两个步骤来实现。采样是指每隔一定时间对模拟信号进行一次测量，得到一系列离散的值。量化则是将采样得到的连续值转换为有限数量的离散值，每个量化级别对应一个数字值。

4.1.2 音频设备和I/O接口

音频设备包括麦克风、扬声器、声卡等硬件，它们是实现音频信号输入输出的物理媒介。音频I/O接口则是音频设备与计算机系统进行数据交换的通道，例如USB音频接口、3.5mm音频插孔等。

4.1.3 音频格式转换

音频格式转换是指将一种音频格式转换为另一种格式的过程。这个过程通常涉及解码和重新编码，它需要处理不同的采样率、采样精度和编码方式。

import soundfile as sf

# 读取音频文件
input_file = 'input.wav'
data, samplerate = sf.read(input_file)

# 转换音频格式，例如从WAV到MP3
output_file = 'output.mp3'
sf.write(output_file, data, samplerate, subtype='MP3')

代码解析：

上面的代码示例利用 soundfile 库来读取WAV格式的音频文件，并将其转换为MP3格式。 soundfile.read() 函数用于读取音频文件，返回音频数据和采样率。 soundfile.write() 函数用于将音频数据写入文件，支持多种音频格式。

4.2 Python中的音频处理实践

Python提供了许多音频处理库，如 soundfile 、 pydub 、 pyaudio 等，可用来实现音频捕获、播放、编辑和格式转换等操作。

4.2.1 编写音频捕获与播放程序

下面的代码示例演示了如何使用 pyaudio 库来捕获音频输入，以及如何播放音频文件。

import pyaudio
import wave
import numpy as np

# 音频捕获参数设置
CHUNK = 1024
FORMAT = pyaudio.paInt16
CHANNELS = 2
RATE = 44100

# 初始化PyAudio实例
p = pyaudio.PyAudio()

# 打开音频流
stream = p.open(format=FORMAT,
                channels=CHANNELS,
                rate=RATE,
                input=True,
                frames_per_buffer=CHUNK)

print("* recording")

frames = []

# 捕获10秒的音频数据
for i in range(0, int(RATE / CHUNK * 10)):
    data = stream.read(CHUNK)
    frames.append(data)

print("* done recording")

# 停止音频流
stream.stop_stream()
stream.close()
p.terminate()

# 保存音频文件
wf = wave.open('output.wav', 'wb')
wf.setnchannels(CHANNELS)
wf.setsampwidth(p.get_sample_size(FORMAT))
wf.setframerate(RATE)
wf.writeframes(b''.join(frames))
wf.close()

代码解析：

上述代码展示了如何使用 pyaudio 库打开一个音频流并捕获10秒的音频数据。之后将捕获的数据保存为WAV格式的音频文件。

import pyaudio
import wave

# 打开音频文件
p = pyaudio.PyAudio()
wf = wave.open('output.wav', 'rb')

# 打开音频流用于播放
stream = p.open(format=p.get_format_from_width(wf.getsampwidth()),
                channels=wf.getnchannels(),
                rate=wf.getframerate(),
                output=True)

data = wf.readframes(1024)
while data:
    stream.write(data)
    data = wf.readframes(1024)

# 停止和关闭音频流
stream.stop_stream()
stream.close()
p.terminate()

4.2.2 处理音频文件和流的技术细节

音频文件和流的处理包括音频的分割、合并、静音检测和音频效果处理（如均衡器调整、混响添加等）。下面的代码示例演示了如何使用 pydub 库来合并音频文件。

from pydub import AudioSegment

# 加载音频文件
audio1 = AudioSegment.from_file("audio1.mp3")
audio2 = AudioSegment.from_file("audio2.mp3")

# 合并音频文件
combined_audio = audio1 + audio2

# 导出合并后的音频文件
combined_audio.export("combined_audio.mp3", format="mp3")

代码解析：

上述代码演示了使用 pydub 库来加载两个MP3文件，将它们合并，并将合并后的音频导出为一个新的MP3文件。

请注意，实际应用中音频处理的复杂性远远超出了上述示例。音频处理不仅要求精确的技术知识，还需要艺术感来确保音质和用户体验的最优化。在下一章节，我们将探讨如何使用自然语言处理技术来处理语音助手中的语言问题。

5. 自然语言处理应用

5.1 自然语言处理技术概览

5.1.1 语言模型和语义分析

自然语言处理（NLP）是计算机科学与语言学的交叉领域，旨在使计算机能够理解人类的自然语言。语言模型是NLP中的核心组件，其目的是预测句子或单词序列出现的概率。语言模型可以是简单的基于n-gram的统计模型，也可以是复杂的神经网络模型，如RNN、LSTM或最近的Transformer。

语义分析关注的是文本中的含义，以及这些含义如何在上下文中得以传递。语义分析可以分为三个主要层次：

词义消歧（Word Sense Disambiguation）：区分多义词的不同含义。
语义角色标注（Semantic Role Labeling）：识别句子中的动词和对应的论元（如施事者和受事者）。
指代消解（Coreference Resolution）：确定文本中“他”、“她”等代词所指代的具体实体。

随着深度学习技术的发展，语义分析的准确性和深度都有了显著的提升，尤其是在大规模语言模型（如BERT、GPT系列）的应用下。

5.1.2 分词、词性标注和命名实体识别

分词是将连续的文本切割成一系列有意义的单元（通常是单词或词素）。在中文等没有明显分隔符的语言中，分词尤其重要。而词性标注（POS Tagging）是确定每个词在句子中的语法角色，如名词、动词、形容词等。命名实体识别（NER）则是识别文本中的人名、地名、机构名、日期等具有特定含义的实体。

分词、词性标注和NER是NLP中的基础任务，为后续的语义分析和理解提供了基础。例如，一个文本“苹果在周一发布了新手机。”经过分词处理后可能变为[“苹果”, “在”, “周一”, “发布”, “了”, “新手机”, “。”]，词性标注后可能变为[“NNP”（专有名词）, “IN”（介词）, “NN”（名词）, “VBD”（动词过去式）, “RB”（副词）, “JJ”（形容词）, “。”]，而NER则可能识别出”苹果”为一个组织名，”周一”为一个日期，”新手机”为一个产品名。

5.2 Python在自然语言处理中的应用

5.2.1 利用Python库进行语言处理

Python是NLP领域中非常流行的编程语言，有着丰富的NLP库和框架。其中一些常用的库包括：

NLTK（Natural Language Toolkit）：提供广泛的语言处理功能，包括分词、标注、解析、分类等。
spaCy：一个高效的NLP库，特别适合需要进行复杂操作的生产环境。
Gensim：专注于主题建模和文档相似性分析。
TextBlob：提供简单的文本处理接口，适用于初学者。

这些库大多提供直观的API，使得开发者能够轻松地实现复杂的NLP任务。以spaCy为例，以下代码演示了如何使用spaCy进行基本的文本处理：

import spacy

# 加载英文模型
nlp = spacy.load('en_core_web_sm')

# 处理文本
doc = nlp(u"Apple is looking at buying U.K. startup for $1 billion")

# 分词和词性标注
for token in doc:
    print(token.text, token.pos_, spacy.explain(token.tag_))

# 命名实体识别
print([(ent.text, ent.label_) for ent in doc.ents])

上述代码首先加载了一个spaCy模型，然后对给定的英文句子进行处理，包括分词、词性标注和命名实体识别。每个步骤都有对应的注释解释其执行的逻辑。

5.2.2 将处理结果应用于语音助手逻辑

将NLP处理的结果应用到语音助手的逻辑中，可以极大地增强语音助手理解和执行用户命令的能力。举个例子，当用户说：“明天在咖啡店见面吧。”经过NLP处理后，语音助手可以理解其中的时间（明天）、地点（咖啡店）和意图（见面）。基于这样的理解，语音助手可以进行相应的动作，比如添加事件到日历、发送提醒或者提供导航信息。

在Python中，这一过程可以通过以下伪代码实现：

from datetime import datetime

# 假设语音识别和NLP处理已经完成，得到的命令是：
command = "明天在咖啡店见面吧。"

# 使用NLP库进行解析
# ...

# 提取意图
intent = extract_intent(command)  # 提取用户意图的函数

# 提取实体
entities = extract_entities(command)  # 提取实体信息的函数

if intent == "meeting" and "coffee shop" in entities["location"]:
    # 查找咖啡店信息和用户日程
    coffee_shop_info = get_coffee_shop_info(entities["location"])
    schedule = get_user_schedule(intent, entities)

    # 设置提醒或者创建日历事件
    set_reminder(f"明天在{coffee_shop_info['name']}见面。")
    add_event_to_calendar(f"在{coffee_shop_info['name']}的会议", schedule)

上面的代码展示了如何使用NLP处理的输出来驱动语音助手的逻辑，包括意图识别和实体提取，并根据这些信息进行后续操作。实际实现时， extract_intent 、 extract_entities 、 get_coffee_shop_info 、 get_user_schedule 、 set_reminder 和 add_event_to_calendar 函数需要根据具体需求编写和实现。

自然语言处理不仅使得语音助手能够理解人类语言，而且能够根据上下文做出智能的反应和决策，从而提供更为人性化和便捷的服务。随着技术的不断进步和用户需求的不断增长，NLP在语音助手中的应用将越来越广泛和深入。

6. 语音合成技术

6.1 语音合成的原理和方法

语音合成，又称为Text-to-Speech (TTS)，是一种将文本信息转换为语音输出的技术。它通过软件或硬件系统实现，使得计算机能够“读出”文字信息。这个过程通常包括以下几个步骤：

6.1.1 文本到语音的转换流程

文本分析 ：输入的文本需要经过预处理，包括分词、消除歧义、词性标注、语法分析等步骤，以确定句子结构和语音输出的最佳方式。
语言学处理 ：确定每个单词的发音，这个阶段会用到音素信息，并且考虑到上下文的影响进行适当的调整，以生成合适的发音模式。
声学处理 ：将语言学处理的结果转换为声音波形。这一步会使用到声音合成的方法，如参数合成和波形拼接。
后处理 ：最后，合成的声音还会经过音质处理，例如调整音量、语速和音调，以产生自然流畅的语音。

6.1.2 合成语音的质量评价标准

合成语音的质量通常通过以下几个标准来评价：

自然度 ：语音听起来是否自然流畅，是否容易被听者理解。
清晰度 ：语音中的每个字词是否能够被清楚地识别。
可懂度 ：语音能否被正确地理解。
连贯性 ：语音输出是否具有良好的语句连贯性。

6.2 Python实现语音合成的方法

6.2.1 探索Python语音合成库的功能

Python中有多个库可以用于实现语音合成功能，如 gTTS 、 pyttsx3 和 espeak 。这些库各有其特点，例如：

gTTS (Google Text-to-Speech) ：基于Google的Web服务，支持多种语言，使用方便，输出质量高。
pyttsx3 ：一个纯Python库，无需网络连接即可在本地进行文本到语音的转换，支持多平台。
eSpeak ：是一个轻量级的语音合成引擎，能够合成多种语言，占用资源较少。

6.2.2 编写代码实现文本到语音的转换

下面我们将使用 gTTS 库来演示如何实现文本到语音的转换：

from gtts import gTTS
import os

# 定义要合成的文本内容
text_to_speak = "Welcome to the world of text-to-speech technology."

# 选定语言
lang = 'en'

# 初始化gTTS对象
tts = gTTS(text=text_to_speak, lang=lang, slow=False)

# 保存合成语音到文件
tts.save("welcome.mp3")

# 播放语音文件
os.system("start welcome.mp3")

代码逻辑解析：

首先，我们导入了 gTTS 模块。
定义了我们要转换成语音的文本内容。
设置了目标语言，这里是英语（ 'en' ）。
使用 gTTS 类创建了一个语音对象，其中 slow=False 表示以正常速度朗读文本。
调用 save 方法将合成的语音保存为MP3格式的文件。
最后，我们使用 os.system 调用系统命令播放该MP3文件。

参数说明：

text 参数是必须的，它包含了你想要转换成语音的文本内容。
lang 参数定义了语音输出的语言和方言，例如 'en' 代表英语， 'en-au' 代表澳大利亚英语等。
slow 参数控制语速，如果设置为 True ，则朗读速度会慢一些，适合清晰地朗读较长或复杂的句子。

通过上述的代码和解释，我们可以看到如何使用Python来实现文本到语音的转换，并且了解了使用gTTS库时要考虑的参数和选项。这仅是一个简单的示例，实际上你可以通过调整参数和优化代码来实现更加复杂和个性化的语音合成应用。

7. 事件驱动编程模型

事件驱动编程是构建响应式应用程序的核心，它允许程序在某些事件发生时才执行代码，而不是按照传统的顺序执行。这对于实时响应外部刺激（如用户输入）的语音助手来说，是一个不可或缺的特性。

7.1 事件驱动编程理论基础

7.1.1 事件驱动编程的概念和特性

事件驱动编程是一种编程范式，其中程序的流程不是通过顺序执行，而是由外部事件（如用户操作、系统消息、传感器读数等）来驱动。在事件驱动模型中，程序通常会注册一系列的事件监听器（或处理程序），当特定的事件发生时，相应的处理程序会被触发执行。

7.1.2 事件循环机制和异步处理

事件驱动程序依赖于一个事件循环（event loop），它监控事件的发生并调度相应的事件处理器。程序通常运行在单个线程中，事件处理器则通过异步编程技术执行任务，以避免阻塞主线程，确保用户界面的响应性。

7.2 Python中的事件驱动编程应用

7.2.1 构建事件驱动的语音助手架构

在Python中，可以使用多个库来构建事件驱动的架构。Tkinter GUI库包含了事件循环，而异步编程可以通过 asyncio 库来实现。以下是一个简单的例子，展示如何构建一个事件驱动的语音助手：

import asyncio
import time

async def main():
    print(f"语音助手启动，等待命令...")
    while True:
        command = await get_command_from_user()  # 假设这个函数可以获取用户的语音命令
        if command:
            await process_command(command)  # 处理用户命令
        else:
            await asyncio.sleep(1)  # 没有命令时休眠

async def get_command_from_user():
    # 这里可以集成语音识别代码，返回用户语音命令
    return "用户命令"

async def process_command(command):
    # 根据命令执行不同的操作
    print(f"正在执行命令：{command}")

if __name__ == '__main__':
    asyncio.run(main())

7.2.2 实现高效的事件响应和处理流程

实现高效的事件处理流程，关键在于合理安排异步任务的执行。可以使用 asyncio 的 create_task 函数来并发执行多个任务，利用 await 来等待异步操作的完成，以及使用 asyncio.gather 来并行处理多个异步任务。

async def main():
    print(f"语音助手启动，等待命令...")
    while True:
        command_task = asyncio.create_task(get_command_from_user())
        command = await command_task
        if command:
            process_task = asyncio.create_task(process_command(command))
            await process_task
        await asyncio.sleep(1)  # 没有命令时休眠

# 其他函数定义不变...

通过这样的事件驱动模型，语音助手能够持续监听用户的命令，并在用户发出指令时，立即响应并执行相应的任务。这种方式对于提高程序的用户交互性和效率非常关键。