SpringAI+WebSocket+语言识别+语言合成实现AI实时语音交互

原创于 2025-05-29 11:08:16 发布 · 430 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #websocket #springAI #Edge-TTS #FunASR #语音识别 #语音合成

背景：

逛github时发现了小智这个开源项目，看到他的AI实时语音交互能力，感觉非常有趣，作为一个Java开发者，于是就想用java中的相关技术来实现AI实时语音的交互功能。

1.java相关框架及组件介绍

项目代码中，涉及到AI实时语音交互的技术，使用了SpringBoot、Websocket、SpringAI、redis、Opus、vad、FunASR、edge-TTS等技术

SpringBoot：java开发者都知道的企业级开发框架，功能是自动配置+ 起步依赖 + 内置tomcat

websocket：一种双向通信协议，用于和前端（web端、安卓端）进行实时通信，相互传输文本信息和二进制语音数据

SpringAI：让java再次伟大的springAI框架，用于快速集成各种AI大模型（千问、智谱等）

redis：缓存数据库，在本项目中主要是用来存储和大模型的会话记忆

Opus：音频的一种格式，和安卓端进行websocket交互时，Opus格式是最适合流式传输的音频格式。

Vad：声音活动检测，通过vad可以判断用户是否在说话，当用户停止说话时，让大模型响应并进行语音合成

FunAsr：语音识别能力，docker本地部署后，传输音频流进行实时语音转文字的识别

Edge-TTS：语音合成能力，大模型响应后，将大模型响应的文字进行语音合成，生成音频文件。

2.前后端交互整体示意图

最终效果：

3.代码截图

具体项目代码不好开源，如下是部分代码截图

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

吴金蓬559

关注关注

10
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【ai应用开发】Spring Boot集成实时通信、语音识别和语音合成功能

猿脑2.0的博客

06-21

1095

【代码】【ai应用开发】Spring Boot集成实时通信、语音识别和语音合成功能。

SPRINGBOOT+VUE集成语音听写/语音识别

p6448777的博客

05-16

2124

SPRINGBOOT+VUE集成语音听写/语音识别

2 条评论您还未登录，请先登录后发表或查看评论

WebSocket+SpringBoot集成AI（Kimi）

m0_73938805的博客

02-14

1024

这样的方法最明显的缺点就是需要不断的发送请求，而且通常HTTP request的Header是非常长的，为了传输一个很小的数据需要付出巨大的代价，是很不合算的，占用了很多的宽带。相对于传统 HTTP 每次请求-应答都需要客户端与服务端建立连接的模式，WebSocket 是类似 Socket 的 TCP 长连接的通讯模式，一旦 WebSocket 连接建立后，后续数据都以帧序列的形式传输。：处理客户端发送的消息。所谓短连接，及连接只保持在数据传输过程，请求发起，连接建立，数据返回，连接关闭。

WebSocket 与语音识别：实现实时语音转文字，且展示音浪效果

m0_47396689的博客

08-23

2912

WebSocket 与语音识别：实现实时录音转文字，且展示音浪效果。

springboot整合vosk实现简单的语音识别功能

热门推荐

qq_41604890的博客

05-08

1万+

ASRT是一个基于深度学习的语音识别工具，可以用于开发最先进的语音识别系统，是由AI柠檬博主（西安电子科技大学 · 西安市大数据与视觉智能重点实验室）从2016年起做的开源语音识别项目，基线为85%识别准确率，在某些条件下可做到95%左右的识别准确率。支持十九种语言 - 中文，英语，印度英语，德语，法语，西班牙语，葡萄牙语，俄语，土耳其语，越南语，意大利语，荷兰人，加泰罗尼亚语，阿拉伯, 希腊语, 波斯语, 菲律宾语，乌克兰语, 哈萨克语。每种语言的手提式模型只有是50Mb, 但还有更大的服务器模型可用。

Spring AI 调用 openAI 进行语音识别

一名全栈开发工程师

06-21

756

Spring AI支持语音识别功能，目前仅支持OpenAI的Transcription模型。详情可以查询Spring AI 的。

speechByWebsocket:实时语音识别，websocket通信

05-17

实时上传语音arraybuffer by websocket.io 支持采样率和声道数量配置支持Blob和arraybuffer以及file方式上传录音支持WAV和PCM语音文件，并支持下载客户端实现思路客户端使用HTML5的getUserMedia接口和AudioContext对象。首先，通过AudioContext.createMediaStreamSource方法创建一个MediaStreamAudioSourceNode, 用于接受本地计算机麦克风的音频输入。再通过AudioContext的createScriptProcessor方法创建一个ScriptProcessorNode，用于处理音频采集操作。然后，通过connect方法将麦克风的音频输入和音频采集链接。通过监听audioprocess事件，将采集的音频数据保存在配置的固定长度的数组内。客户端不能直接发送数

Spring + WebSocket

weixin_44929475的博客

10-23

1808

WebSocket 是一种网络通信协议，提供了在单个TCP连接上进行全双工通信的能力。它允许服务器主动向客户端发送消息，而不需要客户端不断轮询服务器来检查更新。WebSocket 协议在2011年成为国际标准，并且被广泛用于实现实时通信功能，比如在线游戏、设备数据更新、实时聊天应用和股票行情更新等。

语音识别

纸上得来终觉浅

01-22

4009

支持类型支持类型说明谷歌多种付费百度 andriod/ios/REST API等 api限制较多,特定的支持格式腾讯 andriod/ios 只支持两种讯飞 andriod/ios/html5等 1、h5可尝试下 2、有完善的数据统计微信 andriod/ios/js 局限性：网页开发使用js-sdk，只支持在微信中

Spring AI 整合聊天模型之智谱AI

最新发布

oscar999的专栏

05-28

980

本文介绍了如何在Spring AI项目中集成智谱AI(ZhiPu AI)的语言模型服务，实现多语言会话助手功能。主要内容包括：注册智谱AI平台并获取API Key；配置Spring AI项目，通过application.properties或环境变量安全设置API Key；添加Maven依赖启用自动配置；详细说明了聊天属性配置，包括重试机制、连接参数和模型选项；介绍了可配置的模型参数，如温度、top_p、最大token数等。文章提供了完整的配置指南，帮助开发者快速集成智谱AI的GLM系列模型（如

Springboot实现语音识别听写

03-04

基于Springboot微服务，引用科大讯飞Msc.jar实现对语音的听写与识别

基于springboot+h5+websocket的即时通讯客服系统和百度实时语音转译(语音在线识别)

11-29

这个系统利用现代Web技术构建了一个实时通信平台，通过集成百度的语音识别服务，实现了语音到文本的转化，为用户提供了一种方便快捷的在线客服交流方式。首先，SpringBoot是Java开发中的一个轻量级框架，它简化了...

springBoot+webSocket+uniapp实现实时聊天功能

05-22

springBoot+webSocket+uniapp实现实时聊天功能

Vue +WebSocket + WaveSurferJS 实现H5聊天对话交互的实例

01-21

在与实现了语音合成、语义分析、机器翻译等算法的后端交互时，页面可以设计成更为人性化、亲切的方式。我们采用类似于聊天对话的实现，效果如下：智能客服（输入文本，返回引擎处理后的文本结果） 语音合成...

基于Vue+SpringBoot+WebSocket实现Web端聊天系统+网络通信+心跳+客户端服务端+后端java+mysql

06-15

基于Vue+SpringBoot+WebSocket实现Web端聊天系统+网络通信+心跳+客户端服务端+后端java+mysql 项目经过严格测试，确保可以运行！下载代码后，先配置好yml文件：数据库和微信号appid、secret（other包下面有数据库）...

java开发基于SpringBoot+WebSocket+Redis分布式即时通讯群聊系统.zip

06-24

Java开发基于SpringBoot+WebSocket+Redis分布式即时通讯群聊系统。一个基于Spring Boot + WebSocket + Redis，可快速开发的分布式即时通讯群聊系统。适用于直播间聊天、游戏内聊天、客服聊天等临时性群聊场景。 ...

初步认识WebSocket技术

Erica_1230的专栏

04-23

867

什么是Socket？什么是WebSocket？对于第1次听说WebSocket技术的人来说，两者有什么区别？websocket是仅仅将socket的概念移植到浏览器中的实现吗？我们知道，在网络中的两个应用程序（进程）需要全双工相互通信（全双工即双方可同时向对方发送消息），需要用到的就是socket，它能够提供端对端通信，对于程序员来讲，他只需要在某个应用程序的一端（暂且称之为客户端

Webrtc WebSocket实现音视频通讯

xiaoying910517的博客

03-14

4902

转载地址：http://blog.csdn.net/chenhande1990chenhan/article/details/72831782一般的浏览器都集成了webrtc的功能，因此是不需要webrtc服务器就可以在局域网内进行点对点的音视频通讯。本文主要利用websocket进行通讯，支持个google浏览器，无法兼容Firefox浏览器，同时对于Tomcat要求8.0以上，同时由于最新的w...

Vue + WebSocket + WaveSurferJS 实现H5实时语音交互聊天

本实例主要关注于在H5页面中实现一个聊天对话界面，该界面能够与后端的智能服务进行实时通信，如语音合成和识别。 1. **WebSocket实现对话流** WebSocket是一种在客户端和服务器之间建立长连接的协议，允许双向...