xiao12feng 9e1005df88 修复app语音测评、图标、访问课程等问题

2025-12-10 13:15:26 +08:00

9.1 KiB

Raw Blame History

服务器端语音识别部署指南（内网环境）

🎯 架构说明

前端 (uni-app)
    ↓ 录音
    ↓ 上传音频文件
后端 (192.168.1.80:30091)
    ↓ 接收音频
    ↓ 调用语音识别引擎
    ↓ 返回识别结果和评分
前端
    ↓ 显示结果

📦 方案对比

方案 A：Vosk（推荐 - 轻量级）⭐

优点：

✅ 完全离线，支持内网
✅ 轻量级，CPU 即可运行
✅ 支持中文
✅ 开源免费
✅ 集成简单

缺点：

⚠️ 识别准确度中等（80-85%）

适合：

内网环境
服务器配置一般
快速部署

方案 B：Whisper（更准确）

优点：

✅ OpenAI开源
✅ 识别准确度高（90-95%）
✅ 支持多语言
✅ 完全离线

缺点：

⚠️ 需要 GPU（推荐）
⚠️ 模型较大（几百MB到几GB）
⚠️ 响应较慢（2-5秒）

适合：

服务器有 GPU
对准确度要求高

方案 C：自建语音识别（最灵活）

使用 PaddleSpeech 或 FunASR

优点：

✅ 国产，中文优化好
✅ 支持声纹识别、情感识别等
✅ 性能可调

缺点：

⚠️ 部署复杂
⚠️ 需要Python环境

🚀 推荐实现：Vosk + Python Flask

后端代码示例（Python）

# speech_recognition_server.py

from flask import Flask, request, jsonify
from vosk import Model, KaldiRecognizer
import wave
import json
import os
from difflib import SequenceMatcher

app = Flask(__name__)

# 加载 Vosk 中文模型
MODEL_PATH = "./model/vosk-model-cn-0.22"
model = Model(MODEL_PATH)

def recognize_audio(audio_path):
    """
    识别音频文件
    """
    wf = wave.open(audio_path, "rb")
    
    # 检查音频格式
    if wf.getnchannels() != 1 or wf.getsampwidth() != 2 or wf.getframerate() not in [8000, 16000, 32000, 48000]:
        print("音频格式不正确")
        return None
    
    rec = KaldiRecognizer(model, wf.getframerate())
    rec.SetWords(True)
    
    result_text = ""
    while True:
        data = wf.readframes(4000)
        if len(data) == 0:
            break
        if rec.AcceptWaveform(data):
            result = json.loads(rec.Result())
            result_text += result.get('text', '')
    
    # 最终结果
    final_result = json.loads(rec.FinalResult())
    result_text += final_result.get('text', '')
    
    return result_text

def calculate_similarity(text1, text2):
    """
    计算文本相似度（0-100分）
    """
    # 去除空格和标点
    text1 = ''.join(filter(str.isalnum, text1))
    text2 = ''.join(filter(str.isalnum, text2))
    
    # 计算相似度
    similarity = SequenceMatcher(None, text1, text2).ratio()
    return round(similarity * 100, 2)

def evaluate_pronunciation(reference_text, recognized_text):
    """
    评估发音质量
    """
    score = calculate_similarity(reference_text, recognized_text)
    
    if score >= 90:
        comment = "优秀！发音非常标准"
    elif score >= 80:
        comment = "良好，发音较为准确"
    elif score >= 70:
        comment = "一般，需要多加练习"
    else:
        comment = "需要改进，请注意发音"
    
    return {
        'score': score,
        'comment': comment,
        'recognizedText': recognized_text,
        'referenceText': reference_text
    }

@app.route('/api/speech/recognize', methods=['POST'])
def speech_recognize():
    """
    语音识别和评测接口
    """
    try:
        # 获取上传的音频文件
        if 'audio' not in request.files:
            return jsonify({
                'code': 400,
                'msg': '未上传音频文件'
            }), 400
        
        audio_file = request.files['audio']
        reference_text = request.form.get('referenceText', '')
        
        # 保存临时文件
        temp_path = './temp_audio.wav'
        audio_file.save(temp_path)
        
        # 识别音频
        recognized_text = recognize_audio(temp_path)
        
        if not recognized_text:
            return jsonify({
                'code': 500,
                'msg': '音频识别失败'
            }), 500
        
        # 评测
        result = evaluate_pronunciation(reference_text, recognized_text)
        
        # 删除临时文件
        os.remove(temp_path)
        
        return jsonify({
            'code': 200,
            'msg': '成功',
            'data': result
        })
    
    except Exception as e:
        print(f"错误: {str(e)}")
        return jsonify({
            'code': 500,
            'msg': str(e)
        }), 500

if __name__ == '__main__':
    # 内网运行，监听所有接口
    app.run(host='0.0.0.0', port=5000, debug=True)

📦 部署步骤

1. 安装依赖

# 在服务器上 (192.168.1.80)

# 安装 Python 3.8+
sudo apt update
sudo apt install python3 python3-pip

# 安装 Vosk 和 Flask
pip3 install vosk flask

# 安装音频处理库
sudo apt install ffmpeg

2. 下载中文模型

# 下载 Vosk 中文模型
cd /path/to/your/project
mkdir model
cd model

# 下载模型（约 1.8GB）
wget https://alphacephei.com/vosk/models/vosk-model-cn-0.22.zip

# 解压
unzip vosk-model-cn-0.22.zip

3. 运行服务

# 启动识别服务
python3 speech_recognition_server.py

# 服务将运行在: http://192.168.1.80:5000

4. 集成到现有后端

如果你已有 Spring Boot 后端，可以：

// SpeechRecognitionController.java

@RestController
@RequestMapping("/api/speech")
public class SpeechRecognitionController {
    
    // Vosk 服务地址
    private static final String VOSK_SERVICE_URL = "http://localhost:5000/api/speech/recognize";
    
    @PostMapping("/recognize")
    public Result recognize(@RequestParam("audio") MultipartFile audioFile,
                          @RequestParam("referenceText") String referenceText) {
        try {
            // 转发到 Vosk 服务
            RestTemplate restTemplate = new RestTemplate();
            
            MultiValueMap<String, Object> body = new LinkedMultiValueMap<>();
            body.add("audio", audioFile.getResource());
            body.add("referenceText", referenceText);
            
            HttpHeaders headers = new HttpHeaders();
            headers.setContentType(MediaType.MULTIPART_FORM_DATA);
            
            HttpEntity<MultiValueMap<String, Object>> requestEntity = new HttpEntity<>(body, headers);
            
            ResponseEntity<String> response = restTemplate.postForEntity(
                VOSK_SERVICE_URL, 
                requestEntity, 
                String.class
            );
            
            return Result.success(response.getBody());
        } catch (Exception e) {
            return Result.error("识别失败: " + e.getMessage());
        }
    }
}

🔧 配置说明

uni-app 端配置

在 utils/config.js 中确认服务器地址：

const DEFAULT_SERVER_HOST = '192.168.1.80'
const DEFAULT_SERVER_PORT = 30091

音频格式要求

- 采样率: 16000 Hz
- 声道: 单声道 (mono)
- 格式: WAV 或 MP3
- 编码: PCM 16-bit

✅ 测试步骤

1. 测试 Vosk 服务

# 使用 curl 测试
curl -X POST http://192.168.1.80:5000/api/speech/recognize \
  -F "audio=@test.wav" \
  -F "referenceText=你好世界"

2. 在 uni-app 中测试

// 在页面中调用
import speechRecorder from '@/utils/speech-recorder.js'

// 开始录音
speechRecorder.start()

// 停止并上传
const filePath = await speechRecorder.stop()
const result = await speechRecorder.uploadAndRecognize(filePath, {
  referenceText: '测试文本'
})

console.log('识别结果:', result)

🎯 优化建议

1. 缓存模型

# 使用单例模式，避免重复加载模型
class VoskRecognizer:
    _instance = None
    _model = None
    
    def __new__(cls):
        if cls._instance is None:
            cls._instance = super().__new__(cls)
            cls._model = Model(MODEL_PATH)
        return cls._instance

2. 异步处理

from celery import Celery

app = Celery('speech_recognition')

@app.task
def recognize_async(audio_path, reference_text):
    # 异步识别
    return recognize_and_evaluate(audio_path, reference_text)

3. 添加队列

使用 Redis + Celery 处理并发请求

📊 性能参考

配置	响应时间	并发能力
2核CPU	1-2秒	5-10请求/秒
4核CPU	0.5-1秒	15-20请求/秒
GPU	0.2-0.5秒	30+请求/秒

🔐 安全建议

添加认证：使用 Token 验证
限流：防止恶意请求
文件大小限制：最大 10MB
定时清理：删除临时音频文件

📝 总结

优势

✅ 完全内网 - 不依赖外网服务
✅ 开源免费 - 无需购买插件
✅ 易于维护 - Python 服务简单
✅ 可扩展 - 可以添加更多功能

下一步

在服务器 (192.168.1.80) 部署 Vosk 服务
集成到现有 Spring Boot 后端
uni-app 调用新的录音接口
测试和优化

现在可以开始云打包了，不再依赖 UTS 插件！ 🎉

9.1 KiB Raw Blame History Unescape Escape

服务器端语音识别部署指南（内网环境）

🎯 架构说明

📦 方案对比

方案 A：Vosk（推荐 - 轻量级）⭐

方案 B：Whisper（更准确）

方案 C：自建语音识别（最灵活）

🚀 推荐实现：Vosk + Python Flask

后端代码示例（Python）

📦 部署步骤

1. 安装依赖

2. 下载中文模型

3. 运行服务

4. 集成到现有后端

🔧 配置说明

uni-app 端配置

音频格式要求

✅ 测试步骤

1. 测试 Vosk 服务

2. 在 uni-app 中测试

🎯 优化建议

1. 缓存模型

2. 异步处理

3. 添加队列

📊 性能参考

🔐 安全建议

📝 总结

优势

下一步

9.1 KiB

Raw Blame History