一个基于语音识别与合成的智能交互工具,实现语音转文字、文字转语音的完整流程,支持中文交互和持续对话。
- 语音输入
🎤 通过麦克风录制语音(最长30秒) - 语音转文本
📝 使用Google Speech Recognition API进行中文识别 - 文本转语音
🔊 通过gTTS生成并播放中文语音 - 交互式对话
🔄 支持持续对话直到用户主动退出 - 临时文件管理
🗑️ 自动清理生成的音频文件
speech_recognition- 语音识别核心库gTTS(Google Text-to-Speech) - 文本转语音playsound- 音频播放PyAudio- 麦克风输入支持
- 克隆仓库:
git clone https://github.com/yourusername/brainwave.git
cd brainwave- 安装依赖:
pip install speechrecognition gTTS playsound pyaudio(Windows用户可能需要先安装PyAudio:)
pip install pipwin
pipwin install pyaudiopython brainwave.py操作流程:
- 看到"请说话..."提示后开始说话
- 程序自动转换语音为文字并显示
- 自动播放转换后的语音反馈
- 输入
n退出程序,其他任意键继续
- Start - 启动语音录制
- Copy - 复制识别结果
- Readability - 评估文本可读性
- Correctness - 验证语法正确性
- Ask AI - 获取AI优化建议
- 可用麦克风设备
- 互联网连接(依赖Google API)
- Python 3.6+
✨ 优化建议:
- 在安静环境中使用
- 单次语音不超过30秒
- 调整
energy_threshold适应环境噪音
- 支持多语言切换
- 添加本地语音缓存
- 集成AI对话功能
- 开发图形界面(GUI)
brainwave/
├── brainwave.py # 主程序
├── README.md # 说明文档
└── brainwave-ui.PNG # 界面截图-TODO