AI语音实时转写

使用EAIDK-310进行实时语音转写。
使用百度API来完成。

首先,安装aip

pip install baidu-aip

然而,由于忘记sudo,所以失败了,

sudo之后成功,

然后在百度ai平台注册账号,我们也可以直接使用我们的百度网盘的账号登录。
这里需要注意的是,由于我们的开发板只有1GB内存,因此使用Firefox上网的时候会经常卡死,因此不建议使用开发板去百度ai平台,太卡了。

上面这个图是开发板的崩溃图,下面的图是电脑上面用Chrome登录的

登录之后创建应用,

随后获得id密码,分别获取三个参数,
APP_ID API_KEY SECRET_KEY,
其中SECRET_KEY默认是隐藏的,点击才显示。

然后写一段python代码。

from aip import AipSpeech
APP_ID = '' //写自己的
API_KEY = '' //写自己的
SECRET_KEY = '' //写自己的

client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
lan="Hello Baidu AI" 
result = client.synthesis(lan, 'zh', 1, { 'vol': 5, 'per': 5, 'spd':5 })

if not isinstance(result,dict):
with open('./Baidu-TTS.mp3', 'wb') as f:
    f.write(result)

不知道怎么回事,使用中文就会失败。可能是系统没有安装中文文字的缘故。

随后生成MP3文件。使用ffplay播放发现正确。

上面说的是使用百度的开放api来制作电子书。
随后我试图进行声音转换文字,却发现没有离线的api,于是想到开发板的性能确实无法实时转写。

不知道用什么方法能把这个图转过来,但是不妨碍大家看到这里面没有离线的语音转换api。
不知道什么配置能够实时转换。许多会议的会场都有这个实时语音转文字以及实时翻译的工具。

不过利用这个开发板到时可以自己制作一批有声书。然而根据我自己的感觉,转换文字到声音的时间比较长。

刚刚百度了一下,发现了无法使用中文的原因,需要增加一段utf-8的代码。

# -*- coding:utf-8 -*-

执行完毕之后,

等我弄懂怎么在线识别之后,在把这两个文件识别成文字。

期待中!

文件名 大小 下载次数 操作
Baidu-TTS.mp3 3.38KB 0 下载
Baidu-TTS-Chinese.mp3 3.66KB 0 下载

发表评论

邮箱地址不会被公开。 必填项已用*标注