用声音与Ubuntu交流

偶然在Ubuntu中发现了espeak这个命令，其实也不算偶然，而是故意去找的。因为在看《生活大爆炸》时，有一集就是Sheldon被骗而不能开口讲话，他只能使用他的笔记本来代替他说话，还有一集Sheldon说他最喜欢的是Ubuntu系统，所以我想Ubuntu里应该会有这样一个帮助哑巴说话的工具的，于是就发现了espeak，它是Ubuntu默认安装的软件，一个能说N种语言，自定义语速，自定义发音音量，自定义停顿时长，自定义的选项太多，就不一一列举了。

举个例子：

espeak -v zh -s 120

-v zh表示使用中文，默认为英语，当然还支持其他各种语言，包括zh-yue，即粤语，就英语还分好多种呢。你可以在/usr/share/espeak-data/voices里找到所有这些语言各类。-s 120表示语速为每分钟120个词，默认为160,感觉太快了点。回车后，输入一段中文，你的电脑就会帮你读出来。

你可以写一段脚本，定时执行，在开机时，让你的电脑说出“欢迎使用，我的主人”，在关机前让电脑说出“主人，我将关机，请保存好文件”。很有趣吧，呵呵！

不过，它对中文的支持还是有些问题的，就是有些字它并不准确的发音，如“刘”这个很常见的字，它就读不准，你需要使用“流”来代替。很奇怪吧，同样的发音，一个读得准，而另一个则读不准。

上面说的是让电脑说话给你听，下面要说的是让你说的话，让你的电脑听懂，这就是与语音识别相关了，由于Ubuntu由apt进行包管理，尽管Ubuntu默认没有语音识别工具，但是安装起来也就是一个命令罢了。

sudo apt-get install gnome-voice-control

该工具依赖于sphinxbase库，apt会自动帮你安装上去，你直接使用就可以了，gnome-voice-control是一个applet，在你的任务栏，也就是Ubuntu的最上头那一横栏上右键，选择“Add to Panel...”，然后选择gnome-voice-control这个工具就可以了。当该工具出现在任务栏上后，在它上面右键选择start control就可以开始语音控制了。

不要奢望你说什么，它都能够听得懂，语音识别是相当有难度的东西，近年来也没有大的进展，gnome-voice-control只能做到的就是识别一些特定的单词，确切的说是一些指定的命令，从而对你的桌面做相应的操作。而且也并不能做到每次都准确识别，不过这不是最令人头疼的，像我英语还算发音标准，基本大多命令都能一次识别出来，但是有些命令也要喊上两遍才行。最令人头疼的是，你随便说一段不相关的话，它也能识别出一些命令来，这就不爽了，如果你老是把它开着，突然一个朋友过来与你聊了几句话，结果你可能发现你的电脑打开了N个窗口，或者其他什么的。

通过apt安装是0.1版本，只支持以下几个命令：

  RUN TERMINAL     : open default terminal
  RUN BROWSER      : open default web browser
  RUN MAIL         : open Evolution
  RUN TEXT EDITOR  : open GEdit
  CLOSE WINDOW
  MAXIMIZE WINDOW
  MINIMIZE WINDOW
  NEXT WINDOW

所以，你对着你的电脑喊”run terminal“，它就会帮你打开一个终端来，很酷！

我是自己从gnome官网上下载了最新0.4版本的源码，自己编译安装的，0.4版本支持的命令更多，除了对以上命令的支持，它还有其他命令的支持。

对键盘：

  MOUSE RIGHT
  MOUSE LEFT
  MOUSE UP
  MOUSE DOWN
  CLICK, RIGHT CLICK
  PAGE UP
  PAGE DOWN
  LEFT
  RIGHT

对gedit：

  FILE .. OPEN
  HELP .. ABOUT
  SAVE
  PRINT
  UNDO
  PASTE
  FIND
  REPLACE
  EDIT .. SELECT ALL

不过，不建议你自已编译安装，因为太麻烦了，而且依赖的第三方库相当多，相当大，很容易导致你的系统塞入大量垃圾，而且0.4版本的尽管命令支持的多了，但是识别误判也相当严重。

这里还有一些东西要说说，就是gnome-voice-control是基于语音模型sphinx2的，到目前为些已经有sphinx3和sphinx4了，而之所以选择sphinx2是因为它的处理速度快，所以如果你要求识别的准确性，而不要求实时性的话，你需要去尝试一些以sphinx3甚至是sphix4为基础的软件。当然模型很多，也不仅仅限于sphinx类型，而且不同地区的语言，所适合的分析模型也不一样。

还有，gnome-voice-control的机器学习所使用的声音是来自于网上的自由爱好者，所以gnome-voice-control并不是为你而精心设计的，它是为更兼容，更通用而设计的，如果你的声音很特别，或者你的发音有地方口音，gnome-voice-control并不能很好的利用你的发音特点，而正确地工作。如果你想自己来训练gnome-voice-control，那么你得研究一下sphinx train了。

能用自己的声音与Ubuntu交流，不是那么通畅，但也相当有趣，但愿语音识别能在未来几年有很大的突破。

发表于 2010年08月30日 02:53 评论：0 阅读：3261

上一篇：ubuntu软件推荐
下一篇：Joke five