技术原理

语音识别Python:如何将语音翻译成文本?

演讲人是全世界最常见的交流方式。世界上大多数人依靠语言来相互交流。假设我们正在建立一个模型,而不是一个书面的方法,我们希望我们的系统响应语音,这变得相当困难,需要处理大量的数据。语音识别系统通过将语音翻译成文本来克服这一障碍。在这个博客中,我们将介绍python中的语音识别模块。下面是相同的列表:

语音识别是如何工作的?如何在Python中安装语音识别?如何在Python中安装Pyaudio?如何使用语音识别?”

语音识别系统基本上是将语音转换成文本。语音识别系统的实际应用例子很多。例如siri,它将语音作为输入并将其翻译成文本。

使用语音识别系统的优点是它克服了识字的障碍。一个语音识别模型可以同时服务于识字和文盲的观众,因为它的重点是口语。

我们还可以使用语音识别系统对世界上所有濒危语言进行清点。虽然看起来很有趣,一点也不复杂,语音识别系统在制作过程中面临着许多挑战。

语音识别系统

语音识别系统面临的挑战变得很难制作,因为在语音方面我们有太多的可变性来源。

语体

每个人都有不同的语体说话,包括口音。众所周知,我们讲英语也有不同的口音。说到说世界上最常见的语言,有美式英语、英式英语和许多其他口音。语音也使得语音识别系统很难对语音进行整体翻译,

环境

环境也给系统增加了大量的背景噪声。与礼堂相比,一个单独的房间在背景噪音方面会有很大的变化。即使是回声也会在系统中增加很多噪音。

扬声器特性

老人的声音可能与婴儿的声音不同。一个人讲话的特点取决于许多因素,包括严厉性和清晰度。

语言限制

一些口语在翻译时可能没有实际意义。

克服这些挑战后,任何一个语音识别系统都可以翻译演讲到文本。现在我们已经了解了语音识别的工作原理,让我们来看看python中可用于语音识别的不同软件包。

软件包可用于python中的语音识别

apai

speech recognition

Google撸spe cloud

assemblyi

pocketshinx

Watson_开发者_cloud

wit

我们将在本博客中详细介绍语音识别软件包,也让我们沿着内存通道往下看,了解语音识别系统多年来是如何发展的。

语音识别的第一个原型实际上是一个玩具,名为radio雷克斯大约出现在20世纪20年代。它有一只狗坐在一个狗屋里,一旦有人说出雷克斯这个词就会弹出。

模型的唯一问题是弹簧连接到一个对500赫兹左右的能量敏感的电磁铁上。作为一个纯粹的频率检测器,它可以被远程称为语音识别模型。

在1962年,IBM提出了一个鞋盒模型,它可以识别孤立的单词,也可以执行一些算术运算。

随后来自CMU,它可以识别1000个单词中的连接语音声乐将语音识别导入为sr#识别器类的实例r=高级识别器()从麦克风

获取输入以使用麦克风,我们还必须安装pyaudio模块。我们使用麦克风类从麦克风获取输入语音,而不是像音频文件这样的任何其他输入方法。

对于大多数项目,我们可以使用默认麦克风。但是如果您不想使用默认麦克风,可以使用list-microscope-names方法获取麦克风名称列表。

来捕获使用listen方法的麦克风的输入。

将语音识别导入为srr=高级识别器()与高级话筒(作为源):如何在Python中安装Pyaudio?”

“要在python中安装Pyaudio,请在终端中运行以下命令,或者如果您正在使用pycharm,请在设置中从项目解释器添加包。

installation- speech recognition python - edureka用例

我们将使用python中的speechrecognition模块制作一个程序来识别语音并执行以下操作:

将语音转换为文本使用webbrowser模块打开一个URL,使用语音识别传递一个查询,在URL

中进行搜索以下是上述问题语句的程序:

将语音识别导入为sr将webbrowser导入为wbr1=高级识别器()r3=高级识别器()使用高级麦克风()作为源:print('立即发言')如果r2中有“edureka”,请识别“google(音频):”url='https://www.edureka.co网站/'print('搜索查询')尝试:打印(get)除了sr.UnknownValueError:打印(“错误”)打印(“失败”。格式(e))如果r1中有“视频”,请识别谷歌(音频):网址='https://www.youtube.com/results?搜索查询='print('搜索视频')尝试:打印(get)除了sr.UnknownValueError:print('无法理解')除了高级请求错误作为e:

output-speech recognition python-edureka

您将得到如图所示的输出。如果你说edureka,它会提示你说你想在我们在url变量中编写的edureka url中搜索的查询。如果你说python,你会在浏览器中打开下面的网页,在这个博客中是

output-speech recognition python-edureka

,我们已经讨论了如何使用python中的语音识别来使用speech recognition包将语音转换为文本。人工智能已经成为语音识别或对象沮丧等概念的一个小时的需求,深层神经网络为语音识别系统提供了难以想象的可能性,而我们可以训练和测试大量的语音数据来建立一个系统,你可以参加深神经网络的python认证课程来掌握你的技能并开始你的学习。

有什么问题吗?在评论中提到他们,我们会给你回复的

你也可能喜欢

发表评论

您的电子邮件地址不会被公开。 必填项已用 * 标注

提示:点击验证后方可评论!

插入图片
人工智能培训去猎维科技 投稿者
我还没有学会写个人说明!
最近文章
  • * 没有更多文章了
  • 热门搜索

    分类目录