浅谈语音识别技术论文有关语音识别技术论文

相关热词搜索：

浅谈语音识别技术论文

浅谈语音识别技术论文语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务，对任何事都能够通过语音交互的方式。

小编整理了浅谈语音识别技术论文，欢迎阅读! 浅谈语音识别技术论文篇一语音识别技术概述作者：刘钰马艳丽董蓓蓓摘要：本文简要介绍了语音识别技术理论基础及分类方式，所采用的关键技术以及所面临的困难与挑战，最后讨论了语音识别技术的发展前景和应用。

关键词：语音识别;特征提取;模式匹配;模型训练 Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part. Keywords:Speech identification;Character Pick-up;Mode matching;Model training 一、语音识别技术的理论基础语音识别技术：是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象，它是语音信号处理的一个重要研究方向，是模式识别的一个分支，涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域，甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解)，其最终目标是实现人与机器进行自然语言通信。

不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似，一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外，还涉及到语音识别单元的选取。

(一) 语音识别单元的选取选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种，具体选择哪一种，由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。

音节单元多见于汉语语音识别，主要因为汉语是单音节结构的语言，而英语是多音节，并且汉语虽然有大约1300个音节，但若不考虑声调，约有408 个无调音节，数量相对较少。因此，对于中、大词汇量汉语语音识别系统来说，以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中，但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成，且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母，这样虽然增加了模型数目，但提高了易混淆音节的区分能力。由于协同发音的影响，音素单元不稳定，所以如何获得稳定的音素单元，还有待研究。

(二) 特征参数提取技术语音信号中含有丰富的信息，但如何从中提取出对语音识别有用的信息呢特征提取就是完成这项工作，它对语音信号进行分析处理，去除对语音识别无关紧要的冗余信息，获得影响语音识别的重要信息。对于非特定人语音识别来讲，希望特征参数尽可能多的反映语义信息，尽量减少说话人的个人信息(对特定人语音识别来讲，则相反)。从信息论角度讲，这是信息压缩的过程。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术，许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型，没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱，在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的一些研究成果。实验证明，采用这种技术，语音识别系统的性能有一定提高。

也有研究者尝试把小波分析技术应用于特征提取，但目前性能难以与上述技术相比，有待进一步研究。

(三)模式匹配及模型训练技术模型训练是指按照一定的准则，从大量已知模式中获取表征该模式本质特征的模型参数，而模式匹配则是根据一定准则，使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络 (ANN)。

DTW是较早的一种模式匹配和模型训练技术，它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题，在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统，目前已被HMM 模型和ANN替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性，其中一个是隐蔽的(不可观测的)具有有限状态的Markor链，另一个是与Markor链的每一状态相关联的观察矢量的随机过程 (可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样，语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述，而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点，HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数，简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数，简称CHMM)以及半连续隐马尔可夫模型 (SCHMM，集DHMM和CHMM特点)。一般来讲，在训练数据足够的，CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法，并不断被完善，以增强HMM模型的鲁棒性。

人工神经元网络在语音识别中的应用是现在研究的又一热点。

ANN本质上是一个自适应非线性动力学系统，模拟了人类神经元活动的原理，具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的，但 ANN又不个有HMM模型的动态时间归正性能。因此，现在已有人研究如何把二者的优点有机结合起来，从而提高整个模型的鲁棒性。

二、语音识别的困难与对策目前，语音识别方面的困难主要表现在：
(一)语音识别系统的适应性差，主要体现在对环境依赖性强，即在某种环境下采集到的语音训练系统只能在这种环境下应用，否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应，使用不方便。

(二)高噪声环境下语音识别进展困难，因为此时人的发音变化很大，像声音变高，语速变慢，音调及共振峰变化等等，这就是所谓Lombard效应，必须寻找新的信号分析处理方法。

(三)语言学、生理学、心理学方面的研究成果已有不少，但如何把这些知识量化、建模并用于语音识别，还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次，把这方面的现有成果用于语音识别，还有一个艰难的过程。

(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决，识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。

三、语音识别技术的前景和应用语音识别技术发展到今天，特别是中小词汇量非特定人语音识别系统识别精度已经大于98%，对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展，这些复杂的语音识别系统也已经完全可以制成专用芯片，大量生产。在西方经济发达国家，大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能，还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息，并且取得很好的结果。

语音识别是一门交叉学科，语音识别正逐步成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。参考文献：
[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展. 企业专栏. 通讯世界,2007.2:(总l12期) [2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,2005.2:19-20 [3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界,2006.2 (总122期) [4]陈尚勤等.近代语音识别.西安: 电子科技大学出版社,1991 [5]王炳锡等.实用语音识别基础.Practical Fundamentals of Speech Recognition.北京:国防工业出版社,2005 [6](美)L.罗宾纳.语音识别基本原理.北京:清华大学出版社,1999 浅谈语音识别技术论文篇二语音识别技术的发展【摘要】语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务，对任何事都能够通过语音交互的方式。

【关键词】语音识别技术;发展趋势语音识别是一门交叉学科。语音识别研究经历了50多年的研究历程，经过50多年的积累研究，获得了巨大的进展。特别是近20年来，语音识别技术取得了显着的进步，并逐步的走向市场。在未来的日子里，语音识别技术将应用更为广泛。

一、语音识别技术概述语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术，语音识别技术一直受到各国科学界的广泛关注。如今，随着语音识别技术研究的突破，其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发出的产品应用领域非常广泛，如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等，几乎深入到社会的每个行业和每个方面。

广泛意义上的语音识别按照任务的不同可以分为4个方向：说话人识别、关键词检出、语言辨识和语音识别。说话人识别技术是以话音对说话人进行区别，从而进行身份鉴别和认证的技术。关键词检出技术应用于一些具有特定要求的场合，只关注那些包含特定词的句子，例如对一些特殊人名、地名的电话监听等。语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术，本质上也是语音识别技术的一个方面。语音识别就是通常人们所说的以说话的内容作为识别对象的技术，它是4个方面中最重要和研究最广泛的一个方向，也是本文讨论的主要内容。

二、语音识别的研究历史语音识别的研究工作始于20世纪50年代，1952年Bell实验室开发的 Audry系统是第一个可以识别10个英文数字的语音识别系统。

1959年，Rorgie和Forge采用数字计算机识别英文元音和孤立词，从此开始了计算机语音识别。

60年代，苏联的Matin等提出了语音结束点的端点检测，使语音识别水平明显上升;Vintsyuk提出了动态编程，这一提法在以后的识别中不可或缺。60 年代末、70年代初的重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术，有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

80年代语音识别研究进一步走向深入：HMM模型和人工神经网络 (ANN)在语音识别中成功应用。1988年，FULEE Kai等用VQ/I-IMM方法实现了 997个词汇的非特定人连续语音识别系统SPHINX。这是世界上第1个高性能的非特定人、大词汇量、连续语音识别系统。

进入90年代后，语音识别技术进一步成熟，并开始向市场提供产品。

许多发达国家如美国、日本、韩国以及IBM、Apple、AT;T、Microsoft等公司都为语音识别系统的实用化开发研究投以巨资。同时汉语语音识别也越来越受到重视。IBM开发的ViaVoice和Microsoft开发的中文识别引擎都具有了相当高的汉语语音识别水平。

进入21世纪，随着消费类电子产品的普及，嵌入式语音处理技术发展迅速[2]。基于语音识别芯片的嵌入式产品也越来越多，如Sensory公司的RSC系列语音识别芯片、Infineon公司的Unispeech和Unilite语音芯片等，这些芯片在嵌入式硬件开发中得到了广泛的应用。在软件上，目前比较成功的语音识别软件有：Nuance、IBM的Viavoice和Microsoft的SAPI以及开源软件HTK，这些软件都是面向非特定人、大词汇量的连续语音识别系统。

三、语音识别技术的发展现状语音识别技术通过全球科学家的共同努力，经历半个多世纪的研究，目前已经发展到了接近实用的阶段。在实验室环境下，大词汇量的朗读式连续说话的宽带语音信号的平均识别率可以达到90%以上。正式有了如此高的识别率之后，语音识别技术慢慢地从实验室演示系统逐步走向实用化商品。以IBM Via Voice和Dragon Dictation为代表的两个听写机系统的出现，使“语音识别”逐步进入大众视线，引起了广泛的社会关注。

由于校对和更正识别的错误很麻烦和浪费时间，这样便降低语音识别的优势。同时，由于使用的环境或讲话口音习惯等因素的影响，语音识别的内容大大降低，识别的内容不能达到100%的正确，所以很多人认为目前的语音识别系统还无法满足实用要求。

目前，ATT和MIT等将语音识别技术应用在一些有限词汇的特定任务上，如电话自动转接、电话查询、数字串识别的任务中，当讲话的内容是系统所存储的内容存在的，且使用环境的声学特性与训练数据的声学特性相差不太大时，语音识别的正确识别率可以接近100%。但是，在实际使用中如果这些条件被破坏，则会对识别系统造成一定的影响。

我国的语音识别研究一直紧跟国际水平，国家也很重视。国内中科院的自动化所、声学所以及清华大学等科研机构和高校都在从事语音识别领域的研究和开发。国家863智能计算机专家组为语音识别技术研究专门立项，并取得了高水平的科研成果。我国中科院自动化所研制的非特定人、连续语音听写系统和汉语语音人机对话系统，其准确率和系统响应率均可达90%以上。

四、语音识别技术发展趋势语音作为当前通信系统中最自然的通信媒介，语音识别技术是非常重要的人机交互技术。随着计算机和语音处理技术的发展，语音识别系统的实用性将进一步提高。应用语音的自动理解和翻译，可消除人类相互交往的语言障碍。

国外已有多种基于语音识别产品的应用，如声控拨号电话、语音记事本等，基于特定任务和环境的听写机也已经进入应用阶段。这预示着语音识别技术有着非常广泛的应用领域和市场前景。随着语音技术的进步和通信技术的飞速发展，语音识别技术将为网上会议、商业管理、医药卫生、教育培训等各个领域带来极大的便利，其应用和经济、社会效益前景非常良好. 虽然语音识别在过去的20年里有了很大的发展，但是，仍然存在很多的不足，有待于进一步的探索，具体可分为以下几个方面：
1.提高可靠性。语音识别技术需要能排除各种声学环境因素的影响。

在比较嘈杂的公共环境中，人的意识会有意识的排除非需要的声学环境因素，这对语音识别系统而言，是很难做到的。另外，在日常生活中，人类的语言常常具有较大的不确定性，比较随意，并带有明显的言语习惯。这同样会给语音识别系统很大的识别麻烦。目前，在提高语音系统在不同环境中的可靠性，同时要应用现代技术让语音识别系统更加智能化，掌握人们语言随意性的部分规律，以达到最佳的识别效果。

2.增加词汇量。系统可以识别的词汇的数量是系统能够做什么事情的一个重要度量。一个语音识别系统使用的声学模型和语音模型如果太过于局限，当用户所讲的词汇超出系统已知的范围时，则语音识别系统不能准确的识别出相应的内容，比如，当突然从中文转为英文、法文、俄文时，计算机就会常常输出混乱奇怪的结果。但是，随着系统建模方法的不断改进、搜索算法效率的提高以及硬件资源的发展，未来的语音识别系统可能会做到词汇量无限制和多种语言混合，这样用户在使用的时候可以不必在语种之间来回切换，这样就能大大减少词汇量的对语音识别系统的限制。

3.应用拓展。语音识别技术可以用于把费脑、费力、费时的机器操作变成一件很容易很有趣味性的事，比如，当人们出现手忙、手不能及以及分身无术的场景时，通过语音识别系统的模型构造，则能够在象驾驶室、危险的工业场合、远距离信息获取、家电控制等各个方面，语音识别技术可能带动一系列崭新或更便捷功能的设备出现，更加方便人的工作和生活。其应用的范围和前景非常广泛。不仅能够应用于日常生活，更重要的会带来生产方式的革命，是下一代智能化控制的基础。4.降低成本减小体积。微型化是语音识别技术商业应用的另一个重要途径，其推广程这取决于语音识别技术本身进步的程度，同时与微电子芯片技术的进一步发展关系密切。将具有先进功能和性能的语音识别应用系统固化到更加微小的芯片或模块上，可以大幅度降低产品成本和体积，产品必然受到消费者的青睐，语音识别系统和微电子芯片技术的发展是会引领我们的信息技术革命到一个新的台阶。

21世纪是信息和网络的时代，Internet和移动通信、固话通信的网络把全球各地连接起来。自然口语对话、电子商务、信息索取、数字图书馆、语音翻译、远程教育等一系列的人类活动都可在网络上实现。语音识别系统的出现，会让人更加自由的沟通，让人在任何地方，任何时间，对任何事都能够通过语音交互的方式，方便地享受到更多的社会信息资源和现代化服务。这必然会成为语音识别技术研究和应用的重要发展趋势。

看了“浅谈语音识别技术论文”的人还看：
1.探析语音识别技术的发展及趋势 2.浅谈技术与人文论文 3.浅谈计算机智能研究论文 4.浅谈远程教育论文 5.浅谈远程教育的相关论文

浅谈语音识别技术论文 有关语音识别技术论文

浅谈语音识别技术论文

浅谈语音识别技术论文有关语音识别技术论文