电工工具的使用、维修和保养，怎样学好电工？-常州plc培训中心，常州机器视觉培训，常州上位机培训设有常州plc编程培训，常州工业机器人培训等自动化培训班

热门课程

联系方式

常州和讯自动化培训中心
常州市新北区太湖东路府琛大厦2号楼307-1室，307-2室（常州万达广场对面）
电话:0519-85602926
手机:15861139266 13401342299

当前位置：网站首页 > 技术资料技术资料

电工工具的使用、维修和保养，怎样学好电工？

日期：2015-11-02 15:38:52人气：标签：常州到哪考电工证常州哪里能拿电工证常州电工培训常州维修电工培训

电工工具的使用、维修和保养？怎样学好电工？

做电工活，必须具备一定的工具和仪表。只有熟练地运用工具和仪表，才能在实践中得心应手，事半功倍。

常用的电工工具有钢丝钳、尖嘴钳、圆嘴钳、螺丝刀、电工刀、活扳手、测电笔以及断线钳、紧线钳、搭压钳等；仪表按用途分有电流表、电压表、电度表和万用表等。这里只介绍几种简易的电工工具。

钢丝钳

用手夹持或切断金属导线，带刃口的钢丝钳还可以用来切断钢丝。这种钳的规格有150、175、200毫米三种，均带有橡胶绝缘套管，可适用于500伏以下的带电作业。使用时，应注意保护绝缘套管，以免划伤失去绝缘作用。不可将钢丝钳当锤使用，以免刃口错位、转动轴失圆，影响正常使用。

尖嘴钳

用于夹捏工件或导线，特别适宜于狭小的工作区域。规格有130、160、180毫米的三种。电工用的带有绝缘导管。有的带有刃口，可以剪切细小零件。

螺丝刀

由刀头和柄组成。刀头形状有一字形和十字形两种，分别用于旋动头部为横槽或十字形槽的螺钉。螺丝刀的规格是指金属杆的长度，规格有75、100、125、150毫米的几种。使用时，手紧握柄，用力顶住，使刀紧压在螺钉上，以顺时针的方向旋转为上，逆时针为下卸。穿心柄式螺丝刀，可在尾部敲击，但禁止用于有电的场合。

电工刀

在电工安装维修中用于切削导线的绝缘层、电缆绝缘、木槽板等，规格有大号、小号之分。六号刀片长112毫米；小号刀片长88毫米。有的电工刀上带有锯片和锥子，可用来锯小木片和锥孔。电工刀没有绝缘保护，禁止带电作业。使用电工刀，应避免切割坚硬的材料，以保护刀口。刀口用钝后，可用油石磨。如果刀刃部分损坏较重，可用砂轮磨，但须防止退火。

测电笔

又称验电笔。它能检查低压线路和电气设备外壳是否带电。为便于携带，测电笔通常做成笔状，前段是金属探头，内部依次装安全电阻、氖管和弹簧。弹簧与笔尾的金属体相接触。使用时，手应与笔尾的金属体相接触。测电笔的测电压范围为60～500伏（严禁测高压电）。使用前，务必先在正常电源上验证氖管能否正常发光，以确认测电笔验电可靠。由于氖管发光微弱，在明亮的光线下测试时，应当避光检测。

电工操作技能训练为中等职业学校电类、机电类专业必修的实践性课程，实践教学是提高学生实践能力，增强学生社会适应力的必备环节，也体现了职业教育办学特点所在。因此要使职业学校学生得到较好的培养，应做到知识和能力兼顾，其中加强实习教学尤为关键。笔者认为在加强实习教学环节中，应注意以下几个方面：

一、积极引导，帮助学生树立信心

职高生入校之初，对专业的认识几乎一无所知，此时部分学生由于已有的生活经验会对专业知识充满好奇心，而部分学生却会因对专业的陌生产生畏惧心理。针对以上情况我们不妨从课外辅导入手：其一，成立电工制作和维修兴趣小组，通过制作简单的电路(如门铃、声控灯、防盗报警器和双联灯等)，意在激发自信培养学生的兴趣。制作内容从简单实用入手。制作时，对于出现的线路故障，教师要和学生一起分析，找出故障产生的原因，提高学生的维修技巧。完成的作品可以拿到校橱窗进行展示，对学生产生激励效应。其二，可引导学生阅读一些相关的报刊、杂志，也可鼓励学生去网上搜集相关资料，以此多了解维修电工行业发展状况及专业发展方向，拓宽其知识面，培养学生的创新思维能力。其三，在维修教学实践中，可鼓励学生从身边的小电器维修人手，学会一些简单的维修技巧。随着维修经验的积累，可鼓励学生到校外进行义务维修，提高其维修技能和社会适应性。学生在维修中体会到成功的乐趣，有利于提高学生的学习积极性。其四，教师应起好示范作用，多参加一些有益的维修活动，提高自己的专业水平，向学生阐述自己的心得体会，学生的兴趣和信心就更能持久保持。

在电工实习过程中，部分学生存在着因对电的畏惧而缩手缩脚。这时，作为教师应加强引导，除对学生进行必要的安全知识教育外，应鼓励学生多动手，在操作中总结经验，克服困难增强信心。

二、明确目标，提高教学效果

“没有压力就没有动力”，所以在电工实践教学中，要加强目标教育。学生有了压力，就会产生动力，促使学生变“要我学”为“我要学”。我们可把整个电工实践教学目标分为四个阶段。第一阶段，把对器件的识别和熟悉作为重点，主要要求学生熟悉器件各部分的作用，在此基础上可让学生对某些有故障的器件进行维修和保养，进一步熟悉各器件作用。第二阶段，目标定位在对线路原理、布线图的熟悉。教师应先对学生进行相关理论知识的复习，然后在课堂上引导学生画出布线图，这样做的目的主要是让学生知道线路该怎么接，在实际动手操作时做到心中有数。第三阶段，目标定位在工艺上。在学生掌握如何接线以后，着重强调学生工艺要求，教师先对接线的工艺要求进行讲解，学生按工艺要求进行装接，逐步提高接线质量和工艺水平。第四阶段，重在反复训练和提高。综上所述，学生在实习前明确各阶段目标，实习中分解了实习难度，既能树立学生自信，又能促使学生有效地掌握技能，有利于提高电工实践教学效果。

三、严格要求，提高工艺水平

电工实习中，线路板上装接元器件多、工艺要求多、标准高。针对这一情况应对实习的每个环节进行严格要求，因此，设立恰当的评分标准尤为重要，评分标准的制定应立足于操作技能的标准化和规范化，有利于培养学生独立分析、独立操作的能力及严谨踏实的学习态度。以《Y—Δ降压启动控制线路》为例，为了使学生易于接受可先要求学生复习其工作原理，按照线路图画出其布线图，然后，要求其按图装接控制线路，主要目的是让学生能正确装接，装接时对其工艺要严格要求，并通过评分标准来进一步规范。控制线路装接完成时，学生所装线路中可能出现控制功能不能实现的情况，这时，可鼓励学生认真分析故障，努力找出故障点，可采用电阻法进行检测。在个人无法解决问题时，可让几个学生共同分析，直至找出故障点，让学生体会成功的自豪感，有利于学生树立自信心，正确对待下一次实习。对于出现的典型故障，教师可与全班学生一起分析，找出原因，避免下次再犯，这样对整个线路的理解和掌握很有好处。最后，教师应要求学生对整个线路进行装接，并在教师的指导下对所接线路进行通电试车，让学生对整个线路工作过程有个感观认识。

在学生按标准能正确完成线路的前提下，可以适当提高要求，强调其所用时间的重要性，经过反复训练，提高其熟练程度，以适应社会实践需要。对每次实习工艺突出、用时少的学生，将其组装的线路作为样板，在学生中树立榜样，增强学生学习的信心。同时也要注意疏导部分学生“片面求快”思想，指导他们循序渐进地进行实践操作的训练，不可贪多求快，从而造成技能水平得不到提高的不良结果。

四、注重良好习惯养成和能力培养，提高社会适应能力

在实习中，必须教育学生养成一丝不苟、有条不紊的习惯。电工实习中存在器件多、易损坏、易出安全事故等情况，可对每位实习学生的器件及线路进行编号，明确职责，违反操作规程或故意损坏器件应赔偿，保证元器件的正常使用，有利于培养学生爱护公物的良好习惯和适应企业安全文明生产的要求。

对于线路组装中的故障，在社会实践应用中有广泛的体现，这是培养学生分析能力、独立思考能力的良机。首先，教师要立足于理论教学法，使学生熟练掌握线路原理，分析某一器件或某一段线路出现问题，将会出现什么样故障，这是学生进行故障分析的基础。其次，教师要向学生介绍多种不同的排故方法，明确其利弊，并指导学生动手排故，培养学生多方位、多角度的探究品质，提高思维能力，使其知道如何避免一般性故障。有时也可由教师故意设立故障，让学生分析，动手排除故障，提供更多的实践机会，帮助学生学会排故方法，使其能灵活运用所学知识。也可利用社会实践的机会，鼓励学生多进行社会实践，以适应社会发展的能力需求。

语音识别技术(5)

语音识别技术,语音识别技术是什么意思

　语音识别技术，也被称为自动语音识别Automatic Speech Recognition，(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

　　语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合，可以构建出更加复杂的应用，例如语音到语音的翻译。

　　语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

特定人语音识别的方法

　　目前，常用的说话人识别方法有模板匹配法、统计建模法、联接主义法(即人工神经网络实现)。考虑到数据量、实时性以及识别率的问题，笔者采用基于矢量量化和隐马尔可夫模型(HMM)相结合的方法。

　　说话人识别的系统主要由语音特征矢量提取单元(前端处理)、训练单元、识别单元和后处理单元组成，其系统构成如图1所示。

　　由上图也可以看出，每个司机在购买车后必须将自己的语音输入系统，也就是训练过程，当然最好是在安静、次数达到一定的数目。从此在以后驾驶过程中就可以利用这个系统了。

　　所谓预处理是指对语音信号的特殊处理:预加重，分帧处理。预加重的目的是提升高频部分，使信号的频谱变得平坦，以便于进行频谱分析或声道参数分析。用具有 6dB/倍频程的提升高频特性的预加重数字滤波器实现。虽然语音信号是非平稳时变的，但是可以认为是局部短时平稳。故语音信号分析常分段或分帧来处理。

　　历史

　　早在计算机发明之前，自动语音识别的设想就已经被提上了议事日程，早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器，当这只狗的名字被呼唤的时候，它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统，它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。到1950年代末，伦敦学院(Colledge of London)的Denes已经将语法概率加入语音识别中。

　　1960年代，人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC)，及动态时间弯折Dynamic Time Warp技术。

　　语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理，经过Labiner等人的研究，卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。[3]。此后严格来说语音识别技术并没有脱离HMM框架。

　　尽管多年来研究人员一直尝试将“听写机”推广，语音识别技术在目前还无法支持无限领域，无限说话人的听写机应用。

　　模型

　　目前，主流的大词汇量语音识别系统多采用统计模式识别技术。典型的基于统计模式识别方法的语音识别系统由以下几个基本模块所构成

　　信号处理及特征提取模块。该模块的主要任务是从输入信号中提取特征，供声学模型处理。同时，它一般也包括了一些信号处理技术，以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。统计声学模型。典型系统多采用基于一阶隐马尔科夫模型进行建模。发音词典。发音词典包含系统所能处理的词汇集及其发音。发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。语言模型。语言模型对系统所针对的语言进行建模。理论上，包括正则语言，上下文无关文法在内的各种语言模型都可以作为语言模型，但目前各种系统普遍采用的还是基于统计的N元文法及其变体。解码器。解码器是语音识别系统的核心之一，其任务是对输入的信号，根据声学、语言模型及词典，寻找能够以最大概率输出该信号的词串。从数学角度可以更加清楚的了解上述模块之间的关系。首先，统计语音识别的最基本问题是，给定输入信号或特征序列，符号集（词典），求解符号串使得：

　　W = argmaxP(W | O) 通过贝叶斯公式，上式可以改写为

　　由于对于确定的输入串O，P(O)是确定的，因此省略它并不会影响上式的最终结果，因此，一般来说语音识别所讨论的问题可以用下面的公式来表示，可以将它称为语音识别的基本公式。 W = argmaxP(O | W)P(W)

　　从这个角度来看，信号处理模块提供了对输入信号的预处理，也就是说，提供了从采集的语音信号(记为S)到特征序列O的映射。而声学模型本身定义了一些更具推广性的声学建模单元，并且提供了在给定输入特征下，估计P(O | uk)的方法。

　　为了将声学模型建模单元串映射到符号集，就需要发音词典发挥作用。它实际上定义了映射的映射。为了表示方便，也可以定义一个由到U的全集的笛卡尔积，而发音词典则是这个笛卡尔积的一个子集。并且有：

　　最后，语言模型则提供了P(W)。这样，基本公式就可以更加具体的写成：

　　对于解码器来所，就是要在由,,ui以及时间标度t张成的搜索空间中，找到上式所指明的W。

　　语音识别是一门交叉学科，语音识别正逐步成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

　　与机器进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。

　　一、语音识别的发展历史

　　(1)国外研究历史及现状

　　语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统，它是第一个可以识别十个英文数字的语音识别系统。

　　但真正取得实质性进展，并将其作为一个重要的课题开展研究则是在60年代末70年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能，更重要的是语音信号线性预测编码（LPC）技术和动态时间规整（DTW）技术的提出，有效的解决了语音信号的特征提取和不等长匹配问题。这一时期的语音识别主要基于模板匹配原理，研究的领域局限在特定人，小词汇表的孤立词识别，实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统；同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

　　随着应用领域的扩大，小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽，与此同时也带来了许多新的问题：第一，词汇表的扩大使得模板的选取和建立发生困难；第二，连续语音中，各个音素、音节以及词之间没有明显的边界，各个发音单位存在受上下文强烈影响的协同发音（Co-articulation）现象；第三，非特定人识别时，不同的人说相同的话相应的声学特征有很大的差异，即使相同的人在不同的时间、生理、心理状态下，说同样内容的话也会有很大的差异；第四，识别的语音中有背景噪声或其他干扰。因此原有的模板匹配方法已不再适用。

　　实验室语音识别研究的巨大突破产生于20世纪80年代末：人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍，第一次把这三个特性都集成在一个系统中，比较典型的是卡耐基梅隆大学(CarnegieMellonUniversity)的Sphinx系统，它是第一个高性能的非特定人、大词汇量连续语音识别系统。

　　这一时期，语音识别研究进一步走向深入，其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于AT&TBell实验室Rabiner等科学家的努力，他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识，从而使统计方法成为了语音识别技术的主流。

　　统计方法将研究者的视线从微观转向宏观，不再刻意追求语音特征的细化，而是更多地从整体平均（统计）的角度来建立最佳的语音识别系统。在声学模型方面，以Markov链为基础的语音序列建模方法HMM（隐式Markov链）比较有效地解决了语音信号短时稳定、长时时变的特性，并且能根据一些基本建模单元构造成连续语音的句子模型，达到了比较高的建模精度和建模灵活性。在语言层面上，通过统计真实大规模语料的词之间同现概率即N元统计模型来区分识别带来的模糊音和同音词。另外，人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。

　　20世纪90年代前期，许多著名的大公司如IBM、苹果、AT＆T和NTT都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制，那就是识别的准确率，而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。比较有代表性的系统有：IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking,Nuance公司的NuanceVoicePlatform语音平台，Microsoft的Whisper,Sun的VoiceTone等。

　　其中IBM公司于1997年开发出汉语ViaVoice语音识别系统，次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaVoice'98。它带有一个32,000词的基本词汇表，可以扩展到65,000词,还包括办公常用词条，具有“纠错机制”，其平均识别率可以达到95%。该系统对新闻语音识别具有较高的精度，是目前具有代表性的汉语连续语音识别系统。

　　(2)国内研究历史及现状

　　我国语音识别研究工作起步于五十年代，但近年来发展很快。研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后，国家863智能计算机专家组为语音识别技术研究专门立项，每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步，在汉语语音识别技术上还有自己的特点与优势，并达到国际先进水平。中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究，其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。

　　清华大学电子工程系语音技术与专用芯片设计课题组，研发的非特定人汉语数码串连续语音识别系统的识别精度，达到94.8%（不定长数字串）和96.8%（定长数字串）。在有5%的拒识率情况下，系统识别率可以达到96.9%（不定长数字串）和98.7%（定长数字串），这是目前国际最好的识别结果之一，其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%，前三选识别率达99.96%；并且可以识别普通话与四川话两种语言，达到实用要求。

　　中科院自动化所及其所属模式科技(Pattek)公司2002年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品——PattekASR，结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。

　　二、语音识别系统的分类

　　语音识别系统可以根据对输入语音的限制加以分类。如果从说话者与识别系统的相关性考虑，可以将识别系统分为3类：(1)特定人语音识别系统：仅考虑对于专人的话音进行识别；(2)非特定人语音系统：识别的语音与人无关，通常要用大量不同人的语音数据库对识别系统进行学习；(3)多人的识别系统：通常能识别一组人的语音，或者成为特定组语音识别系统，该系统仅要求对要识别的那组人的语音进行训练。

　　如果从说话的方式考虑，也可以将识别系统分为3类：(1)孤立词语音识别系统：孤立词识别系统要求输入每个词后要停顿；(2)连接词语音识别系统：连接词输入系统要求对每个词都清楚发音，一些连音现象开始出现；(3)连续语音识别系统：连续语音输入是自然流利的连续语音输入，大量连音和变音会出现。

　　如果从识别系统的词汇量大小考虑，也可以将识别系统分为3类：(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。(2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。(3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高，识别系统根据词汇量大小进行分类也不断进行变化。目前是中等词汇量的识别系统到将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。

　　三、语音识别的几种基本方法

　　一般来说,语音识别的方法有三种：基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。

　　(1)基于语音学和声学的方法

　　该方法起步较早，在语音识别技术提出的开始，就有了这方面的研究，但由于其模型及语音知识过于复杂，现阶段没有达到实用的阶段。

　　通常认为常用语言中有有限个不同的语音基元，而且可以通过其语音信号的频域或时域特性来区分。这样该方法分为两步实现：

　　第一步，分段和标号

　　把语音信号按时间分成离散的段，每段对应一个或几个语音基元的声学特性。然后根据相应声学特性对每个分段给出相近的语音标号

　　第二步，得到词序列

　　根据第一步所得语音标号序列得到一个语音基元网格，从词典得到有效的词序列，也可结合句子的文法和语义同时进行。

　　(2)模板匹配的方法

　　模板匹配的方法发展比较成熟，目前已达到了实用阶段。在模板匹配方法中，要经过四个步骤：特征提取、模板训练、模板分类、判决。常用的技术有三种：动态时间规整(DTW)、隐马尔可夫（HMM）理论、矢量量化（VQ）技术。

　　1、动态时间规整(DTW)

　　语音信号的端点检测是进行语音识别中的一个基本步骤，它是特征训练和识别的基础。所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素)的始点和终点的位置，从语音信号中排除无声段。在早期，进行端点检测的主要依据是能量、振幅和过零率。但效果往往不明显。60年代日本学者Itakura提出了动态时间规整算法(DTW：DynamicTimeWarping)。算法的思想就是把未知量均匀的升长或缩短,直到与参考模式的长度一致。在这一过程中，未知单词的时间轴要不均匀地扭曲或弯折，以使其特征与模型特征对正。

　　2、隐马尔可夫法(HMM)

　　隐马尔可夫法(HMM)是70年代引入语音识别理论的，它的出现使得自然语音识别系统取得了实质性的突破。HMM方法现已成为语音识别的主流技术，目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。HMM是对语音信号的时间序列结构建立统计模型，将之看作一个数学上的双重随机过程：一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程，另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来，但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程，语音信号本身是一个可观测的时变序列，是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。可见HMM合理地模仿了这一过程，很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型。

　　3、矢量量化(VQ)

　　矢量量化(VectorQuantization)是一种重要的信号压缩方法。与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是：将语音信号波形的k个样点的每一帧，或有k个参数的每一参数帧，构成k维空间中的一个矢量，然后对矢量进行量化。量化时，将k维无限空间划分为M个区域边界，然后将输入矢量与这些边界进行比较，并被量化为“距离”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书，从实际效果出发寻找到好的失真测度定义公式，设计出最佳的矢量量化系统，用最少的搜索和计算失真的运算量，实现最大可能的平均信噪比。

　　核心思想可以这样理解：如果一个码书是为某一特定的信源而优化设计的，那么由这一信息源产生的信号与该码书的平均量化失真就应小于其他信息的信号与该码书的平均量化失真，也就是说编码器本身存在区分能力。

　　在实际的应用过程中，人们还研究了多种降低复杂度的方法，这些方法大致可以分为两类：无记忆的矢量量化和有记忆的矢量量化。无记忆的矢量量化包括树形搜索的矢量量化和多级矢量量化。

　　（3）神经网络的方法

　　利用人工神经网络的方法是80年代末期提出的一种新的语音识别方法。人工神经网络(ANN)本质上是一个自适应非线性动力学系统，模拟了人类神经活动的原理，具有自适应性、并行性、鲁棒性、容错性和学习特性，其强的分类能力和输入-输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点，目前仍处于实验探索阶段。

　　由于ANN不能很好的描述语音信号的时间动态特性，所以常把ANN与传统识别方法结合，分别利用各自优点来进行语音识别。

　　四、语音识别系统的结构

　　一个完整的基于统计的语音识别系统可大致分为三部分：

　　(1)语音信号预处理与特征提取;

　　(2)声学模型与模式匹配;

　　(3)语言模型与语言处理、

　　（1）语音信号预处理与特征提取

　　选择识别单元是语音识别研究的第一步。语音识别单元有单词（句）、音节和音素三种，具体选择哪一种，由具体的研究任务决定。

　　单词（句）单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。

　　音节单元多见于汉语语音识别，主要因为汉语是单音节结构的语言，而英语是多音节，并且汉语虽然有大约1300个音节，但若不考虑声调，约有408个无调音节，数量相对较少。因此，对于中、大词汇量汉语语音识别系统来说，以音节为识别单元基本是可行的。

　　音素单元以前多见于英语语音识别的研究中，但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母（包括零声母有22个）和韵母（共有28个）构成，且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母，这样虽然增加了模型数目，但提高了易混淆音节的区分能力。由于协同发音的影响，音素单元不稳定，所以如何获得稳定的音素单元，还有待研究。

　　语音识别一个根本的问题是合理的选用特征。特征参数提取的目的是对语音信号进行分析处理，去掉与语音识别无关的冗余信息，获得影响语音识别的重要信息，同时对语音信号进行压缩。在实际应用中，语音信号的压缩率介于10-100之间。语音信号包含了大量各种不同的信息，提取哪些信息，用哪种方式提取，需要综合考虑各方面的因素，如成本，性能，响应时间，计算量等。非特定人语音识别系统一般侧重提取反映语义的特征参数，尽量去除说话人的个人信息；而特定人语音识别系统则希望在提取反映语义的特征参数的同时，尽量也包含说话人的个人信息。

　　线性预测（LP）分析技术是目前应用广泛的特征参数提取技术，许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型，没有考虑人类听觉系统对语音的处理特点。

　　Mel参数和基于感知线性预测（PLP）分析提取的感知线性预测倒谱，在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的一些研究成果。实验证明，采用这种技术，语音识别系统的性能有一定提高。从目前使用的情况来看，梅尔刻度式倒频谱参数已逐渐取代原本常用的线性预测编码导出的倒频谱参数，原因是它考虑了人类发声与接收声音的特性，具有更好的鲁棒性（Robustness）。

　　也有研究者尝试把小波分析技术应用于特征提取，但目前性能难以与上述技术相比，有待进一步研究。

　　（2）声学模型与模式匹配

　　声学模型通常是将获取的语音特征使用训练算法进行训练后产生。在识别时将输入的语音特征同声学模型（模式）进行匹配与比较，得到最佳的识别结果。

　　声学模型是识别系统的底层模型，并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小（字发音模型、半音节模型或音素模型）对语音训练数据量大小、系统识别率，以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。

　　以汉语为例：

　　汉语按音素的发音特征分类分为辅音、单元音、复元音、复鼻尾音四种，按音节结构分类为声母和韵母。并且由音素构成声母或韵母。有时，将含有声调的韵母称为调母。由单个调母或由声母与调母拼音成为音节。汉语的一个音节就是汉语一个字的音，即音节字。由音节字构成词，最后再由词构成句子。

　　汉语声母共有22个，其中包括零声母，韵母共有38个。按音素分类，汉语辅音共有22个，单元音13个，复元音13个，复鼻尾音16个。

　　目前常用的声学模型基元为声韵母、音节或词，根据实现目的不同来选取不同的基元。汉语加上语气词共有412个音节，包括轻音字，共有1282个有调音节字，所以当在小词汇表孤立词语音识别时常选用词作为基元，在大词汇表语音识别时常采用音节或声韵母建模，而在连续语音识别时，由于协同发音的影响，常采用声韵母建模。

　　基于统计的语音识别模型常用的就是HMM模型λ(N,M,π,A,B)，涉及到HMM模型的相关理论包括模型的结构选取、模型的初始化、模型参数的重估以及相应的识别算法等。

　　（3）语言模型与语言处理

　　语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型，语言处理可以进行语法、语义分析。

　　语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正，特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连接关系，减少了识别系统的搜索空间，这有利于提高系统的识别。

　　五、语音识别所面临的问题

　　1、就算法模型方面而言，需要有进一步的突破。目前能看出它的一些明显不足，尤其在中文语音识别方面，语言模型还有待完善，因为语言模型和声学模型正是听写识别的基础，这方面没有突破，语音识别的进展就只能是一句空话。目前使用的语言模型只是一种概率模型，还没有用到以语言学为基础的文法模型，而要使计算机确实理解人类的语言，就必须在这一点上取得进展，这是一个相当艰苦的工作。此外，随着硬件资源的不断发展，一些核心算法如特征提取、搜索算法或者自适应算法将有可能进一步改进。可以相信，半导体和软件技术的共同进步将为语音识别技术的基础性工作带来福音。

　　2、就自适应方面而言，语音识别技术也有待进一步改进。目前，象IBM的ViaVoice和Asiaworks的SPK都需要用户在使用前进行几百句话的训练，以让计算机适应你的声音特征。这必然限制了语音识别技术的进一步应用，大量的训练不仅让用户感到厌烦，而且加大了系统的负担。并且，不能指望将来的消费电子应用产品也针对单个消费者进行训练。因此，必须在自适应方面有进一步的提高，做到不受特定人、口音或者方言的影响，这实际上也意味着对语言模型的进一步改进。现实世界的用户类型是多种多样的，就声音特征来讲有男音、女音和童音的区别，此外，许多人的发音离标准发音差距甚远，这就涉及到对口音或方言的处理。如果语音识别能做到自动适应大多数人的声线特征，那可能比提高一二个百分点识别率更重要。事实上，ViaVoice的应用前景也因为这一点打了折扣，只有普通话说得很好的用户才可以在其中文版连续语音识别方面取得相对满意的成绩。

　　3、就强健性方面而言，语音识别技术需要能排除各种环境因素的影响。目前，对语音识别效果影响最大的就是环境杂音或嗓音，在公共场合，你几乎不可能指望计算机能听懂你的话，来自四面八方的声音让它茫然而不知所措。很显然这极大地限制了语音技术的应用范围，目前，要在嘈杂环境中使用语音识别技术必须有特殊的抗嗓(NoiseCancellation)麦克风才能进行，这对多数用户来说是不现实的。在公共场合中，个人能有意识地摒弃环境嗓音并从中获取自己所需要的特定声音，如何让语音识别技术也能达成这一点呢？这的确是一个艰巨的任务。

　　此外，带宽问题也可能影响语音的有效传送，在速率低于1000比特/秒的极低比特率下，语音编码的研究将大大有别于正常情况，比如要在某些带宽特别窄的信道上传输语音，以及水声通信、地下通信、战略及保密话音通信等，要在这些情况下实现有效的语音识别，就必须处理声音信号的特殊特征，如因为带宽而延迟或减损等。语音识别技术要进一步应用，就必须在强健性方面有大的突破。

　　4、多语言混合识别以及无限词汇识别方面：简单地说，目前使用的声学模型和语音模型太过于局限，以至用户只能使用特定语音进行特定词汇的识别。如果突然从中文转为英文，或者法文、俄文，计算机就会不知如何反应，而给出一堆不知所云的句子；或者用户偶尔使用了某个专门领域的专业术语，如“信噪比"等，可能也会得到奇怪的反应。这一方面是由于模型的局限，另一方面也受限于硬件资源。随着两方面的技术的进步，将来的语音和声学模型可能会做到将多种语言混合纳入，用户因此就可以不必在语种之间来回切换。此外，对于声学模型的进一步改进，以及以语义学为基础的语言模型的改进，也能帮助用户尽可能少或不受词汇的影响，从而可实行无限词汇识别。

　　5、多语种交流系统的应用：最终，语音识别是要进一步拓展我们的交流空间，让我们能更加自由地面对这个世界。可以想见，如果语音识别技术在上述几个方面确实取得了突破性进展，那么多语种交流系统的出现就是顺理成章的事情，这将是语音识技术、机器翻译技术以及语音合成技术的完美结合，而如果硬件技术的发展能将这些算法进而固化到更为细小的芯片，比如手持移动设备上，那么个人就可以带着这种设备周游世界而无需担心任何交流的困难，你说出你想表达的意思，手持设备同时识别并将它翻译成对方的语言，然后合成并发送出去；同时接听对方的语言，识别并翻译成已方的语言，合成后朗读给你听，所有这一切几乎都是同时进行的，只是机器充当着主角。

　　任何技术的进步都是为了更进一步拓展我们人类的生存和交流空间，以使我们获得更大的自由，就服务于人类而言，这一点显然也是语音识别技术的发展方向，而为了达成这一点，它还需要在上述几个方面取得突破性进展，最终，多语种自由交流系统将带给我们全新的生活空间。

　　六、语音识别技术的前景和应用

　　在电话与通信系统中，智能语音接口正在把电话机从一个单纯的服务工具变成为一个服务的“提供者”和生活“伙伴”；使用电话与通信网络，人们可以通过语音命令方便地从远端的数据库系统中查询与提取有关的信息；随着计算机的小型化，键盘已经成为移动平台的一个很大障碍，想象一下如果手机仅仅只有一个手表那么大，再用键盘进行拨号操作已经是不可能的。语音识别正逐步成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

　　语音识别技术发展到今天，特别是中小词汇量非特定人语音识别系统识别精度已经大于98%，对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展，这些复杂的语音识别系统也已经完全可以制成专用芯片，大量生产。在西方经济发达国家，大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能，还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息，并且取得很好的结果。调查统计表明多达85%以上的人对语音识别的信息查询服务系统的性能表示满意。

　　可以预测在近五到十年内，语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种各样的识别系统。在短期内还不可能造出具有和人相比拟的语音识别系统，要建成这样一个系统仍然是人类面临的一个大的挑战，我们只能一步步朝着改进语音识别系统的方向一步步地前进。至于什么时候可以建立一个像人一样完善的语音识别系统则是很难预测的。就像在60年代，谁又能预测今天超大规模集成电路技术会对我们的社会产生这么大的影响。

本文网址：

上一篇：外线电工操作规程

下一篇：NIOS II的BCMO4蓝牙通信模块的设计

相关信息:

常州电工培训

常州电工证

常州变频器培训

常州触摸屏培训