选择题 × 10
简答题 × 4
论述题 × 4
语音部分
1. 定义:
- 语音是指人们讲话时发出的话语,它是一种声音,具有声学特征的物理特性。而它又是一种特殊的声音,是人们进行信息交流的声音,是组成语言的声音。因此语音是语言和声音的组合体。
- 语音是由人的发声器官发出的一种声波,它具有音色、音调、音强和音长。
- 音色:是一种声音区别于另一种声音的基本特征
- 音调:指声音的高低,取决于声波的频率
- 音强:指声音的强弱,取决于声波的振幅
- 音长:指声音的长短,取决于发音时间的长短
- 任何语言都有语言的元音和辅音两种音素:
- 元音:当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过。一个重要的声学特性是共振峰。
- 辅音:由于通路的某一部分封闭起来或者受到阻碍,气流被阻不能畅通。包括清音和浊音。
- 浊音:声带振动
- 清音:声带不振动
- 人的听觉系统有两个重要的特性:
- 时频分析特性:人的耳蜗就像一个频谱分析仪,将复杂的信号分解成各种频率分量。
- 听觉掩蔽效应:心理声学中的听觉掩蔽效应指在一个强信号附近,弱信号将变得不可闻,被掩蔽掉了。掩蔽效应分为同时掩蔽和短时掩蔽。
- 矢量量化系统主要由编码器和译码器组成,其中编码器主要是由搜索算法和码书构成。
- 基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。
- 语音编码按传统的分类方法可以分为波形编码、参数编码和混合编码
- 对语音信号进行压缩编码的基本依据是语音信号的冗余度和人的听觉感知机理。
- 汉语音节一般由声母、韵母和声调三部分组成。
- 人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉的掩蔽效应。
- 句法的最小单位是词,词法的最小单位是音节,音节可以由音素构成。复倒谱分析中避免相位卷绕的算法,常用的有微分法和最小相位信号法。
- 语音信号处理也可以简称为语音处理,它是利用数字信号处理技术对语音信号进行处理的一门学科,包括语音编码、语音合成、语音识别、说话人识别和语音增强等五大分支。
- 语音信号处理也可以简称为语音处理,它是以数字信号处理和语音学为基础而形成的一个综合新的学科,包括发音语音学、声学语音学、听觉语音学和心理学等四大分支。
- 语音的四大要素:音质、音调、音强和音长。
- 元音的一个重要声学特性是共振峰,它是区别不同元音的重要参数,它一般包括共振峰频率的位置和频带宽度。
- 语音信号的倒谱分析就是求取语音倒谱特征参数的过程,它可以通过同态信号处理来实现。
- 语音由肺中的通过(喉头至嘴唇的器官)的气流或声道中的气流激励而产生。当肺中的气流通过声门时,声门由于其间气体压力的变化而开闭,使得气流时而通过,时而被阻断,从而形成一串周期性脉冲送入声道,由此产生的语音是浊音。如果声带不振动,声门完全封闭,而声道在某处收缩,迫使气流高速通过这一收缩部位而发音,由此产生的语音是清音。
- 语音信号从总体上是非平稳信号。但是,在短时段10-20ms中语音信号又可以认为是平稳的,或缓变的。
- 人类发音过程有三类不同的激励方式,因而能产生三类不同的声音,即浊音、清音和爆破音。
2. 语言信号生成的数学模型:
①激励模型:在声门(声带)以下,称为“声门子系统”,它负责产生激励振动,是激励系统
②声道模型:从声门到嘴唇的呼气通道是声道,是声道系统
③辐射模型:语音从嘴唇辐射出去,则嘴唇以外是辐射系统
3. 语音信号的特性分析:
- 语音信号的时域波形和频谱特性:
- 时域波形:周期性,周期对应声带振动的频率,即基音频率。
- 频谱特性:共振峰特性。元音频谱有明显的几个凸起点,它们出现的频率就是共振峰频率。清辅音频谱峰点之间的间隔是随机的,没有周期分量。
语谱图:
语谱图是一种三维图谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。语谱图中显示了大量的与语音的语句特性相关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况,或者说是一种动态的频谱。记录这种谱图的仪器就是语谱仪。
语谱图中的花纹有横杠、竖直条和乱纹等。
①横杠:与时间轴平行的几条深黑色带纹,它们相应于短时谱中的几个凸点,也就是共振峰。
②竖直条:与时间轴垂直的一条窄黑带,每个竖直条相当于一个基音,条纹间的距离表示基音周期。
③乱纹:清擦音从语谱图上看表现为乱纹,乱纹的深浅和上下限反映了噪声能量在频域中的分布。
4. 语音信号的统计特性:
语音信号的统计特性可以用它的波形振幅概率密度函数和一些统计量(如均值和自相关函数)来描述。
- 频率谱和功率谱
时间信号的频谱就是时间信号的傅里叶变换,功率谱等于信号振幅谱的平方除以样本长度。功率谱是个确定值,但是频谱对于一个随机过程而言是个随机值。功率谱是功率谱密度函数的简称,它定义为单位频带内的信号功率。它表示了信号功率随着频率的变化情况,即信号功率在频域的分布状况。
第三章 语音信号分析
1. 概述:
语音信号的特性及表征其本质特征的参数均是随时间变化的,所以它是一个非平稳过程。虽然它具有时变特性,但是从一个短时间范围(10~30ms)内,其特性基本保持不变,即相对稳定,可以将其看作一个准稳态过程,也就是短时平稳过程。
2. 语音信号的预处理:
①预加重:通常语音信号的高频分量很小,预加重目的是提升高频部分,使信号频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。
②加窗分帧:分帧通过可移动的有限长度窗口进行加权的方法实现。窗长度越长,频率分辨率越好。以短时傅里叶变换为例:在短时傅里叶变换中,根据时间分辨率可以计算出加窗的次数,即时间分辨率的倒数。然后可以根据频率分辨率计算出窗的长度
3. 语音信号的时域分析:
(1)语音信号的时域分析就是分析和提取语音信号的时域参数:短时能量、短时过零率、短时自相关函数和短时平均幅度差函数。
①短时能量:
②短时过零率:表示一帧语音中语音信号波形穿过横轴(零电平)的次数。浊音具有较低的过零率,而清音具有较高的过零率。
③短时自相关函数:
④短时平均幅度差函数:
4. 语音信号的频域分析:
分析语音信号的频域特征,使用短时傅立叶变换对语音信号的频谱进行分析。
5. 语音信号的倒谱分析:
- 同态信号处理:指将非线性问题转换成线性问题的处理方法。由于语音信号可以视为声门激励信号和声道冲激响应的卷积,因此可以通过卷积——乘积——加法的方法来处理。
- 倒谱与复倒谱:倒谱是语音信号的对数幅度谱的傅里叶逆变换,得到的是频域信息。复倒谱是语音信号对数频谱的傅立叶逆变换,得到的是时域信息。
6. MFCC特征提取流程:
①对输入语音进行预加重、加窗、分帧处理
②FFT变换
③取绝对值或者平方
④Mel滤波:
⑤取对数
⑥离散余弦变换DCT:
⑦动态特征MFCC,输出特征向量
7. 语音信号的线性预测:
线性预测的基本思想是用过去的p个样点值来预测现在或未来的样点值。
8. 基音周期的估计:
基音是指发浊音时声带振动所引起的周期性,而基因周期是指声带振动频率的倒数。主要包括以下三种方法:①自相关法②平均幅度差法③倒谱法。
9. 共振峰估计:
声道可以看成一根具有非均匀截面的声管,在发音时起共鸣器的作用。当准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰。共振峰参数包括共振峰频率和频带宽度。共振峰信息包含在语音频谱包络中,因此共振峰频率提取的关键是估计自然语音频谱包络,并认为谱包络中的最大值就是共振峰。主要包括倒谱法和LPC法。
第四章 矢量量化技术
1. 矢量量化基本原理:
将若干个标量数据组成一个矢量在多维空间给予整体量化,从而可以在信息量损失较小的情况下压缩数据量。矢量量化有效地应用了矢量中各元素之间的相关性,因此可以比标量量化有更好的压缩效果。
3. 矢量量化的两个基本问题:
- 设计一个好的码本
- 未知矢量的量化
4. 矢量量化的失真测度:
失真测度是将输入矢量X用码本重构矢量Y来表征时所产生的误差或失真的度量方法,它可以描述两个或多个模型矢量间的相似程度。失真测度的选择好坏将直接影响到聚类效果和量化精度,进而影响到语音信号矢量量化处理系统的性能。主要包括欧氏距离测度、线性预测失真测度、识别失真测度。
5. 矢量量化器的最佳码本设计:最近邻准则、LBG算法
第五章 隐马尔可夫模型(重点)
1. 概述:
- 隐马尔可夫模型(HMM)是语音信号的一种统计模型。HMM是一个输出符号序列的统计模型,具有N个状态,它按一定的周期从一个状态转移到另一个状态,每次转移时,输出一个符号。转移到哪个状态,转移时输出什么符号,分别由状态转移概率和转移时的输出概率来决定。因为只能观测到输出符号序列,而不能直接观测到状态转移序列(即模型输出符号序列时,是通过了哪些状态路径无法得知),所以称为隐藏的马尔可夫模型。
- HMM用于语音信号建模时,是对语音信号的时间序列结构建立的统计模型,它是数学上的双重随机过程:一个是具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与Markov链每一个状态相关联的观测序列的随机过程。
2. HMM的基本元素:M={S、O、A、B、π、F}
①S——模型中状态的有限集合
②O——输出的观测值符号的集合
③A——状态转移概率矩阵
④B——给定状态下,观察值概率矩阵
⑤π——系统初始状态概率的集合
⑥F——系统终了状态的集合
3. 隐马尔可夫模型的基本算法:
- 识别问题:
给定观测序列O和模型M={A,B,π},如何快速有效地计算观察符号序列的输出概率P(O/M)。可通过前向-后向(F-B)算法解决。
- 状态转移估计(路径选择)问题:
给定观测序列O和输出该序列的模型,如何有效地确定与之对应的最佳的状态序列,即估计出模型产生观察字符序列时最可能经过的路径。可通过维特比算法解决。
- 模型训练问题:
实际上是一个模型参数估计问题,即对于初始模型和给定用于训练的观测序列O,如何调整模型M
的参数,使得输出概率P最大。可通过Baum-Welch算法解决。
第七章 语音编码
1. 概述:
- 语音编码主要针对信源编码,解决有效性问题,通过对信源的压缩、扰乱、加密等一系类处理,力求用最少的数码率传递最大的信息量,使信号更适宜传输和存储。
- 语音编码通常分为三类:波形编码、参数编码和混合编码。波形编码和参数编码的主要区别在于重建的语音信号时域信号是否在波形上与原信号一致。
①波形编码:力图使重建后的语音时域信号波形与原语音信号波形保持一致,具有适应能力强、话音质量好的特点,但需要用到的编码速率高。
②参数编码:根据对声音形成机理的分析,在以重建语音信号具有足够的可懂性的原则上,通过建立语音信号的产生模型,提取代表语音信号特征的参数来编码,而不一定在波形上与原信号匹配。优点是编码速率较低,缺点是语音质量差,特别是自然度低,对说话环境的噪声敏感。利用参数编码实现语音通信的设备称为声码器,包括通道声码器、共振峰声码器、同态声码器和线性预测声码器。
③混合编码:基于语音产生模型的假定并采用了分析合成技术,同时又利用了语音时域波形信息,增强了重建语音的自然度,使得语音质量有明显的提高。
2. 语音压缩:
对语音信号进行压缩编码的基本依据是语音信号的冗余度和人的听觉感知机理。语音压缩编码极限速率就80~100bit/s。
3,语音编码的关键技术:①线性预测②合成分析法③感觉加权滤波器
4. 波形编码:
①脉冲编码调制PCM②自适应预测编码③自适应变换编码④子带编码(频带分割编码):先使用带通滤波器将语音信号分割成若干个频带(子带),然后用调制的方法将滤波后的子带信号进行频谱平移成低通信号,以利于降低取样率进行抽取,然后再用奈奎斯特率进行取样,最后再分别进行编码处理。而信号的恢复则是完全相反的过程。
5,参数编码:①LPC线性预测声码器②LPC-10编码器
6. 混合编码:
码激励线性预测编码CELP。语音生成模型把语音的生成看作一些激励信号激励一个模拟声道的滤波器得到的响应。CELP采用矢量量化技术对激励信号编码,将事先经过训练的一组码矢量组成一个码本,然后对每一帧语音信号从这组码本中选出一个在感知加权误差最小意义上的最佳码矢量作为激励源。
第八章 语音合成
1. 定义:
解决如何让机器说话的问题,其目的是将任意文本实时地转换成自然语音输出,并且输出的语音清晰可懂。语音合成系统是一个单向系统,从机器到人。
2. 合成方法:
- 波形合成法:直接把要合成的语音的发音波形进行存储或者进行波形编码压缩后存储,合成重放时再解码组合输出。
- 参数合成法:为了节约存储容量,必须先对语音信号进行分析,提取语音的参数,,以压缩存储量,然后由人工控制这些参数的合成。包括发音器官参数合成和声道模型参数合成。包括共振峰合成法和LPC线性预测法。
- 规则合成法:通过语音学规则产生语音。
3. 文语转换系统:
指把文本文件通过一定的硬软件转换后由计算机或电话语音系统等输出语音的过程,并尽量使合成的语音具有良好的自然度和可懂度。包括三个模块:文本分析、韵律控制和语音合成。
- 文本分析:使计算机能够识别文字,并根据文本的上下关系在一定程度上对文本进行理解,从而知道要发什么音、怎么发音,并将发音的方式告诉计算机,让计算机知道文本中哪些是词,哪些是短语、句子。
- 韵律控制:任何人说话都有韵律特征,有不同的声调、语气、停顿方式,发音长短也各不相同。
- 语音合成:文语转换系统中一般采用波形拼接来合成语音。基音同步叠加法PSOLA,其核心思想是直接对存储于音库的语音运用PSOLA算法来进行拼接,从而合成完整的语音。
第九章 语音识别
1. 定义:
语音识别主要指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息,执行人的各种意图。
2. 语音模型:HMM模型
3. 语音识别的类型:①孤立词识别②连接词识别③连续语音识别和理解(自然说话方式)④会话语音识别
3. 语音识别方法:
- HMM法:主要用于大词汇量语音识别系统,需要较多的模型训练数据,较长的训练时间和识别时间,较大的存储空间。
- VQ法:所需模型训练数据小,训练时间短,识别时间短,存储空间小,但是识别性能不够好。
- DTW法:主要用于小词汇量、孤立字词识别系统。
4. 动态时间规整DTW(重点)
- 目的:提高识别率,克服发同一音而发音长短不同的问题。
- 基本思想:把未知量伸长或缩短(压扩),直到与参考模板的长度一致,在这个过程中未知单词的时间轴会产生扭曲或弯折,以便其特征量与标准模式对应。
5. 孤立字(词)识别系统:
指识别孤立发音的字或词的系统。利用模式匹配方法,把单词整个作为识别单元。在训练阶段,用户将词汇表中每一个词依次说一遍,并且将其特征矢量时间序列作为模板存入模板库。在识别阶段,将输入语音的特征矢量时间序列依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。
第十章 说话人识别与语种辨识
1. 定义:
- 自动说话人识别是一种自动识别说话人的过程。它与语音识别的区别在于,它不注重语音信号中的文字符号和语义内容等信息,而是着眼于包含在语音信号中的个人特征,提取说话人的这些个人信息特征,以达到识别说话人的目的。
- 语种辨识是通过分析处理一个语言片段以判别其所属语言的语种,本质上属于语音识别的一个方面
2. 任务:
本质上它们都是根据说话人所说的测试语句或关键词,从中提取与说话人本人特征有关的信息,再与存储的参考模型进行比较,做出正确的判断。
- 自动说话人确认:确认一个人的身份,只涉及一个特定的参考模型和待识别模式之间的比较,系统只做出“是”与“否”的二元判决。
- 自动说话人辨认:多元问题,从一群人的语音中辨认出是哪一个。系统必须辨认出待识别语音是来自待考察的个人中的哪一个。
3. 说话人识别系统:
预处理、特征提取、模式匹配和判决四个步骤。包括基于HMM、基于VQ、基于GMM的说话人识别系统,和基于DTW的说话人确认系统。
4. 语种辨识系统:
特征提取、模板匹配、分类判决三个步骤。
类型 | 记忆性 | 模型 |
离散 | 无记忆 | VQ |
有记忆 | 离散HMM | |
连续 | 无记忆 | GMM |
有记忆 | 连续HMM |
5,语种辨识的应用领域:①多语种信息服务②机器自动翻译的前端处理③军事上说话人身份和国籍判别
* 第十四章 语音增强
1,定义:
指当语音信号被各种各样的噪声干扰,甚至淹没后,从噪声背景中提取有用语音信号,抑制、降低噪声干扰的技术。
实际应用中噪声的来源及种类各不相同,从而造成处理方法的多样性。因此,要结合语音特性、人耳感知特性及噪声特性,根据实际情况选用合适的语音增强方法。
2,语音特性:
语音信号是一种非平稳的随机信号,语音的生成过程与发音器官的运动过程密切相关,考虑到人类发声器官在发声过程中的变化速度具有一定的限度而且远小于语音信号的变化速率,因此可以假定语音信号是短时平稳的,即在10~30ms的时间段内某些物理特性和频谱特性可以近似地看作不变,从而可以应用平稳随机过程的分析方法来处理语音信号,在语音增强中利用短时频谱的平稳特性。
3,人耳感知特性:
人耳对于声波频率的高低的感觉与实际频率的高低不呈线性关系,而近似为对数关系。人耳对声强的感觉很灵敏,并且具有很大的动态范围,人耳对于频率的分辨能力受声强的影响,过强或过弱的声音都会导致对频率的分辨力降低。人耳对语音信号的幅度谱较为敏感,而对相位谱不敏感。人耳具有掩蔽效应,即会产生一个声音对另一个声音的出现而导致该声音能被感知的阈值提高的现象。
4,噪声特性:
主要分为加性噪声和非加性噪声。
①冲激噪声:例如放电,打火、爆炸等都会引起冲激噪声。可通过对带噪语音信号幅度求均值消除
②周期噪声:最常见的有电动机、风扇之类的周期运转的机械所发出的周期噪声,以及50Hz交流电噪声,可采用陷波器消除。
③宽带噪声:说话时伴随着呼吸引起的噪声,随机噪声源产生的噪声,以及量化噪声等。其显著特点是噪声频谱遍布于语音信号频谱中,导致消除噪声较为困难,一般采用非线性处理方法。
④语音干扰:干扰语音信号和待传语音信号同时在同一个信道中传输所造成的语音干扰。可通过梳状滤波器提取基音和各次谐波,再恢复出有用语音信号。
⑤传输噪声:传输系统的电路噪声,与背景噪声不同,它是时域中的语音和噪声的卷积。可通过同态处理,把此非加性噪声转换成加性噪声来处理。
* 5. 语音增强技术:
- 频域语音增强:减谱法,其基本思想是,假定加性噪声与短时平稳语音信号相互独立的条件下,从带噪语音的功率谱中减去噪声功率谱,从而得到较为纯净的语音功率谱。
- 时域语音增强:自适应语音降噪技术,在消除噪声过程中,需要两个以上的话筒,采用自适应滤波算法。
自然语言理解部分
1.基本概念
- 语言:语言是一个符号系统,通常用一些记号(如汉字)来表示。
- 语言是一个系统,因为语言能表达意义(知识),并且具有一定的规则(语法)。
- 语言的第一系统是语音系统,第二系统是文字系统。
- 语言的单位有:字符、词、短语、句子、语段或篇章。
- 自然语言:人类独有的、用任意创造出来的符号系统交流思想、表达感情和愿望的非本能方法。
- 自然语言指人类使用的语言,如汉语、英语等。
- 自然语言理解:通过建立形式化的数学模型来分析、处理自然语言,并在计算机上用程序来实现分析和处理(自然语言)的过程,从而达到以机器(计算机)来模拟人的部分乃至全部语言能力的目的。
- 与NLU密切相关的一门学科是计算语言学(Computational Linguistics),不过计算语言学更侧重于研究自然语言的计算模型(数学模型)。
- 自然语言处理:自然语言处理就是利用计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术。
- 自然语言处理要研制表示语言能力和语言应用(linguistic performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。
- 从微观上讲,指从自然语言到机器内部之间的一种映射;从宏观上讲,指机器能够执行人类所期望的某些语言功能,包括问答系统、机器翻译、从材料中获取摘要等。
* 1.2 自然语言处理的研究内容和面临的困难
- 自然语言处理的研究方向:机器翻译、自动文摘、信息检索、文档分类、问答系统、信息过滤、信息抽取、文本挖掘、舆情分析、隐喻计算、文字编辑和自动校对、作文自动评分、光读字符识别、语音识别、文语转换、说话人识别/认证/验证。
- 自然语言处理涉及的几个层次:自然语言处理一般会涉及自然语言的形态学、语法学、语义学和语用学等几个层次。
- 形态学(词法):研究词的内部结构,包括屈折变化和构词法两个部分。(词的不同形式对句法和语义的影响)
- 语法学:研究句子结构成分之间的相互关系和组成句子序列的规则。(为什么一句话可以这么说,也可以那么说?)
- 语义学:研究如何从一个语句中词的意义,以及这些词在该语句中句法结构中的作用来推导出该语句的意义。(这个语言单位到底说了什么?)
- 语用学:研究在不同上下文中的语句的应用,以及上下文对语句理解所产生的影响。(为什么在特定的上下文中要说这句话?)
- 自然语言处理面临的困难:大量歧义现象和未知语言现象。(*)
- 歧义现象:自然语言中存在大量歧义现象,无论是在词法、句法,还是在语义和语用层次。任何一个自然语言处理系统,都无法回避歧义消解问题。
- 词法歧义:自动化/研究所/取得/的/成就;自动化/研究/所/取得/的/成就
- 结构歧义:今天中午吃<u>馒头</u>;今天中午吃<u>食堂</u>
- 语义歧义:她这个人真有<u>意思(funny)</u>;你们这么说是什么<u>意思(intention)</u>
- 语音歧义:石室诗士施氏,嗜狮,誓食十狮
- 未知语言现象:自然语言中存在未知的语言现象,包括新的词汇(人名、地名、术语等)、新的含义、新的用法和语句结构等。
- 歧义现象:自然语言中存在大量歧义现象,无论是在词法、句法,还是在语义和语用层次。任何一个自然语言处理系统,都无法回避歧义消解问题。
1.3 自然语言处理的基本方法(*)
目前自然语言处理的研究从大的角度可分为两类方法:理性主义与经验主义方法。
- 理性主义方法:理性主义方法主张建立符号处理系统,由人工整理和编写初始的语言知识表示体系(规则),构造相应的推理程序,系统根据规则和程序,将自然语言理解为符号结构。
- 词法分析器按照人编写的词法规则对输入句子的单词进行词法分析
- 语法分析器根据人设计的语法规则对输入句子进行语法结构分析
- 根据一套变换规则将语法规则映射到语义符号
- 经验主义方法:经验主义方法主张通过建立特定的数学模型来学习复杂的、广泛的语言结构,然后利用统计学、模式识别和机器学习等方法来训练模型的参数,以扩大语言使用的规模。
- 理性主义与经验主义方法的分歧:
分歧 | 理性主义 | 经验主义 |
知识来源 | 很大一部分是与生俱来的 | 通过感观输入,经过简单的联想与泛化操作得到的 |
研究对象 | 研究人的语言知识结构,实际的语言行为只提供了这种内在知识的间接证据。 | 直接研究这些实际的语言数据 |
运用理论 | 基于Chomsky的语言原则,通过语言所必须遵守的一系列原则来描述语言 | 基于Shannon的信息论、概率统计等 |
处理方法 | 通过特殊的语句或语言现象的研究来得到对人的语言能力的认识,而这些语句和语言现象在实际的应用中并不常见 | 偏重于对大规模语言数据中人们所实际使用的普通语句的统计 |
* 形式语言与自动机
乔姆斯基文法和自动机以及它们之间的关系。
2.1 形式语言
描述一种语言的几种途径:
穷举法:把语言中所有句子枚举出来。(只适用于句子数目有限的语言)
文法描述:利用规则生成语言中合法的句子,语言中每个句子都用严格的规则来构造。其中文法用来精确的描述语言和其结构。
自动机法:给出识别该语言中句子的机械方法。自动机用于机械地刻画对输入字符串的识别过程。
形式文法:形式文法是一个四元组
词性标注,定义及任务描述
- 词性又称词类,是指词汇基本的语法属性。
- 划分词类的依据:词的形态、词的语法功能、词的语法意义
词性标注的问题- 标注歧义(兼类词)
- 一个词具有两个或者两个以上的词性
- 对兼类词消歧
词性标注之重要性
- 句法分析的预处理
- 机器翻译
- Text – Speech (record)
词性标注方法(*)
- 规则方法:
- 词典提供候选词性
- 人工整理标注规则
- 基于错误驱动的方法
- 错误驱动学习规则
- 利用规则重新标注词性
- 统计方法
- 问题的形式化描述
- 建立统计模型
- HMM方法
- 最大熵方法
- 条件随机场方法
- 结构化支持向量机方法
词性标注的性能指标(*)
- 性能指标:标注准确率
- 当前方法正确率可以达到97%
- 正确率基线(Baseline)可以达到90%
- 基线的做法:
- 给每个词标上它最常见的词性
- 所有的未登录词标上名词词性
形式化为一个分类问题
- 词串:词性串:决定一个词词性的因素
- 从语言学角度:由词的用法以及在句中的语法功能决定
- 统计学角度:
- 和上下文的词性(前后词的标注)相关
- 和上下文单词(前后词)相关
语义分析:语义分析的目的是给出语言表达的含义或意义 。
语义分析包括
- 词义分析(词义表示及多义词消歧等)
- 句义分析(句义表示及句义计算等)
- 篇章语义分析(指代、实体关系等)
最新语言处理技术:
GPT(Generative Pre-trained Transformer)是一种基于 Transformer 架构的生成式自然语言处理(NLP)模型。GPT 的原理主要涉及以下三个方面:
- 生成式(Generative):生成式模型的目标是学习数据的概率分布,从而能够生成类似于训练数据的新数据。在 GPT 的情况下,模型学习了大量文本数据的概率分布,从而能够生成符合自然语言规律的文本。
- 预训练(Pre-trained):预训练指的是在模型用于特定任务之前,先在大量无标签数据上进行训练。GPT 通过学习大规模文本语料库(例如,网页、书籍等),捕捉到自然语言的语法、语义和一定程度的常识知识。这样,在应用 GPT 到具体任务时,只需进行较少量的任务相关微调,即可在各种 NLP 任务中取得良好表现。
- 自回归(Autoregressive):GPT 是一种自回归语言模型,这意味着它通过预测文本序列中的下一个单词来生成文本。在训练过程中,GPT 逐个单词地处理输入序列,并预测下一个单词的概率分布。在生成过程中,模型根据上下文和已生成的单词,逐步生成新的单词,直到完成整个文本序列。
GPT 的原理主要依赖于 Transformer 架构,特别是其自注意力机制,以捕捉输入序列中不同位置单词之间的依赖关系。通过这种方式,GPT 可以处理长距离依赖和复杂语义结构,从而实现高质量的自然语言生成和理解。
来自百度文库的简答题
1、线性预测分析的基本思想是什么?
线性预测的基本思想是用过去的p个样点值来预测现在或未来的样点值。
2、隐马尔可夫模型的特点是什么?
3、矢量量化器的所谓最佳码本设计是指什么?
最近邻准则、LBG算法
5、针对短时傅里叶变换的时间分辨率和频率分辨率的矛盾性,请给予分析说明。
6、复倒谱和倒谱的特点和关系是什么?
倒谱是语音信号的对数幅度谱的傅里叶逆变换,得到的是频域信息。
复倒谱是语音信号对数频谱的傅立叶逆变换,得到的是时域信息。
7、预加重和去加重的思想和作用是什么?
预加重:通常语音信号的高频分量很小,预加重目的是提升高频部分,使信号频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。