图书介绍
说话人识别模型与方法PDF|Epub|txt|kindle电子书版本网盘下载
- 吴朝晖,杨莹春著 著
- 出版社: 北京:清华大学出版社
- ISBN:9787302189688
- 出版时间:2009
- 标注页数:329页
- 文件大小:65MB
- 文件页数:344页
- 主题词:言语识别-计算机应用-研究
PDF下载
下载说明
说话人识别模型与方法PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第一篇 绪论3
第1章 背景与概述3
1.1研究背景及意义3
1.1.1说话人识别介绍3
1.1.2说话人识别的优势与应用前景5
1.2研究进展与趋势6
1.2.1研究历史6
1.2.2研究现状8
1.2.3发展趋势9
1.2.4存在的问题12
1.3本书结构13
参考文献14
第2章 技术基础与理论16
2.1背景知识16
2.2说话人识别系统结构17
2.3特征提取18
2.3.1预处理19
2.3.2美尔倒谱特征22
2.3.3线性预测系数23
2.3.4 Delta特征和Delta_Delta特征的计算24
2.3.5声门特征24
2.4说话人识别模型26
2.4.1高斯混合模型27
2.4.2隐马尔可夫模型31
2.4.3动态时间规整模型36
2.4.4向量量化模型36
2.5得分规整37
2.6系统性能评价38
2.6.1评价指标38
2.6.2性能与用户规模的关系39
2.6.3实际使用要求40
2.7小结42
参考文献42
第3章 说话人识别语料库44
3.1常用语料库44
3.2面向移动互联环境的说话人识别语料库(SRMC)48
3.2.1 SRMC的设计思路49
3.2.2 SRMC录音方案49
3.2.3 SRMC录音内容52
3.2.4 SRMC存储与标注54
3.3电话语音库(PHONE)55
3.4多模态说话人识别库55
3.5 NOISEX-92数据库58
3.6小结58
参考文献59
第二篇 特征提取63
第4章 说话人特征分析与优化63
4.1特征性能分析63
4.1.1阶数的影响63
4.1.2帧长的影响67
4.1.3结论72
4.2特征参数优化72
4.2.1语音包络检测72
4.2.2包络最小长度限制73
4.2.3预加重参数选取74
4.2.4语音起始点的去除74
4.2.5 Delta特征的引入75
4.2.6训练音长度的影响75
4.2.7结论76
4.3特征组合76
4.3.1单一特征组合77
4.3.2不同特征组合(小规模用户)81
4.3.3不同特征组合(中等规模用户)84
4.4二次特征提取87
4.5小结90
参考文献91
第5章 基于主成分分析(PCA)的说话人特征变换92
5.1高维说话人特征的缺陷92
5.2说话人特征与PCA变换93
5.2.1说话人特征93
5.2.2 PCA变换的流程与效果94
5.2.3说话人特征的PCA变换95
5.3 PCA特征变换应用于说话人鉴别96
5.3.1传统的说话人鉴别系统96
5.3.2基于PCA特征变换的可行性97
5.4局部PCA特征变换97
5.4.1基于局部PCA特征变换的说话人鉴别系统97
5.4.2实验结果分析98
5.4.3结论105
5.5全局PCA特征变换106
5.5.1基于全局PCA特征变换的说话人鉴别系统106
5.5.2实验结果分析107
5.5.3结论112
5.6基准系统、局部PCA变换与全局PCA变换的比较112
5.6.1可扩充性比较112
5.6.2识别性能比较113
5.7小结117
参考文献118
第6章 基于线性判别分析(LDA)的说话人特征变换119
6.1 LDA变换与PCA变换的联系与区别119
6.1.1 LDA转换公式与PCA转换公式119
6.1.2 LDA变换和PCA变换的原理的比较120
6.1.3用LDA对说话人特征进行变换120
6.2 LDA特征变换121
6.2.1基于LDA特征变换的说话人鉴别系统121
6.2.2实验结果分析122
6.2.3结论128
6.3基准系统、全局PCA变换与LDA变换的比较128
6.3.1可扩充性比较128
6.3.2识别性能比较129
6.4小结133
参考文献134
第7章 基于轨线模型的说话人特征时序性发掘135
7.1基于段模型的说话人特征时序性发掘135
7.1.1段模型135
7.1.2段模型在语音识别中的应用137
7.1.3说话人特征时序性发掘方法138
7.1.4时序性发掘实验141
7.2基于Trended H M M的文本相关说话人识别145
7.2.1 Trended HMM145
7.2.2 Trended HMM在语音识别中的应用149
7.2.3文本相关的说话人识别150
7.2.4 Trended HMM与VIV153
7.2.5 Trended HMM优缺点154
7.3小结155
参考文献155
第三篇 识别模型159
第8章 基于支持向量机的识别模型159
8.1研究意义159
8.2支持向量的区域描述160
8.2.1闭集与开集160
8.2.2支持向量的区域描述164
8.2.3说话人辨认166
8.3支持向量机的概率输出167
8.3.1概率167
8.3.2支持向量机的概率输出170
8.3.3内嵌支持向量机(SVM)的隐马尔可夫模型(HMM)174
8.3.4支持向量机(SVM)与高斯混合模型(GMM)的混合模型176
8.4基于向量量化(VQ)模型的核方法178
8.5基于GMM模型的核方法180
8.6多SVM混合模型182
8.7小结184
参考文献184
第9章 基于动态贝叶斯网络的识别模型186
9.1动态贝叶斯网络186
9.1.1表达186
9.1.2推导188
9.1.3学习195
9.1.4结论198
9.2基于动态贝叶斯网络(DBN)的说话人识别198
9.2.1基于动态贝叶斯网络的识别框架199
9.2.2实验和讨论204
9.3小结208
参考文献208
第10章 基于主成分分析分类器的说话人识别210
10.1说话人分类常用算法的局限性210
10.2主成分分析分类原理211
10.2.1主成分分析的递归定义211
10.2.2主成分分析的分类依据212
10.3两种主成分分析分类器及其决策融合213
10.3.1基于主成分子空间的分类器213
10.3.2基于截断误差子空间的分类器214
10.3.3两种主成分分析分类器的决策融合215
10.4主成分分析分类器应用于说话人鉴别216
10.4.1模型训练216
10.4.2模型测试217
10.5实验结果分析217
10.5.1无噪语料库217
10.5.2有噪语料库219
10.5.3与高斯混合模型(GMM)方法和向量量化(VQ)方法的比较221
10.5.4结论223
10.6复杂度分析223
10.6.1 P&T分类器的计算复杂度224
10.6.2高斯混合模型的计算复杂度225
10.6.3两者计算复杂度的比较226
10.7小结226
参考文献227
第四篇 信息融合231
第11章 声门信息融合231
11.1基于声门特征的说话人识别研究现状231
11.1.1声门特征应用于说话人识别231
11.1.2基音周期的提取235
11.2基于声门特征的倒谱补偿算法238
11.2.1声门特征对于倒谱特征的影响238
11.2.2基于声门特征的倒谱补偿模型242
11.2.3多通道环境下的倒谱补偿248
11.3基于声门特征的并行高斯混合模型255
11.3.1并行高斯混合模型的理论框架255
11.3.2并行高斯混合模型的子空间划分256
11.3.3子空间模型的融合257
11.3.4实验结果及分析258
11.4基于声门特征的倒谱平均减261
11.4.1倒谱平均减技术262
11.4.2基于声门特征的倒谱平均减算法263
11.4.3实验结果及分析265
11.5小结268
参考文献269
第12章 人脸信息融合271
12.1多模态说话人识别研究271
12.1.1融合框架272
12.1.2声纹识别模型272
12.1.3人脸识别模型273
12.1.4融合方法275
12.1.5融合效果分析279
12.2基于得分差加权和融合的双模态说话人识别281
12.2.1表达282
12.2.2实验282
12.3动态贝叶斯网络在多模态说话人鉴别上的应用283
12.3.1说话人鉴别融合框架283
12.3.2基于动态贝叶斯网络的特征级融合284
12.3.3说话人识别的实验和讨论286
12.4小结288
参考文献288
第五篇 应用展望295
第13章 支持说话人识别研究与开发的开放式平台SONAR295
13.1 SONAR平台架构296
13.1.1简介296
13.1.2 SONAR测试平台界面297
13.1.3 SONAR核心模块298
13.2特征模块299
13.2.1预处理算法299
13.2.2特征提取300
13.3模型模块300
13.3.1模型集合300
13.3.2模型融合判决301
13.4 SONAR平台可扩展性301
13.4.1 SONAR平台特点301
13.4.2可扩展性302
13.5小结303
参考文献303
第14章 应用系统304
14.1声纹打卡系统304
14.1.1开发背景304
14.1.2系统体系结构305
14.1.3说话人识别308
14.1.4性能评估309
14.2移动互联环境下的说话人识别系统311
14.2.1应用背景311
14.2.2系统结构312
14.2.3使用说明312
14.3小结316
参考文献316
第15章 总结与展望318
15.1全书总结318
15.2工作展望323
15.2.1基于声门信息的说话人识别323
15.2.2引入高层信息的说话人识别323
15.2.3基于情感补偿的活体声纹识别325
15.3结语328
参考文献328