图书介绍

说话人识别模型与方法PDF|Epub|txt|kindle电子书版本网盘下载

说话人识别模型与方法
  • 吴朝晖,杨莹春著 著
  • 出版社: 北京:清华大学出版社
  • ISBN:9787302189688
  • 出版时间:2009
  • 标注页数:329页
  • 文件大小:65MB
  • 文件页数:344页
  • 主题词:言语识别-计算机应用-研究

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

说话人识别模型与方法PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第一篇 绪论3

第1章 背景与概述3

1.1研究背景及意义3

1.1.1说话人识别介绍3

1.1.2说话人识别的优势与应用前景5

1.2研究进展与趋势6

1.2.1研究历史6

1.2.2研究现状8

1.2.3发展趋势9

1.2.4存在的问题12

1.3本书结构13

参考文献14

第2章 技术基础与理论16

2.1背景知识16

2.2说话人识别系统结构17

2.3特征提取18

2.3.1预处理19

2.3.2美尔倒谱特征22

2.3.3线性预测系数23

2.3.4 Delta特征和Delta_Delta特征的计算24

2.3.5声门特征24

2.4说话人识别模型26

2.4.1高斯混合模型27

2.4.2隐马尔可夫模型31

2.4.3动态时间规整模型36

2.4.4向量量化模型36

2.5得分规整37

2.6系统性能评价38

2.6.1评价指标38

2.6.2性能与用户规模的关系39

2.6.3实际使用要求40

2.7小结42

参考文献42

第3章 说话人识别语料库44

3.1常用语料库44

3.2面向移动互联环境的说话人识别语料库(SRMC)48

3.2.1 SRMC的设计思路49

3.2.2 SRMC录音方案49

3.2.3 SRMC录音内容52

3.2.4 SRMC存储与标注54

3.3电话语音库(PHONE)55

3.4多模态说话人识别库55

3.5 NOISEX-92数据库58

3.6小结58

参考文献59

第二篇 特征提取63

第4章 说话人特征分析与优化63

4.1特征性能分析63

4.1.1阶数的影响63

4.1.2帧长的影响67

4.1.3结论72

4.2特征参数优化72

4.2.1语音包络检测72

4.2.2包络最小长度限制73

4.2.3预加重参数选取74

4.2.4语音起始点的去除74

4.2.5 Delta特征的引入75

4.2.6训练音长度的影响75

4.2.7结论76

4.3特征组合76

4.3.1单一特征组合77

4.3.2不同特征组合(小规模用户)81

4.3.3不同特征组合(中等规模用户)84

4.4二次特征提取87

4.5小结90

参考文献91

第5章 基于主成分分析(PCA)的说话人特征变换92

5.1高维说话人特征的缺陷92

5.2说话人特征与PCA变换93

5.2.1说话人特征93

5.2.2 PCA变换的流程与效果94

5.2.3说话人特征的PCA变换95

5.3 PCA特征变换应用于说话人鉴别96

5.3.1传统的说话人鉴别系统96

5.3.2基于PCA特征变换的可行性97

5.4局部PCA特征变换97

5.4.1基于局部PCA特征变换的说话人鉴别系统97

5.4.2实验结果分析98

5.4.3结论105

5.5全局PCA特征变换106

5.5.1基于全局PCA特征变换的说话人鉴别系统106

5.5.2实验结果分析107

5.5.3结论112

5.6基准系统、局部PCA变换与全局PCA变换的比较112

5.6.1可扩充性比较112

5.6.2识别性能比较113

5.7小结117

参考文献118

第6章 基于线性判别分析(LDA)的说话人特征变换119

6.1 LDA变换与PCA变换的联系与区别119

6.1.1 LDA转换公式与PCA转换公式119

6.1.2 LDA变换和PCA变换的原理的比较120

6.1.3用LDA对说话人特征进行变换120

6.2 LDA特征变换121

6.2.1基于LDA特征变换的说话人鉴别系统121

6.2.2实验结果分析122

6.2.3结论128

6.3基准系统、全局PCA变换与LDA变换的比较128

6.3.1可扩充性比较128

6.3.2识别性能比较129

6.4小结133

参考文献134

第7章 基于轨线模型的说话人特征时序性发掘135

7.1基于段模型的说话人特征时序性发掘135

7.1.1段模型135

7.1.2段模型在语音识别中的应用137

7.1.3说话人特征时序性发掘方法138

7.1.4时序性发掘实验141

7.2基于Trended H M M的文本相关说话人识别145

7.2.1 Trended HMM145

7.2.2 Trended HMM在语音识别中的应用149

7.2.3文本相关的说话人识别150

7.2.4 Trended HMM与VIV153

7.2.5 Trended HMM优缺点154

7.3小结155

参考文献155

第三篇 识别模型159

第8章 基于支持向量机的识别模型159

8.1研究意义159

8.2支持向量的区域描述160

8.2.1闭集与开集160

8.2.2支持向量的区域描述164

8.2.3说话人辨认166

8.3支持向量机的概率输出167

8.3.1概率167

8.3.2支持向量机的概率输出170

8.3.3内嵌支持向量机(SVM)的隐马尔可夫模型(HMM)174

8.3.4支持向量机(SVM)与高斯混合模型(GMM)的混合模型176

8.4基于向量量化(VQ)模型的核方法178

8.5基于GMM模型的核方法180

8.6多SVM混合模型182

8.7小结184

参考文献184

第9章 基于动态贝叶斯网络的识别模型186

9.1动态贝叶斯网络186

9.1.1表达186

9.1.2推导188

9.1.3学习195

9.1.4结论198

9.2基于动态贝叶斯网络(DBN)的说话人识别198

9.2.1基于动态贝叶斯网络的识别框架199

9.2.2实验和讨论204

9.3小结208

参考文献208

第10章 基于主成分分析分类器的说话人识别210

10.1说话人分类常用算法的局限性210

10.2主成分分析分类原理211

10.2.1主成分分析的递归定义211

10.2.2主成分分析的分类依据212

10.3两种主成分分析分类器及其决策融合213

10.3.1基于主成分子空间的分类器213

10.3.2基于截断误差子空间的分类器214

10.3.3两种主成分分析分类器的决策融合215

10.4主成分分析分类器应用于说话人鉴别216

10.4.1模型训练216

10.4.2模型测试217

10.5实验结果分析217

10.5.1无噪语料库217

10.5.2有噪语料库219

10.5.3与高斯混合模型(GMM)方法和向量量化(VQ)方法的比较221

10.5.4结论223

10.6复杂度分析223

10.6.1 P&T分类器的计算复杂度224

10.6.2高斯混合模型的计算复杂度225

10.6.3两者计算复杂度的比较226

10.7小结226

参考文献227

第四篇 信息融合231

第11章 声门信息融合231

11.1基于声门特征的说话人识别研究现状231

11.1.1声门特征应用于说话人识别231

11.1.2基音周期的提取235

11.2基于声门特征的倒谱补偿算法238

11.2.1声门特征对于倒谱特征的影响238

11.2.2基于声门特征的倒谱补偿模型242

11.2.3多通道环境下的倒谱补偿248

11.3基于声门特征的并行高斯混合模型255

11.3.1并行高斯混合模型的理论框架255

11.3.2并行高斯混合模型的子空间划分256

11.3.3子空间模型的融合257

11.3.4实验结果及分析258

11.4基于声门特征的倒谱平均减261

11.4.1倒谱平均减技术262

11.4.2基于声门特征的倒谱平均减算法263

11.4.3实验结果及分析265

11.5小结268

参考文献269

第12章 人脸信息融合271

12.1多模态说话人识别研究271

12.1.1融合框架272

12.1.2声纹识别模型272

12.1.3人脸识别模型273

12.1.4融合方法275

12.1.5融合效果分析279

12.2基于得分差加权和融合的双模态说话人识别281

12.2.1表达282

12.2.2实验282

12.3动态贝叶斯网络在多模态说话人鉴别上的应用283

12.3.1说话人鉴别融合框架283

12.3.2基于动态贝叶斯网络的特征级融合284

12.3.3说话人识别的实验和讨论286

12.4小结288

参考文献288

第五篇 应用展望295

第13章 支持说话人识别研究与开发的开放式平台SONAR295

13.1 SONAR平台架构296

13.1.1简介296

13.1.2 SONAR测试平台界面297

13.1.3 SONAR核心模块298

13.2特征模块299

13.2.1预处理算法299

13.2.2特征提取300

13.3模型模块300

13.3.1模型集合300

13.3.2模型融合判决301

13.4 SONAR平台可扩展性301

13.4.1 SONAR平台特点301

13.4.2可扩展性302

13.5小结303

参考文献303

第14章 应用系统304

14.1声纹打卡系统304

14.1.1开发背景304

14.1.2系统体系结构305

14.1.3说话人识别308

14.1.4性能评估309

14.2移动互联环境下的说话人识别系统311

14.2.1应用背景311

14.2.2系统结构312

14.2.3使用说明312

14.3小结316

参考文献316

第15章 总结与展望318

15.1全书总结318

15.2工作展望323

15.2.1基于声门信息的说话人识别323

15.2.2引入高层信息的说话人识别323

15.2.3基于情感补偿的活体声纹识别325

15.3结语328

参考文献328

热门推荐