图书介绍
中文印刷体文档识别技术PDF|Epub|txt|kindle电子书版本网盘下载
- 王科俊,冯伟兴著 著
- 出版社: 北京:科学出版社
- ISBN:9787030287601
- 出版时间:2010
- 标注页数:203页
- 文件大小:55MB
- 文件页数:214页
- 主题词:计算机应用-印刷字体-文字识别
PDF下载
下载说明
中文印刷体文档识别技术PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 绪论1
1.1 中文印刷体文档识别基本原理1
1.2 中文印刷体文档识别研究现状2
1.2.1 印刷体文档的汉字识别2
1.2.2 印刷体文档的公式识别4
1.2.3 印刷体文档的表格识别6
1.3 中文印刷体文档识别中的难点6
第2章 中文印刷体文档图像预处理8
2.1 中文印刷体文档图像采集8
2.1.1 文档图像采集8
2.1.2 文档图像显示8
2.1.3 文档图像格式9
2.2 中文印刷体文档图像特点12
2.3 二值化处理12
2.3.1 图像灰度化13
2.3.2 图像二值化13
2.4 平滑去噪18
2.4.1 邻域平均法18
2.4.2 中值平均法18
2.4.3 噪声直接去除法19
2.5 倾斜校正20
2.5.1 图像倾斜检测20
2.5.2 图像倾斜校正26
第3章 版面分析30
3.1 版面结构30
3.2 版面分析方法31
3.2.1 基于连通域的版面分析方法33
3.2.2 二分法34
3.2.3 基于组合特征的版面分析方法36
3.2.4 基于神经网络的版面分析方法37
3.2.5 基于最近邻连接强度和行列可信度的版面分析方法38
3.3 版面理解44
3.3.1 文字区域44
3.3.2 图片区域44
3.3.3 表格区域45
3.3.4 版面结构表示与存储45
3.4 版面重构51
第4章 印刷体汉字识别52
4.1 文本区域预处理52
4.1.1 文本增强53
4.1.2 字符分割53
4.1.3 字符细化54
4.1.4 字符归一化55
4.1.5 文本区域处理效果图57
4.2 印刷体汉字的特征提取58
4.2.1 印刷体汉字的统计特性58
4.2.2 印刷体汉字的常用特征62
4.3 印刷体汉字识别的实现方式65
第5章 公式的定位与提取71
5.1 印刷体文档公式的特点72
5.2 基于投影的公式定位和提取72
5.2.1 独立行公式的定位72
5.2.2 内嵌公式的定位74
5.3 基于Parzen窗的独立行公式定位和提取75
5.3.1 待分类文本行的特征数据提取75
5.3.2 Parzen窗方法76
5.3.3 公式定位与提取效果77
5.4 基于字符宽度中心矩的公式定位和提取78
5.4.1 文本区域基本数据获取78
5.4.2 含公式的文本行提取79
5.4.3 文本行中公式判别81
5.4.4 独立行公式的定位83
5.4.5 内嵌公式的定位83
5.4.6 公式定位与提取效果84
5.5 基于汉字拒识的内嵌公式定位和提取85
5.5.1 内嵌公式的定位85
5.5.2 公式定位与提取效果86
第6章 公式字符分割与识别88
6.1 公式字符的特点88
6.2 公式字符的分割89
6.2.1 基于轮廓跟踪的字符分割90
6.2.2 基于连通域的字符分割92
6.3 公式字符的识别97
6.3.1 公式字符图像预处理97
6.3.2 基于模板匹配的公式字符识别99
6.3.3 基于特征的公式字符识别100
6.3.4 印刷体公式字符识别的实现104
6.3.5 公式字符识别方法104
第7章 公式结构分析与表示107
7.1 公式结构分析的难点107
7.1.1 数学运算符的模糊性107
7.1.2 符号的上下文敏感性107
7.1.3 表示习惯的差异性108
7.1.4 公式的复杂性108
7.1.5 公式的多行结构108
7.2 公式结构分析前的字符预处理108
7.3 公式结构分析方法109
7.4 公式结构表示方法120
7.4.1 公式的典型表示方法120
7.4.2 实验结果124
第8章 图表处理129
8.1 文档中图形图像的表示与处理129
8.1.1 游程压缩129
8.1.2 霍夫曼编码压缩130
8.1.3 算术压缩方法131
8.1.4 Rice压缩方法131
8.1.5 LZW压缩方法131
8.2 文档中表格的分析与识别132
8.2.1 表格预处理132
8.2.2 表格直线提取139
8.2.3 表格结构分析142
8.2.4 表格字符提取与识别143
第9章 中文印刷体文档识别软件HEUOCR的设计与实现144
9.1 应用程序框架的构建144
9.1.1 框架风格144
9.1.2 数字图像处理类146
9.2 文档图像预处理152
9.2.1 图像灰度化153
9.2.2 图像平滑滤波155
9.2.3 图像阈值分割156
9.3 文档图像版面分析158
9.3.1 基本连通域提取159
9.3.2 基本连通域分析160
9.4 文本汉字识别162
9.4.1 字符分割162
9.4.2 字符识别170
9.5 公式识别178
9.5.1 公式定位178
9.5.2 公式字符分割181
9.5.3 公式字符特征提取183
9.5.4 公式字符识别190
9.5.5 公式结构分析195
参考文献199