编辑推荐
《文字识别:原理、方法和实践》一书围绕模式识别和文档信息化而展开。基于模式识别和信息熵理论分析,对文字和文档识别的理论和方法以及关键问题进行了较为深入、系统的分析和研究,并介绍了多种文字和文档识别方法和系统。
内容简介
本书基于模式识别和信息熵理论,全面、系统和深入地分析介绍了各种汉字、多文种文字识别的理论和方法,以及解决复杂多变的多文种文字和文档识别中关键问题的有效算法和具体实践。本书可以作为相关专业研究生的参考书,也可以供从事模式识别、文字和文档识别等计算机信息处理研究的科研人员和从事相关产品开发的工程技术人员阅读参考。
作者简介
作者:丁晓青 王言伟等
目录
目录第1章绪论1.1引言1.2文字和汉字1.2.1文字的代码表示1.2.2汉字的字体字形1.2.3汉字的特点 1.2.4中文信息处理1.3文字识别和汉字识别1.4文字识别研究历程1.5文字识别分类1.5.1按照不同文种文字和文档的识别技术分类1.5.2按照获取图像方式和识别对象不同分类1.5.3单个字符识别和文档篇章识别1.6文字识别与笔迹鉴别1.7汉字识别的基本方法——基于视觉感知的汉字识别方法1.8关于本书参考文献第2章模式识别和模式识别信息熵理论2.1引言: 模式与模式识别2.2基于贝叶斯统计决策的模式识别2.3模式识别统一信息熵理论2.3.1特征和类别及其相关信息熵2.3.2后验熵:*优贝叶斯分类器误识率的上限2.3.3模式识别的学习与识别信息过程2.3.4互信息:决定模式识别性能的鉴别熵2.4正态分布条件下的模式识别信息熵系统2.5*大互信息鉴别分析(互信息鉴别子空间模式识别) 2.5.1*大互信息子空间线性鉴别分析方法2.5.2*大互信息线性鉴别分析与线性鉴别分析LDA2.6特征选择的信息熵准则2.6.1基于错误概率的类别可分性准则2.6.2基于有效互信息的类别可分性准则2.7从信息熵分析看提高识别性能的途径2.8汉字集合和汉字文本的信息熵2.8.1汉字集合的信息熵2.8.2汉字文本的信息熵和汉字的极限熵2.9本章小结参考文献第3章汉字识别的特征提取3.1引言3.2汉字字符图像规一化预处理3.2.1线性规一化3.2.2非线性规一化3.2.3基于整体密度均衡的非线性规一化3.3汉字识别中的特征抽取3.3.1结构特征3.3.2统计特征3.4汉字识别特征提取研究的发展历程3.4.1基于图像变换的印刷汉字识别特征和系统 3.4.2基于形态学汉字结构分析的两级印刷汉字识别特征和系统3.4.3汉字笔画密度微结构全局特征及多字体汉字识别系统3.4.4基于汉字笔画方向网格特征的鲁棒汉字识别系统3.5笔画方向线素特征3.5.1方向线素特征的形成方法3.5.2网格化方向线素特征3.5.3对原模糊分块方法的改进——低通采样方向线素特征3.5.4实验和结果3.6基于Gabor滤波器的高性能汉字识别方向特征3.6.1Gabor变换理论分析3.6.2适用于汉字识别的Gabor滤波器组设计及实验验证3.6.3对Gabor滤波器组输出的非线性变换3.6.4分块特征的抽取3.6.5实验及结果3.7汉字识别梯度方向特征抽取方法3.7.1梯度方向特征3.7.2梯度方向特征的快速算法3.8不同笔画方向特征的识别性能实验比较3.9本章小结参考文献第4章特征的鉴别分析和分布整形4.1引言4.2线性鉴别分析4.2.1优化准则4.2.2变换形式和*优解4.2.3变换的分解形式4.2.4启发式讨论4.2.5实验与结果4.2.6小结 4.3正则化线性鉴别分析4.3.1小样本带来的问题4.3.2利用正则化估计协方差阵4.3.3实验结果4.4异方差鉴别分析4.4.1基于极大似然估计的异方差线性鉴别分析4.4.2基于Chernoff准则的异方差线性鉴别分析4.4.3基于Mahalanobis准则的异方差线性鉴别分析4.4.4实验结果4.4.5小结4.5特征统计分布整形变换4.5.1特征分布的整形4.5.2正态性检验4.5.3Box�睠ox变换4.5.4方向线素及梯度特征的整形4.5.5实验与结果4.6本章小结参考文献第5章模式识别分类器设计/统计模式分类方法5.1引言5.2贝叶斯判决理论5.3正态分布下的贝叶斯分类器5.3.1正态分类模型5.3.2*小距离分类器MDC5.3.3线性距离分类器LDC 5.3.4二次鉴别函数分类器QDF5.3.5二次鉴别函数5.3.6QDF误差分析5.4改进二次鉴别函数分类器MQDF5.4.1修正二次鉴别分类MQDF5.4.2QDF修正形式的贝叶斯估计推导5.4.3实验与结果5.5系统实现与应用5.5.1非限定脱机手写汉字识别系统5.5.2多字体印刷中、日、韩文识别系统5.6分类器的置信度分析5.6.1分类器的置信度和广义置信度5.6.2基于距离的分类器的广义置信度估计5.6.3多层前向神经网络分类器广义置信度估计5.6.4从广义置信度求置信度的方法5.6.5使用ACT估计后验概率5.6.6置信度分析在字符识别中的应用5.6.7小结5.7分类器集成5.7.1集成的3个层次5.7.2基于线性回归的多分类器集成5.7.3利用线性回归提高后验概率估计的准确性5.7.4后验概率的估计误差与误识率的关系5.7.5实验结果5.7.6小结5.8本章小结参考文献第6章无约束手写汉字识别分类器鉴别学习6.1引言6.2基于*小错误率的鉴别学习6.2.1*小错误率学习6.2.2基于MCE的多模板距离分类器参数鉴别学习6.2.3基于MCE的MQDF分类器参数鉴别学习6.2.4基于MCE的正交混合高斯模型的鉴别学习6.3基于启发式的鉴别学习方法6.3.1矫正学习6.3.2镜像学习方法6.3.3样本重要性加权学习方法6.4本章小结参考文献第7章联机手写汉字识别7.1引言7.1.1联机手写汉字识别方法回顾7.2描述结构的统计模型——SSM7.2.1基元间关系的描述7.2.2结构统计模型SSM的定义及概率分析7.2.3SSM应用于联机手写汉字识别7.2.4实验与分析7.2.5小结7.3路径受控HMM和时空统一模型7.3.1路径受控HMM(PCHMM)7.3.2PCHMM在联机手写汉字识别中的应用7.3.3联机手写汉字识别的时空统一模型——STUM7.3.4实验与分析7.3.5小结7.4基于全局模式分析的统计结构特征7.4.1联机汉字笔迹的结构分析7.4.2联机手写汉字分类特征的分析与提取7.4.3小结7.5高性能联机手写汉字识别系统及其嵌入式系统7.5.1联机手写汉字识别系统7.5.2嵌入式联机手写识别系统7.6本章小结参考文献第8章利用上下文信息的汉字识别后处理8.1概述8.2汉字识别后处理模型8.2.1汉字文本识别的整体模型8.2.2利用多层语言知识的汉字识别整体模型8.2.3整体模型的全局优化8.2.4影响后处理性能的要素分析8.3统计语言模型8.3.1n�瞘ram模型的基本理论8.3.2基于字的语言模型8.3.3基于词的语言模型8.4候选集的有效性8.4.1候选集大小分析8.4.2混淆矩阵获取8.4.3扩充候选字集8.4.4词条近似匹配算法8.5文本识别后处理的实现8.5.1字bigram模型的上下文处理8.5.2字trigram模型的上下文处理8.5.3词bigram模型的上下文处理8.5.4字、词相结合的上下文处理8.4.5利用上下文信息的汉字识别实验系统8.6实验结果与分析8.6.1实验数据说明8.6.2语言模型的影响8.6.3候选字集的影响8.6.4文本识别混合后处理系统的影响8.7本章小结参考文献第9章脱机手写文档识别方法9.1引言9.2文本行识别研究概况9.3基于过切分的脱机手写中文文本行识别方法9.3.1脱机手写中文文本行识别方法9.3.2基于分段的文本行识别搜索方法9.3.3文本行切分识别中的语言模型自适应9.3.4脱机手写中文文本识别系统9.4基于HMM的无切分民族文字文档识别方法9.4.1无切分识别方法的主要思想9.4.2无切分文档识别方法中的特征提取9.4.3无切分文档识别方法中的模型训练9.4.4无切分文档识别方法中的模型优化9.4.5无切分文档识别方法中的解码识别9.4.6无切分维文文档识别研究的相关实验9.4.7小结9.5本章小结参考文献第10章文档版面自动分析和理解10.1版面处理的概念10.2版面分析研究的历史和现状10.2.1版面分析研究的分类10.2.2版面分析工作的发展10.2.3版面分析的困难10.3基于多层次基元的版面分析模型10.3.1多层次可信度的定义10.3.2多层次可信度指导下的自底向上版面分析算法10.3.3连通域层次10.3.4行层次10.3.5区域层次10.3.6页面层次10.3.7实验结果10.4版面理解和重构10.4.1版面理解和重构的需求10.4.2文档结构模型10.4.3版面理解10.4.4版面重构10.4.5原文重现的电子出版物制作系统10.5本章小结 参考文献第11章蒙藏维多文种识别11.1引言11.1.1蒙藏维文识别11.1.2民族文字识别的现状11.1.3藏文及其识别11.1.4维吾尔文及其识别11.1.5蒙古文及其识别11.2蒙藏维文识别的基本策略11.2.1基本识别单元选择11.2.2基本框架和关键技术11.3多文种民族文字识别中的字符规一化11.3.1基于基线分块的民族字符规一化策略11.3.2规一化点阵大小选择11.3.3位置规一化11.3.4基于三次B样条函数的字符图像插值11.3.5笔画宽度调整11.4民族文字识别中的特征提取与特征变换11.4.1改进型方向线素特征11.4.2基于视觉特性的方向特征11.4.3基于线性鉴别分析的特征变换11.4.4实验结果11.5民族文字识别中的级联分类器设计11.5.1预分类11.5.2基于鉴别学习MQDF的主分类器11.5.3辅助分类11.5.4实验结果11.6藏文文本切分和藏文识别后处理11.6.1藏文文本切分11.6.2拼写规则与统计方法相结合的藏文识别后处理11.7多民族语言文字识别系统的实现——TH�睴CR统一平台民族文字识别系统11.7.1统一平台多民族文字识别系统特点11.7.2维�埠邯灿⒒炫琶褡逦淖值氖侗�11.7.3蒙藏维多文种统一平台识别系统性能11.7.4蒙藏维文档识别的跨文种翻译理解11.8本章小结参考文献附录A常用缩略语表附录B文字识别相关研究成果附录C文字识别相关成果主要奖励附录D已授权文字识别相关发明专利附录E文字识别相关的博士论文附录F本书中算法研究相关数据库索引
精彩书摘
第1章绪论文字识别: 原理、方法和实践第1章绪论1.1引言人类社会已进入了信息时代,尤为重要的标志之一是互联网的发展已经深入人们的生活,从宽度、广度和深度方方面面改变了和改变着人们的生活方式,也改变了世界。信息化使得信息的获取、传输、交换和使用成为影响社会发展的重要因素,信息事业的发展极大地影响了国家的发达和民族的兴旺,也因此得到世界各国的极大关注。在计算机信息化迅速发展的过程中,信息的电子化处理已成为一种不可逆转的趋势,需要解决如何把大量的已产生或将产生的印刷或手写的海量文档信息高效地输入计算机这样的问题,即使在未来,这也是必不可少的一步。将电子化文档输出为纸质文档,激光照排技术带来了对历史上铅与火排版技术的革命,使信息化得到重要发展。但反之,要将无处不在、无时不有的介质上的印刷或手书文档,自动变成计算机可以阅读(查询和检索等)的电子文档,却是十分重要,但却相当难以实现的。虽然可以采用人工键入的方法,但完全无法满足信息化时代对高速、大数据和大容量的需求。如何满足全球信息化对于文档数字化高速、大数据、大容量的急迫需求,利用计算机模式识别技术进行文字和文档的自动识别,实现形形色色的文档的自动电子化,为计算机信息化发展打下坚实的基础是我们研究工作的目的,也是本书写作的动因。《文字识别:原理、方法和实践》一书源于自20世纪80年代开始作者对汉字识别的研究和探索,以及30余年持续的研发和产业化工作,因此有必要对这些研究工作加以总结和汇总。《文字识别:原理、方法和实践》的写作基本上沿着模式识别与文字和文档的信息化这两条线索展开。第1条线索是模式识别,是本书的理论依据。由于文字识别是*典型的,也是目前*有成效的模式识别技术,因此我们有必要首先介绍模式识别以及解决模式识别问题的统计模式识别的基本理论和方法,从提出模式识别信息熵理论开始,包括模式识别特征提取、特征选择和压缩、分类器设计、上下文相关识别方法等基本问题的研究探讨。第2条线索是文字和文档的信息化,这是本书的中心内容。文字是信息的*集中表现,汉字记载了5000余年中国的历史和现代文明的发展。尤其是在计算机信息化时代,文字信息化是信息化时代的基础问题也是关键的问题,特别是困难的文档信息的计算机自动输入问题。在西方文字信息化已取得较完善发展的20世纪60—70年代,数量巨大、结构复杂的汉字信息化却遇到汉字计算机输入的特殊困难,成为汉字计算机信息化的拦路虎。完善解决多种文字和文档自动识别计算机输入等问题,是本书研讨的主要内容,包括利用统计模式识别方法,对多文种文档识别的众多关键问题进行较为详细的研究和探讨,等等。本书介绍了文字和文档识别的理论、方法和实践应用。根据模仿人类视觉模型,提出有别于结构分析的基于文字图像的统计模式识别方法,有效突破了汉字输入计算机对信息化的壁垒,取得了文字识别令人瞩目的进展。从模式识别信息熵的分析说明了统计模式识别方法的理论基础,分析了从文字图像中提取识别特征的方法,以及文字识别中分类器的学习和设计方法;提出汉字的综合识别研究,以及文本识别必须解决的版面分析、文字切分和利用上下文识别后处理等重要问题,*后,总结了文字识别研究的重要进展情况并对未来工作加以展望。1.2文字和汉字文字是人类社会文明的基石,是人类信息*重要的载体,文字信息是信息*集中的表现,是人类信息传承、交换、记载的依据。应当说,人类文明源于文字的出现,人类文明的发展更离不开文字。在信息化时代的今天,尤其是在互联网全球化之时,文字信息数字化对于人类文明发展更具特殊的意义。这种无所不在和无处不有的海量大数据文字信息的数字化要求,注定了文字识别的不可或缺及其在世界范围内广泛的应用需求。文字是语言的符号表示,世界上使用的文字基本上可以分为以下几种:拉丁字母、基里尔字母、阿拉伯字母、印度字母、汉字系统及其他(韩语、蒙古语、希伯来语等)文字等。汉字是世界上*古老的三大文字系统之一。其他如古埃及的圣书字、两河流域苏美尔人的楔形文字已经失传,仅有*的中国的汉字沿用至今。汉字,是中国人创造的意音文字书写系统,也是当今世界上*仍被广泛采用的意音文字和独源文字,推估历史可追溯至约4000年前的夏商时期。汉字主要用于书面记录汉语
前言/序言
文字是人类信息*重要的载体和*集中的表象,记载了几千年人类的文明和历史,对五千年中华文明的传承和发展起着极其关键的作用。当今人类社会进入快速计算机网络信息化的时代,信息的全球化和大数据资源的获取,首先要求解决和实现各类信息的数字化,特别是文字和文档信息的计算机数字化。计算机信息化,就是要求计算机也能像人一样识图认字:使计算机具有对图像或文字表象的自动识别的能力。也就是说,文字和文档识别信息化也是人工智能和计算机视觉需要解决的重要问题。20世纪60年代,国际上就十分重视对文字识别的研究。我国汉字数量巨大、结构复杂,难以输入计算机,这成为汉字信息化的拦路虎,因此,汉字识别及海量文档的计算机数字化研究极为紧迫,并具有特殊的历史意义。作者所在的清华大学智能图文信息处理研究室从20世纪80年代就开始了汉字等多文种文字和文档识别信息化的研究和探索,数十位师生持续卅余年,齐心奋力,在文字识别的理论和方法研讨上、在大规模印刷、联机和脱机手写汉字识别、中日韩、蒙藏维哈柯阿民族文字文档识别的研究上取得领先的研究成果,并将研究成果在世界范围推广应用。这些经历和成果成为本书撰写的直接动因。《文字识别:原理、方法和实践》一书围绕模式识别和文档信息化而展开。基于模式识别和信息熵理论分析,对文字和文档识别的理论和方法以及关键问题进行了较为深入、系统的分析和研究,并介绍了多种文字和文档识别方法和系统。全书包括11章,各章内容如下: 第1章绪论介绍文字的基本属性和特点;第2章模式识别和模式识别信息熵理论,揭示模式识别的核心互信息,汉字和汉字文本的信息熵;第3章介绍汉字识别的特征提取和优良的汉字识别特征;第4章介绍特征的鉴别分析、维数压缩和特征高斯分布整形;第5章介绍*优贝叶斯分类器和MQDF设计;以上章节主要介绍文字识别基本理论。第6章介绍脱机手写汉字识别的鉴别学习方法;第7章介绍基于时空统一模型的结构联机汉字识别方法,以及基于结构特征的统计联机手写汉字识别系统; 第8章介绍利用上下文语言信息进行汉字文本识别后处理的理论方法;第9章介绍基于过切分的文本行识别及基于HMM的无切分文档识别方法;第10章介绍复杂文档版面的自动分析、理解和重构,及文档自动识别和重构方法;第11章介绍蒙藏维多文种文字文档识别的策略、理论和方法,为民|汉跨文种文档识别理解打下基础。本书有选择性地针对文字和文档识别中必须解决的诸多重要问题,从单字、联机、多变脱机汉字识别、鉴别学习,到复杂版面、连笔书写、上下文相关文档识别,以及多文种民族文字识别,力图较完整地,从理论、方法和实践进行深入分析和讨论。全书内容主要源自我们研究工作的总结,大部分章节源于研究生的论文,包括张睿、刘海龙、张嘉勇、林晓帆、征荆、陈彦、王学文、王言伟、李元祥、姜志威、陈明、王华等同学的博士论文。丁晓青负责全书的编撰,王言伟还做了大量文档编辑工作。希望读者能够对文字和文档识别的理论、方法和实践有较为全面的认知和了解,并从中获得有益的启发。*后需要说明的是,本书没有也不可能完全包括当前在此领域内*新的研究成果和发展。对于读者,本书能够起到抛砖引玉的目的,我们就十分欣慰了。本书的内容主要源自研究组对文字和文档识别理论和方法的研究和探索,特别是汉字识别研究开创者之一,已故的吴佑寿院士,他的一贯支持,为汉字识别研究的成功发挥了重要作用;刘长松、彭良瑞进行了长期的工作,为本书和研究成果的产品化,作出突出贡献;以及集数十位研究生的不懈努力和研究成果,除上面已经提及的参与者外,还包括:朱夏宁、董宏、黄晓非、李彬、徐宁、郭繁夏、苟大银、赵明生、郭宏、刘今晖、陈友斌、方驰、靳简明、陈力、鲁湛、陈彦、李闯、王贤良、文迪、何峰、姚正斌、李昕、蒋焰、付强等。在此一并表示衷心的感谢!
文字识别:原理、方法和实践(清华大学学术专著) epub pdf mobi txt 电子书 下载 2024
文字识别:原理、方法和实践(清华大学学术专著) 下载 epub mobi pdf txt 电子书 2024