863手写汉字识别测试平台
[作者]刘昌平; 钱跃良; 张永慧; 宋东; 李丰林;
[摘要]本文详细介绍了用于 1 998年 4月在北京举行的全国 86 3评测手写汉字识别测试平台的情况 ,如测试大纲、测试样本的选择与分类、测试结果等 ,并提出了作者的一些看法和建议。
[Abstract]In this paper we describe the Testing System on Handwritten Chinese Character Recognition used by 863 High Tech Program in 1998.We introduce the Testing Outline, Selection of Testing Samples and the Testing Result. Finally, we give some suggestions.
[关键字]汉字识别; 识别率;
|
一种多字体特大字符集字符识别系统
[作者]高涛; 李明敬; 李志峰;
[摘要]多字体特大字符集字符识别是当前OCR技术研究的热点之一。本文利用一组在抗干扰和描述字符拓扑结构方面具有互补性的特征 ,其于SupportVector技术和可增长自组织神经网络模型 ,建立一种识别系统来处理该问题。其中包括一个利用SupprtVector技术建立的OptimalMargin语言分类器 ,一个以可增长自组织神经网的粗分类器 ,结合统计和结构两种识别方法的三级汉字分类器 ,最后给出良好的实验结果 ,从而得到该识别系统为解决上述问题的有效方法之一的结论
[Abstract]Recognition of multi font characters becomes favorable research area in OCR by now.In this paper,based on Support Vector techniques and SOFM neural network,by use of a grorp of features that are complementary in their description of geometrical and topological structure of character,we have proposed a recognition system.It include an Optimal Margin lingual classifier based on Support Vector techniques,and a three step Chinese character classifier based on growing self organizing neural network.This syste...
[关键字]汉字识别; OCR技术; 自组织神经网络; Support; Vector技术;
|
大型中文古籍《四库全书》自动版面分析系统
[作者]姜哲; 马少平; 夏莹;
[摘要]《四库全书》是中文古籍的经典和代表。对《四库全书》的整理 ,可以为其它古籍的整理积累和提供经验。本系统属于《四库全书》电子版专用OCR系统的预处理配套系统 ,主要功能是对《四库全书》的页面图象进行分析和理解 ,分离图象中的汉字用于识别和统计 ,获取版面结构以便于重编和出版。《四库全书》属于手写木版印刷 ,版面有一定规范 ,但形式多样、结构复杂、图象质量和字体大小有差异 ,版面分析的难度很大。本系统采用了自顶向下方法与自底向上方法相结合、自动处理与人工修正相结合的设计思想。从实用情况看 ,本系统已经能够自动采用相应算法 ,处理多种规范和准规范的版面 ,并提供方便的人工辅助纠错功能 ,保障了预处理工作的顺利进行 ,也为识别系统的学习建库和识别创造了良好的条件。
[Abstract]Imperial Collection of Four”is a sutra and representation of Chinese antient books.So the digitalization works of this Collection will accumulate and provide experiences for other antient books.This system is the pre processing system of costumized OCR system for the digitized publication of “Imperial Collection of Four”.The main function of this system is to analysis and undterstand the page images scanned from the Collection, then to seperate the Chinese characters in them for the use of recognition and ...
[关键字]四库全书; 中文古籍; 版面分析; 汉字识别;
|
中文商务名片识别系统的实现
[作者]张纯; 张涛; 黄笑;
[摘要]本文介绍了一个实际应用中的中文商务名片识别系统 ,分析了系统的结构。该系统首先结合实际中的一些具体问题对名片图象进行预处理 ,然后在传统版面分析技术的基础上针对名片版面的特点进行版面分析。在对分割区域的字符进行识别之后 ,根据识别结果中的语义知识和版面分析得到的位置信息对识别结果进行基于知识规则的理解 ,从而实现了名片信息的自动录入 ,整个系统在实际中表现出了良好的性能。
[Abstract]In this paper,we propose a Chinese business cards recognition system,and analyze the structure of it.The first part of the system is the pretreatment of business card image.In this part,we have to solve many practical problems.Then,the system analyze the layout of the business card, divide it into several blocks.In follow,the characters in every block are recognized,and the result is further understood by using knowledge rules.After whole process,the information of business card is imported to the computer ...
[关键字]名片识别系统; 图象处理; 版面分析; 字符识别; 基于知识规则的理解;
|
一种基于直线提取和补全的通用表格分析方法
[作者]章海涛; 李志峰;
[摘要]表格分析是表格自动处理过程中的第一步。本文充分利用表格的特点 ,给出一个基于直线提取和补全的通用表格分析方法。先使用一种矢量化的直线提取算法在游程连通图的基础上得到表格线 ,同时对表格进行倾斜校正。然后根据表格特性调整表格线 ,再从表格线得到表格特征点 ,最后建立规则通过对表格线的补全来求得表格结构的行单元描述。使用该方法对表格图象进行分析 ,能处理表格线断裂、文字表格线粘连等常见问题 ,正确得到表格结构。
[Abstract]Form analysis is the first step in automatic form processing.This paper introduces a general form analysis method based on line extraction and completion,which exploits thoroughly the property of form.We use a vectorization algorithm to extract form lines from run length connect graph which is calculated first,and in the same time the skew angle is detected.Lines are adjusted according to the characteristic of form.Then all critical points are calculated from which form cell description of the form can be ...
[关键字]表格分析; 表格自动处理; 直线提取;
|
一种地形图粘连汉字提取算法
[作者]徐战武; 刘肖琳;
[摘要]地形图中包含了大量的字体丰富的汉字注记 ,其中有一部分由于与其它图符对象相互粘连而使得对象的尺寸变大超过了预定的阈值或失去了原有的结构特性 ,大大增加了提取难度。本文提出了一种寻求最佳分割点的算法来去除粘连 ,提取汉字的算法 ,取得了良好的效果。首先 ,在已提取出的汉字周围确定一个局部搜索范围 ,当局部范围内存在大尺寸的对象时表明可能有潜在的粘连汉字 ;其次 ,以图象中的分枝点和端点为顶点 ,以其中的图段为边建立对应的图 ;然后 ,在图中寻找最佳分割点 ,将图符分割成不同的互相分离的几个部分 ;最后 ,用连通成分结构分析的方法来提取汉字。
[Abstract]There are a lot of Chinese characters with many fonts in a topographical map.Some of them turn larger to surpass the scheduled threshold value or to lose their former structure traits because they are linked to other symbols,which adds great difficulties to extraction.An efficient algorithm in search for the best segmentation points is presented in this paper to remove the adhesion and to extract characters.First,fix a local searching area around the extracted characters.If there have large objects in the a...
[关键字]地形图; 汉字注记; 连通成分; 图; 分割点;
|
基于级连分组BP网络的高精度手写数字识别
[作者]王伟; 盛立东;
[摘要]本文提出了一种基于级连分组网的手写数字识别的新方法。这种方法根据将每次分类任务简单化的思想 ,将每个网络的任务简化以提高其辨别能力。整个系统分为两级 ,第一级进行粗分类 ,选取前两个后选字。第二级对两个后选字进行细分类。每个细分类网络完成区分两类特定模式的任务 ,由于每个子网络分类数目的减少导致识别精度的提高。使用我们自己构造的含 1 0万个字符的库进行测试 ,我们的系统达到了在拒识为 5 %以内时误识为 0 .0 6 7%。
[Abstract]A novel approach based on cascaded grouped BP network is proposed to classify handwritten digitals.According to the concept of simplify each classification task,the number of classes for each net to classify is reduced to improve the accuracy.The whole system is divided into two cascades.The first step,rough classification is to select the first two candidates.The second,fine classification,is to classify two specific kind of patterns.So the accuracy is improved because of the simplification of each classif...
[关键字]级连分组网络; 神经网络; 手写体数字识别;
|
汉字的线性分类实验
[作者]金奕江; 马少平;
[摘要]本文通过实验研究了在汉字识别中应用线性分类器的可能性 ,考察了汉字之间的线性可分性。实验使用了两种主要的线性分类器 :Fisher线性判别和感知器。实验检验每一对汉字的线性可分性。实验结果表明 ,汉字之间的线性分类性是相当好的。尤其是Fisher线性判别 ,不能成功线性分类的汉字仅占百万分之 4.2 5。这显示了在汉字识别中应用线性分类器是有着巨大的潜力的。同时 ,线性分类实验结果还可用来检验所选取特征的好坏 ,有利于客观的评价特征。
[Abstract]This paper studies the linear separability of Chinese characters through experiment and discusses the probability of applying linear classifier in Chinese character recognition.Two linear classifiers are used in the experiment.They are Fisher Linear Discriminant (FLD) and Perceptron.The experiment examines the linear separability of a pair of Chinese characters.The result is pretty satisfactory.Especially,the result of Fisher Linear Discriminant is very good.There are only 4.25 millionths pairs that cannot ...
[关键字]汉字识别; 线性分类器; Fisher分类器; 感知器;
|
汉字的线性分类实验
[作者]金奕江; 马少平;
[摘要]本文通过实验研究了在汉字识别中应用线性分类器的可能性 ,考察了汉字之间的线性可分性。实验使用了两种主要的线性分类器 :Fisher线性判别和感知器。实验检验每一对汉字的线性可分性。实验结果表明 ,汉字之间的线性分类性是相当好的。尤其是Fisher线性判别 ,不能成功线性分类的汉字仅占百万分之 4.2 5。这显示了在汉字识别中应用线性分类器是有着巨大的潜力的。同时 ,线性分类实验结果还可用来检验所选取特征的好坏 ,有利于客观的评价特征。
[Abstract]This paper studies the linear separability of Chinese characters through experiment and discusses the probability of applying linear classifier in Chinese character recognition.Two linear classifiers are used in the experiment.They are Fisher Linear Discriminant (FLD) and Perceptron.The experiment examines the linear separability of a pair of Chinese characters.The result is pretty satisfactory.Especially,the result of Fisher Linear Discriminant is very good.There are only 4.25 millionths pairs that cannot ...
[关键字]汉字识别; 线性分类器; Fisher分类器; 感知器;
|
用统计方法实现汉字输入的智能联想
[作者]刘长松; 伍振军; 乔春雷; 李元祥;
[摘要]联想是汉字输入法的重要补充手段,能够大大加快输入的速度。本文首次提出了智能联想的概念,分析了智能联想的原理和遇到的困难,使用汉语语料库的方法构造并分析比较了3 种智能联想方案,充分利用汉语字词间的相关性,使平均联想成功率超过40 % 。
[Abstract]Association is one of the most important methods for chinese character input,it can improve the input speed.We brought forward the intelligent association concept in this paper,analysed the principle and problems encountered for intelligent association.We constructed 3 kinds of intelligent association schemes,make use of the relationship between chinese words or characters.The average correct association rate is up to 40%.
[关键字]联想; 语料库; 语言模型; 中文输入;
|
共95页 当前第47页