第 28章 扫描仪与 OCR技术
1、什么是扫描仪?
扫描仪是一种获取图像的设备,并将信息转为电脑可以显示、编辑、存储和输出的数字格式。即可以完成以下工作:在文件中插队图和照片;将文字识别,免去打字;将传真文件扫到库中存档;在多媒体中加入图像;
在报刊中加入图片有效表达主题。
第 28章 扫描仪与 OCR技术第 28章 扫描仪与 OCR技术
扫描仪通过光源照射到被扫描的材料上来获得材料的图像。
材料将光线反射到 CCD( Change Coupled
Device,电荷偶合器件)的光敏元件上,由于材料不同的位置反射的光线强弱不同,CCD器件将光线转换成数字信号,并传送到计算机中,此时我们就获得了材料的图像。
如果您将纸张上的文字扫描到电脑中就可以通过 OCR(光学字符识别)软件将图像转换成文字,
可以减轻录入工作。
第 28章 扫描仪与 OCR技术
扫描仪的技术发展很快,但就其光学系统而言,不外乎 CIS,CCD和棱镜分色系统几类,
由于 CIS(接触式图像传感器 )十分适合
OCR(光学字符识别 ),特别是其黑白方式,
比 CCD方式的扫描仪价格低廉,所以市场占有率曾一度较大,但随着扫描仪市场从黑白到灰度再到彩色的转变,彩色 CIS扫描仪也已进入市场。
第 28章 扫描仪与 OCR技术
采用三棱镜分色系统,使得彩色扫描仪的关键技术全面提高,该系统利用光学物理原理,以三棱镜来分离自然光 R,G,B三原色,由于三原色采用一致的角度,同一时间曝光完成,使扫描的图像的边缘光洁度十分理想,扫描三维立体图像时,效果更好,
这一技术代表未来新潮流,目前,只有少数几个厂家拥有该技术。 CCD是目前扫描仪的主要技术,它的发展已从黑白、灰度演变到 8位,12位,24位、
30位乃至 36位彩色,这决定了扫描仪的基本发展趋势,即其精度和色彩度方面将不断增高。
第 28章 扫描仪与 OCR技术
决定扫描仪扫描质量的因素很多,首先,分辨率是扫描仪的一项重要指标,扫描仪的分辨率包括光学分辨率和插值分辨率,作为扫描仪真实分辨率的光学分辨率,又分为水平分辨率和垂直分辨率两种方式,水平分辨率和光源系统 CCD的真实分辨率及相应的硬件电路设计有关,它是由 CCD的像素点数除以扫描仪最大可扫描尺寸而得到的数值;垂直分辨率则与传动机构的精密程度有关,水平分辨率较垂直分辨率显得更为重要。
第 28章 扫描仪与 OCR技术
为提高扫描仪的图像质量,利用软件技术在硬件产生的像点之间插入另外的像点,由此获得的分辨率称为插值分辨率,该种分辨率在一定程度上使扫描仪的图像质量得到提高。
所以,选择扫描仪一定要弄清其光学分辨率是多少,即便是光学分辨率高的扫描仪,在处理不同的扫描仪介质对象时,其性能表现也迥然不同。
第 28章 扫描仪与 OCR技术
例如在扫描彩色照片时,较低的分辨率效果反而更好,一般而言,分辨率在 150~200dpi之间为最佳;
而扫描胶片时则需要较高的分辨率,因此在选择扫描仪时,对分辨率因素的选择要和用户的用途结合起来考虑。扫描仪具有精确的缩放技术能力也是非常重要的,它可极大地影响图像质量、扫描文件的大小以及扫描和处理的时间。缩放的质量和扫描图像的质量在不同扫描仪间差异非常大。
第 28章 扫描仪与 OCR技术
实验结果表明,一定的插值分辨率在一特定的扫描仪中能产生最小的锯齿,而在其他插值分辨率下,却不一定具有最低的锯齿。某插值分辨率对某一扫描仪合适,对另一扫描仪却不一定带来最低的锯齿,因此,仅根据插值分辨率的大小判断扫描仪的质量是不可靠的。
第 28章 扫描仪与 OCR技术
决定扫描质量的因素还有色彩定位能力、图像噪音、灰度精确度、光源的一致性等。另外,扫描仪的扫描速度和扫描图像的质量之间一直是相互制约的,扫描速度的提高总是以损失图像信息为代价,对扫描仪的这一指标,也应该和传统的认识有所区别。
第 28章 扫描仪与 OCR技术
事实上,传统的扫描速度只是将图像送入计算机中所需的时间大小的度量,除了用于光学字符识别 (OCR)或进行扫描文档管理的扫描仪之外,扫描速度不是十分关键的指标,
而其他指标也影响扫描处理的速度,如从扫描仪到计算机的数据传输速度;图像存储到磁盘的速度;扫描图像浏览和设置曝光的时间;对扫描结果进行校正处理和调整的时间等。
第 28章 扫描仪与 OCR技术
一,OCR的发展要谈 OCR的发展,早在 60,70年代,世界各国就开始有 OCR的研究,而研究的初期,多以文字的识别方法研究为主,且识别的文字仅为 0至 9的数字。以同样拥有方块文字的日本为例,1960年左右开始研究 OCR的基本识别理论,初期以数字为对象,直至
1965至 1970年之间开始有一些简单的产品,如印刷文字的邮政编码识别系统,识别邮件上的邮政编码,
帮助邮局作区域分信的作业;也因此至今邮政编码一直是各国所倡导的地址书写方式。
第 28章 扫描仪与 OCR技术
一个 OCR识别系统,其目的很简单,只是要把影像作一个转换,使影像内的图形继续保存、有表格则表格内资料及影像内的文字,
一律变成计算机文字,使能达到影像资料的储存量减少、识别出的文字可再使用及分析,
当然也可节省因键盘输入的人力与时间。
第 28章 扫描仪与 OCR技术第 28章 扫描仪与 OCR技术
扫描:扫描是纸质文稿图像输入计算机的过程。一般把相关文稿顺序扫描,在扫描质量控制程序自动检测并修正后,自动保存到数据库中。
图像处理:为了提高识别率,对图像进行
“消蓝去污”的处理,即去掉图像上影响识别率的噪音如麻点、下划线等,图像质量控制程序自动监测图像处理质量。
第 28章 扫描仪与 OCR技术
版面分析:能自动进行版面理解并定位,判别划框区域是横排文本区、竖排文本区、表格区还是图像区,并对不同属性的区域以不同颜色的线框标识出来。自动版面分析在后台运行,操作人员可在前台进行确认,必要时对自动版面分析结果加入手工干预。
第 28章 扫描仪与 OCR技术
识别,把文字图像转化为计算机文字内码,
可以识别印刷体和手写体中文 (包括简体字和繁体字 ),表格、中英文混排,识别出来的文字内码可以是 GB码,BIG5码,GBK码或者 Unicode码。识别过程在后台运行。
纵向校对:纵向校对是将一个图像或若干个图像中识别成同一个字的文字图像列在一起显示,并以突出颜色标出可疑字,便于操作员发现错误和修改。
第 28章 扫描仪与 OCR技术
横向校对:这是传统的人工校对方法,操作员直接对比识别结果文本和图像,以发现识别错误文字。系统自动调出文字对应的图像,
进行比对。同时,以醒目的颜色标出识别可信度不高的文字。
版面还原:将识别并修改好的文本还原成跟扫描文稿版面的布局一样、可以供计算机阅读和查询检索的 RTF,PDF,HTML、
SGML/XML格式的数字文档。
第 28章 扫描仪与 OCR技术
文字特征抽取:单以识别率而言,特征抽取可说是 OCR的核心,用什么特征、怎么抽取,直接影响识别的好坏,也所以在 OCR研究初期,特征抽取的研究报告特别的多。而特征可说是识别的筹码,简易的区分可分为两类:一为统计的特征,
如文字区域内的黑 /白点数比,当文字区分成好几个区域时,
这一个个区域黑 /白点数比之联合,就成了空间的一个数值向量,在比对时,基本的数学理论就足以应付了。而另一类特征为结构的特征,如文字影像细线化后,取得字的笔划端点、
交叉点之数量及位置,或以笔划段为特征,配合特殊的比对方法,进行比对,市面上的线上手写输入软件的识别方法多以此种结构的方法为主。
第 28章 扫描仪与 OCR技术
对比数据库:当输入文字算完特征后,不管是用统计或结构的特征,都须有一比对数据库或特征数据库来进行比对,数据库的内容应包含所有欲识别的字集文字,根据与输入文字一样的特征抽取方法所得的特征群组。
第 28章 扫描仪与 OCR技术
对比识别:这是可充分发挥数学运算理论的一个模块,根据不同的特征特性,选用不同的数学距离函数,较有名的比对方法有,欧式空间的比对方法、以及类神经网络的数据库建立及比对、等著名的方法,为了使识别的结果更稳定,也有所谓的专家系统,利用各种特征比对方法的相异互补性,使识别出的结果,其可信度特别的高。
字词后处理:由于 OCR的识别率并无法达到百分之百,或想加强比对的正确性及信心值,一些除错或甚至帮忙更正的功能,也成为 OCR系统中必要的一个模块。字词后处理就是一例,利用比对后的识别文字与其可能的相似候选字群中,根据前后的识别文字找出最合乎逻辑的词,做更正的功能。
1、什么是扫描仪?
扫描仪是一种获取图像的设备,并将信息转为电脑可以显示、编辑、存储和输出的数字格式。即可以完成以下工作:在文件中插队图和照片;将文字识别,免去打字;将传真文件扫到库中存档;在多媒体中加入图像;
在报刊中加入图片有效表达主题。
第 28章 扫描仪与 OCR技术第 28章 扫描仪与 OCR技术
扫描仪通过光源照射到被扫描的材料上来获得材料的图像。
材料将光线反射到 CCD( Change Coupled
Device,电荷偶合器件)的光敏元件上,由于材料不同的位置反射的光线强弱不同,CCD器件将光线转换成数字信号,并传送到计算机中,此时我们就获得了材料的图像。
如果您将纸张上的文字扫描到电脑中就可以通过 OCR(光学字符识别)软件将图像转换成文字,
可以减轻录入工作。
第 28章 扫描仪与 OCR技术
扫描仪的技术发展很快,但就其光学系统而言,不外乎 CIS,CCD和棱镜分色系统几类,
由于 CIS(接触式图像传感器 )十分适合
OCR(光学字符识别 ),特别是其黑白方式,
比 CCD方式的扫描仪价格低廉,所以市场占有率曾一度较大,但随着扫描仪市场从黑白到灰度再到彩色的转变,彩色 CIS扫描仪也已进入市场。
第 28章 扫描仪与 OCR技术
采用三棱镜分色系统,使得彩色扫描仪的关键技术全面提高,该系统利用光学物理原理,以三棱镜来分离自然光 R,G,B三原色,由于三原色采用一致的角度,同一时间曝光完成,使扫描的图像的边缘光洁度十分理想,扫描三维立体图像时,效果更好,
这一技术代表未来新潮流,目前,只有少数几个厂家拥有该技术。 CCD是目前扫描仪的主要技术,它的发展已从黑白、灰度演变到 8位,12位,24位、
30位乃至 36位彩色,这决定了扫描仪的基本发展趋势,即其精度和色彩度方面将不断增高。
第 28章 扫描仪与 OCR技术
决定扫描仪扫描质量的因素很多,首先,分辨率是扫描仪的一项重要指标,扫描仪的分辨率包括光学分辨率和插值分辨率,作为扫描仪真实分辨率的光学分辨率,又分为水平分辨率和垂直分辨率两种方式,水平分辨率和光源系统 CCD的真实分辨率及相应的硬件电路设计有关,它是由 CCD的像素点数除以扫描仪最大可扫描尺寸而得到的数值;垂直分辨率则与传动机构的精密程度有关,水平分辨率较垂直分辨率显得更为重要。
第 28章 扫描仪与 OCR技术
为提高扫描仪的图像质量,利用软件技术在硬件产生的像点之间插入另外的像点,由此获得的分辨率称为插值分辨率,该种分辨率在一定程度上使扫描仪的图像质量得到提高。
所以,选择扫描仪一定要弄清其光学分辨率是多少,即便是光学分辨率高的扫描仪,在处理不同的扫描仪介质对象时,其性能表现也迥然不同。
第 28章 扫描仪与 OCR技术
例如在扫描彩色照片时,较低的分辨率效果反而更好,一般而言,分辨率在 150~200dpi之间为最佳;
而扫描胶片时则需要较高的分辨率,因此在选择扫描仪时,对分辨率因素的选择要和用户的用途结合起来考虑。扫描仪具有精确的缩放技术能力也是非常重要的,它可极大地影响图像质量、扫描文件的大小以及扫描和处理的时间。缩放的质量和扫描图像的质量在不同扫描仪间差异非常大。
第 28章 扫描仪与 OCR技术
实验结果表明,一定的插值分辨率在一特定的扫描仪中能产生最小的锯齿,而在其他插值分辨率下,却不一定具有最低的锯齿。某插值分辨率对某一扫描仪合适,对另一扫描仪却不一定带来最低的锯齿,因此,仅根据插值分辨率的大小判断扫描仪的质量是不可靠的。
第 28章 扫描仪与 OCR技术
决定扫描质量的因素还有色彩定位能力、图像噪音、灰度精确度、光源的一致性等。另外,扫描仪的扫描速度和扫描图像的质量之间一直是相互制约的,扫描速度的提高总是以损失图像信息为代价,对扫描仪的这一指标,也应该和传统的认识有所区别。
第 28章 扫描仪与 OCR技术
事实上,传统的扫描速度只是将图像送入计算机中所需的时间大小的度量,除了用于光学字符识别 (OCR)或进行扫描文档管理的扫描仪之外,扫描速度不是十分关键的指标,
而其他指标也影响扫描处理的速度,如从扫描仪到计算机的数据传输速度;图像存储到磁盘的速度;扫描图像浏览和设置曝光的时间;对扫描结果进行校正处理和调整的时间等。
第 28章 扫描仪与 OCR技术
一,OCR的发展要谈 OCR的发展,早在 60,70年代,世界各国就开始有 OCR的研究,而研究的初期,多以文字的识别方法研究为主,且识别的文字仅为 0至 9的数字。以同样拥有方块文字的日本为例,1960年左右开始研究 OCR的基本识别理论,初期以数字为对象,直至
1965至 1970年之间开始有一些简单的产品,如印刷文字的邮政编码识别系统,识别邮件上的邮政编码,
帮助邮局作区域分信的作业;也因此至今邮政编码一直是各国所倡导的地址书写方式。
第 28章 扫描仪与 OCR技术
一个 OCR识别系统,其目的很简单,只是要把影像作一个转换,使影像内的图形继续保存、有表格则表格内资料及影像内的文字,
一律变成计算机文字,使能达到影像资料的储存量减少、识别出的文字可再使用及分析,
当然也可节省因键盘输入的人力与时间。
第 28章 扫描仪与 OCR技术第 28章 扫描仪与 OCR技术
扫描:扫描是纸质文稿图像输入计算机的过程。一般把相关文稿顺序扫描,在扫描质量控制程序自动检测并修正后,自动保存到数据库中。
图像处理:为了提高识别率,对图像进行
“消蓝去污”的处理,即去掉图像上影响识别率的噪音如麻点、下划线等,图像质量控制程序自动监测图像处理质量。
第 28章 扫描仪与 OCR技术
版面分析:能自动进行版面理解并定位,判别划框区域是横排文本区、竖排文本区、表格区还是图像区,并对不同属性的区域以不同颜色的线框标识出来。自动版面分析在后台运行,操作人员可在前台进行确认,必要时对自动版面分析结果加入手工干预。
第 28章 扫描仪与 OCR技术
识别,把文字图像转化为计算机文字内码,
可以识别印刷体和手写体中文 (包括简体字和繁体字 ),表格、中英文混排,识别出来的文字内码可以是 GB码,BIG5码,GBK码或者 Unicode码。识别过程在后台运行。
纵向校对:纵向校对是将一个图像或若干个图像中识别成同一个字的文字图像列在一起显示,并以突出颜色标出可疑字,便于操作员发现错误和修改。
第 28章 扫描仪与 OCR技术
横向校对:这是传统的人工校对方法,操作员直接对比识别结果文本和图像,以发现识别错误文字。系统自动调出文字对应的图像,
进行比对。同时,以醒目的颜色标出识别可信度不高的文字。
版面还原:将识别并修改好的文本还原成跟扫描文稿版面的布局一样、可以供计算机阅读和查询检索的 RTF,PDF,HTML、
SGML/XML格式的数字文档。
第 28章 扫描仪与 OCR技术
文字特征抽取:单以识别率而言,特征抽取可说是 OCR的核心,用什么特征、怎么抽取,直接影响识别的好坏,也所以在 OCR研究初期,特征抽取的研究报告特别的多。而特征可说是识别的筹码,简易的区分可分为两类:一为统计的特征,
如文字区域内的黑 /白点数比,当文字区分成好几个区域时,
这一个个区域黑 /白点数比之联合,就成了空间的一个数值向量,在比对时,基本的数学理论就足以应付了。而另一类特征为结构的特征,如文字影像细线化后,取得字的笔划端点、
交叉点之数量及位置,或以笔划段为特征,配合特殊的比对方法,进行比对,市面上的线上手写输入软件的识别方法多以此种结构的方法为主。
第 28章 扫描仪与 OCR技术
对比数据库:当输入文字算完特征后,不管是用统计或结构的特征,都须有一比对数据库或特征数据库来进行比对,数据库的内容应包含所有欲识别的字集文字,根据与输入文字一样的特征抽取方法所得的特征群组。
第 28章 扫描仪与 OCR技术
对比识别:这是可充分发挥数学运算理论的一个模块,根据不同的特征特性,选用不同的数学距离函数,较有名的比对方法有,欧式空间的比对方法、以及类神经网络的数据库建立及比对、等著名的方法,为了使识别的结果更稳定,也有所谓的专家系统,利用各种特征比对方法的相异互补性,使识别出的结果,其可信度特别的高。
字词后处理:由于 OCR的识别率并无法达到百分之百,或想加强比对的正确性及信心值,一些除错或甚至帮忙更正的功能,也成为 OCR系统中必要的一个模块。字词后处理就是一例,利用比对后的识别文字与其可能的相似候选字群中,根据前后的识别文字找出最合乎逻辑的词,做更正的功能。