什么是文字识别?

太平洋在线手机版 105 0

  要寄一封信,一定要写清楚收信人所在地区的邮政编码。邮局可以通过计算 机来自动识别手写数字,然后实现自动分拣信函。相比之下,汉字的自动识别却困难得多。这是因为汉字构形复杂,数量又大,《辞海》中就收集有14 872个汉字,汉字自动识别有的已经实现,有的尚处于试验 阶段,特别是手写体汉字,变化多端,更不易识别。

  文字识别,目前主要指光学文字识别(OCR)。当一个文字图形输入到机器中时,机器首先进行检测,把纸面上文字进行光电转换,将光信号转化为电信号。再 对文字进行预处理除去信号中的不正确的部分,并把文字大小和笔画粗细等规范 化,以减少识别中的复杂性。

  经过这些技术性处理以后,再进行特征抽取,即按一定的方法抽取能反映文字本质的有用信息。最后按一定的识别原理进行识别判 决,以确定文字的性质。特征抽取和识别判决是文字识别的核心部分。为此,计算 机首先要建立一个汉字库,它是按码分类存放的。当一个未知汉字输入时,计算机先对它进行编码,然后按码找出字库中的汉字。

  这种方法,不但可用于自动识别, 在编字典、邮电通信等方面也有应用的前景。

标签: 识别 文字 什么

抱歉,评论功能暂时关闭!