财务报表识别系统的设计与实现报表在财务领域内对数据的显示极为有效,然而对于海量的数据信息,如果 采用手动录入计算机中以便于分析、统计和存储的方式,显然是不能满足现代人 们对于高工作效率的渴求的,再者很多文档数据存放起来不但占用空间太大,而 且随着时间的推移,汉字或阿拉伯数字将难以确认,所以本文研究和开发了基于 图像的报表数据自动识别系统本系统主要实现的功能,就是将纸质的报表转化 为图像,然后通过本系统的识别,可以把报表内想要得到的数据识别出来,保存在 计算机内,方便以后的查询和更改本文在研究了大量的文献和图像识别相关的 技术后,完成了本篇论文首先,本文进行了图像预处理的研究,主要将图像变换、 图像的二值化、图像倾斜矫正等技术应用到本系统中图像的变换是指采集过程中出现倾斜或者颠倒的状态的图像,被调整为标准 的图像的一个过程,本文简单了介绍了图像旋转的算法,具体的旋转会在图像的 倾斜矫正部分应用到图像的二值化可以将多个灰度级的图像变换成仅有两个灰 度级的图像,这给图像下一步识别减少了很多困难,图像的二值化是图像处理过 程中不可缺少的一个步骤图像的倾斜矫正是对处于倾斜的图像进行旋转,本文 利用了 Hough变换法进行了图像的倾斜检测,经过矫正后,使图像处在一个标准 的状态下,利于字符的识别。
然后,在第3章开始介绍字符信息提取的内容,本文 主要针对识别对象是具有表格格式的字符,由于报表是由表格和数据组成的,所 以要进行数据的提取,必须依托于表格,只有将表格定位准确了,才能对字符进行 完整的提取一般情况下,手写的字符经常会与表格线框重叠,所以需要对重叠的部分进 行处理首先要做的就是检测图像中的表格和表格内的字符,如果表格内的字符 超过了表格的边界,就需要对报表的线框进行调整,将报表的框线平移到一个合 适的位置,并且删除掉以前的报表框线表格和字符的分离已经实现过后,还需要 对字符与字符进行分离,我们的手写字符经常会出现连体的情况,所以必须将连 体的字符分割开,才能进行准确的识别在本文中提出了改进的直线提取算法PR 以及新的表格字符的定位与提取算法MRCCC提取特征提取是自动识别处理领域中的又一关键部分,由于前面对字符的提取的 目的就是为了识别字符,而识别的办法就是通过对字符的特征的提取,并且用所提取的特征与正确字符的特征进行匹配来达到识别的目的这是特征分类,特征 匹配的重要前提在本文中采用了 “先粗分再细分”的两种特征提取相结合的特 征提取方法第5章依据前面所研究的自动识别处理的各个领域的技术,相应的 开发了实验系统 《财务报表识别系统》,用以检验我们的实验结果,也列 举了部分系统模块,并对系统做了总结。