基于投影特征的简谱数字识别方法
摘要:简谱数字识别是光学乐谱识别中的一个重要分支,传统的识别方法是模板匹配,该方法计算量大,且对模板的依赖性很强,导致其鲁棒性较弱,对图像的噪声和位移敏感。考虑到简谱数字识别规模较小,通过分析数字对噪声较为稳定的几何特征,提出一种改进的投影特征匹配法对简谱数字进行快速识别匹配。理论分析和实验结果表明,改进的投影特征匹配法与传统的模板匹配法相比,识别精度和速度有所提高,鲁棒性也更强。
关键词:投影;数字识别;模板匹配;欧氏距离
DOIDOI:10.11907/rjdk.151538
中图分类号:TP317.4
0 引言
最为经典的OMR技术莫过于模板匹配法。该方法的基本思想是通过为每个待识别字符定义一个典型的标准模板,然后采用直方图法[3]、轮廓矩[4,5]、欧氏距离[6]、曼哈顿距离[7]等度量方法比较待识别的样本与标准模板,根据度量方法得出的相似度来决定样本与模板是否属于同一类别[8]。
由于标准模板的存在,常规模板匹配方法识别与数字模板数字字体一致时的识别率很高,但是它对噪声敏感,并且对数字的不同字体也不具有适应性,鲁棒性不强[9]――当数字的字体字形变化、识别图片的分辨率较低或噪点较多时,该方法的识别率下降。另外,由于常规模板匹配直接涉及到两个图像矩阵级别的运算,其计算量通常较大,时间开销较多[10]。
考虑到简谱中的数字识别规模较小,只有0~7八个数字,可通过分析简谱数字对噪声较为稳定的几何特征和水平或垂直投影特征,避开常规模板匹配法在鲁棒性上的劣势,应用一种改进的投影特征匹配法对简谱数字进行快速识别匹配,并给出具体的算法流程,分析了算法的时间复杂度。理论分析和实验结果表明,改进的投影特征匹配法与传统的模板匹配法相比,识别精度和❥速度有所提高,鲁棒性也更强。
1 算法原理
1.1 预处理
相机获取的信息多为32位真彩色信息,但乐谱只有黑白两色,人眼分辨乐谱不需要其它任何颜色信息。因此,在开始数字识别之前,可先采用加权平均值法转换三通道彩色乐谱到单通道灰度图,将彩色图像转换为8位灰度图,将图像的RGB三维信息转换为一维,可大幅度减小计算量,公式如下[11]:
上式中,红绿蓝三通道的权值是根据人眼对颜色的敏感度测定的,所以,运用式
(1)可以得到较为理想的灰度图像。
为进一步减少计算量,还需要做二值化处理。将乐谱背景置为黑色(值为0),音符置为白色(值为255),在方便人眼观察的同时,可以为后续的图像处理技术带来操作上的便利。
由于待识别的目标结果只有0~7八种数字,采用水平投影法和垂直投影法[12]将图像从二维矩阵降维到一维向量以进行快速匹配。
设图像宽度和高度分别为w和h,现对其做水平投影,得到后的向量除以255w,所得到的向量下标对应图片坐标系中的纵坐标,而指定下标的值对应某一像素水平方向所有非零(白色)像素占该图片宽度的百分比。同理再对其做垂直投影,得到后的向量除以255h,则所得到的向量下标对应图片坐标系中的横坐标,而指定下标的值对应某一像素垂直方向所有非零(白色)像素占该图片高度的百分比。其它数字依此类推,所有数字的水平、垂直投影向量如图1所示。
观察8个数字及其水平、垂直投影向量的特征,这一步需要选取相对比较稳定,即能够直接从图像上体现出的不怎么受噪声影响、鲁棒性较强的特征来区分它们。可利用大部分图像中都存在的接近于100%的峰值区间,它们的水平位置特征比较具有唯一性。▼具体区分方法如下:
(3)剩下
3、
6、0三个数字,可以通过比较其垂直投影在前半段的峰值与后半段的峰值差来筛选出3――一般对于0和6,前后峰值差超过10%,而3的前后峰值差则会小于10%(反映在图4中3图像的灰色部分)。最后可利用6的水平投影在前半段存在的跳变(反映在图4中6图像的灰色部分)区分出6和0。 进一步总结,上述3步也即是说,仅需要提取水平和垂直向量的峰值区间的位置作为特征,即可区分出0~7八个数字。
算法1 投影特征匹配算法
输入:二值化后的矩形图片矩阵I。
输出:该符号的类型type(0~7为数字,-1为识别错误)。
Step 1: 初始化type=-บ1,计算I的宽度w与高度h。
1.3 时间复杂度
设图像的宽和高分别为w与h,则Step 2中求水平投影与垂直投影向量并对其缩放各只需要遍历一遍图像,时间频度为T(w,h)=2wh;Step 3中,只需各自遍历一遍水平和垂直投影向量即可计算出最大值横纵坐标、平均值以及前后半段的峰值,时间频度T(w,h)=w+h;Step 4~Step 10中,只用到了基本乘除运算和比较操作,时间频度为T(w,h)=C(常数);Step 11中,还需再遍历一遍水平投影向量,时间频度为T(w,h)=h。
综上所述,该算法的总时间频度为T(w,h)=2wh+w+2h+C,时间复杂度为O(wh)。
2 实验结果与分析
3 结语
通过分析简谱数字的几何特征,提出了投影特征匹配法,即一种将图像从二维矩阵降维到一维向量的快速匹配方法。在给出具体的算法思想之后,计算了算法的时间复杂度,并用不同的实验结果证实了算法的识别精度、识别速度和鲁棒性都要优于传统的欧氏距离模板匹配法。而对于如何将数字识别扩展到字符甚至汉字的快速识别、如何进一步提高识别精度等,相关工作有待进一步展开。
参考文献:
[2] 何欢.光学乐谱识别技术研究[D].北京:北方工业大学,2011.
[3] 李小伟. 基于FPGA的灰度图像模板匹配并行处理研究[D].武汉:华中科技大学,2013.
[4] 王慧.基于模板匹配的手写体字符识别算法研究[D].北京:北京交通大学,2012.
[5] 孔金生,张小凤,王璇.基于轮廓特征的模板匹配方法及其应用[J].计算机工程与应用,2008
(22):201203.
[6] 黄琛.基于Hausdorff距离模板匹配的行人检测算法研究与应用[D].北京:清华大学,2006.
[7] CHING Y SUEN,JINNA TAN.Analysis of errors of handwritten digits made by a multitude of classifiers[J].Pattern Recognition Letters arc★hive, 2005.
[9] 唐Q,李青.一种快速的模板匹配算法[J].计算机应用,2010
(6):15591561,1564.
[12] 哈勤和,张畅,王泽兵,等.图象的快速一维投影模板匹配[J].计算☪机工程与应用,1998
(1):3839,50.