图像识别_2010暑期实训有感【二】

图像识别_2010暑期实训有感【二】还是好好谈谈项目方面的吧 我们一个小组 12 人 算是人数比较多的了 这个项目还是比较大的 而且时间比较紧 总共 20 天 中间每周日休息 所以剩下的也就不足 20 天时间了 况且前期还有培训 会耽误一些时间 所以一开始老师就给我们是施加了不小的压力 我们做的是一个 XX 系统 我负责的是图像识

      还是好好谈谈项目方面的吧。我们一个小组12人,算是人数比较多的了。这个项目还是比较大的,而且时间比较紧,总共20天,中间每周日休息,所以剩下的也就不足20天时间了。况且前期还有培训,会耽误一些时间。所以一开始老师就给我们是施加了不小的压力。我们做的是一个XX系统,我负责的是图像识别模块。这也是整个项目最难的部分了。当初是本着学习算法的意向选择这个模块的。以前从来没有接触过图像处理,所以做起来还真是挺费力的。不过经过这么多天的摸索、尝试,在同学的大力帮助下,也算有了一些眉目,基本功能也能实现了。下面就具体谈谈吧。

      要识别图像中的字符,首先要会处理图像,把图像的信息读出来。这就必须先了解图像的结构,存储方式。清华大学出版的一本《数字图像处理编程入门》给了我不少帮助。第一章的Windows位图和调色板让我对bmp图像有了基本了解。对于彩色图,可以用RGB模型来表示。基本上所有颜色都可以用这三种颜色的组合来形成。但实际上也有一些差别,小于24位图都利用到了调色板,也就是一张R、G、B表,主要是为了节省存储空间。bmp文件结构如下:

                                                          图一 bmp位图结构示意图

第一部分为位图文件头BITMAPFILEHEADER,是一个结构,其定义如下:

typedef struct tagBITMAPFILEHEADER {

WORD           bfType;

DWORD bfSize;

WORD           bfReserved1;

WORD           bfReserved2;

DWORD bfOffBits;

} BITMAPFILEHEADER;

这个结构的长度是固定的,为14个字节(WORD为无符号16位整数,DWORD为无符号32位整数),各个域的说明如下:

bfType

指定文件类型,必须是0x424D,即字符串“BM”,也就是说所有.bmp文件的头两个字节都是“BM”。

bfSize

指定文件大小,包括这14个字节。

bfReserved1,bfReserved2     

为保留字,不用考虑

bfOffBits

为从文件头到实际的位图数据的偏移字节数,即图1.3中前三个部分的长度之和。

第二部分为位图信息头BITMAPINFOHEADER,也是一个结构,其定义如下:

typedef struct tagBITMAPINFOHEADER{

DWORD  biSize;

LONG            biWidth;

LONG            biHeight;

WORD           biPlanes;

WORD           biBitCount

DWORD  biCompression;

DWORD  biSizeImage;

LONG            biXPelsPerMeter;

LONG            biYPelsPerMeter;

DWORD  biClrUsed;

DWORD  biClrImportant;

} BITMAPINFOHEADER;

这个结构的长度是固定的,为40个字节(LONG为32位整数),各个域的说明如下:

biSize

指定这个结构的长度,为40。

biWidth

指定图象的宽度,单位是象素。

biHeight

指定图象的高度,单位是象素。

biPlanes

必须是1,不用考虑。

biBitCount

指定表示颜色时要用到的位数,常用的值为1(黑白二色图), 4(16色图), 8(256色), 24(真彩色图)(新的.bmp格式支持32位色,这里就不做讨论了)。

biCompression

指定位图是否压缩,有效的值为BI_RGB,BI_RLE8,BI_RLE4,BI_BITFIELDS(都是一些Windows定义好的常量)。要说明的是,Windows位图可以采用RLE4,和RLE8的压缩格式,但用的不多。我们今后所讨论的只有第一种不压缩的情况,即biCompression为BI_RGB的情况。

biSizeImage

指定实际的位图数据占用的字节数,其实也可以从以下的公式中计算出来:

biSizeImage=biWidth’ × biHeight

要注意的是:上述公式中的biWidth’必须是4的整倍数(所以不是biWidth,而是biWidth’,表示大于或等于biWidth的,最接近4的整倍数。举个例子,如果biWidth=240,则biWidth’=240;如果biWidth=241,biWidth’=244)。

如果biCompression为BI_RGB,则该项可能为零

biXPelsPerMeter

指定目标设备的水平分辨率,单位是每米的象素个数,关于分辨率的概念,我们将在第4章详细介绍。

biYPelsPerMeter

指定目标设备的垂直分辨率,单位同上。

biClrUsed

指定本图象实际用到的颜色数,如果该值为零,则用到的颜色数为2biBitCount。

biClrImportant

指定本图象中重要的颜色数,如果该值为零,则认为所有的颜色都是重要的。

第三部分为调色板Palette,当然,这里是对那些需要调色板的位图文件而言的。有些位图,如真彩色图,前面已经讲过,是不需要调色板的,BITMAPINFOHEADER后直接是位图数据。

调色板实际上是一个数组,共有biClrUsed个元素(如果该值为零,则有2biBitCount个元素)。数组中每个元素的类型是一个RGBQUAD结构,占4个字节,其定义如下:

typedef struct tagRGBQUAD {

BYTE    rgbBlue; //该颜色的蓝色分量

BYTE    rgbGreen; //该颜色的绿色分量

BYTE    rgbRed; //该颜色的红色分量

BYTE    rgbReserved; //保留值

} RGBQUAD;

第四部分就是实际的图象数据了。对于用到调色板的位图,图象数据就是该象素颜在调色板中的索引值。对于真彩色图,图象数据就是实际的R、G、B值。下面针对2色、16色、256色位图和真彩色位图分别介绍。

对于2色位图,用1位就可以表示该象素的颜色(一般0表示黑,1表示白),所以一个字节可以表示8个象素。

对于16色位图,用4位可以表示一个象素的颜色,所以一个字节可以表示2个象素。

对于256色位图,一个字节刚好可以表示1个象素。

对于真彩色图,三个字节才能表示1个象素,哇,好费空间呀!没办法,谁叫你想让图的颜色显得更亮丽呢,有得必有失嘛。

要注意两点:

(1)    每一行的字节数必须是4的整倍数,如果不是,则需要补齐。这在前面介绍biSizeImage时已经提到了。

(2)    一般来说,.bMP文件的数据从下到上,从左到右的。也就是说,从文件中最先读到的是图象最下面一行的左边第一个象素,然后是左边第二个象素……接下来是倒数第二行左边第一个象素,左边第二个象素……依次类推 ,最后得到的是最上面一行的最右一个象素。

      当了解了这些后,就可以将图片灰度化,编程黑白二色图片。再读出bmp文件的像素信息,可以将其存储在一个一维数组里面,其他的信息还有宽度和高度。以后处理图片就是直接对这个数组进行处理。接下来是进行去噪处理。一些图片常常有噪点,对识别效果造成影响,所以必须进行去噪。去噪方法很多。我的做法是对一个像素点作如下处理:取它和周围8个点共9个点的像素的平均值,效果还可以。

      接下来的操作我都是参考的一篇哈尔滨工业大学工学硕士学位论文,上面的思路很清晰,感觉很不错。首先是归一化,即将图片编程32*32大小的图片。

      另一种方法是非线性归一化,但是上面的求质心和散度公式看不清楚,而且没有告诉怎么用质心和散度去实现归一化。所以我就采用了线性归一化。效果比非线性归一化要差一些。

      归一化之后是特征提取。

    网格特征就是将32*32的图片分成4*4共16块,每个方块64个小方块。求黑色像素的个数就行了。穿越特征包括水平穿越特征和垂直穿越特征。水平穿越特征即把图片按行分成8行,每行4小行。计算每一行由白色像素到黑色像素的变化次数即可。即得到前8维水平穿越特征t1,t2,..,t8。后8维水平穿越特征利用公式求解。Pi=ti/[(t1+t2+..+t8)*10+0.5]。垂直穿越特征则类似。

      16维网格特征、16维水平穿越特征和16维垂直穿越特征合起来总共48维特征。还可以求加权特征,形成64维特征。

      最后是模板匹配。根据相应特征值的差值的平方和进行匹配。

      项目已经要接近尾声了,非常感谢我同伴的指导和帮助。他是ACM高手,编程能力很强,这段时间我从他身上学到了不少东西。同时也感到了差距。要努力呀!

      通过这次的项目,最大的感想就是有些东西,哪怕比较难,哪怕以前没接触过,只要尽力去做,努力去尝试,最后一定会收获颇丰。再回想起来,也就不感觉是那么难了。实训结束回学校后,马上就得回到考研的状态中。我会全力以赴,我相信,虽然也许我没有别人聪明,但凭借我的努力,一定会获得最后的成功!

我的宫伀号【编程学习指南】有更多编程学习干货,欢迎围观~

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/206226.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月19日 下午4:10
下一篇 2026年3月19日 下午4:11


相关推荐

  • 单片机毕业设计196例「建议收藏」

    单片机毕业设计196例「建议收藏」单片机本科毕业设计——心率计(脉搏测量仪)系统设计与实现(源代码+protues仿真+PCB+开题报告+讲解视频).zip,相关下载链接:https://download.csdn.net/download/dwf1354046363/72630770单片机本科毕业设计——声控灯(继电器)控制系统设计与实现(源代码+protues仿真+PCB+开题报告+讲解视频).zip,相关下载链接:https://download.csdn.net/download/dwf1354046363/72620013单片

    2022年10月4日
    8
  • 大数据_02【大数据基础知识】「建议收藏」

    大数据_02【大数据基础知识】「建议收藏」大数据_02【大数据基础知识】01什么是服务器02服务器类型03存储磁盘(硬盘)01什么是服务器服务器:也称伺服器,是一种高性能计算机,提供计算服务的设备。服务器的构成包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似。由于服务器需要提供高可靠的服务,所以在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。服务器和电脑功能都是一样的,也可以将服务器称之为电脑,只是服务器对稳定性与安全性以及处理器数据能力有更高要求。比如我们随时浏览一个网站,发现这个网站

    2022年6月1日
    36
  • 什么是渗透_mitotracker deep red

    什么是渗透_mitotracker deep red0x00简介Mimikatz是一款功能强大的轻量级调试神器,通过它你可以提升进程权限注入进程读取进程内存,当然他最大的亮点就是他可以直接从lsass.exe 进程中获取当前登录系统用

    2022年8月6日
    10
  • 概念细分

    概念细分

    2026年3月12日
    2
  • autoconf 简介

    autoconf 简介Autoconf的内容Autoconf能生成用于自动配置源代码的shell脚本。安装下列程序:autoconf,autoheader,autom4te,autoreconf,autoscan,autoupdate和ifnames简短说明autoconf是一个产生可以自动配置源代码包,生成shell脚本的工具,以适应各种类UNIX系统的需

    2022年5月7日
    53
  • java-谢尔宾斯基地毯

    java-谢尔宾斯基地毯java 谢尔宾斯基地毯本程序将使用递归画出谢尔宾斯基地毯 首先我们将主类继承 JFrame 类 因为要使用 JFrame 类生成一个窗体 然后在其中定义一个初始化方法 publicvoidin this setSize 800 600 this setDefaultCl MyJFrame EXIT ON CLOSE this setLo

    2025年12月12日
    9

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号