网站首页 | 经济学论文 | 证券金融 | 管理学 | 会计审计 | 法学论文 | 医药学论文 | 社会学论文 | 教育论文 | 计算机 | 艺术论文 | 哲学论文 | 财务管理 |
写论文网
  • 民法论文
  • 经济法论文
  • 国际法论文
  • 法学理论论文
  • 司法制度论文
  • 国家法论文
  • 宪法论文
  • 刑法论文
  • 行政法论文
  • 您的位置:写论文网 > 法学论文 > 司法制度论文 > [图纸图象扫描分析论文] 图纸扫描 正文 2020-01-03 07:26:45

    [图纸图象扫描分析论文] 图纸扫描

    相关热词搜索:

    图纸图象扫描分析论文

    图纸图象扫描分析论文 摘要工程图纸扫描图象的图文分割是一个重要问题。本文在构建单义域邻 接图基础上来提取字符及其特征。图文分离先从单义域中筛选字符笔划域,进行 初步分离。然后,以字符笔划域为起点,遍历邻接图来搜索邻接字符笔划域,提 取字符域,分析特性作进一步筛选。以字符域邻近与共线为判据来组合字符串域, 字符域邻近是用其外接膨胀矩形相交来判定。利用共串字符域外接矩形中心及所 附图形对字符域进行定向。对非水平字符域旋转至水平,并构建其单义域邻接图, 以表达几何与拓扑特征,为后续识别作准备。实例表明,本算法可以较好地处理 字符与图形的粘连问题,提取效果很好,且能够描述字符整体特征。

    1引言 工程图纸扫描图象的识别与理解是目前学术界和工程界研究的热点,在机 械、电子、建筑及地理信息系统等应用领域中具有重要的实际意义。图样中有两 部分信息,一是图形,由几何图素组成,用来表达产品形体;
    二是文字,用来定 义产品尺寸及描述其它信息,有的附于图形,如尺寸数字等,也有独立存在的, 如技术要求等。文字是图样中非常重要的信息。因此,工程图纸扫描图象的字符 提取与识别是一个重要问题,对进一步的尺寸理解、图像理解等高层次理解都有 较大作用。工程图样中的文字包括多种字符,如汉字、数字、字母及符号等。字 符情况较为复杂,有自己的一些特点:字符多为手写,具有一定的随意性,不同 于印刷体;
    具有多种方向,不仅有水平书写,而且有的垂直放置,还有其它各种 角度的斜向;
    有直体与斜体;
    有时字符与字符及图形粘连,增加了图文分割及字 符提取的难度;
    位置分散,大小不一。上述情况在字符的分割及识别时都必须考 虑。所以,工程图样字符提取及识别是一个十分困难的问题。

    鉴于工程图样字符的特点,其处理方法与光栅文档具有很大差别,一般的 处理过程是:先标识连通体,从中选出字符域,再根据字符域邻近和共线来生成 字符串域,并判断方向,然后分割字符域,最后进行字符识别及校正。经过多年 研究,工程图样字符的分割及识别算法已有多种:一是基于连通体[1];
    二是基 于轮廓跟踪[2],利用同步边缘特性检测进行轮廓跟踪,分离字符轮廓,采用邻 域搜索来生成字符串,最后通过分类树进行字符识别,并根据专业知识作校正;

    三是行程编码匹配法[3],采用图分割集方法来分割与字符及图形粘连的字符。

    本文提出一种基于单义域邻接图的图文分割方法,在二值图象水平黑游程 编码基础上,以相关游程线宽和拓扑的一致为约束生成条形域,对其中多义域作分裂获得单义域:线段域和圆弧域,并建立其邻接图。字符笔划可以表示为一个 或多个单义域。字符笔划的长度较小,线宽一致。根据这些特点,从单义域中筛 选字符笔划域,进行初步图文分离。字符笔划多是邻接的,以字符笔划域为起点, 通过遍历邻接图搜索邻接的字符笔划域,来提取字符域。字符结构与图元差别较 大,根据字符域特性实现字符进一步筛选。采用字符域外接矩形来标识字符的大 小和位置。根据字符域外接矩形相交来判定字符邻近,再加上字符共线为判据来 生成字符串域。图样中字符串多是附于图形的,单义域可以很容易获取方向,即 可得图形方向。利用共串字符外接矩形中心及所附图形对字符进行定向。然后将 非水平字符域旋转至水平,并重新进行水平黑游程编码,以单义域邻接图来表达 字符的结构特征,为后续识别作准备。下面进行详细介绍。

    2图象的单义域邻接图描述 在工程图形中,既有图元又有字符。图元有多种,如线段、圆弧、圆、箭 头等,而且图元多为相交。不同图元需要用一种结构来统一描述,然后通过分析 其几何与拓扑特征确定类型来进行矢量化。交点信息对提取同一图元及不同图元 之间拓扑关系具有重要指导意义。字符是由笔划组成的,在提取笔划的基础上进 行识别是一种很好的方法。但笔划的提取难度较大。现有对图样字符的识别多是 处理数字和字母,较少涉及汉字,而我国图纸均有大量汉字信息,还有数字及字 母等。因此,需要建立一种模型,既能表达几何数据,还可以描述拓扑关系,便 于各种特征提取。

    现有图文分离算法多是以象素为单元,进行连通体生成。而连通体对后续 识别贡献较小,尤其是对图元的识别。这就要求采用一种模型能够统一描述图形 和文字的几何与拓扑信息。基于单义域邻接图的描述模型,可以统一描述图元和 文字,不但能提取图元,还为字符识别的笔划特征提取提供启发。下面给出单义 域邻接图的建立方法。

    对图象作水平黑游程编码,这时对图象的分析单元由象素变为游程,游程 连通性反映了图形拓扑关系。如图1.b所示。通过分析游程的拓扑关系,可以获 取具有转折意义的游程[4]。这些关键游程为图元分割提供线索。相关游程基于 宽度和拓扑一致性可以聚合为一个集合,来表达某一几何与拓扑意义,称之为条 形域。条形域具有较强的整体性和宏观性[5]。但是,有的条形域具有多义性, 即由线段域和圆弧域组成,对多义域需作分裂得单义域。这时,图象的表达单元 变为单义域,如图1.c所示。而单义域首末游程的拓扑则表达了单义域的拓扑关 系。单义域邻接图可以完整地表达图象中图元与字符的几何与拓扑信息。如图2所示。

    3字符提取 图文分离算法已有多种,主要是基于连通域。多数字符是一个连通域,数 字、字母及汉字多是连通的,或是由几个连通域构成的,而且字符域具有许多与 几何图元域不同的特征。在实际中多以象素八邻域来进行字符提取,且辅以多种 字符属性判断,确认是字符域而不是图形域,并生成其最小外接矩形,用以标识 字符域的大小与位置。上述算法主要是分析连通域的特征来确定字符,在生成连 通体时,对于图文粘连情况,势必形成一体,需要后续分割或造成图文误分。这 主要是因为在形成连通体时只是基于象素。如果能够在确定笔划域的基础上进行 图文分割及字符提取,则毫无疑问会提高分割及提取效果。

    根据制图规则,图样中的汉字、数字、字母的字体均有规定,在一定扫描 率下,可以确定字符的范围阈值,从而确定字符笔划的长度,而字符笔划线宽又 是基本一致的,根据这两个条件从单义域中选取字符笔划域。邻接的字符笔划域 为一个字符,或是一个字符的部分笔划。字符提取是以字符笔划域为基础的,遍 历邻接图搜索邻接的字符笔划域来完成。下面给出具体算法:
    (1)取出未访问字符笔划域,设为当前域,新建字符域及其外接矩形, 将当前域插入字符域。

    (2)如果当前域无邻接的可访问域,则转到(4),否则,取当前域邻接 的未访问字符笔划域,设为当前域,插入字符域,字符域外接矩形生长。

    (3)返回(2)。

    (4)得一字符。

    字符结构与图元差别较大,根据字符域特性[1]实现字符进一步筛选。图 3.a给出图1.a的字符提取结果,采用外接矩形标识。

    4字符串生成 工程图纸中字符多以串的形式存在,组成字符串来表达语义。分析字符的 字符串归属能够为字符识别提供方向及上下文等信息。由于图样字符的多向性, 字符的方向确定也需从字符串中获取。对于小象素群究竟是小数点还是噪声,只有置身于字符串的上下文中才能作出正确判断。因此,字符串的组合是继字符提 取之后的必然要求。

    字符串成组通常采用的方法有两种,一种是利用Hough变换进行共线检测 [6];
    另一种是相邻检测,即字符串的生成就是将邻近字符组合在一起。第二种 方法有多种作法:一种是以字符外接矩形的中心距为判据的,与某一阈值作比较, 若小于阈值则将其归为同一字符串。一般先进行水平、垂直两个方向字符串搜索, 再进行斜方向,以字符外接矩形的中心距为判定值,对不同方向采用不同阈值[2]。

    另一种是以字符外接矩形的角点距为判据的,与某一阈值作比较,若小于阈值则 将其归为同一字符串[7]。阈值与方向的关系较大,有时需要同时处理多种情况。

    上述方法即使对同一字体由于方向不同(水平、垂直、斜向)需采取不同 阈值,对方向较为敏感。本文采用一种矩形求交方法来进行字符邻近判断,可以 较好地解决字符邻近判断问题,无需预先设定方向。

    4.1字符组合 在图样中,不同大小文字之间的行列间距是不同的,文字列间距与其大小 具有一定对应关系。本文根据字符域外接矩形自适应求得字间距,通过膨胀字符 外接矩形,即字符外接矩形按字列间距扩大生成膨胀矩形,对膨胀矩形进行求交 运算来判定两个字符是否邻近。同一字符串的字符不但是邻近的,而且还应共线 (第三个字符起)。下面给出字符组合步骤:
    (1)取出未访问字符域i,设为当前域,新建字符串域,将当前域插入字 符串域。

    (2)如果当前域无邻近且共线的可访问域,则转到(4),否则,取当前 域邻近且共线的未访问字符域,设为当前域,并插入字符串域。

    (3)返回(2)。

    (4)得一字符串。

    图3.b可以看出,矩形求交方法可以较好解决字符组合问题,在字符串的 生长中无需预设方向。

    4.2字符串定向及旋转工程图样中字符是多向的,其定向问题直接影响识别精度。字符串的方向 为其书写的基线方向。多数方法以字符中心连线来确定方向,但,如果字符较少, 则误差较大。在工程图纸中,多数字符串附于图形,尤其是线段,而其基线方向 与其所附线段的方向一致,如机械图样中的尺寸数字。由于采用单义域邻接图来 描述图象中图形和文字,从单义域中可以很容易获得图形的方向信息。对于附于 图形的字符串定向,可以采用比较字符串中心线与所附线段来确定字符串的基线 方向。如果字符串邻近的某一单义域(线段域)的方向与字符串中字符域中心连 线方向一致,则采用线段域方向作为字符串方向。而独立字符串的定向问题可采 用文献[1]方法。

    对于水平字符串,可以直接取出每个字符进行识别。而对其它方向的字符 串,需先对每个字符根据其方向旋转至水平然后进行识别。图3.b给出字符串标 识。图3.c给出旋转后结果。

    5字符单义域表示 我国图纸多是中西文混合,字符识别的特征提取必须考虑汉字特点,笔划 特征明显。字符识别的特征提取方法很多,如果能够提取笔划,则必定会大大提 高识别效果[8]。采用单义域邻接图可以较好地提取、表达字符的几何与拓扑信 息。图4给出字符单义域表示实例。

    6结束语 本文采用单义域邻接图来表达图象信息,在确定笔划域的基础上进行图文 分割及字符提取,整体性很强。本研究算法已被应用于我们开发的工程图纸扫描 图象识别与理解系统之中,字符提取效果较好。但仍需进一步完善,研究各种复 杂情况,以提高字符及其笔划特征提取精度,尤其是研究各种结构汉字,进行以 笔划为基础的中西文识别。

    • 范文大全
    • 教案
    • 优秀作文
    • 教师范文
    • 综合阅读
    • 读后感
    • 说说
    [图纸图象扫描分析论文] 图纸扫描》由(写论文网)整理提供,版权归原作者、原出处所有。
    Copyright © 2019 写论文网 All Rights Reserved.