《一种基于树的Whois文档解析方法.doc》由会员分享,可在线阅读,更多相关《一种基于树的Whois文档解析方法.doc(9页珍藏版)》请在三一文库上搜索。
1、一种基于树的文档解析方法目前,大多数对攻击的研究与实践是传统的主动探测和对安全漏洞的利用。由于这种主动探测需要与目标交互,常常容易被目标的防火墙或入侵检测系统记录。但是,很多组织忽视了信息泄露的潜在威胁,攻击者无须访问组织内部的服务器就可以通过公共服务被动收集组织内部的信息,从而逃避非法检测。2004年,NGS(Next Generation Security Software Ltd.)1提出被动信息收集(Passive Information Gathering)2的概念,引起很多组织对其信息泄露的重视。 信息收集的内容以Whois结果为主。本文从分析信息收集的关键问题入手,针对该类信息的
2、表示特点,提出了一种基于树的文本解析策略。该方法对于解决半结构化的文本信息解析具有一定的普遍意义。 1 相关研究 根据不同的获取方法,信息收集的结果一般有两种形式,即Web文档和半结构化的文本。 1.1 Web信息抽取3,4 Web信息抽取通常利用包含在Web文档中的一些元信息、简单的句法、分隔符信息等来完成信息抽取工作。在该类信息抽取系统中多数使用包装器来进行信息抽取。包装器可以由手工创建,或者(半)自动化创建。在手工创建包装器的过程中,既可以使用知识工程途径,也可以使用由特定领域专家创建的本体论来手工创建包装器。为了减轻设计者的劳动强度,逐渐将机器学习技术应用于信息抽取。越来越多的信息抽取
3、系统是(半)自动化地使用机器学习技术和数据挖掘技术等来创建的。机器学习中的一些成熟技术被用来创建信息抽取系统,如归纳逻辑编程、命题规则学习、朴素贝叶斯网络、隐马尔科夫模型等。 1.2 文本挖掘5 文本挖掘(Text Mining)是信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘是利用智能算法,如神经网络、基于案例的推理、可能性推理等,并结合文字处理技术,分析大量的非结构化文本源(如文档、电子表格、客户电子邮件、问题查询、网页等),抽取或标记关键字概念,文字间的关系,并按照内容对文档进行分类,获取有用的知识和信息。文本挖掘研究的关键在于文本内容的量化表征。 针对面向信息收集的资源提
4、取,目前已成形的文本挖掘和Web信息提取的方法过于复杂,需要找到更适合、更简洁的方法。 2 问题分析 泄密信息收集往往是攻击的前奏,不仅包括对目标实体信息的公开查询和存储,还包括对信息的归类、提取和解析,为进一步分析和利用提供便利的信息基础。泄密信息收集的外延很广,针对其服务的对象,泄密信息收集的范围主要是全球范围内与目标网络特性相关的网络实体信息。这些信息可以通过各种渠道的公开查询获取。收集到的信息对于目标网络的定位、网络路径与地理位置的有机统一、网络规模和拓扑结构的探测与分析均有着重要的价值。 2.1 数据源 收集的数据主要来自以下在线资源: (1)Internet服务注册商610 全球I
5、P地址、AS信息的注册和维护机构。 (2)域名系统 域名的本地及全球注册和维护机构。 (3)搜索引擎 获取组织间链接关系的查询工具。 (4)其他数据集 与信息采集相关的其他数据集,包括Whois服务器信息、IP地址管理信息、地理位置信息等。 这些信息一般可以借助Web查询或相关协议查询,由于通过Web方式得到的数据存在很多HTML的标记信息,解析比较烦琐。在具体的实施中更侧重于采用相关协议查询返回的纯文本信息,如Whois查询、DNS查询等。下面显示了一段IP地址的Whois查询结果。 2.2 关键问题 在实际情况下,不同的数据源返回的信息格式往往各不相同,甚至同一数据源返回的信息格式也有区别
6、。另外,有些数据源还会更改其信息的表示格式,造成原来的解析算法完全不适用。 查询得到的文本内容体现了数据源的部分信息结构;提取过程中无须过多考虑文档结构,重点解决名称的相似性问题,即不同数据源在描述同一类数据时会采用不同的名称。这样导致文档解析功能的扩展和更新对数据源的依赖性很大。为了解决这一问题,需要找到一种适应性强、可扩展性好的解析策略。 3 信息解析过程 首先引入两个特定的概念,即类型和格式。此处类型按照查询请求分类,对不同类型的查询所解析的内容有所不同,如对IP地址分配信息的查询结果,需要解析该地址所在IP地址段的网络名称、组织名、地址、国家代号等;而对AS分配信息的查询结果,需要解析
7、该AS的AS名称、所属国家等,有几种查询就存在几种不同类型。格式是针对同一类型的不同表示形式而言的,如同样描述一个IP地址段,有的使用“NetRange:198.137.240.0198.137.241.255”,有的使用“inetnum:61.0.0.061.1.255.255”,这样一种类型的查询结果可能有很多种不同的格式。 从直观上来讲,对文本信息的解析往往侧重于针对不同的文本格式解析不同的内容,即一种格式一个解析算法。此时针对不同的格式开发不同的解析算法,如果出现一种新的格式,则增加一种解析算法。这种解析策略适用于文本类型统一、格式较一致的情况。 随着文本类型的增多,文本格式的差异也越
8、来越大,一种格式一个解析算法的解析策略已远远不能适应软件开发的要求。当出现不同格式的查询结果时,增加一种解析算法,同时在调用这种解析算法前还需要额外的判断和错误处理,增加了系统实现的复杂性和难度。其软件效率低、可扩展性不好。考虑到同一类型不同格式的文本格式差异不大的特点,提出了一种类型一个解析算法的解析策略。 信息解析的基本步骤主要包含以下两步: (1)建立文本解析模型。从已收集到的大量文档集中对文本分类,提取特征,建立特征集,形成解析模型的过程。该过程是信息解析的主要过程,只要文本解析模型能够涵盖大部分的文本特征,文本信息的解析就很容易完成了。 (2)解析文本信息。将一个待解析的源文件在(1
9、)已经建好的文本解析模型中分类并与特征集匹配一次,评价解析效果,将解析结果以数据库记录的形式保存。 对于一个文档集,文本的类型能够使用该文档的来源标志,分类后的文本基本上具有大致相同的特征,此时对每一类文本建立文本特征。为了提高解析模型的适应性,特征建立后需要针对文本特征中的同义词(即指示同一内容的关键字)归类,归类的过程即是对文本特征集的优化,由此建立起来的文本特征能够基本适应文本解析的需要。为了提高文本解析模型的适应性,解析模型应具有良好的可扩展性,随着文档集数量的增加,可以不断对该模型进行质量评价和修正,使文本解析模型不断完善。文本解析模型建立的一般过程如图1所示。4 文本解析模型 4.
10、1 文本的分类 对于一个文档集,文本的类型能够根据该文档的来源标志,从目前信息采集的内容来看,文本的类型主要有以下几种: (1)IP地址Whois查询结果文本。 (2)域名Whois查询结果文本。 (3)自治系统Whois查询结果文本。 (4)地理位置信息查询结果Web文档。 分类后的文本基本上具有大致相同的文本描述特征,使得在确定文本类型的基础上进一步分析文本的格式,建立文本特征相对简化。 4.2 文本特征的建立 文本分类后,针对单一类型的文本分析其格式特点,以类型为单位建立文本特征。文本特征是指关于文本的元数据, 包含文本的名称、日期、大小、来源、关键字、内容等。文本的解析尤其应处理好对文
11、本特征中关键字的描述。 对文本特征的描述采用特征向量来表示,每一个关键字的特征向量描述为 其中,V(i)代表一种类型文本的某个关键字的特征向量;Keyi表示该类型文本中的某个关键字;N(Keyi)表示该关键字代表的内容;W(Keyi)表示在该类型文本中该关键字的权值,可以表示该关键字在文本中出现的频率或出现的必要性等。多个关键字特征向量的集合就构成了该类型文本解析模型的特征矩阵: 对于域名Whois查询,每一个正常的应答文本中均应存在特征矩阵中的若干个关键字,此处权值W(Keyi)表示该关键字是否必须存在于应答文本中。如果是0,则表示该关键字所指示的内容是可选的,在应答文本中未必存在。另外,同
12、一种内容可能会在不同文本中用多个关键字指示,如“域名服务器”在该特征向量中分别列出了“Domain Servers”“Name Server”和“Domain Servers in Listed Order”三种关键字,这表示不同的文本指示一种内容使用的关键字可能不同。 4.3 特征集的优化 特征集的优化是对已经建立好的特征集的进一步分析和归类,从对文本特征的描述来看,不同格式的文本中,对同一内容的指示可能采用的关键字并不相同,但该内容却在每一个该类型的文本中存在(即权值为1)。从解析的角度来看,这些关键字是同义词,解析时应一并考虑,同时解析过程中同义词的选择应该由一个度量来表示。在对特征集的
13、优化过程中,我们在每一个关键字的特征向量中增加了关键字优先级的描述。 此时,对于同一种内容对应的多个关键字,如“域名服务器”在该特征向量中分别列出了“Domain Servers”“Name Server”和“Domain Servers in Listed Order”三种关键字,分别由不同的优先级来描述,相同的N(Keyi)表示同义词,不同的优先级描述在信息解析过程中对关键字选取的次序。 优先级的引入虽然在特征集的存储上增加了空间,但在解析过程中,通过选择最可能出现的关键字,减少了关键字匹配失败的几率,解析效率有所提高。 4.4 模型质量的评价 通过以上三步对文档集的分类、特征提取和特征集优化所建立起来的文本解析模型已经能够基本满足信息解析的需要。在本节中进一步给出了对文本解析模型质量的评价。评价文本解析模型的质量可以给出对解析结果的量化评价,找出导致解析质量降低的潜在因素,不断优化文本解析模型。 对文本解析模型解析准确率和解析完整率的分析有助于评价文本解析模型的质量和在此基础上的解析效率。 解析准确率
链接地址:https://www.31doc.com/p-1592046.html