欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > PDF文档下载
     

    基于XML的Web数据挖掘研究.pdf

    • 资源ID:5508456       资源大小:83.98KB        全文页数:2页
    • 资源格式: PDF        下载积分:2
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要2
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    基于XML的Web数据挖掘研究.pdf

    作者简介: 何志英(1978-), 女, 河北承德人, 中北大学电子与计算机科学技术学院助教, 研究方向为数据挖掘, 图形图像处理;王明泉(1970-), 男 , 山 西朔州人, 中北大学信息与通信工程学院教授, 研究方向为图形图像处理。 基于 XML 的 Web 数据挖掘研究 何志英 , 王明泉 ( 中北大学 , 山西 太原030051) 摘要: 提出了一种基于XML的Web数据挖掘模型, 该模型能很好地体现XML的优越性, 并有效地实现Web数据 挖掘 。 关键词 : 数据挖掘 ;Web数据挖掘 ;XML 中图分类号:TP311.138文献标识码:A文章编号 :1672-7800(2009)050 1780 2 1XML与Web数据挖掘技术 1.1XML简介 XML是 扩 展 标 注 语 言 (Extensible Markup Language) 的 缩 写, 是万维网协会(W3C) 于1998年2月发布的标准。W3C组 织制定XML标准的初衷是:定义一种互联网上交换数据的标 准, 其目的不仅在于满足不断增长的网络应用需求, 同时还希 望借此确保通过网络进行交互时, 具有良好的可靠性和互操作 性。 1.2基于XML的Web数据挖掘实现 1.2.1Web数据挖掘的模型 面向Web的数据挖掘技术首先要解决的就是半结构化数 据模型的确立以及半结构化数据模型的抽取问题。 XML具 有 很 强 大 的 数 据 描 述 和 数 据 抽 取 的 功 能 , 利 用 XML技术可以实现Web页的半结构的数据进行描述形成一个 半结构的数据模型,通过这个模型可以很好的实现数据挖掘。 借助它来完成基于Web数据挖掘的最重要一步:数据抽取与 转换 。 其主要的思想是: 把现有的Web页面转换成XML, 或转换 成XHTML可能更适当, 并使用众多工具中的一小部分来处理 XML结构的数据, 以检索出适当的数据。本文将介绍一种使用 标准的Web技术 (HTML、XML和Java等) 开发的方法, 来实现 基于XML的Web数据挖掘 。其实现过程流程图如图1所示 : 图 2 源 Web 页屏幕快照 可靠和稳定的信息源的确定是动态环境下进行数据挖掘 的 基 本 前 提 。 一 旦 确 定 了 信 息 源 , 下 一 步 就 可 以 调 用 XMLTransformer类中的tidyHTML()方法将源Web页转换为标 准的XML文档 , 该方法接受源Web页的URL地址作为参数, 返回一个XML文档作为结果; public static void main(Stringargs) try DocumentresultDoc =XMLTrans.tidyHTML(“http:/biz.cn. yahoo.com/zsph/index.html“); XMLTrans.outputXMLToFile(resultDoc,“D: jprXMLTransxmlexchange.xml“); catch(XMLHelperException xmle) 软 件 导 刊 Software Guide 第8卷%第5期 2009年5月 Vol.8 No.5 May. 2009 第5期 Web页面或 者 源XHTML视图中的很多信息都跟需要无 关, 因而要求在XML树中找出一个特定区域, 从中抽取需要的 数据 。假如我们所关心的数据在一个表中, 则可采用一定的方 法,如Xpath或利用XSL将XML树转换为字符串等方法找到 引用点 , 创建实现抽取数据的代码。 对于更复杂的抽取, 可能需 要在单个页面上找出这些区域的若干实例, 完成这一任务的最 简单的办法通常是检查Web页面 , 然后使用XML。 我们查找的 数据一般都包含在同一个元素下 , 在这个表中一般也会 包含所需信息的关键词, 记下观察到的内容, 分析页面所生成 的XHTML, 并把该表作为引用点或锚。 找到了这个锚, 就可以创建实际抽取数据的代码, 这个代码 将以XSL文件的形式出现。XSL是从XML派生出来的 , 是一种 可以过滤 , 选择并格式化XML数据的语言 。 他的基本思想是: 通 过定义转换模板, 将XML源文档转换为带样式信息的可浏览文 档。XSL文件的作用是标识锚, 指定如何从锚中获取正在查找的 数据 , 并且用我们所需的格式构造一个XML输出文件 。 该例的XSL代码如下 : 接下来调用XMLTransformer类中相应的方法对上述XSL 文档进行语法分析并执行转换, 调用主要方法的代码如下: Documentxhtml= XMLTransformer.parseXMLFormURLString (“D:XMLTransxmlexchange.xml“); Documentxsl= XMLTransformer.parseXMLFormURLString(“ D:XMLTransxmlexchange.xsl“); Documentxml= XMLTransformer.transformXML(xhtml,xsl); XMLTransformer.outputXMLToFile(xml,“D: XMLTransxmlresult.xml“); 将要 抽取的 数 据映射到XML文件 和XSL文 件后 就 完 成 一次数据的抽取。Web数据挖掘是一个周而往复的过程, 通常 需要不断地在Internet上进行数据的抽取, 反复执行抽取过程, 最后把结果合并到单个XML数据文件中。可以再次使用XSL 执行 , 也可以创建类的方法把在当前抽取中获得的数据合并到 包含以前抽取数据的文档中。 本文中的示例所用到的代码除了XSL变换代码以外几乎 可以在任何数据抽取中重复使用, 本文所介绍的方法具有很强 的实用价值。 通过选择所需的可靠数据源以及在这些数据源中 选取与内容相关但与格式无关的锚, 可以实现一个维护成本低 廉、 可靠的数据抽取系统。有时 , 数据模式的抽取有遗漏, 开发 者可进一步检查HTML文件的模式和数据内容, 手工地将其与 XML文档的模式信息对照。 上 述 模 型 实 现 了 对HTML格 式 的Web文 档 进 行 数 据 抽 取, 但是Web上的数据不仅仅限于HTML文档 , 还有很多诸如 后台的数据库数据、 日志数据等等形式, 如何扩大数据抽取的 范围是一个重要的要继续研究的问题。另一方面 , 利用该模型 进行数据抽取时,所依赖的方法还是基于XQL和Xpath的全 文匹配检索, 如果所需数据所在的网页和站点在结构和内容上 变化不大, 只需要进行简单的路径搜索和调整即可; 但是如果 这些数据所在的网站网页变化更新很快, 那么上述模型的执行 效率就会变得很低。 2结束语 Web数据挖掘是一种新颖的研究领域, 它与传统的数据挖 掘不同 , 由于Web数据是一种非结构化的数据, 这给它的数据 挖掘带来了困难。XML很好的解决了这个问题, 由于它也是一 种非结构的数据模型,它的出现使基于Web的数据挖掘有了 很大的简化。 本文在这两者的基础上, 提出了一种基于XML的 Web数据挖掘模型, 该模型能很好地体现XML的优越性 , 并有 效地实现Web数据的挖掘。 参考文献: 1卫金茂, 王石 , 伊卫国.基于XML的 数据 挖掘 J.计 算机 工 程与 设计 ,2003(10). 2Jared Jackson,Jussi Myllymaki.Web-based data mining-automatic - ally extract information with HTML,XML,and JavaDB/OL.http: /www-900.ibm.com/developer works/cn/xml/x-wbdm/index-eng.sh - tml1998. 3Gerald Huck,Peter Fanhauser,Karl Aberer,et al.Extracting and Sy- nthesizing Information from the WebR.New York:In COOPIS, 1988. 4范亚芹 , 刘颖.Web数据挖掘原理及实现J.吉林大学学报,2003 (4). 5卫金茂, 王石 , 伊卫国.基于XML的 数据 挖掘 J.计 算机 工 程与 设计 ,2003(10). 6HAN JIAWEI,MICHELINEKAMBER.数据挖掘概念与技 术 M. 北京 : 机械工业出版社,2004. ( 责任编辑: 王钊) 何志英 , 王明泉 : 基于XML的Web数据挖掘研究179 ··

    注意事项

    本文(基于XML的Web数据挖掘研究.pdf)为本站会员(tbuqq)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开