非网页数字资源分类.ppt

上传人：本田雅阁

文档编号：2574605

上传时间：2019-04-11

格式：PPT

页数：13

大小：1.41MB

《非网页数字资源分类.ppt》由会员分享，可在线阅读，更多相关《非网页数字资源分类.ppt（13页珍藏版）》请在三一文库上搜索。

1、非网页数字资源分类,山东大学邵海敏, 王川川, 陈军报告人: 陈竹敏 2008.4,任务描述,给定资源实体，预测其内容类别。方法: 利用资源中包含的文件、子目录的名字、大小、内部目录结构等信息，合理形成特征，找到适当的分类方法，预测资源的内容类别。,实现过程,cwt_cdal_train.9346,解压,预处理,特征选择,cwt_cdal_test.6223,分类模型,特征表示,分类结果,特征选择,原始特征: 文件格式文件数量文件名字特征选择就是对这些原始特征进行处理, 选择, 扩展.,文件大小资源名字,文件格式,从训练集中出现的所有文件格式中选择了100个构成格式特征空间首先

2、去掉出现频率很低的文件格式合并语义相同的格式(如 .r01, .r02等, 只保留一个.r01) 格式特征提取类别Ci(i=1 to 26), 格式Fj(j=1 to m),根据格式Fj的资源在类别Ci(i=1 to 26)的资源中所占的比例, 取出区分力度大的前100个格式,文件格式、文件大小和文件数量,两种方式格式相关文件格式,文件数量,文件大小,即Fj, N(r, Fj), AS(r, Fj) N(r, Fj)资源r中包含的格式为Fj的文件数量 AS(r,Fj)资源r中包含的格式为Fj的文件的平均大小格式无关资源r的总大小,即(j=1 to 100)(N(r, Fj)*AS(

3、r, Fj),资源名字和文件名字(1),名字的特点资源的名字都是专有的,资源名字,文件名字,路径名都太短,信息不足,难以利用两个类别相同的资源, 其名字之间并没有太大的共性,但其上下文环境应该大体相似名字上下文获取上下文，分析同类资源的共性和不同类资源的差异,资源名字和文件名字(2),名字上下文的获取名字上下文: 使用名字作为关键字在百度中搜索得到的一条结果称为一个名字上下文(只是利用了百度的搜索结果页面, 而没有去爬取结果对应的页面)。关键字的选择首选完整的资源名,若失败则使用净化处理后的资源名(比如,存在书名号的,只保留书名号之内的文字;若名字中有中英文,则其中的英文字符去

4、掉等), 若失败则使用随机的一个文件名, 若仍失败打印错误报告，退出 99%以上的资源可以成功获取30个上下文,资源名字和文件名字(3),基于名字上下文的特征选择首先,取资源r的上下文中出现频率2的词, 表示为FS1 然后, 取属于FS1, 且在某类的20%以上的上下文中出现的词, 表示为FS2 然后, 基于方差的方法, 从中选出对类区分度大的词构成特征空间(维数200),资源名字和文件名字(4),特征扩展 (应用在第3组结果) 取前100个特征词，添加到特征空间FS 使用FS对测试集进行分类计算每个类别对的误判率ER(ci,cj) ,如果大于阈值10% 从ci和cj的特征词中选取N1*

5、log2(ER(ci,cj)*N2+1)个词添加到FS 再次使用FS进行分类. 若总的误判率没有下降，则FS回滚一次, 算法结束; 否则跳转到3,资源名字和文件名字(5),特征词权重计算对FS中的每个词t，计算t在资源r的上下文中出现的频率F(t, r) 权重w(t,r) Z=log2(F(t, r) + 1) w(t,r) = Z 4 ? 1 : Z/5,提交3组结果,从训练集中随机抽取1/3的样本,作为测试集,剩余2/3作为训练集,分别采用KNN和SVM构建分类器,利用测试集,逐步调整特征向量,对分类器进行优化. 提交3组结果 1. CWT_CDRC_IRSDU_TDS1.txt (KNN分类器) 2. CWT_CDRC_IRSDU_TDS2.txt (SVM分类器) 3. CWT_CDRC_IRSDU_TDS3.txt (SVM分类器) 1, 3 完全自动实现; 2在特征选择的过程中加入了部分人工确认; 3采用了特征扩展的方法,

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

4 元

下载	加入VIP免费专享

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 网页数字资源分类

三一文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：非网页数字资源分类.ppt
链接地址：https://www.31doc.com/p-2574605.html