欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > PPT文档下载
     

    第三讲基础知识---信息检索语言与技术.ppt

    • 资源ID:3146200       资源大小:297.02KB        全文页数:43页
    • 资源格式: PPT        下载积分:6
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要6
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第三讲基础知识---信息检索语言与技术.ppt

    1,第三讲:基础知识- 信息检索语言与技术,王建涛,2,第二讲回顾:小结NO3,信息源的三大划分标准:载体形式、处理级别、编辑出版形式。其中后两种是极其重要的。 不同的需求选择不同的信息源。 哪些信息源是你撰写学术论文必须的 网络资源和数据库作为涉及到各种类型信息资源。 根据“信息源划分示意图”理解不同信息源划分之间的关系。 根据“信息处理级别示意图”理解不同出版形式的信息源之间的关系。,3,第二讲回顾:小结NO4,检索与查找的区别 信息检索的含义、原理、类型、意义 信息检索工具、方法、步骤 信息检索类型划分示意图 能通过“信息检索原理图”理解信息检索原理 能够借助“信息检索步骤示意图”理解并记忆信息检索五步骤,4,第二讲作业讲评,认识和选择信息源,5,1 信息检索语言,信息检索语言 = 信息组织与存储的方法或规则,6,1 .1 什么是信息检索语言,回顾“信息检索原理图”,作为信息检索的桥梁信息检索语言 含义:是根据信息检索系统存储和检索的需要而编制的人工语言。 语言词汇语法 信息检索语言的词汇:分类号、检索词、代码 信息检索语言的语法:如何正确描述记录和有效地检索记录的一整套规则。,7,1.2 信息检索语言类型示意图,文献信息分类 网络信息分类 数据库信息分类,8,1.3.1 文献信息分类语言,国内 中国图书馆分类法中图法 中国科学院图书馆图书分类法科图法 中国人民大学图书馆图书分类法 人大法 中国图书分类法台湾赖永祥编订 国外 杜威十进分类法DDC 国会图书馆分类法LCC,9,中图法等级分类体系,H1 H2 H3 R1,10,中图法结构示意图,A 马克思主义、列宁主义 毛泽东思想、 邓小平理论 B 哲学、宗教 C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学 J 艺术 K 历史、地理 N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医药、卫生 S 农业科学 T 工业技术 U 交通运输 V 航空、航天 X 环境科学、安全科学 Z 综合性图书,U1 综合运输 U2 铁路运输 U4 公路运输 U6 水路运输 U8 航空运输,U41 道路工程 U44 桥涵工程 U45 隧道工程 U46 汽车工程 U48 其他道路 运输工具 U49 交通工程与公路 运输技术管理,U441 结构原理、 结构力学 U442 勘测、设计 与计算 U443 桥梁构造 U444 桥梁建筑材料 U445 桥梁施工 U446 桥梁试验观测 与检定 U447 桥梁安全与 事故 U448 各种桥型 U449 涵洞工程,基本大类 简表 详表,11,中国科学院图书馆图书分类法简表(第三版),00 马克思列宁主义毛泽东思想 10 哲学 20 社会科学(总论) 21 历史、历史学 27 经济、经济学 31 政治、社会生活 34 法律、法学 36 军事、军事学 37 文化、科学、教育、体育 41 语言、文字学 42 文学 48 艺术 49 无神论、宗教学,50 自然科学(总论) 51 数学 52 力学 53 物理学 54 化学 55 天文学 56 地球科学(地学) 58 生物科学 61 医药、卫生 65 农业科学 66 农作物 67 园艺 68 林业、林业科学,71 工程技术 72 能源学、动力工程 73 电技术、电子技术 74 矿业工程 75 金属学(物理冶金) 76 冶金学 77 金属工艺、金属加工 78 机械工程、机器制造 81 化学 83 食品工业 85 轻工业、手工业及生活供应技术 86 土木建筑工程 87 运输工程 90 综合性图书,12,人大法简表,1.马克思主义、列宁主义、毛泽东思想 2.哲学 3.社会科学、政治 4.经济 5.军事 6.法律 7.文化、教育、科学、体育 8.艺术,9.语言、文字 10.文学 11.历史 12.地理 13.自然科学 14.医药卫生 15.工程技术 16.农业科学技术 17.综合参考,13,中国图书分类法(台湾),000 总论 100 哲学 200 宗教 300 自然科学 400 应用科学 600 历史、地理 700 历史、地理 800 语文 900 美术,310 数学 320 天文 330 物理 340 化学 350 地质 360 生物、博物 370 植物 380 动物 390 人类学,410 医学 420 家政 430 农业 440 工程 450 矿冶 460 化学工业 470 制造 480 商业 490 商学,441 土木工程 442 道路工程 443 水利工程 444 船舶工程 445 市政工程 446 机械工程 447 陆空交通 448 电气工程 449 核子工程,14,杜威十进分类法(DDC),000 总论 100 哲学 200 宗教 300 社会科学 400 语言 500 自然科学 600 应用科学 700 艺术 800 文学 900 历史、地理,510 数学 520 天文学 530 物理学 540 化学 550 地球科学 560 古生物学 570 生命科学 580 植物学 590 动物学,621 应用物理学 622 采矿 623 军事及航海工程 624 土木工程 625 道路工程 627 水力工程 628 卫生及市政工程 629 其它工程 610 医学 620 工程与应用科学 630 农业 640 家政 650 管理科学 660 化学工业 670 制造业 680 特种制造业 690 建筑,15,美国国会图书馆分类法 (LCC),A 综合性类目 B 哲学、宗教 C 历史辅助科学 D 历史与地方志(美洲以外) EF 美洲历史与地方志 G 地理学、人类学 H 社会科学 J 政治学 K 法律 L 教育,M 音乐 N 艺术 P 语言、文字学 Q 自然科学 R 医学 S 农业、矿业 T 工业技术 U 军事科学 V 海军 Z 目录学、图书馆学,QA 数学 QB 天文学 QC 物理学 QD 化学 QE 地质学 TA 工程总论 TC 水力工程 TD 卫生工程和市政工程 TF 铁道工程和运输 TG 桥梁工程 TH 建筑工程,16,1.3.2 网络信息分类,很多情况下并不很清楚自己的信息需求,或者无法清楚表达信息需要,需要通过类目浏览 搜索引擎【目录专题网站】 google网页目录 搜狗目录 学科信息门户 http:/phymath.csdl.ac.cn/ http:/atmsp.whut.edu.cn/ 开放目录 http:/dmoz.org/ 特殊资源分类电影分类/软件分类,17,1.3.3 数据库信息分类,如中国期刊全文库,18,小结NO5,文献信息分类特点 方便文献信息的排架,便于索取; 类目的结构严谨,逻辑性强; 适合学术信息资源的组织。 网络信息分类特点 根据网络信息的存在状况和当前上网用户的特点来编制的,科学性、系统性稍差; 适合大众信息资源的组织。 数据库信息分类特点 结合文献信息分类和网络信息分类的优点 方便浏览和检索,19,1.4 主题语言,主题:论述的对象和研究的问题 主题语言:以文献信息内容特征和科学概念的词语为检索标识,并按字顺组织起来的一种检索语言。,20,1.4.1 标题词语言,标题词:从自然语言中选取并经过规范化处理的、表示事物概念的的词、词组或短语。 代表EI中工程主题词表(简称SHE) 电脑-见(see)-计算机 局域网-参见(see also)-计算机网络,21,1.4.2 关键词语言,所谓关键词是指那些出现在文献的标题(篇名、章节名)以至摘要、正文中,对表达文献主题内容具有实质意义的语词,亦即对揭示和描述文献主题内容来说是重要的、带关键性的(可作为检索“入口”的)那些词语。 关键词基本上不作规范化处理。例如,“国际联机检索概论”中的“国际联机”、“联机”、“检索”都是能描述这篇文献的主题的,可以作为检索词。 概括地说,关键词法就是将文献原来所用的,能描述其主题概念的那些具有关键性的词抽出,不加规范或只作极少量的规范化处理,按字顺排列,以提供检索途径的方法。,22,1.4.3 叙词(主题)词语言,叙词是指一些以概念为基础的,经过规范化的,具有组配功能并可以显示词间关系和动态性的词或词组。 如:汉语主题词表、机械工程主题词表 http:/subject.whlib.ac.cn/ 有一些英汉对照,23,概念组配是叙词语言的基本原理。 概念组配与字面组配在形式上有时相同,有时不同;而从性质上来看两者区别是很大的。字面组配是词的分析与组合(拆词);概念组配是概念的分析与综合(拆义)。例如:,字面组配 模拟+控制模拟控制 香蕉+苹果香蕉苹果,概念组配 模拟+控制模拟控制 香蕉味食品+苹果香蕉苹果,24,小结NO6,25,2 计算机信息检索技术,机检 回忆“信息检索原理图” 见第二讲PPT50 信息检索系统=硬件+软件+数据库 计算机信息检索的实质就是由计算机将输入的检索策略与系统中存储的文献特征标识及其逻辑组配关系进行类比、匹配的过程,需要人机协同作用来完成。,26,2.1 计算机信息检索的类型,27,2.2 计算机信息检索技术,计算机信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。 由于信息检索提问式是用户需求与信息集合之间匹配的依据,所以信息检索技术的实质是信息检索提问式的构造技术。 目前,计算机信息检索技术已经从基本的布尔逻辑检索、截词检索、邻近检索、限制检索、短语检索、字段检索发展为高级的加权检索、自然语言检索、模糊检索、概念检索和相关检索等多种技术并存。,28,2.2.1 布尔逻辑检索,布尔逻辑组配是现行计算机检索的基本技术,主要通过“与(and,*)”、“或(or,+)”、 “非(not,-)”将检索词联络起来。 AND*&空格 A and B 逻辑与。A和B都为真时,结果才为真 ,即:A*B,逻辑含义用图表示是:,29,OR +| A or B 逻辑或。A或B中只要有一个为真时,结果就为真,即:A+B NOT-! A not B 逻辑非。A为真、B为假时,结果才为真,即:A-B,30,布尔逻辑运算符的运算次序,括号优先与计算机编程中一样 (A OR B) AND C NOT D 不同的系统次序有差别,但总的来说一般次序为: NOT AND OR 例A:查找有关信息检索的非英文文献 信息information 检索retrieval 英文english (信息 and 检索 ) not 英文 (information and retriever) not english,31,分析实例:,上海零售业的现状与发展趋势 上海 零售业 现状 发展趋势 上海 and 零售业 and (现状 or 发展趋势),32,2.2.2 截词检索,截词包括后截、中截、前截等。用?作为截词符(有些系统用*),主要包括下列情形: 截词符? 中截一字符,后截断n个字符 如 wom?n 可以检索出: woman, women 如 coumput? 可以检索出Compute, Computer, Computing, computable,33,? 后、中截二字符 如:transplant? 可以检索出:transplant、transplanted、transplanter ?后、中截三字符 如: comput? 可以检索出:compute;computer;computing,34,通配符,无限截断,% ?* 后方一致(前截断): “%国庆” 将检索出所有字段为张国庆、欧阳国庆、国庆等的记录。 前方一致(后截断) : 如:“热电材料% ”将检索出热电材料梯度化、热电材料及其梯度化等的记录。,35,2.2.3 邻近检索,位置算符(W) with,(nW)n with 表示检索算符两侧的词不可以颠倒顺序,n表示两个词中间可以插入=n个的词(如:an in by of the) 如:control(1w)system可以检索出“control system” “control in system”等的信息。,36,位置算符(N) near ,(nN)n near 表示检索算符两侧的词可以颠倒顺序,n表示两个词中间可以插入=n个的词(如:an in by of the)

    注意事项

    本文(第三讲基础知识---信息检索语言与技术.ppt)为本站会员(本田雅阁)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开