《第二讲信息检索策略1.ppt》由会员分享,可在线阅读,更多相关《第二讲信息检索策略1.ppt(96页珍藏版)》请在三一文库上搜索。
1、信息检索与利用,主讲人 潘定红 20110927,2,第二讲 信息检索策略(1),信息及其类型 信息检索策略 -检索工具/检索系统 -检索方法 -检索途径 -检索技术 -检索策略*,3,信息检索,信息检索(Information Retrieval)就是借助于某些信息检索工具或检索系统,采用不同的信息检索方法和途径,通过一定的检索技术,从印刷型或数字型文献信息集合中查找所需文献信息的过程与方法,4,信息检索的类型,以检索内容区分: 事实检索:通过百科全书、年鉴、手册、字词典等查询名词术语、概念、定义、事件、事实、机构、人物、图谱等 数据检索:统计年鉴、统计资料汇编、数值型数据库 文献检索:线索
2、检索与原文检索 以检索方式区分: 手工检索:利用印刷型工具书查找 计算机检索:通过计算机及网络设备,利用光磁等媒介存贮、检索文献信息的过程,5,信 息 处 理 人 员,原 始 信 息,信息分析、 著录 和标引,检 索 工 具 / 检 索 系 统,检 索 结 果,用 户,检 索 课 题,课题分析,主题词/分类号,存 储 过 程,检 索 过 程,存入,检索,信息检索原理示意图,6,第二讲 信息检索策略(1),信息及其类型 信息检索策略 -检索工具/检索系统 -检索方法 -检索途径 -检索技术 -检索策略*,7,一、信息检索工具/检索系统,检索工具是人们用来存储、报道和查找各类信息的工具 主要类型
3、印刷型手工检索工具目录、题录、索引、文摘、参考工具书 数字型检索工具数据库检索系统 类型划分 按性质和功能(加工深度):全文数据库/参考数据库/事实数据库 按照内容和文献类型分:数据库、电子期刊、电子图书、电子报纸等 按照经费:商用资源和免费资源,1、印刷型手工检索工具,指示型检索工具 (二次文献),书目,索引,文摘,指示性文摘 报道性文摘,提供具体内容的参考型检索工具(三次文献),词典/辞典,手册,百科全书(类书、政书),资料汇编,年鉴,名录,工具书,题录,表谱图册,9,获取专业性的检索工具/检索系统,10,11,12,13,2、数字型检索工具,数据库(database) 由计算机进行处理的
4、一定数量同类信息的有序集合,是用来存储和查找文献信息的电子化检索工具 其他数字型检索工具 搜索引擎 网络免费资源-OA资源 学科信息门户网站,14,数据库的类型,事实数据库(factual databases):指包含大量数据、事实的数据库,如数值数据库、指南数据库、术语数据库等,相当于印刷型文献中的字典、辞典、手册、年鉴、百科全书、组织机构指南、人名录、公式与数表、图册(集)等。如:Gale数据库、万方数据库系统的成果、新方志、法规、机构、科技专家等栏目 参考数据库(reference database):指包含各种数据、信息或知识的原始来源和属性的数据库,有书目、文摘、索引等。如:CCC、
5、PQDD、全国报刊索引数据库等 全文数据库(full-text databases):即收录有原始文献全文的数据库,以期刊论文、会议论文、报纸、政府出版物、研究报告等为主。如:中国期刊网、万方数字化期刊、中文科技期刊数据库(维普)、方正Apabi电子图书、超星电子图书、四库全书、Elsevier全文期刊、John Wiley全文期刊及来自Proquest、EBSCO数据库的电子报纸等,15,Gale数据库的Literature Resource Center(文学资源中心):可提供检索13万名全球作家的传记、书目、作家评论分析、作品概述、文学术语定义、经过专家严格挑选的相关站点链接,及全文文学
6、学术期刊中的45万篇全文文章,16,17,18,2010年我馆数据库使用统计(中文),2010年我馆数据库使用统计(外文),21,选择检索工具/检索系统,学科属性是考察参考资源是否适用的首选因素。首先要保证所选择的资源与检索课题的学科一致,其次应考虑所选资源在该学科领域的权威性如何,尽量使用权威性的专业数据库作为检索工具 了解参考资源收编的范围和特色收藏,包括资源收录的资料跨越的历史年代、覆盖的地理范围、是单语种还是包括多种语言、信息类型是什么等等 了解参考资源的检索方法和系统功能:检索的速度、数量、方便程度,22,第二讲 信息检索策略(1),信息及其类型 信息检索策略 -检索工具/检索系统
7、-检索方法 -检索途径 -检索技术 -检索策略*,23,二、信息检索方法,1、直检法:如专业核心期刊跟踪、重要作者跟踪等,24,2、常规法:利用检索工具查找有关文献,顺查法 优点:查的文献较完整,查全率较高 缺点:工作量大,效率不高,而且起始年代难以确定 逆查法 优点:比较省时省力 缺点:可能漏查一些有用的文献 抽查法 优点:检索时间较少,查的文献较多 缺点:有漏检的可能,并要求检索者对课题研究的历史情况有较多的了解和掌握,25,3、引文法,文献之间的引证和被引证关系揭示了文献之间存在的某种内在联系 引文法就是利用文献后所附的参考文献、相关书目、推荐文章和引文注释等查找相关文献的方法 引文法又
8、可分为两种 由远及近地搜寻 由近及远地追溯 注意:最好是选择综述、评论和质量较高的文献作为起点,它们所附的参考文献筛选严格,有时还附有评论,26,(1)由远及近地搜寻(越查越新):从被引文献查找信息,27,28,(2)由近及远地追溯(越查越旧),29,30,1998,引文查找的作用,1988,References 参考文献,该课题如何起源、 修正、变迁和发展,2008,该课题的演变、 最新进展和趋势,Cited 被引文献,从一篇高质量的文献出发 沿着科学研究的发展道路,参考文献 越查越旧 被引文献 越查越新 相关文献 越查越广,31,优点:在没有检索工具或检索工具不全的情况下,可较快地获得相关
9、文献,查找方法简单 缺点:漏检和误检的可能性较高,32,例:用引文法进行扩检,在标题: 计量史学 经济史1条记录:浅谈计量史学在经济史研究中的应用(阅读文章,价值不大) (扩检)引文扩检:罗德里克弗拉德.计量史学方法导论M.上海:上海译文出版社,1997 在标题: 经济史 计量 OR 数学 OR 统计 OR 数量 OR 定量 OR 量化 OR 数值13条记录(至少显示摘要)8条记录增加1条有效记录:定量分析法在中国经济史中的应用(上)伍丹戈 - 复旦学报(社会科学版), 1985,33,34,35,4、交替法*,交替法就是把引文法和常规法结合起来查找文献的方法:即先利用常规检索工具找出一批有用
10、文献,然后利用这些文献所附的引文进行追溯查找 两种方法交替使用,直到满足读者需要为止,它可得到较高的查全率和查准率。此法的优点在于检索工具缺年、缺卷时,也能连续获得所需年限内的文献资料,是采用较多的方法之一,36,第二讲 信息检索策略(1),信息及其类型 信息检索策略 -检索工具/检索系统 -检索方法 -检索途径 -检索技术 -检索策略*,37,三、信息检索途径/入口/字段,检索途径就是利用信息的某一特征作为检索标识通过检索工具查到所需的信息 指定字段检索可提高检索资料的相关性和精确性,38,文献的特征,外表特征,内容特征,题名,著者,序号,分类,主题,关键词,检索途径,39,几种中文数据库检
11、索途径对照,中外数据库常用的检索字段,全文文摘关键词标题,41,42,1、关键词/主题词途径,关键词是从文献的题名、文摘、正文中抽取出来,未经过规范的、能表征文献主题特征的具有实质意义的词汇。属于自然语言、非规范语言 主题是一组具有共性的事物的总称,用以表达文献所论述和研究的具体对象和问题,即文献的“中心内容”。表达主题概念的词汇就是主题词,通过主题词表对文献检索用语的概念加以人工控制和规范 主要/首选途径 经常结合分类途径,43,冠词、介词、连词、代词等虚词及某些动词、高频词等一般不能做检索关键词,杨增新时期的民族政策 方国瑜先生与中国民族史研究 从冯氏家族的兴衰看岭南汉族社会的嬗变 丽江白
12、沙壁画研究 略论谢灵运山水诗的清旷美,44,关键词/主题词检索的特点和优势,在常用的检索途径中,用户最容易掌握 优势:直接性、专指性、集中性、(增删)灵活性,满足特性检索需求,查准率高,45,2、分类号/索书号途径,分类法检索是传统的文献检索方法之一, 目前的许多中文数据库都有分类检索路径 虽然主题法是文献检索的重要途径,但由于文献中关键词、自由词的广泛性和不确定性, 用主题法检索往往会造成较多漏检。所以,检索不能忽视分类途径 准确的分类号的查询效率是最高的 经常结合主题途径,46,分类法,文献分类法是以科学分类为基础,结合文献内容性质及其他特征(如地区、时代、形式、体裁等),按照一定的逻辑体
13、系,区分、组织和检索文献的一种方法,世界三大图书分类法 杜威十进分类法(DDC)(Dewey decimal Classification ) 国际十进分类法(UDC)(Universal Decimal Classification) 国会图书馆图书分类法(LCC)(Library congress classification) 中国图书分类法 中国图书馆分类法(中图法) 中国科学院图书馆分类法(科图法) 中国人民大学图书馆分类法(人大法),48,杜威十进分类法简表 http:/www-lib.nearnorth.edu.on.ca/dewey/ddc.htm,000 Generaliti
14、es總類 100 Philosophy & psychology 哲學及心理學 200 Religion 宗教學 300 Social sciences 社會科學 400 Language 語言學 500 Natural sciences & mathematics自然科學與數學 600 Technology (Applied sciences)科技(應用科學) 700 The Arts 藝術 800 Literature & rhetoric文學、詩歌 900 History & geography 歷史及地理學,49,50,51,社会科学 马克思主义、列宁主义、毛泽东思想、邓小平理论 哲学
15、、宗教 社会科学总论 政治、法律 军事 经济 文化、科学、教育、体育 语言、文字 文学 艺术 历史、地理,自然科学 自然科学总论 数理科学和化学 天文学、地球科学 生物科学 医药、卫生 农业科学 工业技术 交通运输 航空、航天 环境科学、安全科学 综合性图书,中图法基本大类,52,53,例:文学类的类目设置,中国现代自由诗,55,56,57,58,对比:主题词检索,59,启示:对课题/专业进行分类,以实现某些用关键词难以达到的检索需求,60,查询分类号的方法,查印刷版或网络版分类表: http:/ 用维普“分类检索”查中图法分类表:http:/202.203.222.212:8000 用关键词
16、查询相关检索系统,61,62,http:/ 伦理学(道德哲学) B83 美学 G20 信息与传播理论 G21 新闻学、新闻事业 G257.35 史学目录学(历史文献学) H0 语言学 H08 应用语言学 H12 (汉语)文字学 I01 文艺美学 K0 史学理论 K09 史学史 K25中国近、现代史 K890 民俗学 Q-02 生物学哲学(馆藏、国图均如此分类;在版编目:入Q类),65,难以分类:未列专类-有多个类号,现当代文学:文学评论和研究、各体文学评论和研究、诗歌、韵文、小说、散文、杂著、民间文学、儿童文学、少数民族文学等 世界史:各大洲史 马克思主义哲学,66,67,通过关键词查出的各类
17、型分类号,核对分类表以后得到类目名称,33条: K890民俗学12 891.1891-East Indo-European & Celtic literatures-9 390Customs, etiquette, folklore2 K89风俗习惯 K892中国风俗习惯 F590旅游经济理论与方法 YB910.19YB9-心理学 YD519.12婚礼史 YD97风俗习惯 YD970.7YD97-风俗习惯 393Death customs 881.1881-Classical Greek poetry 方正电子图书,68,云大图书馆使用过的三种分类法,纯数字型 Y+英文字母+数字 英文字母+数
18、字* 分别对应不同年代到馆的文献 需查询三种分类表(或对应书名知道大体的类名),69,70,读懂分类号-加上上位类的限制-中国民间文化艺术专志,71,72,分类号查询举例,汉语言文字学专业: 误入:H314语法 应入:H12 民族法:用”民族法”检本馆书目系统:选择题名、主题字段共有13条,其中7条经对照分类表,往前推为:D922.15华侨、民族事务管理法令,73,74,利用总论复分号进行学科史检索!,I207.7(中国)民间文学(评论和研究),75,利用总论复分号进行工具书检索!,76,利用总论复分号进行专科检索工具查找!,77,总论复分表:利用,-0 理论与方法论 -1 科学现状、概况 -
19、2 机关、团体、会议 -3 研究方法 -4 教育与普及 -5 丛书、文集、连续性出版物 -6 参考工具书 -7 文献检索工具书,78,哲学辞典的类号为B-61,-61是总论复分号,表示辞典 法国的邮电事业:F635.65,F63代表世界各国邮电事业,565为世界地区复分号,是法国的代号 上海市现代摄影作品集:J426.51,J426代表现代摄影作品集,51为中国地区复分号,指上海市 美国现代诗歌:I712.25,712为世界地区复分号,代表美国;2为各国文学专类复分表的复分号,代表诗歌,分类法组织与检索知识的优点: (1)分类法的等级结构便于用户在查找时进行浏览。当用户的检索目的不明确或检索词
20、不确定时,分类浏览方式更有效率,它引导着用户按照初始的目标一步一步接近需求的信息 (2)具有族性检索功能,查全率较高按照学科专业而不是词汇集中文献 (3)检索语言的通用性。分类法以知识分类为基础以符号为标识,具备成为不同语言转换中介的条件 (4)能检出检索词的上下文内容,消除同形异义词,有助于消除主题法选词中的”揣测”成分 (5)运用分类法可灵活进行文献的扩检和缩检,充分发挥检索技能 (6)运用分类法可居高临下,洞察课题在专业学科系统中的定位、上下关系、来龙去脉 (7)通过分类号的引导,有助于对检出文献内容的理解,80,缺点,不适用于特性检索,查准率比主题词低 不能适应学科发展中的变化,难以反
21、映新学科和新名词术语 人们认识的不统一,往往造成分类不一致及排检的错误,不易反映边缘学科、交叉学科:如管理心理学 注意: 应从几个类目入手查找并加以比较,才不致漏检和误检,如“人类学”-Q98人类学 C912.4文化人类学、社会人类学,81,分类-主题组合检索,主题语言和分类语言各有所长 将分类-主题组合检索,两种途径互为补充,往往能得到更好的检索效果 在检索策略中, 若将主题法和分类法的检索思路综合一体, 可使检索式结构简捷、兼备包容性和针对性,82,例:地名的语言与文化研究,83,对比:,84,3、题名途径,具有查找特定文献的便捷功能 还可以在搜集某一专题资料的时候,提高检索资料的相关性和
22、精确性,这是因为文章的标题往往反映文章中心内容的焦点,符合人们的思维习惯 但要注意部分文献的篇名并不能充分揭示文献内容,容易造成漏检 在试检时常用,85,4、著者途径,就是根据文献的外部持征,利用著者目录和著者索引进行检索 著者途径的利用:由于同一著者的文章往往具有一定的逻辑联系,以著者为线索可以系统、连续地掌握他们的研究水平和研究方向,因此著者途径能满足一定族性检索功能要求,86,中国著者姓名翻译为英文如何处理,A、团体著者:音译+意译+缩写 【实例】原西南师范大学在欧洲专利数据库有三种写法:Southwest China Normal University / Southwest Norm
23、al University/ Xinan Teachers, University 工程索引中西南农业大学缩写成“sw agri univer”。 B、个人著者:音译+缩写+连接符 【例】在英文数据库检索作者“金长青”的论文,作者名除了“Jin, ChangQing”还有其他拼写形式? 【题解】Jin, Chang-Qing /Jin, CQ/Jin, C.Q/ Jin, C.Q./ Jin, C.-Q,87,88,89,90,91,朱光潜的英文名称,国图: Zhu, Guangqian, 1897-1986 Chu, Kuang-chien, 1897-1986 Chu, Kwang-Tsi
24、en, 1897-1986 Zhuguangqian, 1897-1986 Meng, Shi, 1897-1986 Meng, Shih, 1897-1986 Zhu, Mengshi, 1897-1986 Chu, Meng-shih, 1897-1986 Chu, Kuang-chien, 1898-,GALE: Guangqian Zhu Chu Kuang-chien GOOGLE: Z Guangqian z-guangqian guangqian zhu,92,最好用合作者、作者单位等已知字段来限制检索,提高查准率 安全使用:The End of Work - Jeremy Ri
25、fkinJeremy w (Rifkin or R),93,5、号码途径,即根据文献的序号特征,利用其序号索引进行检索 许多文献具有惟一的序号,如专利号、标准号、报告号、合同号、国际标准刊号(ISSN)、国际标准书号(ISBN)等 在已知序号的前提下,利用序号索引途径能方便地查到所需文献 序号途径在事实数据检索中作用较大,在文献检索中一般作为一种辅助性的检索途径,94,多种检索途径综合运用,正确理解检索途径的内涵,以便匹配相应的检索内容,如题名=收录在数据库中文献的标题,以课题名称作为检索字段,失去检索意义;在期刊论文数据库中以“鲁迅”做作者字段的检索,结果为0 原则:主题途径为主,多种检索途径综合运用,95,思考题,信息检索的类型有哪些? 常见的检索方法、检索途径有哪些?各有何优缺点?选用顺序和原则是什么?,96,检索实习,印刷型手工检索工具/数据库检索系统的类型各有哪些?试根据你专业/课题的需要,从我馆的馆藏中至少各找出一种 查找本专业/课题的分类号与类目(Category Name)名称(中外文),并注明来自何种分类法或数据库及关于类目名称的注释(Scope Notes)等 按分类/主题方法查找馆藏中本专业/课题的内容 检索馆藏中关于1919年以前的诗歌的图书或者论文,
链接地址:https://www.31doc.com/p-2975306.html