信息检索教程考研笔记.doc
《信息检索教程考研笔记.doc》由会员分享,可在线阅读,更多相关《信息检索教程考研笔记.doc(62页珍藏版)》请在三一文库上搜索。
1、信息检索教程一、信息的含义广义:指自然界和一切人类活动所传达出来的信号和消息,是事物表现的一种普遍形式。从本质上说,信息是事物自身(显示其存在方式)的属性,是客观存在的现象。狭义:指经过搜集、记录、处理和存储的可供检索的文献,数据和事实。它是人类对客观事物认识,是实践经验的总结,是认识的结果,是我们检索的对象。二、 信息的特征信息的两种基本状态:可存储性和可传递性1. 可存储性:人们可以有意识地将流动的信息以某种方式存储在物质媒介上,使信息和物质媒介构成一种依附性很强的、相对稳定的关系,从而有效地避免信息流失,也使信息检索有源可寻2. 可传递性:指信息可以通过一定的传输工具和载体进行传递,从而
2、形成信息联系,被人们感受和接收。信息传递有空间传递和时间传递等不同类型,需要依赖一定的物质载体,具有动态性和方向性的特征。3. 可转换性:表现在两个层面:信息在一定条件下可转化成物质,能量,金钱等其它东西,这种转换主要依靠人类对信息的正确利用。信息可以从一种形态转换成为另一种形态,自然信息可转换为语言,文字和图像,也可转换为电磁波信号或计算机代码。4. 可处理性:信息可通过分类,整序,分析,综合,压缩,扩充等加工处理,而达到便于识别,效用更高的信息5. 可共享性:同一种信息可以同时被许多人共同享用,这是信息不同于物质和能量的一个非常重要特征。信息可以广泛地扩散和传播,信息交换的双方不会失去原有
3、的信息,而且还会增加新的信息。6. 可识别性:信息做为表现事物特征的一种普遍形式,反映了事物的运动状态和存在方式,人类可以通过自身的器官去直接感觉和知觉信息,通过比较去认识信息,借助于先进的信息技术和手段去识别信息。7. 依附性:信息无法脱离物质而独立存在,在其存储和传递过程中必须依附于一定的物质载体,信息与物质载体构成一个整体。8. 普遍性:信息是物质的基本属性,普遍存在于自然界和人类社会之中,也存在于人类的思维或精神领域之中。只要有物质存在的地方,就有信息的存在。三、 信息的功能物质和能源分别为生产提供材料和动力,信息刚为生产提供智力1. 传承人类文明,推进社会发展信息记载着人类文明发展的
4、轨迹,信息的积累与传播,成为人类承上启下的纽带。信息作为人类了解自然及人类社会的凭据,与物质、能源共同奠定了社会发展的基础。2. 提供决策依据,提高决策效益信息能帮助人们减少应对决策时的不确定性和风险,降低由于缺乏足够准备而造成的损失。社会活动的日趋复杂化,增大了决策难度,需要全面、正确的信息作为决策的支持。3. 保障有效控制,保证系统秩序控制是保障各个社会组织有利和高效地获得和利用其资源的监控及实施调节行为的过程。控制的整个过程离不开信息,信息是实现有效控制的灵魂。各种社会成员只有在信息交流通畅及时的情况下,依据所获得的准确信息来行使各自的职责,才会使整个系统处于有序状态。4. 发挥参考作用
5、失去知识创新信息是知识的源和生产发展的催化剂,信息中包含有大量人类实践活动的成果和教训,人们对各种客观事实和社会现象的解释,论证和总结,比较集中的反映了人类的研究成果。因为信息对我们的科学研究和社会实践均有着广泛参考作用。通过相关信息,可对所选项目是否具有创新性做出判断,避免重复选题,并参考他人的研究方法,加快科研的进程。四、 信息的类型广义(信息是对客观事物存在方式和运动状态的反映):1. 依据信息的产生,可分为社会信息(在社会实践活动中为生存、生产和社会发展而产生、处理和利用的信息)和自然信息(自然界中的事物变化特征以及事物之间的内在关系的反映)2. 依据信息的运动状态,可分为自在信息(
6、没有进入人的认识领域,未被反映和把握的纯自然状态信息),自为信息(指人这个认识主体所感知的信息,是已被把握的自在信息)和再生信息(是主体对自为信息经过加工制作后,向外界输出的信息,是主体反映客体而形成的观念性信息和思维信息)狭义(信息是经过搜集、记录、处理和存储的,可供检索的文献、数据和事实)1. 按照信息的媒体类型,分为印刷型,缩微型,视听型和机读型a 印刷型信息:以纸张为媒介,纸质文献在便携,阅读方便,可长期反复使用上显示其特有优势。b 缩微型信息:以感光材料为媒介,以缩微照相为记录手段,优点:信息存储密度高,文献体积小,便于收藏,保存和传递,能安全储存资料。缺点:必须借助于辅助设备才能阅
7、读,不方便携带,保存条件要求严格,难于普及。c 视听型信息:也称声像型信息,以磁性材料和感光材料为存储介质。优点:声情并茂,形象逼真,直观性强,动静交替。缺点:需要借助一定设备才能使用。d 机读型信息:通过编码和程序设计,以机器语言存储在磁盘,光盘等介质上,并依赖于计算机输出的信息。优点:存储量大,查找快速方便。网络信息是一种机读信息。2. 按信息的加工处理程度,可分为零次信息、一次信息、二次信息和三次信息a 零次信息:在人际交流中口头携带和传播的信息。产生于交流过程。优点:选择性和针对性较强,交流速度快,反馈及时。缺点:带有很大的偶然性,而且未经记录与加工,不便于积累与检验,获取难度大。b
8、一次信息:也称原始信息,指未经加工或粗加工的原始信息资源。是人们在实践活动中直接产生或得到的各种数据、概念、知识、经验和总结。优点:价值高,数量大。是最基本的信息,具有重要的参考和使用价值。c 二次信息:是以一次信息为依据进行加工整理而形成的信息,是对一次信息浓缩或有序化的产物。(包括目录、文摘、索引等)也称二次信息为检索工具。具有传递、报道信息的功能,和系统性、工具性的特点。D 三次信息:在对零次信息、一次信息、二次信息进行分析研究、加工提炼和概括综合而形成的信息,具有信息量大,综合性强和系统性好的特点。(包括综述,述评、进展报告、学术年度总结等)综述:将大量分散的有关特定课题的文献,事实和
9、数据进行归纳、分析、综合、筛选,以简练的文字扼要叙述出来,内容十分概括,“述而不作”是撰写综述的一般要求,综述要客观全面地整理,分析。述评:指针对某一学科或者某一问题,全面系统地总结各种情况,观点和数据,并给予精辟的分析评价。“有述有评”是述评最为突出的特点。3. 按照信息内容,可分为经济信息,科技信息,政务信息,文化信息,教育信息,军事信息4. 根据信息的出版发行特点,可分为正式出版信息和非正式出版信息正式出版信息指公开出版发行的信息,包括图书、期刊、报纸等非正式出版信息,又称为特种文献或灰色文献,指不经过公开出版物流通渠道,不大量发行,为一部分用户使用的内部文献信息资料,具有信息量大,形式
10、多样,载体不固定等特点。包括:会议文献、学位论文、政府出版物、研究报告、档案、专利文献、标准文献等五、 互联网对信息的影响互联网是全球性的,最具影响力的计算机互联网络,也是世界范围的信息资源宝库,它造就了我们新的工作与生活方式,对整个社会信息交流方式和信息组成结构产生了巨大影响1. 互联网引发了信息新的出版形式网络出版。2. 形成了新型的网络信息资源,网络出现以来,人们捕捉和获取信息的方式发生了根本性的变革。3. 互联网使人类传统的信息交流方式发生了根本变化。表现:a. 互联网的信息交流呈现出明显的开放性和广泛性。B. 信息交流方式显现比较强的交互性和实时性。互联网是一种双向式的信息交流活动,
11、用户不仅是网络信息资源的消费者,同时也是生产者和提供者。4. 互联网推动了信息处理技术的发展。使信息易于存储、分析和传输,并可以进行无限量复制。并对多种信息形式进行综合处理,给人类的思想表达、记录、交流、传播带来了比较深刻的影响。六、 网络环境下信息的新特点1. 信息类型多样化。形成印刷型信息,磁光介质信息和网络型信息鼎立互补的新格局2. 信息的数量和内容都得到了极大的丰富。信息发布的自由性和任意性3. 信息在分布上呈现出明显的分散性。信息网络技术使信息的收集、编辑、分析、发布在世界范围内进行,互联网中任何一个服务器上都存储有供用户利用的信息。4. 信息共享程度提高。七、 信息检索的概念广义:
12、信息检索包含信息存储和信息获取两个过程。信息存储指通过对大量无序信息的选择和收集、著录和标引等方法,建成各种各样的信息检索工具或信息检索系统,使之成为有序化信息集合的过程。信息获取是存储的逆过程,其实质是根据特定的需求,运用已组织好的检索系统,将特定的信息查找出来。狭义:指信息获取的过程,即通过一定的方法,从已存储的信息中检索出与用户提问相关的文献、数据和事实的过程。八、 信息检索的原理信息检索原理就是将特定的信息需求与存储在检索系统中的信息标识进行异同的比较与匹配,选取两者相符或部分相符的信息予以输出。检索系统对所要存储的信息按照其外部特征和内部特征进行描述,并赋予特征标识,然后存入系统,检
13、索时将所需信息特征标识与所存信息的特征标识进行比较。如果两边标识一致的,就将具有这些标识的信息从检索系统中输出。九、 信息检索的类型1. 文献检索:以特定的文献为检索对象,是一种相关性检索,不直接回答用户所提技术问题的本身,只提供有关的文献供参考。2. 数据检索:以特定的数据为检索对像,是一种确定性检索,能直接回答用户所提问题的本身。3. 事实检索:以特定的事实为检索对象,是一种确定性检索。十、 信息检索的意义1. 信息检索是有效利用信息资源,实现其最大价值的科学方法信息资源管理与开发水平已成为衡量一个国家信息文明程度的重要标志之一,信息检索为我们提供了一套比较完整的利用和开发信息的方法。信息
14、检索是信息分析和科技创新的基础。现代信息技术的发展,推动了信息检索手段的日益现代化,这将大大加快加深社会信息资源的开发速度和程度。2. 信息检索是再学习的工具,是获取知识的有效途径我们生活在一个知识经济社会,知识老化周期变短,产品换代加速,是知识经济会一个非常明显的特征。这就要求我们每一个人都必须不断学习新东西,获得新情报,运用新方法,更新自身的知识结构,以适应社会快速发展的步伐。人们通过各种途径获取信息,完成知识更新,适应社会的发展。而信息检索正是人们获取知识的有效途径。3. 信息检索能有效地提高科研工作的效率,节省人力物力及时间对科学研究工作者来说,信息检索更为重要。高效的信息检索可以起到
15、事半功倍的效果,使科研人员掌握相关的进展,避免重复研究,将精力和时间集中于创新工作,多出成果,出好成果。十一、 信息检索的历程信息检索的发展与人们信息需求的增长以及现代信息技术的进程紧密相关。追溯时间发展的脉络,信息检索的发展经历了手工检索和计算机检索阶段手工检索阶段:发源于图书馆的参考咨询工作和文献索引工作。在这一阶段,信息检索逐渐形成一个独立的领域,走向专门化。纸本工具书是这一时期信息检索的主要工具。一方面19世纪下半叶,美国的公共图书馆和大专院校图书馆的参考咨询工作有了很大进展。20世纪初,多数图书馆设立了参考咨询部门,另一方面,检索刊物体系逐渐形成,检索工具书日趋完善。计算机检索阶段:
16、20世纪50年代初,人们开始研究计算机在信息检索和信息管理领域的运用。1954年,美国海军兵器中心首先在IBM701型电子计算机上成功建立了世界第一个计算机文献检索系统,标志着人类开始步入利用计算机进行信息检索的新的历史时期。计算机检索速度快、效率高、及时、全面,突破了地理上的限制。计算机检索经历了随机检索,联机检索,光盘检索和网络检索四个阶段。十二、 信息检索系统的概念信息检索系统是指根据特定的信息需求而建立起来的一种有关信息搜集、加工、存储和检索的程序化系统。其主要目的是为人们提供信息检索服务。(包括工具书、数据库或搜索引擎等)信息检索系统包括信息的存储(输入)和获取(输出)两部分信息检索
17、系统的输入端是针对信息。即依据特定的目标,按照一定的标准和方法对采集到的信息进行组织和管理。以便信息能够易于识别和理解,便于回答用户的各种提问。其中标引是信息的组织和管理过程中的重要环节,即通过对信息的分析,选用确切的检索标识(类号、主题词、叙词、关键词、人名、地名等)用以反映该文献内容的过程。标引过程一旦完成,信息就进入某种形式的信息库,而标引记录则进入二次信息数据库。在二次信息数据库中,按便于检索的方式,对标引记录加以组织。信息检索系统的输出端是针对用户的提问。即接受服务的用户群向信息中心送交各种提问。中心的工作人员则为其提问编制检索策略,也可以由用户自己直接对信息检索系统进行提问,编制检
18、索策略。检索策略的编制包括概念分析和转换两个步骤:第一步是对用户提问进行分析确定用户实际上要找什么。第二步把概念分析转换成词汇,转换成系统语言的提问,并将地检索提问以系统认知的检索式表达出来。(这是检索策略的核心)检索策略出来后,就以某种方式将其同事先存储好的数据库进行匹配,再将得到的结果返回给提问者。如果提问者对检索结果满意,该过程即告结束,如不满意,则需要修改检索式,调整检索策略,进行再次检索,直到得到提问都满意的结果。信息检索流程图示标引编制检索策略输出信息数据库系统用户群提问 概念分析 检索策略转换输入标引记录转换信息著录数据库概念分析入选信息信息十三、 信息检索系统的构成1. 信息选
19、择子系统根据系统的特点和服务的用户群体来搜集相关的信息资源,为系统提供充足而适用的数据来源。2. 信息索引子系统在分析和选取信息的内容和形式特征基础上,根据具体的词表和名词规范,来选择准确的信息标识。3. 信息管理子系统又名检索语言和名称规范子系统。管理维护系统中已有的词表使基与索引等子系统相连,支持用户的各种词汇查询操作,从提问、对话或其他文本中采集新的词汇信息,以及输出各种形式的词汇数据或词表产品。4. 检索子系统:承担接收用户提问,提问校验和进行检索等功能。5. 用户同系统之间交互子系统与用户进行交流,以便真正明确用户的真实信息需求,明确检索提问,并准确表述等功能。6. 匹配子系统:将信
20、息标识与检索提问进行相符性比较的子系统。十四、 信息检索系统的分类1. 手工检索系统:以印刷型检索工具为基础,可直接利用,无需任何辅助设备。分为书本式的手工检索系统(包括目录,索引,文摘,年鉴,百科全书,手册等)和卡片式的手工检索系统(卡片式目录)优点:是经过大脑的判断来实施和完成检索,面对的是印刷型载体,符合人们的阅读习惯,可根据需要及时调整检索策略,达到满意的效果。缺点:手工检索系统收录的范围有限,更新速度慢,检索效率远不及计算机检索系统2. 计算机检索系统:依赖于计算机进行信息检索的系统。由硬件、软件和信息数据库构成A 硬件:以计算机为中心的一系列机器设备(包括计算机、外围设备以及数据处
21、理或数据传送有关的其他设备)B 软件:又称计算机程序,是指挥和控制计算机各部分协调工作并完成各项功能的程序和各种数据。(分为操作系统软件、语言编译软件、应用软件、用户软件等)C 数据库:是依照某种数据模型组织起来,并存放于计算机存储设备中的数据集合,是计算机信息检索系统最重要的组成部分。一般分为参考数据库和源数据库两种。参考数据库指为用户提供信息线索的数据库,它可以指引用户获取原始信息,包括:书目数据库和指南数据库。源数据库指能直接提供原始资料或具体数据的数据库,包括数值数据库、文本-数值数据库、全文数据库、术语数据库(电子词典)、图像数据库、多媒体数据库计算机检索系统主要包括:光盘检索系统、
22、联机检索系统和网络检索系统优点:速度快、效率高、数据内容新、范围广、数量大、操作简单、在网络环境中检索不受时空限制。十五、 信息检索方法1. 直接浏览法:指检索者不依靠任何检索工具或检索系统,从本专业最新核心期刊或其它文献中直接阅读原文或浏览最新目次而获取文献的方法。优点:可及时获得最新文献。缺点:查找的信息不全面,不系统且局限性较大。2. 常用法:指利用检索系统来查找信息的方法。包括顺查法、倒查法和抽查法。A 顺查:由远及近地顺赶时间查找,从问题产生的时间查起,直到最新的文献。优点:查全率较高。B 倒查:由近及远地逆时间查找,重点放在近期信息资源上。优点:可最快获得新资料,新信息,这种方法投
23、入劳动较小,省时省力,检索效率高。C 抽查:抽取其中某段时间查找,关注有关课题的文献信息最可能出现或最多出现的时间段。能获得相对集中,具有代表性且能反映该课题发展水平的文献信息。优点:检索效率高,检索效果好。缺点:要求用户基本了解该课题的大概情况。3. 追溯法:指从已有的文献信息后所列的参考文献入手,逐一追查原文,从这些新查到的原文后面所附的参考文献再逐一追查,不断扩大检索范围的检索方法。优点:在没有检索工具或检索工具不齐全时,用这种方法可查到一批有关文献。缺点:原文作者引用的参考文献是有限的,而且有的引用文献与原谅关系不大。(美国科技引文索引)4. 综合法:先利用检索工具查出一定时期内的一批
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 教程 考研 笔记
