欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > PPT文档下载
     

    第7章信息检索及发展.ppt

    • 资源ID:2551920       资源大小:748.01KB        全文页数:58页
    • 资源格式: PPT        下载积分:8
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要8
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第7章信息检索及发展.ppt

    第7章 信息检索及发展,现代信息查询与利用课程组,7.1 信息检索概述 7.2信息检索研究历史和现状 7.3 信息检索模型,3,7.1.1 信息检索词汇(terms),检索的含义 “检索就是查找”,这仅仅是一种狭义的解释。从广义的角度讲,检索包括“存贮”和“查找”两个过程。 没有存贮就没有查找,存贮是为了查找,但查找必须有存贮,两者缺一不可。,4,信息检索词汇(terms),“检索”(Retrieval)一词是一个外来词,来源于英语“Information Retrieval”(信息检索) Information retrieval (IR) Information access (obtain) Information search (look for) Information searching (look for) Information seeking (focus on users, active) locate hit,7.1.2 信息检索的原理,信息检索 是指从任何信息集合中查出所需信息的活动、过程与方法。广义的信息检索还包括信息存贮,两者又往往合并称为“信息存贮与检索(Information storage and retrieval)。,信息检索的原理,信息存贮与检索,信息检索的起源,信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。 随着1946年世界上第一台电子计算机问世,计算机技术逐步走进信息检索领域,并与信息检索理论紧密结合起来;脱机批量情报检索系统、联机实时情报检索系统,8,7.1.3信息检索发展阶段, 手工操作 (manual) 计算机化 (computerized) 网络化 (networked) 智能化 (intelligentized) 认知化 (cognized),9,7.1.4主要检索系统类型,联机检索(online search) 脱机检索(offline search) 光盘检索(CD search) 网络检索(Interne/Web search) 全球数字图书馆系统(digital global system),10,1、 联机检索(online search),通信网络 联机检索中心,检索终端,数据库,主机,WAN,微机,11,检索终端,局域网,服务器,光驱,LAN,微机,光盘联机检索(CD online),12,网络(Internet)信息检索,13,7.2信息检索研究历史和现状,研究历史和现状 1948年C. N. Mooers在其MIT硕士论文中第一次使用了“Information Retrieval”这个术语 196070年代在建立文摘检索系统中,产生了布尔模型(Boolean Model)、向量空间模型(Vector Space Model)和概率检索模型(Probabilistic Model),14,7.2信息检索研究历史和现状,研究历史和现状 1980年代出现商用数据库检索系统:Dialog,ORBIT, MEDLINE 1990s第一个网络搜索工具:1990年加拿大蒙特利尔大学开发的FTP搜索工具Archie,15,7.2信息检索研究历史和现状,研究历史和现状 第一个WEB搜索引擎: 1994年美国CMU开发的Lycos 1995斯坦福大学博士生开发Yahoo 1998斯坦福大学博士生开发的Google,提出PageRank计算公式 1998年基于语言模型的IR模型提出,16,7.2信息检索研究历史和现状,研究历史和现状 1990年代推荐系统的出现:Ringo,Amazon,NetPerceptions 文本分类和聚类的使用、信息抽取:Whizbang,17,7.2信息检索研究历史和现状,研究历史和现状 2000s的重要事件 文本检索会议TREC(Text Retrieval Conference )的发展 问答系统评测专项Q/A track(Question Answering Track) 2001年,百度成立,18,7.2信息检索研究历史和现状,研究历史和现状 2000s以来的其他重要事件 多媒体IR,Image,Video,Audio and music 跨语言IR,DARPA Tides,文本摘要,DUC评测,19,7.3 检索模型,三类 7.3.1 基于内容的信息检索模型 7.3.2 结构化模型 7.3.3 浏览型数学模型,20,检索模型分类,21,7.3.1 内容模型,基于内容的信息检索模型有 集合论模型 布尔模型、模糊集合模型、扩展布尔模型 代数模型 向量空间模型、广义向量空间模型、潜在语义标引模型、神经网络模型,22,7.3.1 内容模型,基于内容的信息检索模型有 概率模型 经典概率论模型、推理网络模型、置信(信念)网络模型,23,检索模型的基本概念相关概念,标引项(Index Term) 文档表示成多个Term的集合 通常用词来表示,但是也可以用其他语言单位来表示 关键词(key words) 可以看成Term的一种 标引项的权重(Weight) 不同标引项作用是不同的 通过权重加以区分,24,检索模型的基本概念模型要素,F是一个框架,用以构建文档,查询以及它们之间关系的模型 D是一个文档集合,通常由文档逻辑视图来表示。可以是一组索引词或关键词。既可以自动提取,也可以是由人主观指定。,25,检索模型的基本概念模型要素,Q是一个查询集合,是用户任务的表达,由查询需求的逻辑视图来表示。 R(qi,dj) 是一个排序函数,它给查询qi和文档 dj 之间的相关度赋予一个排序值 即: IR模型由上述三个要素组成 R(qi,dj) = F( D, Q ),26,1、 布尔模型,一种简单的检索模型,它建立在经典的集合论和布尔代数的基础上,27,1、 布尔模型,基本原理 系统索引词集合中的每一个索引词在一篇文档中只有两个状态 出现 不出现 检索提问式q由三种布尔运算符 “and”、“or”、“not”连接索引词来构成,28,布尔模型,集合的几种表示 具有某种属性的事物的全体就构成一个集合,以 A, B, C,表示构成集合的事物,以 a,b,c,表示该集合的元 某个图书馆现存的所有图书有限集 以 S1 a,b,c,d表示,29,布尔模型,集合的几种表示 所有的正整数无限集 以 S2 1,2,3,4,表示 P(x)表示与元x有关的一个属性 S3 x|x是正偶数 S4 x|1x10 为空集,30,布尔模型集合的表示,集合间的关系 x是A中的一个元,记作x A x不是A中的一个元,记作x A 集合的图形表示,31,布尔模型集合的运算,并运算 设A,B是两个集合,集合A与B的并运算是由A的一切元素和B的一切元素所组成的集合,记做 AB,数学表示为: 设 A=a,b,c,d,e,B=c,d,x,y,z 则 AB=a,b,c,d,e,x,y,z 即 AB=x|xAxB ,32,布尔模型集合的运算,交运算 设A,B是两个集合,包含A和B的所有公共元素的集合叫做A与B的交集,记做 AB,数学表示为: 设 A=a,b,c,d,e,B=c,d,x,y,z 则 AB=c,d 即 AB=x|xAxB ,33,布尔模型,遵循两条基本规则 每个索引词在一篇文档中只有两种状态:出现或不出现,对应逻辑值为 0 或 1 查询是由三种布尔逻辑运算符 and, or, not 连接索引词组成的布尔表达式,34,布尔模型集合的运算,差运算 设A,B是两个集合,A-B是由一切属于A但不属于B的元素所组成的集合,称为B在A中的余集,或者A与B的差,即 设 A=a,b,c,d,e, B=c,d,x,y,z 则 A-B=a,b,e, B-A=x,y,z 数学表示为 A-B=x|xAxB ,35,布尔模型,定义 用qdnf表示查询q的析取范式,qcc表示qdnf的任意合取分项,文献dj 与查询q的相似度为 如果 ,则表示文献dj与q相关,否则为不相关。 sim(dj, q) 为该模型的匹配函数(相似度),36,布尔模型 目前仍然是商业文档数据库的主流模型,并为一些新的领域提供了一个好的起点,38,2、向量模型n维向量,考虑从空间坐标系原点出发(其他向量可以平移到原点出发)的向量 ,其终点坐标为,我们称之为一个n维向量,39,2、向量模型n维向量,向量的运算 加、减、倍数、内积,40,向量模型空间概念,文献空间 如果把每个标引词看作是一个向量,代表了空间的一个维,则由这些标引词集合定义了一个空间 文献集合中的任一文献都可以表示为这个多维空间中的一个向量,这个空间就成为“文献空间”,41,向量模型空间概念,标引词空间 文献集合中的一篇文献可看成是标引词空间的一个维,空间中的一点代表一个标引词点 从原点到该点的向量就是一个标引词向量 它在各个轴上的分量就是该标引词在各个轴所代表的相应文献中的权重,42,向量模型模型含义,向量空间模型(Vector Space Model, VSM) 由康奈尔大学Salton等人在上世纪70年代末提出并倡导的,原型系统为SMART* 该模型采用了“部分匹配”的检索策略,即:出现部分索引词也可以出现在检索结果中,以克服布尔模型的缺点 * 可从ftp:/ftp.cs.cornell.edu/pub/smart/下载全部源码和相关语料,43,向量模型模型含义,向量空间模型(Vector Space Model, VSM) 通过给查询或文档中的索引词分配非二值权值来实现 查询和文档都可转化成Term及其权重组成的向量表示,并可以看成空间中的点。向量之间通过距离计算得到查询和每个文档的相似度 * 可从ftp:/ftp.cs.cornell.edu/pub/smart/下载全部源码和相关语料,44,向量模型模型含义,向量模型通过分派非二值权重给查询和文档中的索引项来实现检索目标 这些权重用于计算系统中的每个文档与用户的查询请求的相似程度,向量模型通过对文档按照相似程度降序排列的方式,来实现文档与查询项的部分匹配 结果中的文档排列顺序比通过布尔模型得到的结果要合理得多,45,向量模型模型含义,在该模型中,与(ki,dj)相关联的权重wi,j是一个非二值数 查询中的索引项也是有权重的,设wi,q是与(ki,q)相关联的权重,且wi,q0,则查询向量Q被定义成 Q=(w1,q,w2,q,w3,qwt,q) 其中,t是系统中所有索引项的数目,46,向量模型模型含义,文档dj的向量可以表示为 wj=(w1,j,w2,j,w3,jwt,j), 向量模型通过wj和Q的相关度来评价文档dj和查询q的相关度。这种关系可以用定量表示,一般使用两个向量之间的夹角余弦值来计算,47,向量模型模型含义,变量wi称为权值,非负 表示对应词项ki对于判断d和查询q相关性的重要程度(注意,这里的q是一般的,而d是具体的) q= 变量vi的含义类似于wi 两个基本问题: 如何定义wi和vi 如何计算R(d, q),48,向量模型模型含义,设wi和vi为对应的词分别在d和q中出现的次数,于是我们有了两个m维向量,用夹角的cos表示“接近度”,即,49,3、 概率模型,概率模型基本思想是: 给定一个用户的查询,则有一个包含相关文档且不包含不相关文档的集合。设想这个文档集合是一个理想的结果集。,50,7.3.3 概率模型,基本假设 给定一个查询q和文档集中一个文档dj,概率模型试图找出用户对其感兴趣的概率 模型假设这个概率只是依赖于查询和文档的表示,进而模型假设文档集中存在一个子集,它使得总体相关概率在集合中的文档被认为是与查询相关的,不在集合中的则被认为是不相关的,51,概率模型贝叶斯定理,贝叶斯定理 词条的独立假设 P(AB)= P(A) P(B) 当且仅当 A与B相互独立 对一篇文档而言,若文档中的各个索引词相互独立,则有 P(dj)=P(k1)P(kt),52,概率模型模型定义,定义 设索引词的权重为二值的,即: R表示已知的相关文档集(或最初的猜测集),用 表示R的补集。 表示文档dj与查询q相关的概率, 表示文档dj与查询q不相关的概率。文档dj与查询q的相似度sim(dj, q)可以定义为:,53,概率模型优缺点,优点 理论上讲,文档按照其与目标集合的相关概率 降序排列 缺点 需要最初将文档分为相关和不相关的集合 所有权重都是二值的,模型中仍然假设索引项之间是相互独立的,54,比较,布尔、向量和概率模型是三个传统的检索模型 布尔模型是基于集合理论和布尔代数的一种简单检索模型 向量模型采用非二值的索引项权重,把文档和查询用t维权重向量表示,计算这两个向量之间的相似度来实现查询与文档的匹配 概率模型是一种规范的模型,它试图预测给定查询的相关文档,排序原则根据文档与集合的相似度进行排序,55,7.3.2 结构化文本检索模型,结构化文档检索算法可以看作是一种信息检索算法,但排序机制并不健全 使用“匹配点”来表示文本与用户查询相匹配的词串位置 使用“区域”表示文本的块 使用“节点”表示文档的结构化组元 这样,一个节点是一个区域,具有文档的作者与用户所共知的、预定义的逻辑属性,56,结构化文本检索模型,基于非重叠链表的模型是把文档中的整个文本划分为非重叠文本区域,并用链表连接起来 因为有多种方法将文本分为非重叠的区域,所以,对于同一个文档,会产生多个链表 这些链表清晰的记录了文档的数据结构 在相同链表中的文本区域没有重叠,而不同链表中的文本区域可能会重叠,57,结构化文本检索模型,该模型是一种允许在相同文档上独立定义分层索引结构的模型,每个索引结构是一个严格的层次结构,其中每个结构组元称为节点,每个节点与一个文本区域相关,两个不同的层次结构可能涉及到两个重叠的文本区域 针对不同层次结构的用户查询,所汇集的结果是由来自其中一个层次结构的节点组成,58,7.3 浏览模型,三种浏览模型:平坦模型,结构导向模型和超文本模型 平坦模型把文档(集)看成是一个平坦的文档空间。由于是平坦的,这种模型的导航关系不清楚 结构导向模型提供了层次性目录式的导航模型,是一种非平坦模型 超文本模型是由节点和链组成的非线性的信息组织网络,能够为用户提供比上两种模型更多的信息,更方便的浏览,Web是它最成功的应用,

    注意事项

    本文(第7章信息检索及发展.ppt)为本站会员(本田雅阁)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开