网络信息检索概论.ppt
《网络信息检索概论.ppt》由会员分享,可在线阅读,更多相关《网络信息检索概论.ppt(57页珍藏版)》请在三一文库上搜索。
1、第五章 网络信息检索概论,Internet 网络信息资源 网络搜索引擎 网络信息检索,第一节、Internet,Internet的进入方式 IP地址,信息高速公路,(一)Internet的进入方式,(二)IP地址,识别主机的身份证,唯一性 形式:四组小于256的十进制表示。如:210.40.0.58 字符型的IP地址,即域名(DN),格式如: 主机名 机构名 网络类型 最高域名 最高层域名有两种类型: 机构名称最高层域名为3个以上字母。这些字母标明机构的类型。 地理名称高层域名为2个字母。这两个字母的代码确定了某个国家或地区。 例如:cn-中国, ca-加拿大, DN与IP一般是一一对应,通
2、过Internet上域名服务器可自动将DN转换成IP。,美国的顶层域按机构性质分为:,此外,有关组织于1997年建议增加7个顶级域名,对有关域名空间作了进一步细分,以消除com域中出现的拥挤现象。所建议的顶级域名是: info(提供信息服务的组织), web(与WWW特别相关的组织), firm(商业公司), arts(文化和娱乐组织), nom(个体或个人), rec(强调消遣娱乐的组织), store(商业销售企业)。,第二节 网络信息资源,网络信息资源的含义 网络信息资源的类型,一、网络信息资源的含义,网络信息资源是指信息资源以电子数据的形式存放在非印刷型的介质中,并通过网络通信手段,在
3、计算机等终端上再现的信息的总和。 有人认为是:通过计算机网络可以利用的各种信息资源的总和。,二、网络信息资源的类型 1、按所采用的传输协议分,万维网(world wide web,简称WWW或Web)信息资源:它使用http协议,使用简单,功能强大,能方便迅速的浏览和传递分布于网络各处的文字、图象、声音和多媒体超文本信息 Telnet信息资源: telnet是远程登陆协议。telnet信息资源包括硬件资源和软件资源。许多机构都提供远程登陆的信息系统,如图书馆的公共目录系统,信息服务机构的综合信息系统等。 FTP信息资源:它使用ftp (file transfer protocol)协议,该协议
4、主要用语连网计算机之间传输文件。FTP相当于在网络上两个主机之间复制文件. 用户服务组信息资源:包括新闻组,电子邮件组等。 Gopher信息资源:,2、按文献类型分,电子报纸 电子图书 电子期刊 动态信息 如政府机构发布的消息、政策法规、会议消息、论文集、研究成果、项目进展报告、产品目录、出版目录、广告等。 书目数据库, 参考数据库 等等,3、按媒体性质分,文本信息 如数据、论文、书刊、目录和数据库、广告。 图形 图像 如图表、图形、影像、影视。 声音 包括各种网上发表的演讲、报告及音乐信息。 软件 如免费软件、赠送软件、商品软件及软件升级版本。,4、按信息内容的表现形式和内容分,全文型信息:
5、它指直接在网上发行的电子期刊,网上报纸,印刷型期刊的电子版,网络学院的各类教材,政府出版物,标准全文等; 事实型信息:天气预报,节目预告,火车车次,飞机航班,城市或景点介绍,工程实况、IP地址等; 数值型信息:主要是指各种统计数据、实验数据; 数据库类信息:如DIALOG,万方等,是传统数据库的网络化; 微内容(web2.0特征):如博客、播客,BBS,聊天,邮件讨论组,网络新闻组等。 其它类型:投资行情和分析,图形图象,影视广告等。,第三节 网络搜索引擎,网络搜索引擎的类型 检索结果的排序方法 国内外主要搜索引擎简介 搜索引擎的语法规则 搜索引擎的检索功能 搜索引擎的检索方法,全文索引, 元
6、搜索引擎, 目录索引, 垂直搜索引擎, 集合式搜索引擎, 门户搜索引擎与免费链接列表,等等。 仅介绍前面两种主要的搜索引擎。,一、搜索引擎的主要类型,1、独立(全文)搜索引擎:,允许用户递交查询,检索出与查询相关的网页等结果列表,并且排序输出。如百度,Google, WEB信息资源 用户系统 信息采集模块 信息检索模块 索引数据库 信息标引模块,2、元搜索引擎,二、检索结果的排序方法,(1)自然排名就是按相关度排名原则,对应的排名结果称“自然排名”。 确定相关度的方法有: A、概率方法:根据关键词在文中出现的频率来判定文件的相关性(关键词出现次数越多,相关度就越高); 、位置方法:根据关键词在
7、文中出现的位置来判定(关键词出现越靠前,文件的相关程度越高); 、网页被引用次数 google主要采取此方法,有两种计算法:一是有多少网页与该记录链接,被链接越多,赋予的分值越高(即相关性越高);二是网页的访问量,网页在一段时间内被点击的频率越高其相关性越高。 、被匹配提问词的数量 如果提问式中包含3个单词,那么全部包含3个单词的记录要比只包含2个或1个单词的记录分值要高。 、词的邻近度 如果两个词紧挨着出现要比分开出现的分值高。,(2)付费排名,近年来搜索引擎公司推出了一种“付费搜索”业务,打破了自然排名原则,把搜索引擎检索结果网页(search engine result page, SE
8、RP )排名位置拍卖给从事网络推广的广告主。这些广告可以按“每次浏览”或“每次点击”等原则出价,出价越高则其结果在SERP中的排名越高,这一原则称为“竞价排名”原则,对应的排名结果叫“付费排名”,,三、常用中外搜索引擎简介,常用中文独立搜索引擎(P76-) 常用外文独立搜索引擎(P79-) 常用中外元搜索引擎(P86-),四、搜索引擎的语法规则(P1),(1)使用逻辑算符:AND、 OR、NOT: 如“计算机营销状况,但对IBM的情况不关心”,检索式为:“计算机营销 NOT IBM” 。 (2)使用“+”、“-”或should, should not、must等:用来强调某个词汇必须(可能)出
9、现或者不出现在搜索结果中,如查找“联想公司的计算机产品,但不是天琴系列”, 检索式是:“计算机 AND( +联想 -天琴)”,四、搜索引擎的语法规则(P2),(3)使用NEAR:其控制语句可以为NEAR/n(n1),用于查找在一定范围n内同时出现关键字的文献,它既可以统计关键字出现的频率,还可检查关键字相隔距离,如:输入Good NEAR/10 Better。 (4)使用连字符:e-business(电子商务,四、搜索引擎的语法规则(P3),(5)使用逗号、括号、引号:一般情况下:逗号的作用和OR的作用一样;括号的作用和数学中的作用一样,如:计算机AND(杂志OR游戏),查出的是“计算机杂志”
10、或“计算机游戏”;引号是告诉搜索引擎将几个关键字作为一个完整的组合字符串进行搜索。 如:查找电子杂志方面的文献,可输入“electronic magazine”(带引号),若不加引号,两字间的空格一般均作为“OR”解释。,四、搜索引擎的语法规则(P4),(6)使用通配符“*”: 通配符可以用来指代词汇的某一部分。 如com*,可以代表computer,communication,company等,五、搜索引擎的检索功能(p1),1.布尔逻辑检索 几乎所有的搜索引擎都具有布尔逻辑功能。 2.加权检索 “”号或选择“must contain”,:表示某个关键词“一定要出现” 或 “必须包含” 在检
11、索结果中; “”号或选择“must not contain”,“should not”:表示某个关键词“一定不能出现” 或“可能不包含”在检索结果中; 不加符号或选择“should contain”, “should” ,表示某个关键词“可以出现” 或“可以包含”在检索结果中。 3.词语检索 在一串词后加双引号(“”)或用连字符()连接,限定检索结果中的词语必须精确匹配。 4.截词检索,五、搜索引擎的检索功能(P2),5.字段限定检索 如“titil:”、“abstract:”、“keyword:“、“主机名限制(host:)、超链限制(anchor:)、域名限制(domain:)、URL限制
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 信息 检索 概论
链接地址:https://www.31doc.com/p-4995853.html