网上搜索的方法和技巧.pdf
《网上搜索的方法和技巧.pdf》由会员分享,可在线阅读,更多相关《网上搜索的方法和技巧.pdf(11页珍藏版)》请在三一文库上搜索。
1、网上搜索的方法和技巧 我们已经知道网上有多种多样的教育资源,从技术上讲,它们是在Internet 的多种 服务功能的支持下实现的,包含WWW 、e-mail、Usenet、FTP、BBS 等,其中发展最 快,也是最为流行的是WWW 。因此我们着重介绍WWW 信息的检索方法。 据 1999 年底的统计, 网上大约有15 亿个网页, 并且以每天增加190 万个网页的速 度在增长, 到 2002 年已达到 80 亿个网页。要想在这么大的一个资源库中查找一条具体 的信息,犹如大海捞针一般。因此,有人发出这样的感叹:“我们淹没在数据资料的的海 洋中 ,却又在忍受着知识的饥渴“。 现在出现了许多种在网上查
2、找信息的方法。这些方法可以分为两类:一类是有既定 目标的查找,一类是没有目标的查找,而后者往往是指一种网上“冲浪 “游戏。在具有既 定目标的情况下,如果已有信息线索,可以用浏览器航行的办法寻找信息对象;如果信 息线索未定,则需要利用搜索工具首先获得信息线索。 搜索工具又有传统工具和现代工具之分。传统工具是在索引数据库中进行主题树/ 目录检索或KWDSEs( 关键词搜索引擎)进行建设而索引库的建设是一个极其繁重的任 务,现在已经可以利用“机器人 “程序来帮忙,它们通过跟踪最新建立的HTML网页的 URL 对整个网络进行浏览,可以在网上从这一个网站爬到另一个网站,并记录下它们访 问过的网页的各自特
3、征(这种只有十来年历史的搜索技术就被称为传统工具了,你觉得 奇怪吗 ?)。而现代搜索工具是利用智能代理来工作,它们不是对整个网络进行索引,而 是在接到一个新任务时就出发,去搜索网上资源并提取有价值的信息。因此,智能代理 是利用神经网络技术进行搜索,它试图去发现自然语言与样本网页的模式及它们之间的 相互关系,这些将与新近发现的网上资源相匹配,最后以一串网址的形式供用户访问。 图 2_3_10 显示了网上信息检索工具的选择方法。 (一)搜索工具 在 Internet 上现有的检索工具成百上千,比较普及且功能较强的就有几十种。这些 检索按照其工作原理的不同,大概可以分为3 种类型 : 1.主题目录
4、主题目录有时也称为主题指南,什么是主题目录呢?让我们打开雅虎中国网站 http:/ 来看一看。在网页首页的中部正是雅虎自定义的一级主题目录, 其中一个类目就是“教育 “。如果我们点击“教育 “将会看见其下一级类目,如果接着点击 其中一个子类目,还可以进入更下一级类目,直到某一个具体网站或网页。 主题目录是按照等级排列的主题类索引,排列的方法有字母顺序法、时间顺序法、 地点法、主题法等等,或是各种方法综合使用。主题目录能让用户通过主题浏览Web 站点列表检索相关信息。 主题目录主要是依靠图书馆和信息专业专家对已知的网站根据其主要内容进行筛 选、组织和评论,从而编制的等级式的主题目录。有时也允许网
5、站拥有者对他们自己的 网站加以归类或进行类别描述;有的网站则干脆邀请随机的网站访问者来对网址进行分 类。这些主题目录以超文本链接的方式将不同学科、专业、行业和区域的信息按照分类 目录的方式组织起来,类目之间按照等级系统排列,然后将待收录的网页与相应的类目 或主题相连。这样,用户就可以通过主题目录的指引,在相应的等级结构中逐层浏览, 直到找到与自己的需求相关的信息。 目 前 以 主 题 目 录 为 核 心 , 并 且 收 录 网 络 信 息 较 多 的 网 站 有 雅 虎 中 国 l(http:/)、 图 书 馆 员 索 引 (http:/www.lii.org)、 信 息 开 采 (http:
6、/infomine.ucr.edu) 等。 由于主题目录要由人工编制和维护,在信息的收集、编排、HTML 编码以及信息注 释等方面要花费大量的人力和时间。人工干预虽然减少了主题目录下不切题结果的可能 性,但也往往会造成某一主题下的站点不够多、不够全面的缺陷。同时由于Internet 上 网页数最庞大并且在不断变化,所有的主题类别都要能跟上站点内容的发展,也很难办 到,所以碰上部分站点为“死链“或已经过期也就不奇怪了。 总体而言,主题目录特别适宜于一般性的、比较笼统的主题的浏览和检索。其等级 式分类令用户可以自由选择检索范围,并且从大到小的范围逐级浏览也十分方便。但是 使用主题目录很难检索到较为
7、专业的信息,且由于人类的分析判断带有主观性,网址分 析归纳者的网站分类方法也不一定与用户的需要相适应。如果思路碰巧与网址分析归纳 者的思路合拍的话,这些主题目录可能会对用户有巨大的价值;但假如情况相反,用户 则会感到它们牵强而且不可捉摸,精心分析和归纳的数据与实际需求风马牛不相及。在 许多时候, 用户需要的信息会分散在好几个不同的主题类别下,用户容易错过交叉有关 的信息。另外,不同的网站提供的主题目录的分类和结构不尽相同,用户有时要找到合 适的类别也有相当的难度。 2.搜索引擎 搜索引擎的基本概念出现于20 世纪 20 年代,但真正发展和应用却是20 世纪 90 年 代的事情,特别是在90 年
8、代中期得到快速的发展。搜索引擎一般包含两大核心技术:自 动网页搜索技术和全文检索技术。 目前得到普遍认可并且功能较强大的、以搜索引擎为核心的网站很多,例如: ?AltaVista:http:/ ?Excite:http:/WWW ?lycos:http:/ ?Google:httP:/ 搜索引擎与主题目录最大的区别在于:搜索引擎主要依靠被称为蜘蛛、机器人、爬 虫、漫游者等的网页搜索工具,而不是人工编制。其基本工作可分成以下3 个方面。 (l) 首先搜索引擎派出网页搜索工具如spider(蜘蛛)在 Internet 上搜索信息, 并把信息带回搜 索引擎 ;(2)将信息进行分类索引,建立网页数据库
9、; (3)通过 Web 服务器端软件,为用户 提供浏览器界面下的信息查询。 对用户来说, 搜索引擎的可见部分就是它的用户界面。当用户在输入框中输入需要 查询的关键字,点击“查询“之类的启动按钮后,搜索引擎就会使用一定的检索算法从网 页数据库中找出与查询关键词相匹配的相关记录,并以列表的方式显示给用户。当然, 不同的搜索引擎其检索算法也不一定相同。 一般搜索引擎不仅提供键入一个或多个关键字的简单查询,大多数还提供附加的查 询选项。比如说 : ?布尔运算符号 :AND( 与)、OR(或)、NOT(非); ?多媒体检索 :检索包含 Java Applets、Shockwave 等对象的网页 ; ?专
10、用检索 :检索在链接、图象名称、文档标题中的关键字或URL; ?多种检索约束条件:限定检索文档的创建时间,文档使用的语言等。 提交给用户的查询结果一般包括文档标题、URL 和概述,有时也包括文档建立的时 间、文档的大小等。有的搜索引擎还会根据一定的算法,给出每一条查找结果与查询关 键词之间的相关程度评分。网页的概述内容, 通常是用户决定是否链接上该网页仔细浏 览的依据。而网页概述部分的形成有好几种办法: ?将网页制作者的描述作为网页的概述; ?将文档的前面100 一 200 个字符作为概述; ?采用一种提炼文档语句的算法来形成概述。 全文检索技术则是以文本信息作为检索对象,建立全文数据库。 其
11、基本工作方式就 足能够把所有包含检索词的文档检索出来,不论这个词是出现在文档的标题,还是出现 在文档的任何一个位置。全文检索系统能够对文档中出现的任意词进行检索,或者说文 档中出现的任意词都可以作为检索到该文档的条件,这就是“全文 “两字真正含义之所 在。 3.元搜索引擎 元搜索引擎( metasearch engine)又称多元搜索引擎或者并行搜索引擎,也称作大 容量搜索引擎, 是近两年才陆续出现的新型搜索引擎。它是为弥补搜索引擎的不足而出 现的一种辅助检索工具。一般搜索引擎的检索范周仅局限于其自身的数据库,而且即使 是世界上功能最强大的搜索引擎数据库也只能涵盖世界上不到三分之一的公用网页。
12、 同时,由于不同的搜索引擎各自的信息收集方式和范围、检索算法和结果排序方法 都各不相同,同一检索表达式得到的结果大不相同,要想得到较全面的网上信息,不得 不使用多个搜索引擎,费时费力。 而元搜索引擎允许你同时搜索若干个数据库和搜索引擎,有的甚至可以向你提交单 一的、集成的、分级排列的搜索结果清单。实际上,它将用户的检索提问同时送到数个 搜索引擎的不同数据库中进行检索,在短短几秒钟时间就能从这些搜索引擎数据库中找 到相关记录的集合并进行不同程度的处理。这比一次只能访问一个搜索引擎方便得多。 并且同样进行一次搜索,元搜索引擎使得你能够比使用单一搜索引擎查找到更多的网 址。 元搜索引擎本身可以有也可
13、以没有自身的数据库。它就好像是有智能的中间代理, 它发布用户的搜索请求,然后收集独立搜索引擎返回的结果,最后为用户提供一个统一 界面的搜索结果报告。 由于元搜索引擎刚出现,影响比较大的主要来自国外,比如: ?Dogpile:http:/ ?Inference Find:http:/ ?Search:http:/ 元搜索引擎也有缺点。由于其出现的时间不长,一些搜索引擎的强大的检索功能还 不能实现。 并且由于它要借助于别的搜索引擎,而不同的搜索引擎解析查询表达式的方 式不同 ;处理大小写字母的方式不同;有的允许自然语言查询而有的不允许;有的可以采 用 NEAR( 邻接)操作符而有的不可以。为了借用
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网上 搜索 方法 技巧
链接地址:https://www.31doc.com/p-5511220.html