书签分享收藏举报版权申诉 / 32

立即下载加入VIP免费专享

当前位置：首页 > 其他 > 基于NoSQL技术的搜索引擎设计与实现毕业论文.doc

基于NoSQL技术的搜索引擎设计与实现毕业论文.doc

上传人：小小飞

文档编号：3921054

上传时间：2019-10-10

格式：DOC

页数：32

大小：1.10MB

《基于NoSQL技术的搜索引擎设计与实现毕业论文.doc》由会员分享，可在线阅读，更多相关《基于NoSQL技术的搜索引擎设计与实现毕业论文.doc（32页珍藏版）》请在三一文库上搜索。

1、学校代码：10200 学号：1272409029 本科毕业论文基于NoSQL技术的搜索引擎设计与实现 Design and Implementation a Search Engine based on the NoSQL摘要网络中的资源非常丰富，但是如何有效的搜索信息却是一件困难的事情，建立搜索引擎就是解决这个问题的最好方法。搜索引擎，通常指的是收集了因特网数百亿个网页并对网页中的每一个词（即关键词）进行索引，建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候，所有包含了该关键词的网页都将作为搜索结果被检索到并展示出来。本文主要是研究了搜索引擎的基本实现。首先是数据抓取，基于Nutc

2、h爬虫系统的部署和实现，抓取命令执行完毕，后台会自动抓取网页，并存储到伪分布式HBase数据库中。其次为基于NoSQL的数据伪分布存储，为本文的实现重点，Hadoop，HBase，Zookeeper部署伪分布式环境，Nutch抓取到的数据存储到伪分布式NoSQL数据库HBase中，索引器为存储的数据进行索引。还有关键字的索引，目前关键字的索引工作做得很少，只是基本实现了数据的基本索引，没有真正实现倒排索引；但实现了以Http请求方式对外提供请求接口，做到组件低耦合，各组件维护提升自由独立。最后结果列表的展示，基于Bootstrap，以及Java提供的Http接口，将以关键字向内部发起请求，获取

3、数据展示于前端。此外引擎实现所需要的伪分布运行环境部署，配置好NoSQL伪分布与开发环境，调试环境，测试环境，这个是所有部件能正常运行的基础。本文基于NoSQL技术实现了一个搜索引擎构架，通过爬虫抓取网页数据，存储到伪分布式NoSQL数据库中，Java类实现对前端提供查询接口，PHP调用接口获取关键字索引的数据，并展示给用户。关键词：搜索引擎；网络爬虫；检索；NoSQL；HBaseAbstractNetwork is very rich in resources, but how to search the effective information is a difficult thing,

4、 the best way to build a search engine is to solve this problem. Search engine, usually refers to the collection of the hundreds of billions of webpage and webpage in each word (i.e. keywords) index, full-text indexing database search engine. When a user searches a keyword, all contain the keyword w

5、ebpage will be as the search results retrieved and displayed.This paper is a basic implementation of the search engine. The first is data capture, and implementation of the Nutch crawler system based on the deployment, grab the command has completed, the background will be automatically crawl the we

6、bpage, and stored in the pseudo distributed HBase database. Then NoSQL data storage based on pseudo distribution, as the key point, the realization of the Hadoop, HBase, Zookeeper deployment pseudo distributed environment, Nutch to capture data storage to the pseudo distributed NoSQL database in HBa

7、se. The work of the indexing keywords is little, but the basic realization of the basic index data; on other hand in order to realize the Http request request interface providing, do component and low coupling, each component maintenance upgrade free and independent. Finally, the results display of

8、the list, based on Bootstrap, Http interface and Java, will be key to the internal request, gets the data displayed on the front. In addition the engine to achieve the deployment environment pseudo distribution operation needed, configure NoSQL pseudo distribution and development environment, the de

9、bugging environment, test environment, they are the basic of system.In this paper, the NoSQL technology to achieve a search engine crawler frame based on, through the webpage data, stored into the pseudo distributed NoSQL database, the Java class implements the query interface of front-end, keyword

10、index to obtain PHP interface data, and displayed to the user. Keywords: Search engine; Index; Retrieval; NoSQL;HBase东北师范大学学士学位论文目录摘要IABSTRACTII第一章绪论11.1 选题背景及意义11.2 国内外发展状况11.3 论文使用的研究方法与工具21.4 论文的基本思路与逻辑结构2第二章可行性研究32.1概述32.3可行性分析32.4结论3第三章搜索引擎分析53.1搜索引擎的体系结构53.2搜索引擎的工作流程83.3搜索引擎分析的遗留问题9第四章系

11、统设计104.1爬虫系统104.2索引器+分析器114.3存储器124.4 UI前端15第五章系统实施185.1 Ubuntu 及应用工具配置185.2 Hadoop 配置215.3 HBase 配置225.4 zookeeper 配置245.5服务器启动脚本245.6 Nutch配置25结束语26参考文献27致谢2828第一章绪论1.1 选题背景及意义自从互联网开始发展起，经历了漫长发展。托Google、Baidu成功的福，搜索引擎火了半边天，人们上网方式也被彻底改变了。随着网络的不断发展和壮大，搜索引擎越来越成为人们生活中重要的一部分，找资料、查地图、听音乐，只有想不到的，没有搜索

12、不到的。中国十年多来互联网的不断发展, 截至2012年12月底,我国网民规模达5.64亿,全年共计新增网民5090万人，搜索引擎也出现空前的火热。在互联网出现的初期，雅虎、新浪、网易等大型门户网站拥有着高比例的浏览量，原因在于当初的大部分网站在技术上无法与门户网站相媲美，多数质量较差，内容不丰富，所以大型门户网站优秀的网页设计风格，大量的信息及时更新赢得了用户的认可，创造了第一次互联网的高峰。搜索引擎的出现，整合了众多网站信息，恰恰起到了信息导航的作用。通用搜索引擎就如同互联网第一次出现的门户网站一样，大量的信息整合导航，极快的查询，将所有网站上的信息整理在一个平台上供网民使用，于是信息的价值

13、第一次普遍的被众多商家认可，迅速成为互联网中最有价值的领域。互联网的低谷由此演变为第二次高峰。设计搜索引擎是一项富有挑战性的工作。搜索引擎为上亿个网页建立索引，其中包含大量迥然不同的词汇。而且每天要回答成千上万个查询。在网络中，尽管大型搜索引擎非常重要，但是学术界却很少研究它。1.2 国内外发展状况目前Google已经成为全球最大的全文搜索引擎,并在2000年已经开始提供中文搜索服务。Google每天提供超过2亿次查询服务,搜索时间不到半秒,成为网上最快捷的信息查询方法。Google国外做的很成功并且不断扩张的的时候，中国的市场做的不是很好，百度抓住这个时间差让“百度更懂中文”成功占据了大部分

14、的份额，成为世界上最大规模的中文搜索引擎，致力于向人们提供最便捷的信息获取方式。百度拥有全球最大的中文网页库，每天向全球100多个国家的网络用户提供超过1亿次以上的搜索服务。由于百度在技术上的领先，奠定了其在中国互联网高科技公司的优势地位，成为中国互联网信息服务的旗帜之一。1.3 论文使用的研究方法与工具本论文采用信息研究方法，根据信息论、控制论、系统论的原理1，通过对互联网页面信息的收集、索引，并应用于实践，以实现搜索引擎功能。使用到的工具有：Ubuntu12.10操作系统，vi，myeclipse，netbean，ivy，ant，ssh等。1.4 论文的基本思路与逻辑结构这篇论文按照网站系

15、统开发的顺序一共分为六个章节：绪论、可行性分析、搜索引擎分析、系统设计、系统实施和结论，逐步介绍了搜索引擎开发进程中数据交流原理与逻辑模型建立过程。主要内容有抓取网页，数据存储，检索，以及安装配置等。第二章可行性研究2.1概述在目前Google，Baidu等主流搜索引擎占领着，而我们上网需求并没有得到完全的满足，还有很多开发领域等着我们尝试，而在当下大数据时代，数据的存储和快速检索成为了互联网发展的趋势，也是工程师解决用户快速响应需求的一个问题。2.2可行性分析检索无处不在，在电商中，显得尤为重量，没有人愿意等待延迟的查询结果，没有快速响应就等于没有用户。用户输入关键字，点击查询，期待快速、

16、准确得到他想要的查询结果。这个过程包含了巨大的商业价值，查询结果的排名，流量的导流，直接决定着电商网站的业衰。而数据每天都在增长，增长速度是也在加快，面对大数据的处理以及快速响应，传统数据模型越显吃力。分布式NoSQL数据库的发展，给出了一个解决方案，它对于大数据的存储以及查询，保持数据的容灾都表现出了极佳的性能。Yahoo！选择了它，Facebook选择了它，Google也选择了它，而分布式NoSQL数据库并没有让这些互联网巨头失望，成就了当下最大的互联网社区，最佳搜索引擎的有力后盾。NoSQL数据库HBase具有高可靠性、面向列、可伸缩、高效性、可在廉价PC Server搭建大规模结构化存

17、储集群等优点。它介于NoSQL和RDBMS之间，仅能通过主键(row key)和主键的range来检索数据，仅支持单行事务(可通过hive支持来实现多表join等复杂操作) 2。主要用来存储非结构化和半结构化的松散数据。分布式计算就好比蚂蚁吃大象，廉价的机器群可以匹敌任何高性能的计算机，纵向扩展始终抵不过横向扩展3。2.3总结经过对当下传统数据模型在面对大数据呈现吃力的情况的分析，接受分布式NoSQL并借以开发搜索引擎的实际应用，是一个可靠方案。可以尝试开发一个基于分布式NoSQL平台的搜索引擎。此次开发的系统命名为Bee搜索引擎，本文以下所有Bee搜索引擎均代指基于NoSQL的搜索引擎。第三

18、章搜索引擎分析3.1搜索引擎的体系结构一切以数据为核心，数据的爬取，数据的索引，数据的检索，以及数据与用户交互都是基于数据。首先由爬虫Nutch Crawl抓取数据，并做保存，为加快检索的速度，由索引器对抓取下来的数据进行索引；经过索引的数据在用户检索时，将变得更为高效。总体系结构如下图3.1。图3.1基于NoSQL数据库HBase搜索引擎的体系结构简单的来说，在单机上搭建伪分布部署来实现爬取数据和数据存取。Nutch抓取指定网址数据，存储在HBase数据库中，存储过程由zookeeper管理。脚本调用索引器部件将数据索引化，经过索引化的数据被前端检索查询，最后前端展示查询结果，用户点击结果

19、列表查看目标资料。其中最为关键为：爬虫系统，数据存储，数据索引，以及检索。数据的存放直接决定搜索速度的瓶颈，既要爬取数据快速存储，又要考虑数据的冗余，还要考虑数据的检索速度。综合当下数据库的特点，关系数据库在解决这个工作显得成本过高，而新生NoSQL数据库HBase具有分布式存储，对实时查询进行有良好支持，堪比MySQL的随机访问性能，更是对大数据冗余处理让人满意，不会出现单点故障等优点，在这么一个需要对大数据进行随机、实时访问的场合中，HBase是数据库的最佳选择。本系统只需要功能单一的爬虫，而Nutch2.1就是一个仅具有爬虫功能的一个应用，从分布式处理来说，Nutch支持分布式处理，于是

20、它与HBase成了绝佳的组合。Nutch类似Google的完整网络搜索引擎解决方案，基于Hadoop的分布式处理模型保证了系统的性能类似Eclipse的插件机制保证了系统的可客户化，而且很容易集成到自己的应用之中4。由于机器条件原因，没有两台和两台以上的电脑进行开发，以单机伪分布部署模仿完全分布部署。配置host文件：/etc/hosts125.222.203.184 paopao-K55VD localhost master本机网卡IP地址：eth0: 125.222.203.184 起动所有引擎系统所有进程，查看java进程：rootpaopao-K55VD:/usr/local/zook

21、eeper# jps9774 DataNode5348 JobTracker10011 SecondaryNameNode9523 NameNode10857 HRegionServer10384 QuorumPeerMain5580 TaskTracker31097 Main13709 Jps10570 HMaster10206 MyEclipse9450 BootstrapHadoop伪分布部署java进程：主机服务器（本机）：Hadoop: NameNode, SecondaryNameNode, JobTrackerHBase: HMaster从机服务器（本机）：Hadoop: Dat

22、aNode, TaskTrackerHBase: HQuorumPeer, HRegionServer主从服务器java进程关系如图 3.2。图3.2主从服务器java进程关系Zookeeper同步HBase服务状态、监控集群防止单点失效，管理Hadoop集群中的NameNode，HBase中HBaseMaster的选举，Servers之间状态同步等5。具体一点，细一点说，单只HBase中ZooKeeper实例负责的工作就有：存储HBase的Schema，实时监控HRegionServer,存储所有Region的寻址入口，另外也保证HBase集群中只有一个Master6。3.2搜索引擎的工作流

23、程由上节Bee搜索引擎分析已了解到，Bee是基于NoSQL 数据库HBase的伪分布式搜索引擎，其数据存储、更新，删除均是操作HBase实现，其原理如图3.3。图3.3 搜索引擎的工作流程Bee搜索引擎的数据来源由Nutch爬虫系统抓取，存储到HBase，HBase是依托于Hadoop的分布式HDFS作为存储基础，HBase的结构与Hadoop的Master-Slave模式类似。伪分布的HBase集群的稳定服务需要一个监控服务，而zookeeper就是是HBase集群的协调器，一个zookeeper集群管理多个HBase集群7。Solr为调用检索API提供Http接口，前端的PHP搜索查询发起

24、请求，经由搜索client向solr请求检索数据，solr为前端与数据搭起连接桥梁。3.3搜索引擎分析的遗留问题Bee搜索引擎是基于NoSQL数据库HBase开发的，此系统在开发的过程中，是采用伪分布方式部署，HBase的优点体现在海量数据的实时响应。要真正发挥HBase的实时响应特性，需要部署成完全分布方式，在后续开发的过程中，需要多台服务器实现全分布。这个是问题也是决定着搜索引擎是否实时响应高并发请求。其次，也有很多细节问题，网页的权值判定，消除噪音，比如版权声明文字、导航条、广告等，正向索引，链接关系计算，特殊文件处理。当然还有一些如快照，排名，自动提示，关键词的更新这些功能，应当是搜索

25、引擎必需具有的。一个交互友好的搜索引擎，首先要提供准确的检索数据，也是一个用户体验流畅的平台。这只是开发的起步，离成型还有遥远的路要走，坚持学习直至Bee小蜜蜂飞出实验室，实现社会价值。第四章搜索引擎设计41 爬虫系统爬虫系统基于Nutch，图4.1为Nutch抓取流程原理。图4.1 Nutch抓取流程原理Nutch抓取流程：1.)InjectorJob = 2.)GeneratorJob = 3.)FetcherJob = 4.)ParserJob = 5.)DbUpdaterJob = SolrIndexerJobInjectorJob : 从文件中得到一批种子网页，把它们放到抓取数据库

26、中去GeneratorJob: 从抓取数据库中产生要抓取的页面放到抓取队列中去FetcherJob：对抓取队列中的网页进行抓取,在reducer中使用了生产/消费者模型ParserJob: 对抓取完成的网页进行解析，产生一些新的链接与网页内容的解析结果DbUpdaterJob: 把新产生的链接更新到抓取数据库中去SolrIndexerJob: 对解析后的内容进行索引建立在已经部署好Nutch的掉系统上（部署详见系统实施之Nutch介绍），开始执行抓取任务，抓取命令：./bin/nutch crawl urls -solr http:/localhost:8080/bee/ -depth 3 -

27、topN 5./bin/nutch solrindex http:/localhost:8080/bee/ data/crawldb -linkdb data/linkdb data/segments/*这个命令调用的是：org.apache.nutch.indexer.solr.SolrIndexer ，接收请求的是：BinaryUpdateRequestHandler ，会把 Nutch 传进来的内容转换成 Lucene 的索引。42索引器+分析器Nutch抓取下来的页面先进入solr，数据的索引加工在后台进行，对已下载的网页进行索引，并对索引进行保存到solr，把所有结果保存到HBas

28、e中，BeeSearch 类：public class BeeSearch static private String keyWord = ;static public SolrServer serverHandle = new HttpSolrServer();static public SolrDocumentList docs= new SolrDocumentList ();当前端提交关键字时，要求返回查询结果，对传入的关键字进行预搜索，等待获取前端展示数据：public ArrayList getResult (String kw) formatKeyWord(kw); preSea

29、rch();return docs;预搜索对关键字进行Key:Value匹配检索，服务器句柄serverHandle提供Http数据获取接口，前端可以通过Http请求得到json数据private static SolrDocumentList preSearch () ArrayList results = new ArrayList();String regEx = new String();regEx = content: + keyWord;SolrQuery query = new SolrQuery();query.setQuery(regEx);QueryResponse rsp

30、;try rsp = serverHandle.query(query);docs = rsp.getResults(); catch (SolrServerException e) e.printStackTrace();return docs ;Java BeeSearch类的 Unit Test结果如图4.2：图4.2 BeeSearch类的 Unit Test结果43存储器Hadoop，HBase，Zookeeper，分别简单来说就是：Hadoop - 分布式计算开源框架，它实现了MapReduce计算模型的可以运用于大型集群并行计算的分布式并行计算编程8HBase - Key/Val

31、ue的分布式数据库Zookeeper - 支撑分布式应用的协作系统Hadoop，HBase，Zookeeper，三者互相之间的联系关系如下图4.3。图4.3 Hadoop，HBase，Zookeeper关系联系图Client：使用HBase RPC机制与HMaster和HRegionServer进行通信9。Client与HMaster进行通信进行管理类操作。Client与HRegionServer进行数据读写类操作。Zookeeper：Zookeeper Quorum存储-ROOT-表地址、HMaster地址。HRegionServer把自己以Ephedral方式注册到Zookeeper中，H

32、Master随时感知各个HRegionServer的健康状况10。Zookeeper避免HMaster单点问题。HMaster：HMaster没有单点问题，HBase中可以启动多个HMaster，通过Zookeeper的Master Election机制保证总有一个Master在运行11。主要负责Table和Region的管理工作：1、管理用户对表的增删改查操作2、管理HRegionServer的负载均衡，调整Region分布3、Region Split后，负责新Region的分布。4、在HRegionServer停机后，负责失效HRegionServer上Region迁移12。HRegion

33、Server：HBase中最核心的模块，主要负责响应用户I/O请求，向HDFS文件系统中读写数据13。HStore：HBase存储的核心。由MemStore和StoreFile组成14。MemStore是Sorted Memory Buffer。HBase4Bee类：public class HBase4Bee Configuration config = new Configuration();HBase数据库连接：public void connection() throws IOException String tablename = pao;config.set(HBase.zooke

34、eper.quorum, localhost);HBaseAdmin admin = new HBaseAdmin(HBaseConfiguration.create(HBase_CONFIG);HBase数据库插入：public bool setData(String args) throws IOException Job job = new Job(config, Sample MR Application);job.setJarByClass(AccessLogSampleApplication.class);job.setInputFormatClass(TextInputForma

35、t.class);job.setMapperClass(AccessLogMapper.class);job.setReducerClass(AccessLogReducer.class);job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(Text.class);FileInputFormat.addInputPath(job, new Path(/usr/data/hbase/input);FileOutputFormat.setOutputPath(job, new Path(/usr/data/hbase/ou

36、t );job.waitForCompletion(true);return job.waitForCompletion(true) ? 0 : 1;HBase显示所有数据： public static void getAllData (String tablename) throws Exception HTable table = new HTable(config, tablename); Scan s = new Scan(); ResultScanner ss = table.getScanner(s); for(Result r:ss) for(KeyValue kv:r.raw(

37、) System.out.print(new String(kv.getColumn(); System.out.println(new String(kv.getValue(); 44 UI前端调用PHP BeeSearch 类，前端使用BootStrap框架。搜索框KeyWord的提交，发起Http请求交由PHP BeeSearch向solr请求 json格式数据。分析器BeeSearch PHP代码：class BeeSearch / 关键字 public static $keyWord = null; / 接口地址 Public static $url = http:/localhos

38、t:8080/bee/collection1/select?wt=json&indent=true; / 获取到的数据 public static $data = null; 前端调用PHP请求数据方法，formatParams()对POST过来的KeyWord进行接收；接着getUrl()调用Http请求，等待数据返回；数据返回后为前端的展示做进行格式化，最后返回格式化后的array格式数据。 public function getData() self:formatParams(); self:getUrl(); self:formatData(); return self:$data;

39、处理前端POST过来的关键字，并保存为类缓存，如果keyword为空，则默认设置为查询所有*。 public function formatParams() self:$keyWord = $_POSTkeyword ? $_POSTkeyword : *; Http请求地址的完整拼接，后面追加query参数，即关键字query，并请求数据返回。 public function getUrl() self:$url .= &q=content%3A . urlencode(self:$keyWord); self:$data = file_get_contents(self:$url); Ht

40、tp返回java的数据为json格式，为方便前端的数据展示，需要转换成Array格式。 public function formatData() self:$data = json_decode(self:$data, true ); self:$data = self:$dataresponsedocs; 用户提交检索，信息列表响应展示效果如图4.4：图4.4响应展示效果图前端结果列表展示需要短内容预览，截取前300字。 public function subContent($content = ) return substr($content, 0, 300);第五章搜索引擎实施51 U

41、buntu及应用工具配置Ubuntu “oo-BOON-too”“乌邦图”，它既是一个服务器也是个人操作系统，在部署伪分布式服务和维护上非常方便，用户数量大，社区活跃。既是在开发上具有快捷高效的特点，更是在Tomat，Nginx，Hadoop，以及网络配置上加快并简化企业大量部署的优势。本系统基于ubuntu12.10操作系统上搭建Nginx+PHP运行环境，java环境， Tomcat环境，Hadoop+HBase+zookeeper环境，使用到的开发工具：svn，ivy，ant，vi，NetBean，myeclipse，ssh。1、Nginx+PHP配置：http:/sysoev.ru/n

42、ginx/nginx-0.5.34.tar.gztar zxvf nginx-0.5.34.tar.gzcd nginx-0.5.34 ./configure -prefix=/usr/local/nginxmake & make install /usr/local/nginx/conf 配置目录/usr/local/nginx/html 默认的网站根目录/usr/local/nginx/logs 日志和pid文件目录/usr/local/nginx/sbin 执行文件目录tar zxvf php-5.2.9.tar.gzgzip -cd php-5.2.9-fpm-0.5.10.diff.

43、gz | patch -d php-5.2.9 -p1cd php-5.2.9/./configure -prefix=/usr/local/webserver/php -with-config-file-path=/usr/local/webserver/php/etc -with-mysql=/usr/local/webserver/mysql -with-mysqli=/usr/local/webserver/mysql/bin/mysql_config -with-iconv-dir=/usr/local -with-freetype-dir -with-jpeg-dir -with-

44、png-dir -with-zlib -with-libxml-dir=/usr -enable-xml make ZEND_EXTRA_LIBS=-liconvmake installcp php.ini-dist /usr/local/webserver/php/etc/php.ini测试Nginx+PHP是否配置成功：在浏览器中输入地址localhost是否出现it works字样。2、Java 1.7环境配置：wget http:/ i jdk-7u17-linux-i586.rpm配置/etc/profile末尾追加：JAVA_HOME=/usr/java/jdk1.7.0_17TOMCAT_HOME=/usr/local/tomcatANT_HOME=/usr/local/antPATH=$JAVA_HOME/bin:$PATHCLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarexport JAVA_HOMEexport PATHexport CLASSPATH使配置文件生效. profile测试安装成功与否：java -versionjava version

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

6 元

下载	加入VIP免费专享

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于 NoSQL 技术搜索引擎设计实现毕业论文

三一文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：基于NoSQL技术的搜索引擎设计与实现毕业论文.doc
链接地址：https://www.31doc.com/p-3921054.html