中国电信号百分析系统建设方案.doc
《中国电信号百分析系统建设方案.doc》由会员分享,可在线阅读,更多相关《中国电信号百分析系统建设方案.doc(11页珍藏版)》请在三一文库上搜索。
1、中国电信号百分析系统建设方案简介中国电信号百分析系统(以下简称分析系统)建立在“上海埃帕信息科技有限公司(以下简称APE)”自主研发并拥有自主知识产权的“埃帕Cooling搜索引擎软件(以下简称Cooling搜索)”之上。Cooling搜索是“上海埃帕信息科技有限公司”在自然语言处理、数据挖掘、人工智能以及搜索等行业多年研究与积累的成果。Cooling搜索是一个具备语义分析以及数据挖掘能力的互联网搜索引擎。从传统的搜索引擎的角度来看,它能够提供:l 快速高效的非结构化数据分析与抓取,保证了向整个互联网探索的能力。l 支持多种语言,以及各种文本格式。l 高效的索引机制,保证对海量数据的快速检索能
2、力。l 高性能,高可用以及可扩展的分布式运行与存贮技术,保证了互联网级的海量信息的存贮能力。在传统的搜索引擎之的功能之上,它还能够提供:l 自然语义理解能力,能够区分出自然语言的真实含义,更精准地定位搜索结果。l 数据挖掘能力,能够对互联网的数据进行进一步的分析,建立出更具备商业价值的数据模型。分析系统借助于Cooling搜索,从互联网抓取细分的行业信息、并进行语义分析、最后建立并存贮原始数据模型。分析系统通过行业专家,对该原始数据模型进行分析,得出更有价值的数据模型,并以多种方式进行展示。企业需求针对人群中小型企业用户需求内容 根据企业定制产业类型(如:汽车类信息、工业类信息等)利用现有的信
3、息源,通过某个系统,帮助分析某类信息的深层含义,包括发展趋势,民生态度,关注热点等等,最终以图表、报表等各类企业需要的呈现形式展示给用户。需求分析现状l 人群特征中国人口密度高,国内聚集了一批经常使用网络的人群。截至09年底,我国网民总数已达4.04亿,社交网站用户群达1.91亿。而且有越来越多的人开始接触网络。l 网站建设截至2009年底,国内网站数量达到323万个,年增长率12.3%。互联网成为人们社会生活的重要工具。目前,互联网已成为人们生活、工作、学习不可或缺的工具,正对社会生活的方方面面产生深刻影响。l 论坛建设全国网络舆情发展迅速,各地均有人气较为聚集的论坛,如天涯论坛、新浪论坛等
4、,地方性论坛和交流性论坛深受广大市民喜爱。用户需求 一般企业需要得到信息分析报告的目的:企业信息管理优势要求信息分析1.信息覆盖范围广、容量大2.与广大用户的实际情况息息相关3.信息按重要性评级处理4.能为企业的利益提供数据支持传播特点1.及时报告突发状况2.及时发现重点、热点处理决策帮助企业准确快速做出企业决策一般企业所需管理功能如下:企业管理功能描述热点信息简报掌握网络中企业所关心的信息热点动向网情报告了解企业关心的网民评论突发信息快报企业定制的相关信息的突发事件的极速报告(建议短信方式提供)重点信息跟踪报告按需定制特定主题网情跟踪最终目标Cooling Search通过对企业关心的网上民
5、众的评论,最终提供给企业所需要的趋势统计分析报告,能够帮助企业做出企业决策,增加企业收益。群体对比为了更好的分析需要信息分析的企业类型,用房产类企业用户和消费类企业用户对比,结果如下:用户群体分析消费者角度由于现在网络的信息以及十分全面,而信息分析是建立在这些信息源之上的更深层次的一个倾向性趋势的分析,对于消费者而言,真正感受到这一系统的乐趣的产业建议满足以下几个条件:l 消费品的价格价格必须略高,只有价格高消费者在消费时才有仔细选择的意义,如果价格偏低消费者无须查看这么多趋势分析资料,趋势分析也就无意义。l 消费品的意义对于消费者来说此类物品必须是有着重要的意义或者影响力。l 消费品的竞争力
6、此消费品必须是有着很强的竞争力,对于消费者有着很多选择。l 难以决择性现代的互联网提供的信息仍然让用户难以做出消费抉择。l 消费品的评论此消费品必须凝聚一定的消费者评论,让分析数据更有说服力。企业用户角度号百信息服务公司将目标客户定于中小型企业。中介商和一些中小型的供应商便成了信息分析的最主要用户,对于这部分用户而言首先必须从名声出发,了解民众需求,了解行业发展趋势,做出正确的企业决策。而对于企业用户而言,建议获取以下分析信息:l 消费者的消费倾向倾向包括:消费者的消费喜好,消费习惯及相关的消费数据等。l 消费者的消费评论对与本企业以及同行业其他企业消费者的消费评论趋势。l 突发事件行业内发生
7、的突发重大事件报告。l 行业趋势本行业的发展趋势。客户群举例房产类房产类是由于其高昂的价格和多变的价格浮动,让消费者和企业对其趋势十分关心。首先,买房是一件三思而后行的消费行为,消费者再没有详细的数据支持的前提下很难做出消费决策,消费者愿意花费大量的时间在前期准备中,以确保自己能做出准确地判断。其次,房产在全国各地无论是开发商还是中介商,竞争都越加激烈,盈利丰厚,企业管理者对于行业趋势变化十分关心。而信息分析系统恰好帮助双方解决决策问题。教育类这里的教育类可以分成两类,一种是正规的教育,比如:小学,中学,大学的学校选择,另一种是业余的教育,比如:夜大,成人大学等。但是无论是哪一种教育对于每个学
8、生来说择校的意义都是十分重大,学科的热门程度,师资的优劣都是每个择校的人十分关心的热点,而对于学校来说,开设怎样的课程才能吸引更多学生,就业的趋势分析等则是每个学校每年都在考虑的问题。由于学校的论坛众多,分析此类信息得出的结论会十分具有说服力。婚庆类结婚仪式永远是每个人一生最重要的选择之一,所以婚礼的各项事宜成为每一对准新人最愿意花时间研究的数据。现在网络上婚庆的项目很多如:酒类,酒店类,糖类,婚车类等等,但是如何将这些数据整合在一切,给出用户一个决策方案成为一个急切需要解决的问题。而信息分析就可以做到这些,系统通过分析互联网评论等信息,给出各种方案以及当下其他新人流行趋势。对于婚庆中介和婚庆
9、物品提供商而言,竞争也是十分激励,新人想要怎样的婚礼,当下流行话题是什么,这些都是这些企业所关心的问题。系统建设建设目标 根据客户需要了解的行业或个企,挖掘互联网上关于此行业或个企的所有信息并通过及其智能分析,最终以图表的方式展现各种用户想要了解的报告资讯,帮助最终客户了解行业动态。建设方案以下是分析系统的总体系统架构,整个系统架构以Cooling搜索为核心,从互联网抓取特定的信息,经过分析后,以多种形式展现给最终用户。SpiderSpider是Cooling搜索的非结构与结构化数据的抓取与分析工具,更多时候它也被称为“网络爬虫”与“网络蜘蛛”。要建立一个高效的搜索引擎,最首要的任务是提高网络
10、资源的抓取速 度与效率,这样才能跟得上互联网信息增长的速度,Spider 在Cooling Search 中就承担着这么一个角色。 在非结构化数据方面,Spider 包含了完整的 HTTP/1.1,FTP,HTML/4,XML,RDF 的实现,能够识别与分析各类互联网文本。在结构化数据方面,Spider 能够支持对 Oracle,SQL Server,DB2,MySQL 等主流关系型数据的抓取与分析。Spider在分析系统中提供的功能有:信息抓取,信息识别,配置管理,爬虫调度,管理界面以及API。功能描述信息抓取Spider能够通过HTTP,FTP,odbc,Samba等协议从互联网、局域网、
11、关系型数据库,以及文件系统中抓取信息。这些信息在抓取后将被保存到Egg中。信息识别Spider能够分析多种格式的文本,包括HMTL、XML、RDF、文本文件以及自定义格式。Spider为每一种格式定义了解释器(Parser),用于识别特定格式的文本,并将之转换成统一的格式,进行存贮、检索以及后续数据分析。对于自定义格式,用户也可以依据口,实现自己的解释器(Parser),实现自定义格式的识别。配置管理Spider通过配置文件实现对信息抓取的控制,重要的配置的内容包括:l 数据源,包括网站地址、BBS地址、文件目录、数据库等l 爬虫数量,对指定数据源开户多少爬虫l 抓取频度,对指定数据源多久进行
12、抓取l 抓取与过滤规则,允许抓取或过滤符合特定规则的数据l 抓取深度,对指定数据源抓取到几级深度为止l 抓取内容规则,允许通过规则只抓取重要数据l 分析器设定,使用何种分析器(Parser)分析符合规则的数据l 存贮方式设定,设定以何种形式存入Egg。爬虫调度Spider根据配置文件对抓取信息源的爬虫进行调度管理界面配置管理功能是通过多个配置文件来设定爬虫的行动,但需要对Cooling搜索有着较深的理解。Spider为了简化一定工作,提供了可视化界面,提供更友好的管理。APISpider提供一套API接口、文档以及用户手册以方便二次开发。开发者可以通过spider定制出符合特定需求的爬虫。Eg
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中国 电信号 百分 系统 建设 方案
链接地址:https://www.31doc.com/p-3260379.html