文档详情

《信息检索系统》方案

仙***
实名认证
店铺
DOC
148KB
约9页
文档ID:119407370
《信息检索系统》方案_第1页
1/9

精心整理HX-2055信息检索系统方案书目一 工程意义 2二 系统设计 32.1 技术原理 32.2 系统构架 5三 系统功能 63.1 信息采集 63.2 中文自然语言处理 63.3 全文检索功能 73.4格式文件检索 83.5性能指标 8一 工程意义随着互联网的快速开展,每天有数千万条信息生成,包括文字信息、图片信息、视频信息、语音信息等,通过百度、谷歌等大型商业搜寻引擎可以找到自己想要的信息,但是也存在许多弊端百度、谷歌等大型商业搜寻引擎的搜寻原理是基于网络爬虫〔Spider〕在世界各地百万台效劳器上爬取网页数据,然后存储到数据库之后呈现给查询用户,随着网站数量以及网络上信息更新的快速化,这些网络爬虫不能保证把全部的信息都抓到,尤其是特别行业的行业信息,即便是抓到了也不必须能够在众多数据中呈现出来所以,对于一个部门来讲,有必要存在一款互联网信息检索系统来检索某一个行业的信息,每天自动在各大行业网站、政府网站等数据库中检索最新信息,通过自建的网络爬虫进展目标数据的抓取、存贮、归类、呈现通过自己的信息检索系统,可以让自己部门每天轻松地获得世界各地、各个部门都发生了什么,有哪些新的政策,便利管理层在最新的信息数据下快速做出正确的确定。

据统计,内部网上的信息每年以200%的速度增长,其中发布到互联网上的信息只占到信息量的1%-2%,而98%以上的信息是发布在内部网上的内部网上的信息既有网页形式的,也包含其他Word、PDF、XML等多种格式的数据因此,面对内部网中海量异构的信息资源,如何协助用户快速找到他们所须要的信息是一个主要的技术挑战搜寻引擎能协助用户便利、快捷、平安地获得内部网上的信息,在满意高效的同时,更重要的是保证了较高的查全率和查准率,能供应智能化的概念扩展搜寻,极大的提高工作效率内部网搜寻引擎将组织中分散管理的信息整合在一起,在组织层面上实现新的增值与共享,从而有效实现组织内容利用的最优目标搜寻引擎的目标是实现内部网全文检索系统可对实施了内部网站资源进展爬行,无论内部网上的数据源在何地、以何种形式存在,都能够对其快速地访问,通过精确的分词建立索引,从而实现高质量的搜寻查询搜寻引擎的主要目标包括:〔1〕较高的查准率搜寻系统支持按词索引、按字索引,同时实现中文自动分词〔2〕较高的查全率搜寻系统可搜寻各类异构的信息资源,包括传统的网页信息、Word、PDF、XML等不同格式的文档以及各类主流数据库的表中记录〔3〕智能化的检索结果排序。

平安搜寻系统应采纳相关度分析技术,将用户须要的信息排在结果列表的前面,屏蔽无用和错误的信息二 系统设计2.1 技术原理HX-2055互联网信息检索系统〔以下简称HX-2055〕是针对特别行业、政府部门、决策部门设计的一款高效率互联网信息检索系统,采纳国际一流程序算法设计,系统构架与谷歌和百度的搜寻引擎拥有共同的技术特点,能够保证系统对实时信息的快速采集、归类、呈现在当今信息爆炸的时代,每个单位或个人都在为信息的快速增长做出了各种奉献信息的种类也在不断的扩展,越来越多的非构造化信息不断出现,包括企业的各种报表、帐单、电子文档、网站的各种元素、图片、、扫描影像,以及大量的多媒体的音频、视频信息等等全部的存储数据中,有85%采纳的是非构造化格式的,非构造化信息每三个月增长一倍由于信息格式的差异很大,所以根本无法整合为统一的接口供政府工作人员或广阔群众便利运用全文检索是计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时依据建立的索引查找,类似于通过字典的检索字表查字的过程全文检索系统是遵照全文检索理论建立起来的用于供应全文检索效劳的软件系统。

全文检索系统的核心那么具有建立索引、处理查询返回结果集、增加索引、优化索引构造等功能HX-2055全文检索系统的主要目标是实现文本索引的快速构建(Index Construction),动态文档集的索引维护(Index Maintenance),短语查询(Phrase Query),Top-K查询的快速处理(Top-k Query Process)以及各种检索模型〔IR Model〕等高性能和敏捷的架构也使HX-2055全文检索系统可以应用在内外网检索、专业系统资料检索、行业专业数据库检索图1. HX-2055系统原理 HX-2055可以实现对内部网络和外部网络的信息抓取、归类、呈现对于外部网络,HX-2055采纳网络爬虫定时对各大行业网站、政府部门网站进展数据爬取,通过对海量数据的挖掘可以建立浩大的外网数据库,通过一流的数据整理算法,简洁、快捷、便利的展示给运用者 HX-2055也可以对内部网络进展数据的挖掘、分析、整理、呈现HX-2055通过基于局域网的网络爬虫算法,可以对政府、行业内部网站、单位内部效劳器资源等数据源进展数据的抓取,包括内部网络的新政策、新闻通知、日常文档、文件资料等。

HX-2055搜寻引擎的系统体系架构如下图:图2 HX-2055内部网络搜寻系构造图索引模块索引库···爬行器搜寻结果排序数据源注册、资源描述、策略描述用户提交搜寻、平安过滤数据库爬行限制内部数据库Web页面数据库表数据库数据源2电子文档文件系统数据源3电子邮件邮件系统数据源n搜寻恳求返回结果内部网用户内部网站数据源1引擎实现了以下主要功能:〔1〕爬行器:爬行器依据资源描述信息对内部网中各种异构的资源信息进展爬行,获得全部能够获得的资源信息,资源信息的格式应包括:Web网页、Word、PDF、Excel、PPT等格式的办公文档、各类主流数据库的表中记录〔2〕索引器:通过中文分词技术,对爬行到的资源信息进展解析,建立索引文件〔3〕搜寻:用户提交其搜寻条件,搜寻条件经过特定处理后,在索引文件中检索出全部满意搜寻条件的资源2.2 系统构架全文检索系统统一搜寻平台的总体架构采纳三层〔数据层、应用层和表现层〕可扩展的设计,使整个系统不受硬件平台的限制,具有良好的扩展性和可管理性三 系统功能3.1 信息采集1、采纳多线程并发搜寻技术2、供应多种采集范围限制方式,包括在指定网站内,在指定域内,以及在指定IP地址范围等方式。

3、可以设置多种网站采集限制方式,包括采集的网页大小、超时限制等4、供应高效更新功能,对于已经采集过的网站,更新时只采集发生改变和新参加的资源5、可以敏捷设定采集结果的存储方式,具有开放性3.2 中文自然语言处理1、内嵌自动分词系统,有效提高了分词精确性2、在应用层上,供应自动分类和摘要功能;3、支持按词索引、按字索引、按关键词索引,适应不同应用环境的需求;4、内嵌相像性检索技术,供应文章的相像性检索和聚类功能3.3 全文检索功能1、支持Web Browser/Web Server检索方式; 2、智能中文分词:采纳先进的自动分词系统,依据大量的语料统计和分析,建立了上万条的歧义解除规那么,因此检索“华人”不会把仅仅包含“中华人民共和国”的文章检索出来3、 支持构造化数据和非构造化数据的混合检索;4、 允许运用文中的随意字、词、句和片段进展检索;5、 全方位检索手段:与、或、非、异或;6、 对数值、日期等特征字段可以进展比拟和范围检索;7、 支持随意相同的通配符检索(模糊检索);8、 支持多网站的全文检索9、 具备中文自动分词系统,能有效提高分词精确性10、采纳智能中文分词技术,建立高效索引库11、支持实时索引〔1分钟内〕12、支持增量式实时索引13、多线程设计,支持大量并发用户访问,每秒并发到达50个以上14、支持在结果中查询15、支持GBK、BIG5、UTF8、GB18030等编码,采纳UTF8编码方式实现多语言和多文种内容的检索及呈现。

16、支持中文、英文和中英文混合检索17、多样化排序,包括按抓取时间排序、按相关性排序18、多种条件组合检索:包括标题、正文以及日期范围检索19、支持关键词逻辑表达式组合检索20、检索结果支持基于查询关键词的动态摘要21、支持检索关键词的高亮显示22、将所检索到的信息可按设定的模版显示23、检索结果模板自定义如:如文章标题、文章栏目、简介、作者、点击率、时间以及文章类别等24、 支持依据自动分类的类目进展检索25、 采纳KNN、SVM为根底的相关性算法3.4格式文件检索支持MS OFFICE, PDF, HTML,可以对.pdf;.rtf;.doc;.xls;.ppt;.pps;.xml等文件干脆进展检索3.5性能指标自动分类到达85%以上精确率数据索引更新时间平均小于0.02s/记录〔每条记录4Kb〕本地检索平均响应速度小于1秒,亚秒级反响速度支持不低于50个并发检索恳求G级数据全文检索响应在毫秒之内全文检索数据库的“零”空间膨胀率〔-10%~20%〕T级文本数据库,一个随意词的检索都在1秒钟之内。

下载提示
相关文档
正为您匹配相似的精品文档