目标和动机FirteX是一个功能强大、高性能、灵活的全文索引和检索平台FirteX的主要目标是研究文本索引的快速构建(Index Construction),动态文档集的索引维护(Index Maintenance),短语查询(Phrase Query),Top-k查询的快速处理(Top-k Query Process)以及各种检索模型(IR Model)等高性能和灵活的架构也使FirteX可以应用在产品搜索,桌面搜索,站内搜索,新闻搜索,Blog搜索,学术搜索以及大规模搜索引擎等领域中强大功能FirteX支持纯文本,网页,PDF,Microsoft Office等文件格式,支持中文(GB2312和GBK)和英文,灵活的架构也可以方便地扩展支持其他语言和编码;检索语法丰富,支持多字段检索,日期范围检索,检索结果自定义排序等;系统也可以通过COM插件无限扩展更多信息的请参见第1,2节实验平台FirteX支持各种检索效果和检索效率的实验在效果方面,可以实现各种检索模型、查询反馈以及面向信息检索的中文分词等实验;在效率方面,可以研究文本索引的快速构建算法,动态文档集的索引建立和更新策略,查询快速处理算法以及查询Cache方案等。
高性能FirteX设计成可以处理大规模数据,具有较高的性能,在单台Pentium 4 2.8G 2GRAM的机器上超过200Mb每分钟的纯文本索引速度,建立索引后在近100G的网页上搜索,能在数毫秒内返回结果更多信息请参见第3节开放源码FirteX采用C++开发,以GPL(General Public License)开放源码授权协议的形式发布,这意味着您可以在遵循GPL协议的基础上免费使用FirteX,也可以参与到FirteX的开发中来如果需要在商业软件中使用请联系我们以获得另一份商业使用授权协议您可以访问在SourceF上的FirteX's Project Page 参与开发或下载使用1. FirteX的特性l 全文索引: ü 中文(GB2312,GBK)、英文快速索引; ü 增量索引; ü 索引文档删除;ü 多字段索引;ü 支持纯文本,HTML,PDF文档格式;ü 支持MP3,AVI等音视频文件;ü 支持文档列表、文档目录,TREC等形式的文档库,也支持FirteX自定义文档库;ü 前向最大匹配中文分词;ü ICTCLAS分词组件;ü 日期字段索引;ü 同一文档各字段可以使用不同的内容分析器(Analyzer);ü 三种方式前向索引;ü 停用词;ü 支持索引内存使用量控制;ü 支持On-line 索引;ü Stemming(非亚洲语言);ü 多编码支持(GBK,BIG5,Unicode,UTF-8等);l 全文检索: ü 支持布尔查询(AND 、OR、NOT任意组合); ü 支持短语检索;ü 支持向量空间模型计算文档相关性;ü 支持BM25计算文档相关性;ü 支持语言模型计算文档相关性;ü 支持概率模型计算文档相关性;ü 支持对特定查询、字段和文档设置boost值; ü 跨字段检索;ü 日期范围检索;ü 检索结果按任意指定字段排序(例如按时间排序);ü 检索结果按任意要求过滤(例如按时间范围过滤);ü 支持完全内存检索;ü 支持检索日志;ü 支持检索Cache;ü 支持索引时检索; ü 支持检索内存使用量控制检索界面截图l 其他: ü 程序log功能,可以将log信息输出到控制台,文件中,或任何其他的设备,支持编译时log,分级log(fatal,error,debug,warning,info等级别); ü XML系统配置文件,通过XML配置文件即可配置整个系统;ü 支持Schema自定义文档集格式ü 支持跨平台COM组件插件;ü HTML文档格式解析COM插件;;ü PDF文档格式解析COM插件;ü MP3,AVI等音视频文件格式解析(元数据提取)COM插件;ü Unicode版本;ü Fxist-FirteX Index/Search Toolbox。
Windows用户界面的索引维护工具ü 线程安全;2. FirteX与其他开源平台功能对比表1 FirteX与Lucene,Lemur对比 Lucene 2.00 Lemur 4.32 FirteX 1.02 InvFPIndexIndriKeyfile索引增量索引是+是是+文档删除是否是多字段支持是否是是是索引算法实验否否是On-line索引实验否否是前向索引是+是-是+多种文档集支持否是是+处理Tb级数据否是是索引速度1x3x9x多文档格式支持是是是多文档内容分析支持是是是中文支持是是是+检索检索语言丰富+丰富丰富+丰富丰富检索模型实验是是+是+完全内存检索是否是索引的同时检索是否是其他COM插件支持否否是XML配置系统否是是+程序运行记录否否是注:黑色:已完成 灰色:此开源版本中尚未提供此功能3. FirteX的性能测试环境: Windows 2000 Advance Server,P4 2.8G(2CPU),2G RAM,共5个纯文本数据集,从北大天网CWT100G中文网页语料中提取,文件大小5k~30k表2索引性能 corpus1corpus2corpus4corpus8corpus11索引内存(M)1024索引合并因子10停用词(中/英文)(个)961CPU平均占用率49%原始数据大小(G)1.02.04.08.011.5物理文件数(个)23596文档总数(个)60183120367240792482319699247索引大小(G)0.490.991.973.995.82总时间(s)247.11573.151277.342603.333150.74平均时间(M/min)248.4214.2193.2189.0224.4表3 检索性能 corpus1corpus2corpus4corpus8corpus11检索使用内存峰值(M)16.6116.0714.8517.017.4索引大小(G)0.490.981.973.975.80测试查询总数109641查询词平均长度(字)2.5命中结果数(个)71,345,331140,474,915280,155,094570,921,066838,464,138总时间(s)75.4280.23109.06171.28264.45平均时间(ms/q)0.690.730.991.562.41注:更详细的信息和程序代码下载请登陆:http://www.firtex.org 或 。