文档详情

总结及下一阶段工作计划

dream****gning
实名认证
店铺
PPTX
421.27KB
约41页
文档ID:240548372
总结及下一阶段工作计划_第1页
1/41
总结及下一阶段工作计划_第2页
2/41
总结及下一阶段工作计划_第3页
3/41

总结及下一阶段工作计划刘学铮03.09.03大纲v信息网格研究综述v阶段论文和科研成果v基于属性的搜索引擎v信息网格设计数据网格、信息网格和知识网格1,3数据网格与信息网格v数据网格数据网格解决的问题:v解决海量数据的存储和共享问题v主要为计算任务以及计算网格服务,是一种底层的海量数据仓储体系数据网格不去解决的问题:v多类的和复杂的信息格式v信息表示和元数据v智能化信息获取(Information retrieval)v信息网格信息网格解决的问题v信息的智能化获取v信息检索v信息的表示v多类的元数据和结构化v给用户和应用程序提供特定内容的信息服务信息网格不去解决的问题v海量数据存储,数据管理v计算问题及强数据量(data-density)的计算和数据访问方式信息网格和知识网格v信息网格信息网格解决的问题v信息的智能化获取v信息检索v信息的表示v多类的元数据和结构化信息网格不去解决的问题v数据挖掘v问题求解v知识网格知识网格解决的问题v数据挖掘、知识挖掘v规则的发现v数据、信息的可视化vOntology 转换知识网格不去解决的问题v无结构信息的半结构化v元数据格式的匹配和转换v信息智能化检索资源网格、信息网格与服务网格2信息网格的其他讨论v信息网格作为计算网格和知识网格的中间层次,允许对于异构信息的统一访问,提供分布式资源上的公用信息服务。

统一访问依赖于metadata对于信息的描述(并集成异构资源)4,5vThe computation/data grid has supercomputers,large servers,massive data storage facilities and specialised devices and facilities(e.g.for VR(Virtual Reality).The main functions include compute load sharing/algorithm partitioning,resolution of data source addresses,security,replication and message rerouting.The information grid resolves homogeneous access to heterogeneous information sources.The knowledge grid utilises knowledge discovery in database technology(especially data mining)to generate knowledge(from information and data in the lower 2 layers of the GRIDs).6信息网格的其他讨论vIPG(information power grid),NASA.:针对与对异构分布式信息资源的无缝访问7vGIG(global information grid),USA Defance.强调以网络为中心的通信,信息广播和作战系统(net-centric information environment)vInfoGrid8:一个实现信息访问应用的框架,其上提供用户界面及交互模型。

它集中于获取应用程序对象,以其对于信息,数据和服务的统一访问(retrieval-centered interaction model for information access applications)大纲v信息网格研究综述v阶段论文和科研成果v基于属性的搜索引擎v信息网格设计阶段论文和科研成果v对等网络及信息网格的基础设施(infrastructure)研究结构化对等网络上静态和自适应的数据备份策略基于节点异构信息的路由及负载平衡算法v信息搜索和基于语义的信息表示研究应用于大规模分布系统的潜在语义分析和信息索引策略查找环(Lookup-Rings):动态网络环境上的高效信息检索基于元数据表示的信息网格阶段论文和科研成果v大规模分布系统上消息传递及同步机制O(1)复杂度对等网络路由算法高可靠的大规模分布系统广播机制结构化对等网络上静态和自适应的数据备份策略v针对传统的“连续k-近邻”数据冗余备份算法之不足,提出改进的“分区近邻”备份算法,适应高度动态环境下的数据备份要求,很大程度上避免了无用的数据迁移,节省了系统维护开销v提出一个系统维护开销模型,并给出基于模型的优化策略v提出variation-tolerant recovery和adaptive probing相结合的系统维护策略,实现了静态的和自适应的数据冗余备份基于节点异构信息的路由及负载平衡算法v传统对等网络采用哈希算法实现总体上的负载平衡。

这种简单处理方式没有能有效的利用节点能力(强节点),并且仍然有一定程度上的负载不均衡v本算法利用节点容量表储存当前节点能力和使用状况,并基于此进行负载分配,实现了实施的细粒度平衡,并有效的利用了节点能力v算法使用一个轻度的消息扩散策略保证了容量表的实施更新应用于大规模分布系统的潜在语义分析和信息索引策略v将传统信息获取领域(IR)中的潜在语义分析方法(Latent Semantic Analysis)应用于大规模分布式对等网络上,实现对于信息源之间潜在语义关联的提取和利用通过将信息和用户使用特性映射到降维欧式空间中的点来实现对于语义相关性的表示v建立了对于潜在语义和用户使用特性的后验概率模型,使用MAP(maximizing a posteriori)进行优化求解采用基于E-M优化的迭代算法实现了对于潜在语义表示空间的降维和求解,避免了分布式环境下SVD分解的复杂计算量v通过提取的潜在语义表示来定义信息索引并指导分布式搜索,极大的提高了信息搜索效率(提高了23个数量级)查找环(Lookup-Rings):动态网络环境上的高效信息检索v解决动态网络环境下无中心大规模分布式系统的高效信息检索问题。

v建立了信息查找表(索引)的优化性能和网络动态变化造成信息查找表维护开销之间的平衡(trade-off)模型,求解出最优的信息查找表尺度v基于最有查找表尺度建立高效的信息检索和维护算法,证明并实现了无偏检索(unbiased searching)算法中的最优效率基于元数据表示的信息网格v使用元数据表示(metadata)实现信息网格底层架构v通过元数据的等价转换完成分布信息检索和信息集成v利用用户反馈数据实现信息检索优化O(1)复杂度对等网络路由算法v改善了传统结构化对等网络设计的节点链路关系,很大程度上降低了节点的联接数v设计了O(1)复杂度的路由算法对照HotOS IX中关于O(1)复杂度讨论的先驱性论文,本设计避免了超级节点(supernode),实现了完全对等的拓扑结构这样同时解决了前文中超级节点带宽开销过大的问题高可靠的大规模分布系统广播机制v实现了应用层(application level)的广播机制,建立了一个高可靠的分布式消息通知和广播机制v对比gossip算法,减少了消息冗余,提高了算法效率,其算法效率接近最优生成树的树型广播v对比树型广播,本算法保证了很高的可靠性以及负载均衡,其可靠性接近gossip算法大纲v信息网格研究综述v阶段论文和科研成果v基于属性的搜索引擎设计v信息网格设计基于属性的搜索引擎设计v概述及与传统文本搜索引擎的对比v基于属性的搜索引擎设计v信息网格设计概述及与传统文本搜索引擎的对比v应用背景:互联网上巨大信息的获取和检索v传统文本搜索引擎的实现方法Html页面文本的获取(Crawling)页面解析和倒排索引建立(Inverted Indexing)页面联接关系分析和评定(Page Ranking)基于倒排索引的联合查询(Searching and merging)传统文本搜索引擎的优势和不足v优势使用简便,面向最终用户只关心文本,具有通用性。

同时鉴于目前IR技术水平尚待发展,纯文本搜索不啻为最直接的搜索引擎策略v不足完全不考虑文本结构信息,限制了高级使用其通用性也是不足之处,无法对于专业应用提供有针对性的服务,不能实现在语义上的定域查询,查询精度差不包含属性信息,不符合信息网格的需求,无法对应用程序实现必需的支持基于属性的半结构化信息搜索引擎v设计思想将信息(html页面,ftp文件,pdf文件)看作是属性的集合,而非传统平面纯文本的集合,亦即:Item=i,i=1,n查询请求可以详细指定所查信息的属性,提供key或者与key相对应的属性值,缩小查寻范围,提高查询精度属性之间实现等效转换这本质上是利用(文本中)结构信息和语义信息概要设计v系统组成部分信息资源获取(Crawling)vCrawler and Crawler Scheduler半结构化和倒排索引建立vTemplate-based Analyzer and Inverted-index Builder语义相关分析及属性表评定vSVD and Ranker基于属性的查询vProperty-based Query Engine与传统纯文本搜索引擎之比较网页Crawler页面解析器文本索引应答引擎纯文本Page Rank网页Crawler半结构化器属性索引应答引擎语义Rank及扩展查询属性查询纯文本搜索引擎基于属性的搜索引擎模版库Internet获取获取分析分析索引索引查询查询关键技术v半结构化通用半结构化器v提取html的表格信息,形成属性表v提取已知格式的文档信息,譬如DOC,PDF等基于模版的专用半结构化器v对于特定页面定制特定的模版,使用XML规则知道解析v对于特定服务定制特定的模版及特定协议(ftp等)v通过半结构化器,将页面转换成为属性表,缩小查寻范围,提高查询精度和效率关键技术v属性索引针对转换的属性表,建立属性倒排对于二维表格的处理其他页面内容的索引,与文本搜索引擎的处理相同关键技术v基于属性表和语义的Rank和扩展查询属性表特定的Rank基于SVD潜在语义分析的页面Rank技术扩展查询技术v基于属性词相关的扩展查询v基于同义词字典的扩展查询v基于页面潜在相关的扩展查询关键技术v基于属性查询的应答引擎对于设定属性值(值域)的查询优化大纲v信息网格研究综述v阶段论文和科研成果v基于属性的搜索引擎v信息网格设计信息网格设计v基于属性的搜索引擎可以看作信息网格架构上面的一个应用信息网格系统具备了对于信息的统一描述(基于属性标的元数据)可以提供用户查询的反馈具备管理和看守一定范围的Internet上信息资源的能力v信息网格底层架构应该给多个这样的应用提供基础设施(infrastructure)级的支持信息网格图示InternetInformation Grid Infrastructure信息资源信息网格Knowledge Grid应用程序终端用户上层用户从基于属性的搜索引擎到信息网格:典型信息网格的结构设计资源获取器应答引擎RankInternet资源获取资源获取资源库定域Scheduler半结构化器属性索引半结构化规则分析获取分析获取查询查询辅助模块基于元数据的请求返回结果翻译模块翻译模块格式转换应用程序终端用户其他网格信息网格基础架构v多个信息网格之间交互数据的统一接口v用户查询分派v针对特定用户的信息集成信息网格基础架构v多个信息网格之间交互数据的统一接口抽象信息网格服务v输入基于元数据表示的查询请求v输出特定格式的查询结果采用基于XML统一表示的数据格式可外挂的翻译模块信息网格基础架构v用户查询派发用户提交查询:v特定元数据结构v特定信息网格定域v特定服务描述检索可以服务的信息网格:基于用户元数据模式v采用无中心对等网络中的检索技术v采用用户配置文件v采用信息网格特定的注册检索服务器来完成这些特定服务企也可以看作一定意义上的“信息网格”信息网格基础构架v针对特定用户的信息集成最终的信息集成应该是应用程序或者用户端来完成的,因此集成有理由采用无偏向性的简单结果融合优化的信息集成技术是“元搜索”领域中的基本课题,有一些成型的结果通过用户反馈(relevance feedback)积累知识,实现长程的信息集成优化v这一部分主要是特定信息网格应用的范畴前述研究结果和信息网格的结合v针对大规模分布系统的搜索技术v针对高度动态系统的高可用技术v针对潜在语义信息分析的技术v统一的信息表示参考文献1 Nigel Baker et al.Querying Large Physics Data Sets Over an Information Grid.In Chep 012 Alexander Reinefeld et al.Concepts and Technologies for a Worldwide Grid Infrastructure.In Euro-Par 20023 F.P.Terpstra,et al.Information discovery and combination from divergent data sources for Travel Information Systems.In 7th European Conference on Principles and Practice of Knowledge Discovery in Databases(ECML/PKKD-2003)4 Omer F.Rana et al.Issues in Building Agent-Based Computational Grids.Third Workshop of the UK Special Interest Group on Multi-Agent Systems(UKMAS2000)Oxford,UK.12 2000 参考文献v5 Keith.G.et al.Knowledge,information and Data.A briefing to the Office of Science and Technology,UK,2000v6 Keith.G.et al.CRIS,Grey Literature and the Knowledge SocietyIn CRIS2000v7 David.D et al.XDB-IPG:An Extensible Database Architecture for an Information Grid of Heterogeneous and Distributed Information Resourcesv8 R.Rao et al.The Information Grid:A Framework for Information Retrieval and Retrieval-Centered Applications.In Proceedings of the fifth annual ACM symposium on User interface software and technology(UIST 92),pages 23-32,Monterey,CA,1992.谢谢大家!并请指正!。

下载提示
相关文档
正为您匹配相似的精品文档
最新文档