本章学习目标:本章学习目标:(1)通过知识挖掘系统的体系结构的学习掌握知识发现的定义和知识发现系通过知识挖掘系统的体系结构的学习掌握知识发现的定义和知识发现系统的结构统的结构2)通过现代挖掘技术及应用的学习掌握规则型、神经网络型、遗传算法型、通过现代挖掘技术及应用的学习掌握规则型、神经网络型、遗传算法型、粗糙集型和决策树型现代挖掘技术粗糙集型和决策树型现代挖掘技术3)通过知识发现工具与应用的学习掌握知识挖掘工具的系统结构、运用中通过知识发现工具与应用的学习掌握知识挖掘工具的系统结构、运用中的问题和知识挖掘的价值的问题和知识挖掘的价值4)经过数据挖掘技术的发展的学习了解文本挖掘、经过数据挖掘技术的发展的学习了解文本挖掘、Web挖掘、可视化数据挖挖掘、可视化数据挖掘、空间数据挖掘和分布式数据挖掘掘、空间数据挖掘和分布式数据挖掘6.1知识挖掘系统的体系结构 6.2现代挖掘技术及应用 6.3知识发现工具与应用 6.4数据挖掘技术的发展 练 习 知识发现是用一种简洁的方式从大量数据中抽取信息的一种技术,所抽取知识发现是用一种简洁的方式从大量数据中抽取信息的一种技术,所抽取的信息是隐含的、未知的,并且具有潜在应用价值。
的信息是隐含的、未知的,并且具有潜在应用价值知识发现可看成是一种有价值信息的搜寻过程,它不必预先假设或提出知识发现可看成是一种有价值信息的搜寻过程,它不必预先假设或提出问题,仍然能够找到那些非预期的令人关注的信息,这些信息表示了不同问题,仍然能够找到那些非预期的令人关注的信息,这些信息表示了不同研究对象之间的关系和模式它还能通过全面的信息发现与分析,找到有研究对象之间的关系和模式它还能通过全面的信息发现与分析,找到有价值的商业规则价值的商业规则知识发现意味着在数据仓库或数据集市的几千兆、几万兆字节数据中寻找知识发现意味着在数据仓库或数据集市的几千兆、几万兆字节数据中寻找预先未知的商业模式与事实预先未知的商业模式与事实知识发现系统的结构由知识发现系统管理器、知识库、商业分析员、知识发现系统的结构由知识发现系统管理器、知识库、商业分析员、数据仓库的数据库接口、数据选择、知识发现引擎、知识发现评价和知识数据仓库的数据库接口、数据选择、知识发现引擎、知识发现评价和知识发现描述等部分组成(图发现描述等部分组成(图6.1)数据仓库知识库数 据库 接口数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器商业分析员图6.1 知识发现系统结构1.知识发现系统管理器 控制并管理整个知识发现过程 2.知识库和商业分析员 知识库包含了源于各方面的知识。
商业分析员要按一种有效的方式指导关注信息的发现3.数据仓库的数据库接口 知识发现系统的数据库接口可以直接与数据仓库通信4.数据选择 确定从数据仓库中需要抽取的数据及数据结构 5.知识发现引擎 将知识库中的抽取算法提供给数据选择构件抽取的数据 6.发现评价 有助于商业分析员筛选模式,选出那些关注性的信息 7.发现描述 发现、评价并辅助商业分析员在知识库中保存关注性发现结果以备将来引用,并保持知识发现与管理人员的通信频繁模式是频繁的出现在数据集中的模式频繁模式是频繁的出现在数据集中的模式如项集、子序或者子结构如项集、子序或者子结构 动机:发现数据中蕴含的内在规律动机:发现数据中蕴含的内在规律那些产品经常被一起购买?那些产品经常被一起购买?-啤酒和尿布?啤酒和尿布?买了买了PC之后接着都会买些什么?之后接着都会买些什么?哪种哪种DNA对这种新药敏感对这种新药敏感我们能够自动的分类我们能够自动的分类WEB文档吗?文档吗?应用应用购物篮分析、购物篮分析、WEB日志(点击流)分析、捆绑日志(点击流)分析、捆绑销售、销售、DNA序列分析等序列分析等 揭示数据集的内在的、重要的特性揭示数据集的内在的、重要的特性 作为很多重要数据挖掘任务的基础作为很多重要数据挖掘任务的基础关联、相关和因果分析关联、相关和因果分析序列、结构(序列、结构(e.g.子图)模式分析子图)模式分析时空、多媒体、时序和流数据中的模式分析时空、多媒体、时序和流数据中的模式分析分类:关联分类分类:关联分类聚类分析:基于频繁模式的聚类聚类分析:基于频繁模式的聚类数据仓库:冰山方体计算数据仓库:冰山方体计算 如果问题的全域是商店中所有商品的集合,则对每种商品如果问题的全域是商店中所有商品的集合,则对每种商品都可以用一个布尔量来表示该商品是否被顾客购买,则每都可以用一个布尔量来表示该商品是否被顾客购买,则每个购物篮都可以用一个布尔向量表示;而通过分析布尔向个购物篮都可以用一个布尔向量表示;而通过分析布尔向量则可以得到商品被频繁关联或被同时购买的模式,这些量则可以得到商品被频繁关联或被同时购买的模式,这些模式就可以用关联规则表示(模式就可以用关联规则表示(e.g.0001001100)关联规则的两个兴趣度度量关联规则的两个兴趣度度量 支持度支持度 置信度置信度 通常,如果关联规则同时满足最小支持度阈值和最小置信通常,如果关联规则同时满足最小支持度阈值和最小置信度阈值,则此关联规则是有趣的度阈值,则此关联规则是有趣的%60%,2sup_confidenceportsoftwareantiviruscomputer 给定:给定:项的集合:项的集合:I=i1,i2,.,in任务相关数据任务相关数据D是数据库事务的集合,每个事务是数据库事务的集合,每个事务T则是项的集合,使得则是项的集合,使得每个事务由事务标识符每个事务由事务标识符TID标识;标识;A,B为两个项集,事务为两个项集,事务T包含包含A当且仅当当且仅当 则关联规则是如下蕴涵式:则关联规则是如下蕴涵式:其中其中 并且并且 ,规则,规则 在事在事务集务集D中成立,并且具有支持度中成立,并且具有支持度s和置信度和置信度cIT TA ,csBA IBIA,BABA 项的集合项的集合 I=A,B,C,D,E,F 每个事务每个事务T由事务标识符由事务标识符TID标识,它是项的集合标识,它是项的集合 TID(2000)=A,B,C 任务相关数据任务相关数据D是数据库事务的集合是数据库事务的集合支持度支持度s是指事务集是指事务集D中包含中包含 的百分比的百分比 置信度置信度c是指是指D中包含中包含A的的事务同时也包含事务同时也包含B的百分的百分比比 假设最小支持度阈值为假设最小支持度阈值为50%,最小置信度阈值为,最小置信度阈值为50%,则有如下关联规则,则有如下关联规则 A C (50%,66.6%)C A (50%,100%)同时满足最小支持度阈值同时满足最小支持度阈值和最小置信度阈值的规则和最小置信度阈值的规则称作强规则称作强规则Customerbuys diaperCustomerbuys bothCustomerbuys beerBA)()(supBAPBAport)(/)()|()(APBAPABPBAconfidence 1.关联规则的基本概念布尔关联规则、单维规则 buys(x,“computer”)=buys(x,“finacial_management_software”)量化关联规则、多维关联 age(“30.40”)income(“42000.50000”)=buys(x,“high_resolution_TV”)多层关联规则 单层关联规则 age(x,“30.40”)=buys(x,“IBM computer”)(6.3)age(x,“30.40”)=buys(x,“computer”)(6.4)关联规则(6.2)可以用下面的SQL查询语句完成。
Select Cust.name,P.item_name from Purchases,P group by Cust.ID having(Cust.age=30.and.Cust.age=42000 and Cust.income 40否是一般良好2.决策树的应用编号编号年龄年龄学生学生信誉等级信誉等级类别标号类别标号1=30是是良好良好会购买会购买240否否一般一般会购买会购买440否否良好良好不会购买不会购买540否否一般一般会购买会购买63140是是一般一般会购买会购买740是是一般一般会购买会购买940否否良好良好不会购买不会购买11=30否否一般一般不会购买不会购买123140是是一般一般会购买会购买133140否否一般一般会购买会购买143140是是良好良好会购买会购买“年龄年龄”在各个属性中具有最大的信息增益,所以选择在各个属性中具有最大的信息增益,所以选择“年龄年龄”属性作为第一个测试属性,创建一个节点,用属性作为第一个测试属性,创建一个节点,用“年龄年龄”标记计算剩余各个属性的相应的信息增益,选择信息增益最大计算剩余各个属性的相应的信息增益,选择信息增益最大的属性作为测试属性,这时信息增益最大的是的属性作为测试属性,这时信息增益最大的是“学生学生”属属性,创建一个节点,用性,创建一个节点,用“学生学生”标记标记。
6.3.1 知识挖掘工具的系统结构知识挖掘工具的系统结构1.无耦合(无耦合(no coupling)DM系统不利用系统不利用DB或或DW系统的任何功能系统的任何功能 2.松散耦合(松散耦合(loose coupling)DM系统将使用系统将使用DB/DW的某些工具的某些工具 3.半紧密耦合(半紧密耦合(semitight coupling)DM系统连接到一个系统连接到一个DB/DW系统,一些基本数据挖掘原语系统,一些基本数据挖掘原语可以在可以在DB/DW系统中实现系统中实现4.紧密耦合(紧密耦合(tight coupling)DM系统被平滑地集成到系统被平滑地集成到DB/DW系统中系统中 6.3.2 知识挖掘工具运用中的问题知识挖掘工具运用中的问题1.数据挖掘技术应用中的共性问题数据挖掘技术应用中的共性问题(1)数据质量数据质量(2)数据可视化数据可视化(3)极大数据库极大数据库(vLDB)的问题的问题(4)性能和成本性能和成本(5)商业分折员的技能商业分折员的技能(6)处理噪声和不完全数据处理噪声和不完全数据(7)模式评估模式评估兴趣度问题兴趣度问题6.3.2 知识挖掘工具运用中的问题知识挖掘工具运用中的问题2.数据挖掘技术应用中的个性问题数据挖掘技术应用中的个性问题(1)规则归纳应用中的问题规则归纳应用中的问题主要用于显式描述数据抽取的规则主要用于显式描述数据抽取的规则、找到所有的规则,工作量是巨大的(2)神经网络应用中的问题神经网络应用中的问题受训练过度的影响受训练过度的影响、神经网络的训练速度问题(3)遗传算法应用中的问题遗传算法应用中的问题6.3.3 知识挖掘的价值知识挖掘的价值1.了解商业活动了解商业活动2.发现商业异常发现商业异常3.预测模型预测模型6.3.4 现代数据挖掘工具简介现代数据挖掘工具简介1.DBMiner的体系结构的体系结构2.DBMiner的数据挖掘类型的数据挖掘类型6.4.1 文本挖掘文本挖掘1.文本分析和语义网络文本分析和语义网络文本分析文本分析为一个大型文本集合提供内容概况为一个大型文本集合提供内容概况例如,可以发现一个客户反馈集合中文档的显著簇,这样可能会发现公司的例如,可以发现一个客户反馈集合中文档的显著簇,这样可能会发现公司的产品或服务在哪里需要改进。
产品或服务在哪里需要改进指出对象间的隐藏结构指出对象间的隐藏结构在组织一个企业内部网站时,文本分析可以找出对象间的隐藏结构,这样有在组织一个企业内部网站时,文本分析可以找出对象间的隐藏结构,这样有关联的文档就能被超链接连接起来关联的文档就能被超链接连接起来提高发现相似或相关信息搜索过程的效率和有效性提高发现相似或相关信息搜索过程的效率和有效性例如,可以从一个新闻服务机构搜索文章和发现独有的文档,这些文档含有例如,可以从一个新闻服务机构搜索文章和发现独有的文档,这些文档含有到现在为止在别的文章中没有提到过的新趋势或技术的线索到现在为止在别的文章中没有提到过的新趋势或技术的线索侦察存档中的重复文档侦察存档中的重复文档文本分析可以用于大量文本需要分析的地方虽然自动处理不能达到人类阅文本分析可以用于大量文本需要分析的地方虽然自动处理不能达到人类阅读分析的深度,但它可以被用来抽取关键点、产生总结、分类文档等读分析的深度,但它可以被用来抽取关键点、产生总结、分类文档等语义网络语义网络一个有效文本分析的第一步是创建该文本的一个语义网络一个有效文本分析的第一步是创建该文本的一个语义网络一个语义网络是一系列来自分析的文本的最重要概念(词一个语义网络是一系列来自分析的文本的最重要概念(词与词的组合)以及文本中这些概念间的语义联系。
一个语与词的组合)以及文本中这些概念间的语义联系一个语义网络为分析的文本提供了一个简明和非常准确的总结义网络为分析的文本提供了一个简明和非常准确的总结与人工神经网络一样,语义网络的每个元素与人工神经网络一样,语义网络的每个元素概念都被概念都被它的权重和一组与此网络其他元素的联系所标识它的权重和一组与此网络其他元素的联系所标识一个一个上下文结点一旦为调查研究的文本构造的一组准确的语上下文结点一旦为调查研究的文本构造的一组准确的语义网络建立起来,所有文本分析任务就可以执行义网络建立起来,所有文本分析任务就可以执行在现有的大部分算法中,一个语义网络是在一些已定义的在现有的大部分算法中,一个语义网络是在一些已定义的规则和概念的基础上建立起来的不过,也存在一些比较规则和概念的基础上建立起来的不过,也存在一些比较强大的算法,这些算法不需要任何关于主题的预先背景知强大的算法,这些算法不需要任何关于主题的预先背景知识,可以仅仅在一个调查研究文本的基础上完全自动建立识,可以仅仅在一个调查研究文本的基础上完全自动建立起一个语义网络起一个语义网络2.文本挖掘文本挖掘文本总结文本总结从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。
从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释用户不需要浏览全文就可以了解文档或文档集合的总体内容用户不需要浏览全文就可以了解文档或文档集合的总体内容基于关键字的关联分析基于关键字的关联分析首先收集经常一起出现的关键字或词汇,然后找出其关联或相互关系首先收集经常一起出现的关键字或词汇,然后找出其关联或相互关系在这类分析中,每一个文档被视为一个事务,文档中的关键字组可视在这类分析中,每一个文档被视为一个事务,文档中的关键字组可视为事务中的一组事务项这样,这种基于关键字的关联分析就变成事为事务中的一组事务项这样,这种基于关键字的关联分析就变成事务数据库中事务项的关联挖掘问题务数据库中事务项的关联挖掘问题一组经常连续出现或紧密相关的关键字可形成一个词或词组关联分一组经常连续出现或紧密相关的关键字可形成一个词或词组关联分析有助于找出复合关联,即领域相关的词或词组,如析有助于找出复合关联,即领域相关的词或词组,如中国,长江,三中国,长江,三峡峡还有助于找出非复合关联,即领域不相关的词或词组,如还有助于找出非复合关联,即领域不相关的词或词组,如人民人民币,交易,总额,证券,佣金,参股币,交易,总额,证券,佣金,参股。
基于这些词或词组关联的挖掘基于这些词或词组关联的挖掘被称为被称为“词级关联挖掘词级关联挖掘”利用这种词和词组的识别,词级挖掘可以利用这种词和词组的识别,词级挖掘可以用于找出词或关键字之间的关联用于找出词或关键字之间的关联2.文本挖掘文本挖掘文档分类分析文档分类分析在已有的数据基础上学会一个分类函数或构造出一个分类模型对文在已有的数据基础上学会一个分类函数或构造出一个分类模型对文档进行分类文档的分类分析,一般是先把一组预先分类过的文档作档进行分类文档的分类分析,一般是先把一组预先分类过的文档作为训练集,然后对训练集加以分析以便得出分类模式这种分类模式为训练集,然后对训练集加以分析以便得出分类模式这种分类模式一般要经过一定的测试过程,不断细化最后用分类模式对其他文档一般要经过一定的测试过程,不断细化最后用分类模式对其他文档加以分类加以分类常用的一种对文档分类的有效方法是基于关联的分类这种分类方法常用的一种对文档分类的有效方法是基于关联的分类这种分类方法是基于一组相关联的、经常出现的文本模式对文档加以分类其处理是基于一组相关联的、经常出现的文本模式对文档加以分类其处理过程为:首先,通过简单的信息检索技术或关联分析技术提出关键字过程为:首先,通过简单的信息检索技术或关联分析技术提出关键字或词汇。
然后,使用已有的词类,或基于专家知识,或用关键字分类或词汇然后,使用已有的词类,或基于专家知识,或用关键字分类系统,生成关键字和词的概念层次最后,使用词级关联挖掘方法发系统,生成关键字和词的概念层次最后,使用词级关联挖掘方法发现一组关联词这样,每一类文档相关有一组关联规则表示这些分现一组关联词这样,每一类文档相关有一组关联规则表示这些分类规则可以基于其出现频率和识别能力,加以排序,并用于对新的文类规则可以基于其出现频率和识别能力,加以排序,并用于对新的文档进行分类档进行分类文档聚类分析文档聚类分析文档聚类是把文档集分成不同组的自动过程没有预先定文档聚类是把文档集分成不同组的自动过程没有预先定义好主题类别,它的目标是将文档集合分成若干个组,要义好主题类别,它的目标是将文档集合分成若干个组,要求同一组内文档内容的相似度尽可能大,而不同组间的相求同一组内文档内容的相似度尽可能大,而不同组间的相似度尽可能小当文档的内容作为聚类的基础时,不同组似度尽可能小当文档的内容作为聚类的基础时,不同组是对应于集合中讨论的不同主题或论题因此,聚类是找是对应于集合中讨论的不同主题或论题因此,聚类是找出集合所含内容的一条途径。
为帮助识别出一组主题,聚出集合所含内容的一条途径为帮助识别出一组主题,聚类工具可以识别出在此组文档中频繁出现的术语或词的列类工具可以识别出在此组文档中频繁出现的术语或词的列表聚类也能根据文档的属性集实施,例如它们的长度、表聚类也能根据文档的属性集实施,例如它们的长度、日期等进行聚类日期等进行聚类文本挖掘的应用文本挖掘的应用利用文本挖掘构造的电子邮件路由,可以对电子邮件进行文本挖掘以利用文本挖掘构造的电子邮件路由,可以对电子邮件进行文本挖掘以后,确定由哪一个部门、哪一个人来处理这些电子邮件,并可以根据后,确定由哪一个部门、哪一个人来处理这些电子邮件,并可以根据电子邮件的内容进行相关统计电子邮件的内容进行相关统计文本挖掘可以帮助组织对成千上万的文档实现有效的管理,可以使组文本挖掘可以帮助组织对成千上万的文档实现有效的管理,可以使组织很快地了解到所需要查找的文档所在位置,以及其包含的主要内容织很快地了解到所需要查找的文档所在位置,以及其包含的主要内容可以利用文本挖掘建立一个客户自动问答系统,对客户所邮寄的信件、可以利用文本挖掘建立一个客户自动问答系统,对客户所邮寄的信件、电子邮件进行文本挖掘以后,根据其反映的主要问题,能够确定客户电子邮件进行文本挖掘以后,根据其反映的主要问题,能够确定客户的需求置信度后,就可以自动给客户发送合适的回信。
的需求置信度后,就可以自动给客户发送合适的回信企业并且还可以利用联机文本挖掘系统对因特网上所出现的特定词、企业并且还可以利用联机文本挖掘系统对因特网上所出现的特定词、概念、主题进行挖掘统计,对市场进行客观的统计分析概念、主题进行挖掘统计,对市场进行客观的统计分析企业甚至可以利用一些具有文本挖掘功能的自动智能网络爬虫来收集企业甚至可以利用一些具有文本挖掘功能的自动智能网络爬虫来收集与企业有关的市场、竞争对手和市场环境的信息,给出总结性的分析与企业有关的市场、竞争对手和市场环境的信息,给出总结性的分析报告6.4.2 Web挖掘技术挖掘技术1.Web的特点的特点Web的庞大性、的庞大性、Web的动态性、的动态性、Web的异构性、非结构化的异构性、非结构化的数据结构、用户群体多种多样的数据结构、用户群体多种多样2.Web内容挖掘内容挖掘基于文本信息的挖掘基于文本信息的挖掘和通常的平面文本挖掘比较类似和通常的平面文本挖掘比较类似Web文档多为文档多为HTML、XML等语言,等语言,因此可以利用因此可以利用Web文档中的标记,如文档中的标记,如、等额外等额外信息,利用这些信息来提高信息,利用这些信息来提高Web文本挖掘的性能。
文本挖掘的性能在对在对Web文档进行分类分析中,可以基于一组预先分类好的文档,从文档进行分类分析中,可以基于一组预先分类好的文档,从预定义好分类目录中为每一文档赋予一个类标签例如,预定义好分类目录中为每一文档赋予一个类标签例如,Yahoo!的文档和其相关文档可以作为训练集,用于导出的文档和其相关文档可以作为训练集,用于导出Web文档的分类文档的分类模式,这一模式可以用于对新的模式,这一模式可以用于对新的Web文档加以分类由于超链接文档加以分类由于超链接包含了有关页面内容的高质量信息,因此,可以利用这些信息对包含了有关页面内容的高质量信息,因此,可以利用这些信息对Web文档进行分类这种分类比基于关键字的分类方法要更准确、文档进行分类这种分类比基于关键字的分类方法要更准确、更完美基于多媒体信息的挖掘基于多媒体信息的挖掘基于音频的挖掘、基于图片的静态图像的挖掘和基于视频的动态图像挖掘基于音频的挖掘、基于图片的静态图像的挖掘和基于视频的动态图像挖掘3.Web结构挖掘结构挖掘从从WWW的组织结构和链接关系中推导知识的组织结构和链接关系中推导知识 有助于用户找到相关主题的权威站点,并且可以指向众多权威站点的有助于用户找到相关主题的权威站点,并且可以指向众多权威站点的相关主题站点。
相关主题站点从一个页面指向另一个页面的超链接超链接包含了大量人类潜在的从一个页面指向另一个页面的超链接超链接包含了大量人类潜在的语义,它有助于自动分析出权威性语义当一个语义,它有助于自动分析出权威性语义当一个Web页面的作者页面的作者建立起指向另一页面的指针时,这就可以看作是作者对另一页面建立起指向另一页面的指针时,这就可以看作是作者对另一页面的注解,也就是对另一页面的认可把一个页面的来自与不同作的注解,也就是对另一页面的认可把一个页面的来自与不同作者的注解收集起来,就可以用来反映页面的重要性者的注解收集起来,就可以用来反映页面的重要性Hub页面是指一个或多个页面是指一个或多个Web页面,它提供了指向权威页面的链接集页面,它提供了指向权威页面的链接集合对于一个合对于一个Hub页面来说,它本身可能并不突出,但是,它却页面来说,它本身可能并不突出,但是,它却提供了指向某个话题的权威页面的链接好的提供了指向某个话题的权威页面的链接好的Hub是指向许多好是指向许多好的权威页面;好的权威页面是指有好的的权威页面;好的权威页面是指有好的Hub页面指向的页面用页面指向的页面用Hub页面和权威页面之间的这种相互作用来用于权威页面的挖掘页面和权威页面之间的这种相互作用来用于权威页面的挖掘和高质量和高质量Web结构和资源的自动发现。
结构和资源的自动发现4.Web使用记录的挖掘使用记录的挖掘通过挖掘通过挖掘Web日志文件和相关数据,发现用户访问日志文件和相关数据,发现用户访问Web页面的页面的模式Internet的用户一旦连接到一个的服务器上,就在服务器的用户一旦连接到一个的服务器上,就在服务器上的日志文件留下了所请求的上的日志文件留下了所请求的URL,发出请求的,发出请求的IP地址和时间地址和时间戳这些日志纪录提供了戳这些日志纪录提供了Web数据挖掘源,可提取有关用户的数据挖掘源,可提取有关用户的知识:用户的访问行为、频度、内容,得到关于用户的行为和知识:用户的访问行为、频度、内容,得到关于用户的行为和方式模式改进站点的结构,或为用户提供个性化服务这方方式模式改进站点的结构,或为用户提供个性化服务这方面的研究主要有两个方向:一般的访问模式追踪和个性化的使面的研究主要有两个方向:一般的访问模式追踪和个性化的使用纪录追踪一般的访问模式追踪通过分析使用纪录来了解用用纪录追踪一般的访问模式追踪通过分析使用纪录来了解用户的访问模式和倾向,从而改进站点的组织结构而个性化的户的访问模式和倾向,从而改进站点的组织结构而个性化的使用纪录追踪则倾向于分析单个用户的偏好,其目的是根据不使用纪录追踪则倾向于分析单个用户的偏好,其目的是根据不同用户的访问模式,为每个用户提供个性化的页面,开展有针同用户的访问模式,为每个用户提供个性化的页面,开展有针对性的服务以满足用户的需求。
对性的服务以满足用户的需求数据预处理阶段数据预处理阶段包括数据清洗和事务识别两个部分包括数据清洗和事务识别两个部分 模式识别阶段模式识别阶段采用统计法、机器学习等技术,从采用统计法、机器学习等技术,从Web使用记录中挖掘知识使用记录中挖掘知识 模式分析阶段模式分析阶段模式分析,辅助分析人员理解模式分析,辅助分析人员理解5.Web数据挖掘的应用数据挖掘的应用电子商务、网站设计和搜索引擎服务等多方面电子商务、网站设计和搜索引擎服务等多方面电子商务的应用主要有客户分类和客户聚类、寻找潜在的客户、客户电子商务的应用主要有客户分类和客户聚类、寻找潜在的客户、客户的驻留网站设计的应用是有效地组织网站信息,把握用户的兴趣,的驻留网站设计的应用是有效地组织网站信息,把握用户的兴趣,有助于开展网站信息推送服务以及个人信息的定制服务有助于开展网站信息推送服务以及个人信息的定制服务搜索引擎服务:实现对网页的聚类、分类,实现网络信息的分类浏览搜索引擎服务:实现对网页的聚类、分类,实现网络信息的分类浏览与检索;通过用户所使用的提问式与检索;通过用户所使用的提问式(query)历史记录分析,提高用户的历史记录分析,提高用户的检索效果检索效果(查全率、查准率查全率、查准率)。
6.4.3 可视化数据挖掘技术可视化数据挖掘技术1.数据的可视化数据的可视化2.可视化数据挖掘技术可视化数据挖掘技术数据可视化数据可视化数据挖掘结果可视化数据挖掘结果可视化 数据挖掘过程可视化数据挖掘过程可视化 交互式可视化数据挖掘交互式可视化数据挖掘 图12.4 数据的可视化图12.5 数据挖掘结果可视化图12.6 数据挖掘结果的3D图形6.4.4 空间数据挖掘空间数据挖掘1.地理信息系统地理信息系统地理信息系统概念地理信息系统概念地理信息系统的特点地理信息系统的特点2.数据挖掘技术和地理信息系统相结合数据挖掘技术和地理信息系统相结合3.地理信息系统的数据挖掘特点地理信息系统的数据挖掘特点图形化数据挖掘图形化数据挖掘图形化统计查询图形化统计查询图形化报表输出图形化报表输出专业的地理分析功能专业的地理分析功能4.空间数据挖掘空间数据挖掘5.空间数据挖掘用途空间数据挖掘用途6.4.5 分布式数据挖掘分布式数据挖掘1.分布式数据挖掘分布式数据挖掘2.适合水平式数据划分的分布式挖掘方法适合水平式数据划分的分布式挖掘方法SQL查询查询结果结果用户查询图6.7 PADMA体系结构数据挖掘代理元数据数据挖掘代理协调器应用WW用户接口磁盘磁盘6.4.5 分布式数据挖掘分布式数据挖掘3.适合垂直式数据划分的分布式数据挖掘方法适合垂直式数据划分的分布式数据挖掘方法图6.8 CDM的体系结构数据站点A数据站点B数据站点C分布式数据挖掘代理分布式数据挖掘代理分布式数据挖掘代理A局部模型B局部模型C局部模型协调器全局数据模型。