文档详情

数据挖掘相关论文

mar****e5
实名认证
店铺
DOCX
16.08KB
约10页
文档ID:157114787
数据挖掘相关论文_第1页
1/10

资料范本本资料为word版本,可以直接编辑和打印,感谢您的下载数据挖掘相关论文地点: 时间: 说明:本资料适用于约定双方经过谈判,协商而共同承认,共同遵守的责任与 义务,仅供参考,文档可直接下载或修改,不需要的部分可直接删除,使用时 请详细阅读内容数据挖掘论文题 目:数据挖掘技术在电子商务中的应用系 别: 计算机学院专 业: 11网络工程1班学生姓名: 黄坤学 号: 1110322111指导教师: 江南2014年11月06日数据挖掘技术在电子商务中的应用一、 研究原因电子商务在现代商务活动中的正变得日趋重要,随着大数据时代的到来, 商务信息显得尤为重要,在电子商务中谁掌握了有利的市场信息,谁就能在这 个竞争激烈电商行业中占据绝对的优势而数据挖掘技术是获取信息的最有效 的技术工具本文讨论了数据挖掘的主要方法,具体阐述了数据挖掘技术在电 子商务中的作用及应用在信息经济时代,对企业来说,谁对市场变化反应速度快,谁将在激烈的 市场竞争中占据有利的地位,竞争的结果最终将促使企业价值从市场竞争输家 转移到赢家,这样就使企业面临一个问题:如何才能把大量的数据资源,转化 成自身价值呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司 自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成 为垃圾。

因此,面对“人们被数据淹没,人们却饥饿于知识”的挑战,数据挖 掘和知识发现(DMKD)技术应运而生,并得以蓬勃发展,越来越显示出其强大的 生命力二、 2.1国内研究现状KDD (从数据库中发现知识)一词首次出现在1989年8月举行的第11届国 际联合人工智能学术会议上迄今为止,由美国人工智能协会主办的KDD已经召 开了 7次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到七 八百人,论文收录比例从2X1到6X1,研究重点也逐渐从发现方法转向系统应用, 并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透其他内容 的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一 大热点此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物 也纷纷开辟了 KDD专题或专刊IEEE的Knowledge and Data Engineering会 刊领先在1993年出版了 KDD技术专刊,所发表的5篇论文代表了当时KDD研究 的最新成果和动态,较全面地论述了 KDD系统方法论、发现结果的评价、KDD系 统设计的逻辑方法,集中讨论了鉴于数据库的动态性冗余、高噪声和不确定性、 空值等问题,KDD系统与其它传统的机器学习、专家系统、人工神经网络、数理 统计分析系统的联系和区别,以及相应的基本对策。

6篇论文摘要展示了 KDD在 从建立分子模型到设计制造业的具体应用不仅如此,由美国人工智能学会主办 的KDD国际研讨会规模由原来的专题讨论会发展到国际学术大会,研究重点也 逐渐从发现方向转向系统应用,注重多重发现策略和技术集成,以及多种学科 之间的相互渗透,并且有很多学校和科研机构也正投入大量资金进行数据挖掘 技术的进一步开发和深入研究国内对数据挖掘的研究稍晚,没有形成整体力 量但是国内的高校,例如清华大学、中科院计算机技术研究所等,都已开展 了不同程度的知识发现的基础理论及其应用研究其中,北京系统工程研究所 对模糊方法在知识发现中的应用进行了较深入的研究与国外相比,我国对数 据挖掘领域的研究仍处于初级阶段,绝大多数工作集中于局部算法设计,进行 综合的系统集成设计却寥寥无几由于核心技术的欠缺,使得数据挖掘在国内 一些领域只是初步应用,如银行、金融、GIS等领域所以研究数据挖掘技 术,并将其应用到科研、经济、教育等领域的重要性是可见一斑的电子商务(E-Commerce)是以指利用电子数据交换(Electronic Data Interchange, EDI)、电子邮件(E-mail)、电子资金转账(Electronic Funds Transfer, EFT)和Internet等主要技术在个人、企业和国家之间进行 无纸化的信息交换,包括商品信息及其订购信息、资金信息及其支付信息、安 全及其认证信息等,即以现代信息技术为手段,以经济效益为中心的现代化商 业运转模式。

其最终目标是实现商务活动的网络化、自动化与智能化随着Internet的迅速发展,电子商务的应用不断深入在电子商务应用系 统中,相关的用户数据日益增多,数据挖掘技术具有从大量复杂数据中发现特 定规律的能力商业电子化的趋势不仅为客户提供了便利的交易方式和广泛的 选择,同时也为商家提供了更加深入了解客户需求信息和购物行为特征的可能 性2.2数据挖掘技术2.2.1统计技术统计技术对数据集进行挖掘的主要思想是:统计的方法对给定的数据集合 假定了一个分步或者概率的模型(比如一个正态分布),然后根据模型采用相 应的方法进行挖掘2.2.2关联规则数据关联是数据库中存在的一类很重要的可以发现的知识若两个或者多 个变量的取值之间存在某种规律性,就成为关联关联可分为简单关联,时序 关联,因果关联关联分析的目的是找出数据库中隐含的关联网,优势并不知 道数据库中的关联函数,即使知道也是不确定的,因此关联分析生成的规则带 有可信度2.2.3 基于历史的分析 MBR (Memory-based Reasoning)MBR的本质是:现根据经验知识寻找相似情况,然后再将这些情况的信息 应用于当前的例子中使用的三个问题是:寻找确定的历史数据;决定表示历 史数据的最有效方法;决定距离函数、联合函数和邻近的数量。

2.2.4 遗传算法 GA (Genetic Aigorithms)该算法是基于进化理论,并采用遗传结合、遗传变异及自然选择等方法优 化结果主要思想是:根据适者生存的原则,形成由当前群体中最适合的规则 组成新的群体,以及这些规则的后代规则的适合度(Fitness)是对训练样本 分类准确性的评估2.2.5聚集检测将物理或者抽象对象的集合,分组成为由类似的对象组成的多个类的过程 被成为聚类在由聚类生成的数据对象集合中,这些对象具有相似性,并与其 他集合中的对象具有相异性这种相异度是根据描述对象的属性值来计算的, 距离是经常被采用的度量方法2.2.6连接分析它的基本理论是图论,图论的思想是寻找一个可以得出好的结果但不是完 美结果的算法这种不完美但是可行的思想模式,可以使之运用到更广的用户 群中2.2.7决策树决策树是能够被看成一棵树的预测模型树的每个分支都是一个分类的问 题,内部节点表示在一个属性上的测试,树叶代表类或者分布决策树算法是目前应用最广泛的归纳推理算法之一,是一种逼近离散值函 数的方法,也可将它看作是一个布尔函数它是以实例为基础的归纳学习算 法,通过对一组训练数据的学习,构造出决策树形式的只是表示,在决策树的 内节点进行属性值的比较并根据不同的属性值判断从该节点向下的分枝,从而 在决策树叶节点得到结论。

所以从根到叶节点的一条路径就对应着一条规则, 整棵决策树就对应着一组吸取表达式规则2.2.8神经网络神经网络是指由大量神经元互联而成的网络,类似于服务器互联而成的因 特网它主要由“神经元”的互联,或按组织的结点构成通常神经网络模型 由三个层次组成:输入层,中间层,输出层在神经元求得输入值后,再汇总计算总输入值;由过滤机比较总输出值, 确定网络的输出值可以通过模拟判断,来不断修正计算的“权值”来达到学 习的目的,增加判断的正确性2.2.9粗糙集粗糙值是一种研究不确定性问题的工具,它根据已有的给定问题的知识, 对问题论域进行划分,然后对划分后的每个组成部分确定其对某个概念的支持 程度它用于从数据库中发现分类规则的基本思路是将数据库中的属性分为条 件属性和结论属性对数据库中的元组根据各个属性不同的属性值分成相应的 子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生 成判定规则2.2.10回归分析回归分析分为线性回归、多元回归和非线性回归线性回归中,数据是用 直线建模;多元回归是线性回归的扩展,涉及多个预测变量非线性回归是在 基本线性模型上添加多个项式项形成为线性回归模型数据挖掘阶段分析数据挖掘阶段作为整个项目的重中之重,通常数据挖掘的流程包括项目理 解、数据理解、数据准备、建立模型、模型评估和模型发布等。

3.1项目理解阶段此阶段主要确定项目目标,订立项目成功的标准,完成项目形势评估及制 定项目执行计划等等项目成功的标准是模型的准确率达到多少、纯度达到多 少等,而形式评估则主要对项目实施未来可能遇到的问题作一个简单的评估, 业务及行业规则不断变化,模型在应用过程中会遇到各种问题等至于项目计 划则是对整个项目需要的时间,资源作一个整体的规划把控除此之外,此阶 段还需要对相关专业术语进行解释说明等3.2 数据理解和数据准备数据挖掘对数据的依赖性非常高,为了能够实现数据挖掘的目标,要求收 集的数据足够全,质量尽量高通常在这个阶段花费的时间占整个项目的一半 还多原始数据采集完后,还需要对数据进行描述和处理,比如进一步探查已 选变量与目标变量之间是否存在关系,各变量数据的基本探查,如空值数目、 唯一值数目、最小最大值的统计以及数据质量检验等数据准备数据集描述清洗数据构造数据选择数据格式化数据整合数据3.3建立模型阶段数据挖掘项目的建立模型都要经过三个阶段:建立模型,测试并调整模 型,应用模型建立模型,就得选择相应的建模技术,可能应用到决策树、神 经网络及回归分析等统计技术,在项目运营的各个阶段,数据不同,运营宣传 方式也不同,这就可能利用模型的组合,各个项目阶段采用不同的模型进行预 测分析。

3.4模型评估阶段模型的应用通常需要较长周期的检验才能准确的评估其是否满足商业标 准,在传统行业,这个评估通常在模型应用一年后作出此外,对于设计的模 型,不但要评估模型的准确性和通用性,还要努力找出相关商业理由解释说明 模型的欠缺,把生成的结果与建模初订立的标准进行对比,同时根据目前的状 况对数据仓库变量做适当的修正调整,以满足日常数据分析需要数据挖掘运营分析调研验证3.5模型发布阶段在模型通过评估满足商业目标情况后,进入模型发布阶段模型发布阶段 的内容主要包括相关模型检测和维护计划(常规调整和适应性的调整〈应用于节 假日及寒暑假等特殊日期>),以确保模型的准确预测和预警同时,还要利用 模型指导日常运营发布相关数据分析报告确定研究目标提出策略意见分析数据现象与目标的关联找出真实原因数据挖掘技术在电子商务中的应用4.1电子商务中数据挖掘技术的适用价值目前对于数据挖掘的对象和使用的方法层出不穷,随着电子商务的兴起, 电子商务将是未来数据挖掘的主要发展方向之一,它在各种商业领域都存在广 泛的使用价值4.1.1客户细分随着以客户为中心的经营理念不断深入人心,分析客户、了解客户并引导 客户的需求己成为企业经营的重要课题。

通过对电子商务系统收集的交易数据 进行分析,可以按各种客户指标(如自然属性、收入贡献交易额、价值度等)对 客户分类,然后确定不同类型客户的行为模式以便采取相应的营销措施促使企 业利润的最大化4.1.2客户获得比如通过数据挖掘可以发现购买某种商品的消费者是男性还是女性,学 历、收入如何,有什么爱好,是什么职业等等甚至可以发现不同的人在购买 该种商品的相关商品后多长时间有可能购买该种商品,以及什么样的人会购买 什么型号的该种商品等等也许很多因素表面上看起来和购买该种商品不存在 任何联系,但数据挖掘的结果却证明他们之间有联系在采用了数据挖掘后, 针对目标客户发送的广告的有效性和回应率将得到大幅度的提高,推销的成本 将大大降低4.1.3客户保持数据挖掘可以把你大量的客户分成不同的类,在每个类里的客户拥有相似 的属性,而不同类里的客户的属性也不同你完全可以做到给不同类的客户提 供完全不同的服务来提高客户的满意度数据挖掘还可以发现具有哪些特征的 客户有可能流失,这样挽留客户的措施将具有针对性,挽留客户的费用将下 降4.2数据挖掘技术在电子商务推荐系统的具体应用数据挖掘技术应用于电子商务方方面面,在这里以电子商务活动中推荐系 统应用数据挖掘技术为案列进行简单分析。

4.2.1推荐系统在电子商务活动中的作用一般说来,推荐系统在电子商务活动中的作用可以归纳为以下几点:(1) 把浏览者转变成购买者己有明确购物目标的客户也许可以借助检索系统找到自己需要的东西,但对 于大多数只是四处逛逛看一看的冲浪者,或是对自己的需要比较模糊的购买者, 很难有耐心在几十页长的商品目录逐项查找是否有自己感兴趣的东西而推荐 系统通过合适的推荐,可以将一个浏览者变为购买者2) 提高电子商务系统的交叉销售能力电子商务推荐系统在用户购买过程中向用户提供其它有价值的商品推荐,用 户能够从提供的推荐列表中购买自己确实需要但在购买过程中没有想到的商品, 从而有效提高电子商务系统的交叉销售例如站点可以根据客户当前购物车中 的物品向他们推荐一些和这些己选购的物品相关的物品如果有一个比较好的 推荐系统,则企业的平均定购量就可能增加3) 提高客户对电子商务网站忠诚度与传统的商务模式相比,电子商务系统使得用户拥有越来越多的选择,用户 更换商家及其方便,只需要一两次鼠标的点击就可以在不同电子商务系统之间跳 转电子商务推荐系统分析用户的购买习惯,根据用户需求向用户提供有价值的 商品推荐如果电子商务推荐系统的推荐质量很高,用户可以很容易找到自己想 要的商品,那么用户会再次访问这个网站,并会推荐给其他人,这对于网站来说是 一个很大的优势。

4.2.2数据挖掘技术应用于推荐系统具体表现数据挖掘是在大型数据存储库中,自动地发现有用信息的过程数据挖掘技 术用来探查大型数据库,发现先前未知的有用模式电子商务推荐系统将数据挖 掘技术运用到电子商务领域,以数据挖掘为基础衍生出许多算法1)基于关联规则的推荐算法关联规则是数据挖掘技术的一种,该技术挖掘发现大量数据中项集之间有趣 的关联或相关联系关联规则挖掘的一个典型例子就是购物篮分析该过程通 过发现顾客放入其购物篮中不同商品之间的联系,分析顾客的购买习惯通过了 解哪些商品频繁地被顾客同时购买,这种关联的发现可以帮助商家制定营销策 略关联规则的挖掘是一个两步过程:首先,找出所有频繁项集这些项集出 现的频繁性至少和预定义的最小支持计数一样其次,由频繁项集产生强关联规 则这些规则必须满足最小支持度和最小置信度关联规则挖掘算法的瓶颈出现在第一步由于第一步需要反复扫描交易数 据库,所以增加了系统的开销,降低了系统性能例如:Aprior算法是一种最有 影响的挖掘关联规则频繁项集的算法该算法使用一种称为逐层搜索的迭代方 法寻找频繁项集,它开创性地使用基于支持度的剪枝技术,系统地控制候选项集 指数增长。

它缺点就是由于数据库数据的增多,需要多次扫描数据库,这样便影 响了系统的性能2) 基于内同的推荐算法基于内容的推荐系统的产生根源于信息检索与信息过滤其具体是根据项 之间的相似性来进行推荐的,先用机器学习等技术分析用户已经评分的项的内容, 建立用户档案,然后从项集中选择与用户档案相似的项,再从中根据评分选择一 定的项推荐给用户,最后根据用户的反馈信息修正推荐基于内容得推荐技术具有一定的局限性首先,资源内容必须以机器可以理 解的格式表示,而很多信息例如图像、视频等多媒体信息是很难做到这一点的; 其次,资源内容的分析范围比较小,不能提供较多的建议;再次,基于内容的推荐 不能从质量、样式、审美等角度对项进行过滤3) 协同过滤推荐算法协同过滤是在信息过滤和信息系统中正迅速成为一项很受欢迎的技术与 传统的基于内容过滤直接分析内容进行推荐不同,协同过滤分析用户兴趣,在用 户群中找到指定用户的相似(兴趣)用户,综合这些相似用户对某一信息的评价, 形成系统对该指定用户对此信息的喜好程度预测三、总结数据挖掘是指按企业既定业务目标,对大量的企业数据进行探索和分析, 揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的 方法。

电子商务是现代信息技术发展的必然结果,也是未来商业运作模式的必 然选择企业数据量日益庞大,其中真正有价值的信息却很少,利用数据挖掘 技术,从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信 息,发挥企业的独特优势,促进管理创新和技术创新。

下载提示
相关文档
正为您匹配相似的精品文档