思迈特软件——大数据分析从专家诊病模型实例理解智慧医疗大数据大数据可谓是当红炸子鸡,对于它的应用场景,人们已经做了充分的想象,很多也在逐步落地,比如智慧医疗医疗行业正更多的融入人工智慧、传感技术等高科技,使医疗服务走向真正意义的智能化面对不同受众,智慧医疗有着不同的内涵对于公众,意味着更便捷可及的医疗服务;对于医护人员,不仅可以提高诊疗速度,还可以让诊疗更加精准,通过大量的数据分析支持他们的诊断这里就不得不提到专家系统,它应该是一个典型的医疗应用,是大数据和人工智能的紧密结合专家系统是一个个具有大量的的专门知识与与经验的程序序系统,它应应用人工智能能技术和计算算机技术,根根据某领域一一个或多个专专家提供的知知识和经验,进进行推理和判判断,模拟人人类专家的决决策过程,以以便解决那些些需要人类专专家处理的复复杂问题简简言之,专家家系统是一种种模拟人类专专家解决领域域问题的计算算机程序系统统专家系统统的发展已经经历了3个阶段,正正向第四代过过渡和发展第第一代专家系系统(denndral、macsyyma等)以以高度专业化化、求解专门门问题的能力力强为特点但但在体系结构构的完整性、可可移植性、系系统的透明性性和灵活性等等方面存在缺缺陷,求解问问题的能力弱弱。
第二代专专家系统(mmycin、casneet、prosppectorr、hearssay等)属属单学科专业业型、应用型型系统,其体体系结构较完完整,移植性性方面也有所所改善,而且且在系统的人人机接口、解解释机制、知知识获取技术术、不确定推推理技术、增增强专家系统统的知识表示示和推理方法法的启发性、通通用性等方面面都有所改进进第三代专专家系统属多多学科综合型型系统,采用用多种人工智智能语言,综综合采用各种种知识表示方方法和多种推推理机制及控控制策略,并并开始运用各各种知识工程程语言、骨架架系统及专家家系统开发工工具和环境来来研制大型综综合专家系统统在总结前前三代专家系系统的设计方方法和实现技技术的基础上上,已开始采采用大型多专专家协作系统统、多种知识识表示、综合合知识库、自自组织解题机机制、多学科科协同解题与与并行推理、专专家系统工具具与环境、人人工神经网络络知识获取及及学习机制等等最新人工智智能技术来实实现具有多知知识库、多主主体的第四代代专家系统接下来将通过生生动有趣的过过程讲解,帮帮助读者了解解使用SmarrtMiniing敏捷挖挖掘桌面版,以以决策树算法法为背景,依依托大数据如如何构建专家家诊病模型,以以及如何通过过可视化探索索数据,实现现决策树同样样的计算结果果!该案例的工作流流如下:商业目标业务理解:该案案例所用的数数据是一份医医生诊病的数数据,如下::表1 数据视图图其中,年龄、性性别、血压、胆胆固醇、钠、钾钾是病人的指指标,而药物物是医生针对对病人的情况况开出的药物物。
业务目标:建立立专家诊病系系统,当把病病人的指标输输入到该系统统时,系统会会自动输出该该给此类病人人开出的药物物数据挖掘目标::建立专家诊诊病模型,该该模型以病人人的病例指标标为输入,以以药物为目标标,建立预测测模型,该模模型可以根据据输入指标的的值,计算预预测值(药物物)操作实现:新建工作流可以点击文件菜菜单下的"新建"或者点击工工具栏左方的的新建按钮( )开始创建工作流点击后会弹出以下向导界面:输入工作流的名名字后即可完完成创建:图1 新建工作作流导入数据此时要根据数据据存储文件的的格式选择相相应的导入节节点在这里里由于数据源源是CSV文件,因因此可以选择择CSV导入节节点(也可以以使用可变文文件)左侧侧节点库中CCSV导入节节点拖到右侧侧的工作流中中双击节点点或者右键菜菜单中选择""配置",弹出如下下配置窗口::图2 CSVV节点配置点击 按钮,选选择相应的数数据文件注意,此处如果果数据第一行行包含字段名名,则选中 (该数据有有),如果有有行ID字段,则则选中 (该数据无无,则不选中中)配置完完成后,点击击 节点下方的预警警符号从 变成了 红色表示示节点尚未配配置或者配置置有误,此时时节点不可执执行;黄色表表示节点可以以执行。
点击击右键菜单的的 或者点击工工具栏的 ,即可执行行工作流执执行完成后预预警符号变成成 点击右键菜单的的 可以查询数数据另外,节节点的右端口口也会悬停显显示数据的行行数和字段数数理解数据使用统计分析菜菜单下的统计计节点可以对对数据进行描描述,这是建建模之前必须须要做的工作作,一方面是是为了设计合合理的实施方方案,另外一一方面也是为为了更好的选选择合适的算算法从表22中可以看出出每种分类变变量的取值及及每种取值的的个数比如如,从这里我我们可以看出出药物字段一一共包含五种种取值,且出出现最多的是是Y药物在这这里目标变量量为分类型,因因此只能选择择分类预测类类模型,如决决策树、逻辑辑回归等表2 数据描述述预建模接下来便是尝试试建模,看看看建模效果图3 预建模首先,从数据准准备列>转换菜单下下选择类型转转换节点由由于性别、血血压、胆固醇醇三个字段实实际存储类型型该是字符型型,但这里是是整型,因此此为了便于以以下分析,使使用类型转换换节点将它们们的类型从整整型转化为字字符型配置置如下:其次,使用类型型节点指定目目标变量的角角色,将药物物的角色设为为目标再次,从数据准准备的行菜单单中选择分区区节点。
使用用分区节点可可以将数据集集分成测试集集和训练集,训训练集用于训训练模型,测测试集用于测测试模型配配置如下:注意,如果选中中使用随机种种子( ),则每次次运行分区结结果将会是一一样的,否则则每次运行的的结果将会不不同,进而建建模的结果也也会不同通通常是选择选选中该项,使使得训练集和和测试集都固固定另外,此此处还有个很很重要的用途途,不选中 ,多次运行行可以测试数数据分布规律律和模型稳定定性还有一点要注意意,这里分区区即把数据集集随机分成两两份,通常训训练集要比测测试集大,通通常分为5:5,6:4,7:3,8:2,9:1数据集越越小,训练集集应该分的更更多,原因是是要保证模型型的稳定性,参参与训练的数数据要足够多多实际中,各各种比例都会会尝试,目的的有二:一是是选择最佳的的比例,二是是测试模型的的稳定性然后,选择分类类预测节点,因因为目标变量量(药物)为为分类型此此处我们重点点学习决策树树算法,所以以就先选择决决策树算法节节点节点连连接如上图33所示,在决决策树(训练练)节点配置置中选择目标标变量药物其其中,决策树树(训练)节节点连接分区区节点决策策树训练节点点可以采用默默认配置,无无需修改配置置,如下:最后,使用分类类评估节点评评估模型的准准确性。
配置置如下图所示示:评估结果:表3 模型评估估1从表3中可以看看出,模型测测试准确度为为95%,误判判5%预建模模的目的是为为了从整体判判断现有变量量与目标变量量的相关性,以以便可以根据据经验预估最最终的效果和和可操作性接下来如何优化化模型呢?通通常来说有三三种办法:第第一,增加新新数据,以便便引入更多重重要的影响因因素;第二,尝试其其他模型,以以便找到更适适合的模型;;第三,优化输输入,即基于于已有数据派派生更多重要要的变量,或或者过滤不重重要的变量这这三者中,第第一种最难以以实现,一般般企业的数据据是有限的,企企业内部可用用数据及外部部可用网络数数据,在项目目需求调研阶阶段就应该明明确,而企业业外部行业数数据难以获取取第二种最最容易尝试,所所有可用模型型可以快速尝尝试一遍,这这个是每个项项目中都必做做的,但却不不是最重要的的方法而第第三种方法才才是项目中最最可行,也是是最重要的办办法如何优化输入??这是第三种种方法的实现现目标而优优化输入最重重要的环节就就是数据探索索数据探索图4 数据可视视化探索数据探索最核心心的一项工作作就是探索输输入变量与目目标变量的相相关性分析析变量的相关关性可以使用用相关性计算算,也可以使使用图形化分分析,而后者者最直观常用用。
分析两个个分类型变量量可以使用条条形图、网络络图或者交叉叉表分析两两个数值型变变量可以使用用散点图分分析一个数值值型变量和一一个分类型变变量可以使用用直方图通过分析,血压压和药物字段段有着强相关关性,因为从从图中可以看看出使用药物物B和药物A的人都是高高血压(3表示高血压压,2表示正常,11表示低血压压),使用药药物C的人都是低低血压,这种种很明细的规规律反映出两两个字段间存存在很强的相相关关系,如如下图所示::同理,胆固醇和和选择药物之之间也有一定定相关性,而而性别和选择择药物相关性性不大,如下下图所示:接下来分析数值值型字段的相相关性,从图图中可以看出出血液中的钠钠和钾相关性性很弱或者没没有从图形形化的方式判判断相关性强强弱的方法就就是看图形中中的规律,规规律越明显,相相关性就越强强,否则越弱弱就此图来说,散散点图中的每每一个点表示示一个病例,而而我们最想知知道的还不是是钠和钾的相相关性,而是是两者与药物物的相关性,因因为药物才是是我们分析的的目标所以以我们还想知知道散点图中中的每个病例例使用的什么么药物因此此,我们使用用药物作为颜颜色区分,重重新修正散点点图如下:: 从图中可见,上上三角区都是是浅红色,说说明这部分病病例使用的都都是Y药物。
这是是很明显的规规律,说明这这里面有一种种很强的关联联用数学的的语言来描述述,就是钠和和钾的比例与与药物有很强强的相关性因因此,我们发发现了一个很很重要的变量量就是钠和钾钾的比例因因此,我们可可以派生一个个变量:钠钾钾比例优化输入首先,使用派生生字段节点或或者Javaa代码段节点点生成钠钾比比例字段配配置如下:其次,使用过滤滤节点过滤钠钠和钾字段,否否则它们的重重复存在会导导致多重共线线性问题配配置如下:过滤后预览数据据如下:重新建模模型整体评估如如下:表4 模型评估估2从表4中可看出出,模型精度度从原来的995%提升带带了100%%当然实际际中如果遇到到预测精度为为100%的情情况一定就是是错的下面面我们再来解解读一下得到到的决策树模模型如下图图所示,从整体来看,得得此类病的人人有大约一半半的人(455%)选择服服用了Y药物;如果病人血液中中钠和钾的比比例大于144.82855,则选择服服用Y药物,准确确率为1000%;如果病人血液中中钠和钾的比比例不大于114.82885,若全部部判成X药物准确率率只有47..5%,因此此再看病人的的另外一个指指标血压;如果血压(其值值有1、2和3)为2,则全部判判为X药物,准确确率为1000%;如果血压为1,全全部判为C药物,准确确率仅50%%。
再看另外外一个指标胆胆固醇,若胆胆 固醇的值为为1,全部判为为X药物,则准准确率为1000%若胆胆固醇的值为为2,全部判为为C 药物,则则准确率为1100%如果血压为3,全全部判为A药物,则准准确率仅566.8%再再看另外一个个指标年龄,若若 年龄大于500.5岁,判判为B药物,则准准确率1000%若年龄龄不大于500.5岁,判判为A药物, 准确率为1000%小结第一,在建模中中,应该注意意过拟合问题题在商业中中建模的目的的是为了商业业应用,因此此不仅要保证证模型的准确确性,更要保保证模型的稳稳定性第二,模型应用用的核心是模模型的风险控控制只有可可以控制风险险的模型才可可以使用,否否则不管理论论模型建的多多么漂亮都是是没有实际意意义的第三,数据挖掘掘的成果并不不只是数学模模型,数据挖挖掘也不等价价于高级模型型(如决策树树、神经网络络等)数据据挖掘最重要要的不仅是得得到一个模型型,还有分析析得出最合理理的输入变量量以及给出数数据质量管理理的建议第四,数据挖掘掘的一个核心心工作就是图图形化探索,貌貌似很简单却却又最为重要要因为这是是你数据挖掘掘思路的源泉泉 页 22。