文档详情

数据挖掘——第二章认识数据

痛***
实名认证
店铺
2024-12-01
PPT
33.37MB
约112页
数据挖掘——第二章认识数据_第1页
1/112
数据挖掘——第二章认识数据_第2页
2/112
数据挖掘——第二章认识数据_第3页
3/112

单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,*,,*,,第2章认识数据,,,,一·数据对象,,数据集由数据对象构成,,个数据对象代表一个实体,,例子,,销售数据库 sales database:客户/顾客,商店物品, sales,,医学数据库:,,s,treatments,,大学数据库: students,, professors,, courses,,又称为样本,事例,实例,数据点,对象,元组 tuples.,,数据对象由属性来描述,,Database rows ->data objects; columns -attributes.,,,,属性「,,属性 Attribute(or维度,特征,变量):一个数据字段,表示,,个数据对象的某个特征,,E. g, customer-ID, name, address,,类型:,,名词性 Nominal,,元的,,数字的 Numeric:数量的,,Interval-scaled,,· Ratio-scaled,,,,属性类型,,,名词性 Nomina:类别,状态,r“名目,,whie olor=auburn, black, blond, brown, grey, red.,,Hai,,婚姻状态,职业 occupation, ID numbers, zip codes,,只有2个状态的名词性属性(0and1),,对称二元 Symmetric binary同样重要的两相,,e.g., gender,,非对称 Asymmetric binary:非同等重要,,eg,医疗检查( positive vs negative),,惯例 Convention: assign1 to most important,,outcome(e.g, HIV positive),,·顺序的 Ordinal,,值有一个有意义的顺序排序)但连续值之间的大小未知,,size={smal, medium,arge,等级,军队排名,,,,数值属性的类型,,数量 Quantity( integer or real-valued),,区间mera,,在某个同等大小的一个尺度单位上 Measured on a,,scale of equal-sized units,,值有序,,E.g., temperature in C or F, calendar dates,,没有真正的零点,,Ratio,,有真正的零点,,可以讲值是被测量单位一个数量级(0Kwe,,s high a,,eg,温度在开尔又长度计数货币的数量,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,。

下载提示
相关文档
正为您匹配相似的精品文档
最新文档