一, 概述
现实中的数据一般有噪声, 数量庞大并且可能来自异种数据源.
数据集由数据对象组成, 一个数据对象代表一个实体.
数据对象: 又称样本, 实例, 数据点或对象.
数据对象以数据元组的形式存放在数据库中, 数据库的行对应于数据对象, 列对应于属性.
属性是一个数据字段, 表示数据对象的特征, 在文献中, 属性, 维度 (dimension), 特征(feature), 变量(variance) 可以互换的使用.
"维", 一般用在数据仓库中.
"特征", 一般用在机器学习中.
"变量", 一般用在统计学中.
一个属性的类型由该属性可能具有的值的集合决定, 可以是标称的, 二元的, 序数的, 数值的.
二, 标称属性(nominal attribute)
1)特点
标称属性的值是一些符号或事物的名称.
每个值代表某种类别, 编码, 状态, 因此标称属性又被看做是分类的(categorical).
标称属性的值不具有有意义的序, 而且不是定量的.(也就是说, 给定一个对象集, 找出这种属性的均值没有意义)
2)其它
这些值不必具有有意义的序, 在计算机科学中, 这些值也被看做是枚举的(enumeration).
尽管标称属性的值是一些符号或 "事物的名称", 但也可以用数表示这些符号或名称, 如 hari_color, 可以用 0 表示黑色, 1 表示黄色.
但一种属性中最长出现的值, 称为众数(mode), 是一种中心趋势度量.
# 例: hari_color(头发颜色),marital_status(婚姻状况),occupation(职业), 都是标称属性, 表示对象的特征.
三, 二元属性(binary attitute)
1)特点
二元属性是一种标称属性, 只有两个状态: 0 或 1, 其中 0 通常表示该属性不出现, 1 表示出现.
二元属性又称布尔属性, 如果两种状态对应的是 true 和 false.
2)其它
对称的二元属性: 如果两种状态具有同等价值, 并且携带相同权重, 如表示性别, 则 0 和 1 分别表示男性或女性没有影响.
非对称的二元属性: 两种状态的结果不是同等重要的, 如 HIV 患者和不是 HIV 患者, 为了方便计, 将用 1 对最重要的结果 (通常是稀有的) 编码(如, HIV 患者), 而另一个用 0 编码.
四, 序数属性(ordinal attribute)
1)特点
属性对应的可能的值之间具有有意义的序或秩评定(ranking), 但是相继值之间的查是未知的.(也就是对应的值有先后次序)
2)其它
例: drink_size, 表示饮料杯的大小: 小, 中, 大, 这些值具有有意义的先后次序.
序数属性可以通过把数值量的值域划分成有限个有序类别(如, 0 - 很不满意, 1 - 不满意, 2 - 中性, 3 - 满意, 4 - 很满意), 把数值属性离散化而得到.
可以用众数和中位数表示序数属性的中性趋势, 但不能定义均值.
标称, 二元和序数属性都是定性的, 即, 它们描述对象的特征, 而不给出实际大小或数值.
五, 数值属性(numeric attribute)
特点
是定量的可度量的量, 用整数或实数表示.
可以是区间标度的或比率标度的.
1)区间标度 (interval-scaled) 属性
例: temperature(温度)属性, 一般表示: 10℃~15℃.
特点:
用相等的单位尺度度量, 区间属性的值有序, 可以为正, 0, 负.(值的秩评定)
允许比较与定量评估值之间的差.
区间标度属性是数值的, 中心趋势度量中位数和众数, 还可以计算均值.
2)
数据挖掘: 数据(数据对象与属性类型)
来源: http://www.bubuko.com/infodetail-2875432.html