认识数据

1. 数据对象与属性类型

数据集由数据对象组成,一个数据对象代表一个实体,数据库中的行就是一个数据对象。数据对象又称为样本、实例、数据点或对象。例如,在销售数据库中,对象可以是顾客、商品或销售;在医疗数据库中,对象可以是患者;在大学数据库中,对象可以是学生、教授和课程。

属性是一个数据字段,表示数据对象的一个特征,对应于数据库中的列,用于描述数据对象。属性又称为维、特征或变量。属性的类型可分为标称的、二元的、序数的或数值的。例如,描述顾客对象的属性可能包括 customer_IDnameaddress

1.1 标称属性
标称属性的值是一些符号或事物的名称,每个值代表某种类别、编码或状态,因此标称属性又可以看做是分类的。

假设 hair_colormarital_status 是两个描述人的属性,那么这两个属性都是标称属性。hair_color 的可能值有黑色、棕色、淡黄色、红色等,martial_status 的可能值有单身、已婚、离异和丧偶。

1.2 二元属性
二元属性是一种标称属性,只有两个类别或状态:0或1,其中0通常表示该属性不出现,1表示出现。二元属性又称为布尔属性。

1.3 序数属性
序数属性的可能值之间具有有意义的序或秩评定。

例如,在一项调查中,顾客的满意度有如下序数类别:0——很不满意,1——不太满意,2——中性,3——满意,4——很满意。

1.4 数值属性
标称、二元和序数属性是定性的,而数值属性是定量的,即它是可度量的量。数值属性可以是区间标度的或比率标度的。

区间标度属性用相等的单位尺度度量。区间属性的值是有序的,可以为正、0或负。因此,除了值得秩评定之外,这种属性允许我们比较和定量评估值之间的差。区间标度属性没有真正的零点,我们不能说一个值是另一个值的倍数。比如摄氏温度和华氏温度,我们不能说10℃比5℃暖2倍。

比率标度属性是具有固定零点的数值属性,我们可以说一个值是另一个值的倍数。例如开氏温度具有绝对零点,这是一个比率标度属性。

2. 数据的基本统计描述

数据的基本统计描述有三类:中心趋势度量、数据的散布、图形可视化。

2.1 中心趋势度量:均值、中位数和众数
假设我们有某个属性$X$,令$x_1,x_2,\dots,x_N$为$X$的$N$个观测值。

数据集的“中心”最常用的是均值:
$$\bar{x}=\frac{\sum\limits^N_{i=1}x_i}{N}=\frac{x_1+x_2+\dots+x_N}{N}$$

如果每个$x_i$有权重$w_i$,则

$$\bar{x}=\frac{\sum\limits^N_{i=1}w_ix_i}{\sum\limits_N^{i=1}}=\frac{w_1x_1+w_2x_2+\dots+w_Nx_N}{w_1+w_2+\dots+w_N}$$
这称作加权算术平均值。

本站访客数人次 本文总阅读量