一、导论
1. 什么是统计学
统计学(statistics)是收集、分析、表述和解释数据的科学。
描述统计(descriptive statistics)研究数据收集、整理和描述的统计学分支。
推断统计(inferential statistics)是研究如何利用样本数据来推断总体特征的统计学分支。
2. 统计数据的类型
(1)分类数据、顺序数据、数值型数据
分类数据(categorical data):只能归于某一类别的非数字型数据
顺序数据(rank data):只能归于某一有序类别的非数字型数据
数值型数据(metric data):按数字尺度测量的观察值
(2)观测数据和实验数据
观测数据(observational data):通过调查或观测而收集到的数据
实验数据(experimental data):在实验中控制实验对象而收集到的数据
(3)截面数据和时间序列数据
截面数据(cross-sectional data):在相同或近似相同的时间点上收集的数据
时间序列数据(time series data):在不同时间上收集到的数据
3. 统计中的几个基本概念
(1)总体和样本
总体(population):包含所研究的全部个体(数据)的集合
样本(sample):从总体中抽取的一部分元素的集合
样本容量(sample size),或称为样本量:构成样本的元素的数目
(2)参数和统计量
参数(parameter):用来描述总体特征的概括性数字度量
统计量(statistic):用来描述样本特征的概括性数字度量
(3)变量
分类变量(categorical variable):说明事物类别的一个名称
顺序变量(rank variable):说明事物有序类型的一个名称
数值型变量(metric variable):说明事物数字特征的一个名称
离散型变量(discrete variable):只能取可数值的变量
连续性变量(continuous variable):可以在一个或多个区间中去任何值的变量
二、数据整理与展示
1. 数据的预处理
1.1 数据审核
原始数据(raw data)应从完整性和准确性两个方面审核。完整性审核主要检查是否有遗漏、是否填写齐全等。准确性审核主要是检查是否有错误,是否存在异常值等。
1.2 数据筛选
数据筛选包括:(1)剔除不符合要求或有明显错误的数据;(2)筛选出符合特定条件的。
1.3 数据排序
2. 分类和顺序数据的整理与显示
2.1 分类数据的整理与图示
(1)频数和频数分布
频数(frequency):落在某一特定类别(或组)中的数据个数
频数分布(frequency distribution):把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来
比例(proportion):一个样本(或总体)中各个部分的数据与全部数据之比
百分比或百分数(percentage):将比例乘以100%得到的数值
比率(ratio):样本(或总体)中各不同类别数值之间的比值
(2)分类数据的图示
条形图(bar chart)
饼图(pie chart)
2.2 顺序数据的整理与图示
(1)累积频数和累积频率
累积频数(cumulative frequencies):将各有序类别或组的频数逐级累加起来得到的频数。
累积频率(cumulative percentages):将各有序或组的百分比逐级累加起来。
(2)顺序数据的图示
累积频数分布图
环形图(annular chart)
3. 数值型数据的整理与显示
3.1 数值分组
组距分组:将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。
确定组数的经验公式:k = 1 + lgn/lg2
组距:一个组的上限与下限的差。一个组的最小值称为下限(low limit),一个组的最大值称为上限(upper limit)
组中值:每一组的下限和上限之间的中点值,即组中值=(下限值+上限值)/2。
3.2 数值型数据的图示
(1)分组数据:直方图
直方图:用矩形的宽度和高度(即面积)来表示频数分布的图形
(2)未分组数据:茎叶图和箱线图
茎叶图(stem-and-leaf display):由“茎”和“叶”两部分组成的、反应原始数据分布的图形。
对于一组数据,茎叶图有多少行比较合适?经验表明,如果数据的个数为n(20≤n≤300),则茎叶图的最大行数不超过:
L = [10 * lgn]
箱线图(box plot):由一组数据的最大值、最小值、中位数和两个四分位数5个特征值绘制而成的、反应原始数据分布的图形。
简单的箱线图:
(3)时间序列数据:线图(line plot)
(4)多个变量间的图示
两个变量间的关系—二维散点图(2D scatterplots)
两个变量间的关系—散点图矩阵(2D scatterplots)
三个变量间的关系—三维散点图(3D scatterplots)
三个变量间的关系—气泡图(bubble chart)
多变量数据—雷达图
转载请注明:陈童的博客 » 集体智慧算法——统计学基础1