统计学

统计学是一门有关收集、处理、分析、解释和展示数据的学科。统计分析数据所用的方法大体上可分为两大类:

  • 描述统计(descriptive statistics)是研究如何收集、处理、展示数据的统计学方法。
  • 推断统计(inferential statistics)是研究如何利用样本数据来推断总体特征的统计学方法。

简介

时间轴

数据

描述统计

位置度量

名称 常用表示方法 描述 公式
平均数
mean
样本:[math]\displaystyle{ \bar{x} }[/math]
总体:[math]\displaystyle{ \mu }[/math]
也叫算数平均数,是一组数据的数值之和除以个数。 [math]\displaystyle{ \bar{x} = \frac{\sum{x}_{i}}{n} = \tfrac{x_1 + x_2 + x_3 \ldots + x_n}{n} }[/math]

[math]\displaystyle{ \mu = \frac{\sum{x}_{i}}{N} = \tfrac{x_1 + x_2 + x_3 \ldots + x_N}{N} }[/math]

注:式中n为样本个数,N为总体个数
加权平均数
weighted mean
样本:[math]\displaystyle{ \bar{x} }[/math]
总体:[math]\displaystyle{ \mu }[/math]
类似算术平均数,算数平均每个数据的权重都为[math]\displaystyle{ \frac{1}{n} }[/math],但加权平均数会根据每个数据的重要性分配权重。 假设一组数据:[math]\displaystyle{ x_1, x_2, \dots , x_n }[/math] 权重为[math]\displaystyle{ w_1, w_2, \dots, w_n }[/math]
[math]\displaystyle{ \bar{x} = \frac{ \sum_{i=1}^n w_i x_i}{\sum_{i=1}^n w_i} = \frac{w_1 x_1 + w_2 x_2 + \cdots + w_n x_n}{w_1 + w_2 + \cdots + w_n} }[/math]

注:式中n为样本个数,N为总体个数
几何平均数
geometric mean
样本:[math]\displaystyle{ \bar{x}_g }[/math]
总体:[math]\displaystyle{ \mu_g }[/math]
是n个数据乘积的n次方根。几何平均数比算术平均数更适合用于指数增长和变化的增长值;在商业中,几何平均数的增长率被称为复合年均增长率(CAGR)。 [math]\displaystyle{ \bar{x}_g = \sqrt[n]{x_1 x_2 \cdots x_n}=({x_1 x_2 \cdots x_n})^{\frac{1}{n}} }[/math]

简洁记法:[math]\displaystyle{ \bar{x}_g = \left(\prod_{i=1}^n x_i\right)^\frac{1}{n} }[/math]
注:式中n为样本个数,N为总体个数
调和平均数
harmonic mean
[math]\displaystyle{ H }[/math] 是将所有数值取倒数并求其算术平均数后,再将此算术平均数取倒数。一般是在计算平均速率时使用。 [math]\displaystyle{ H = \left(\frac{x_1^{-1} + x_2^{-1} + ... + x_n^{-1}}{n}\right)^{-1} = \frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + ... + \frac{1}{x_n}} }[/math]

简记:[math]\displaystyle{ H = \frac{n}{\sum_{i=1}^n \frac{1}{x_i}} }[/math]
调整平均数
trimmed mean
或truncated mean
是删除数据的最高和最低端的一部分数值后,再计算平均值。如丢弃最高5%和最低5%的数据再计算平均值。
中位数
median
[math]\displaystyle{ M_e }[/math]
也叫中值,是一组数据按数值大小排序后,位于正中间的数,如果正中间有2个数,取这2个数的平均值。 设一组数据:[math]\displaystyle{ x_1, x_2, \dots , x_n }[/math]。按大小顺序(升序或降序)排列后为:[math]\displaystyle{ x'_1, x'_2, \dots , x'_n }[/math]
[math]\displaystyle{ \mathrm{M_e} = \begin{cases} x'_\frac{n + 1}{2}, & \mbox{n为奇数} \\ \frac{1}{2}( x'_\frac{n}{2} + x'_{\frac{n}{2} + 1}), & \mbox{n为偶数} \end{cases} }[/math]
众数
mode
指一组数据中出现次数最多的数据值。
百分位数
percentile
[math]\displaystyle{ P_k }[/math]
表示第k百分位数
将一组数据从小到大排序,并计算相应的累计百分位,某一百分位所对应数据的值就称为这一百分位的百分位数。
四分位数
quartiles
[math]\displaystyle{ Q_1 }[/math]
[math]\displaystyle{ Q_2 }[/math]
[math]\displaystyle{ Q_3 }[/math]
是把所有数值按大小排序并分成四等份,处于三个分割点位置的数值就是四分位数。
*[math]\displaystyle{ Q_1 }[/math]为第一四分位数(即第25百分位数)
*[math]\displaystyle{ Q_2 }[/math]为第二四分位数(即第50百分位数或中位数)
*[math]\displaystyle{ Q_3 }[/math]为第三四分位数(即第75百分位数)

离散程度

名称 常用表示方法 描述 公式
极差
range
是最大值减最小值后所得数值。
四分位数间距
interquartile range
[math]\displaystyle{ IQR }[/math] 是第三四分位数[math]\displaystyle{ Q_3 }[/math]减第一四分位数[math]\displaystyle{ Q_1 }[/math]所得的数值。也就是一组数据排序后中间50%的数据的极差。 [math]\displaystyle{ IQR = Q_3-Q_1 }[/math]
方差
variance
样本:[math]\displaystyle{ s^2 }[/math]
总体:[math]\displaystyle{ \sigma^2 }[/math]
是每个值与平均值之间差的平方和,再除以个数N,对于样本除以n-1。 [math]\displaystyle{ \sigma^2 = \frac{\sum{(x_i - \mu)^2} }{N} }[/math]

[math]\displaystyle{ s^2 = \frac{\sum{(x_i - \bar{x})^2} }{n-1} }[/math]

注:式中n为样本个数,N为总体个数,[math]\displaystyle{ \bar{x} }[/math]为样本平均数,[math]\displaystyle{ \mu }[/math]为总体平均数
标准差
standard deviation
样本:[math]\displaystyle{ s }[/math]
总体:[math]\displaystyle{ \sigma }[/math]
是方差的平方根。 [math]\displaystyle{ s = \sqrt{s^2} }[/math]
[math]\displaystyle{ \sigma = \sqrt{\sigma^2} }[/math]
标准差系数
coefficient of variation
[math]\displaystyle{ c_v }[/math] 又称变异系数,是标准差归一化度量,通常表示为百分比。它是标准差[math]\displaystyle{ \sigma }[/math]与平均值[math]\displaystyle{ \mu }[/math]之比。 [math]\displaystyle{ c_v = {\sigma \over \mu } }[/math]

两变量间关系

名称 常用表示方法 描述 公式
协方差
covariance
样本:[math]\displaystyle{ s_{xy} }[/math]
总体:[math]\displaystyle{ \sigma_{xy} }[/math]
相关系数
correlation coefficient
样本:[math]\displaystyle{ r_{xy} }[/math]
总体:[math]\displaystyle{ \rho_{xy} }[/math]
指皮尔逊积矩相关系数,

分布形态

名称 常用表示方法 描述 公式
偏度
skewness
峰度
kurtosis
z-分数
z-score
z 也叫标准分数(standard score),是用来计算一个数据点的相对位置,即该值与平均值距离多少个标准差。 [math]\displaystyle{ z_i = {x_i - \mu \over \sigma} }[/math]

[math]\displaystyle{ z_i = \frac{x_i-\bar{x}}{s} }[/math]

图形

概率

概率基本概念

概率(probability)是对事件发生的可能性的度量,是0至1闭区间内的数字。

名称 描述 示例
试验
experiment
随机事件
random event
简称事件,在一次随机试验中,可能出现也有可能不出现的某个特定事件。常用大写字母A、B、C等表示。
确定事件 确定事件可分为2类:
* 必然事件(certain event),在一定的条件下重复进行试验时,每次试验中必然出现的事件。用Ω表示
* 不可能事件(impossible event),在一定的条件下重复进行试验时,每次试验中不可能出现的事件。用Ф表示
确定事件的概率为1或0,但概率为0或1的事件不一定为确定事件。
样本点
sample point
也叫基本事件(elementary event), 抛硬币有2个样本点:正面反面
样本空间
sample space
是试验所有可能结果的集合。常用SΩU表示 掷骰子的样本空间 [math]\displaystyle{ S = \{1,2,3,4,5,6\} }[/math]
事件的补
complement
是所有不包含该事件的样本点。使用c表示,如事件[math]\displaystyle{ A }[/math]的补为 [math]\displaystyle{ A^c }[/math]
两个事件的并
union
属于第一个事件或第二事件或同时属于二者的样本点构成的事件。使用[math]\displaystyle{ \cup }[/math]表示,如事件[math]\displaystyle{ A }[/math]和事件[math]\displaystyle{ B }[/math]的并为[math]\displaystyle{ {A}\cup{B} }[/math]
两个事件的交
intersection
同时属于两个事件的样本点构成的事件。使用[math]\displaystyle{ \cap }[/math]表示,如事件[math]\displaystyle{ A }[/math]和事件[math]\displaystyle{ B }[/math]的交为[math]\displaystyle{ {A}\cap{B} }[/math]
条件概率
conditional probability
在某事件发生的条件下,该事件的概率。使用[math]\displaystyle{ | }[/math]表示,如[math]\displaystyle{ P(A|B) }[/math]表示事件B发生的条件下事件A发生的概率。
独立事件
independent events
一个事件发生的概率不受另一个事件的是否发生影响,则称这两个事件为独立事件。如果事件A和事件B相互独立,则[math]\displaystyle{ P(A|B) = P(A) }[/math][math]\displaystyle{ P(B|A) = P(B) }[/math]

计数法则

方法 描述 示例
加法法则
addition principle
乘法法则
multiplication principle
事件A有m种试验结果(样本点),事件B有n种试验结果,且事件A与事件B相互独立,则事件A与B有 [math]\displaystyle{ {m}\times{n} }[/math]种试验结果。多步骤试验(multiple-step experiment)适用乘法法则。 如抛掷3枚硬币,抛第一枚有2种试验结果,抛第二枚有2种试验结果,抛第三枚也有2种结果,所以一共有[math]\displaystyle{ {2}\times{2}\times{2}=8 }[/math]种试验结果
组合
combinations
从N项中选取n项(0≤n≤N)的试验,选取的n个元素为一个组合。可以使用组合计数法则计算试验结果数:
[math]\displaystyle{ C_{N}^{n} = {N\choose n} = \frac{N!}{n!(N-n)!} }[/math]
符号“[math]\displaystyle{ ! }[/math]”表示阶乘,如3的阶乘[math]\displaystyle{ 3! = {1}\times{2}\times{3} = 6 }[/math]。并且定义[math]\displaystyle{ 0! = 1 }[/math]
排列
permutations
从N项中选取n项(0≤n≤N)的试验,并且考虑选取的顺序,可以使用排列计数法则计算实验结果数:
[math]\displaystyle{ P_{N}^{n} = n!{N\choose n} = \frac{n!}{(N-n)!} }[/math]

概率分配

方法 描述 示例
古典法
classical method
如果一个随机试验所包含的基本事件是有限的,且每个基本事件发生的可能性均相等,可以采用古典法进行概率分配。 如掷色子,假设A表示色子点数为1的事件,则[math]\displaystyle{ P(A)=\frac{1}{6} }[/math],B表示色子点数<=2的事件,则[math]\displaystyle{ P(B)=\frac{2}{6} }[/math]
相对频数法
relative frequency method
主观法
subjective method

概率的性质与计算

名称 公式 描述
事件A的补 [math]\displaystyle{ P(A^c)=1-P(A) }[/math]
事件A与事件B的并 [math]\displaystyle{ \begin{align} P(A\cup B) & = P(A)+P(B)-P(A\cap B) \\ P(A\cup B) & = P(A)+P(B) \qquad\mbox{如果A和B为互斥事件} \\ \end{align} }[/math] 加法公式(addition law)
事件A与事件B的交 [math]\displaystyle{ \begin{align} P(A\cap B) & = P(A|B)P(B) = P(B|A)P(A)\\ P(A\cap B) & = P(A)P(B) \qquad\mbox{如果A和B为独立事件}\\ \end{align} }[/math] 乘法公式(multiplication law)
事件B发生的情况下事件A的概率 [math]\displaystyle{ P(A \mid B) = \frac{P(A \cap B)}{P(B)} = \frac{P(B|A)P(A)}{P(B)} }[/math]
贝叶斯定理
Bayes's theorem


随机变量

随机变量(random variable)是将试验结果用数值表示。可分为2类:

  • 离散型随机变量(discrete random variable),取值是有限的或者是可数无穷尽的值的随机变量。
  • 连续型随机变量(continuous random variable),取值是全部实数或者由一部分区间组成的随机变量。

以下为随机变量的数字特征:

名称 描述 离散型随机变量 连续型随机变量
数学期望
expected value
简称期望或均值,通常使用[math]\displaystyle{ E(x) }[/math][math]\displaystyle{ \mu }[/math]表示 [math]\displaystyle{ E(x) = \sum{x}f(x) }[/math]
方差
variance
协方差

离散型概率分布

名称 描述 概率函数 数学期望 方差
伯努利分布
bernoulli distribution
也称两点分布或者0-1分布
二项分布
binomial distribution
二项概率分布的简称,是n个独立的(成功失败)试验中成功的次数的离散概率分布。其中每次试验的成功概率相同,用p表示。这样的单次成功或失败试验又称为伯努利试验,多次伯努利试验称为二项试验。 [math]\displaystyle{ f(x) = {n\choose x}p^x(1-p)^{n-x} }[/math]
其中x为成功的次数,n为试验的次数
泊松分布
poisson distribution
适合于描述一个时间段或空间随机事件发生的次数的概率分布。
几何分布
geometric distribution
超几何分布
hypergeometric distribution

连续型概率分布

名称 描述 概率函数 数学期望 方差
均匀分布
uniform distribution
正态分布
normal distribution
也称高斯分布,
指数分布
exponential distribution
卡方分布
chi-square distribution
也叫[math]\displaystyle{ \chi^2 }[/math]分布[math]\displaystyle{ \chi }[/math]是第22个希腊字母,英语名称chi,读音与“开”相同。
t分布
t-distribution
也叫Student t-分布(Student's t-distribution)。
F分布
F-distribution
伽玛分布
Gamma distribution
Beta 分布
Beta distribution
也称B分布或贝塔分布。

抽样与抽样分布

基本概念

名称 描述 示例
抽样
sampling
是从总体(目标总体)中抽取一部分个体作为样本(Sample)
目标总体
target population
简称总体(population),是所有要研究的个体的集合,即进行统计推断的总体。总体按个体的数目可分为2类:
*有限总体
*无限总体
抽样总体
sample population
实际抽取样本的总体。使用样本去推断总体时,应该确保抽样总体与目标总体尽可能相似。
抽样框
frame
样本
sample
总体的一个子集,通过样本可以推测出总体的情况。样本可分为:
单样本(one sample),从一个总体中抽取的样本。
独立样本(independent sample),从两个总体中独立抽取的两个样本,两个样本抽取时是相互独立的。
配对样本(matched sample),也称匹配样本,两个样本的值是相对应的。如一组病人服药前数据和服药后数据,一组工人使用方法A的数据和方法B的数据。
样本容量
sample size
也称样本的大小,是样本中个体的数目。通常用n表示
总体参数
parameter
总体的数值特征,如总体平均值[math]\displaystyle{ \mu }[/math]、总体标准差[math]\displaystyle{ \sigma }[/math]和总体比率[math]\displaystyle{ p }[/math]等。
样本统计量
sample statistic
样本的数值特征,如样本平均值[math]\displaystyle{ \bar{x} }[/math]、总体标准差[math]\displaystyle{ s }[/math]和总体比率[math]\displaystyle{ \overline{p} }[/math]等。

抽样方法

名称 描述 示例
简单随机抽样
simple random sampling
也叫纯随机抽样。从总体N个个体中随机地抽取n个个体作为样本,使每个个体都有相同的概率被抽中。
系统抽样
systematic sampling
也称等距抽样或机械抽样。将总体中的所有个体按一定顺序排列,在规定的范围内随机地抽取一个个体作为初始个体,然后按事先规定好的规则确定其他样本个体。
分层抽样
stratified sampling
将抽样个体按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。从而保证样本的结构与总体的结构比较相近,从而提高估计的精度。
整群抽样
cluster sampling
将总体分为若干个群,然后从若干个群中随机抽取1个或多个群。该可简化工作量,缺点是估计的精度较差。 调查中学生患近视眼的情况,随机抽取某一个班进行调查。

抽样分布

参数估计

基本概念

名称 描述 示例
参数估计
parameter estimation
是使用样本统计量来估计总体参数。分为点估计和区间估计。
点估计
point estimation
是使用某个样本统计量估计某个总体参数。比如使用样本平均值[math]\displaystyle{ \bar{x} }[/math]直接作为总体平均值[math]\displaystyle{ \mu }[/math]的估计。
区间估计
interval estimation
总体参数估计的一个区间范围,是点估计加减一个估计误差得到。
置信水平
confidence level
也称置信度或置信系数,是置信区间中包含总体参数真值的概率。如95%置信水平表示我们相信总体参数的真值有95%的概率落在置信区间。
置信区间
confidence interval
是在某个置信水平下构造的区间估计。如95%置信区间表示95%置信水平下的区间。

点估计

一个总体区间估计

区间估计 适用情况 公式 描述
总体均值 [math]\displaystyle{ \mu }[/math] 总体标准差[math]\displaystyle{ \sigma }[/math]已知 [math]\displaystyle{ \bar{x} \pm z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} }[/math] 当总体服从或近似正态分布,可以使用小样本容量。
当总体不服从正态分布,该公式给出的置信区间是近似的,一般样本容量[math]\displaystyle{ n \ge 30 }[/math]时也可以使用。
总体标准差[math]\displaystyle{ \sigma }[/math]未知 [math]\displaystyle{ \bar{x} \pm t_{\alpha / 2} \frac{s}{\sqrt{n}} }[/math] 当总体服从或近似正态分布,所给的置信区间是精确的,小样本容量可以使用。
当不知道总体是否服从正态分布,样本也没发现偏斜或异常点,小样本容量也可以使用。
当总体不服从正态分布,该公式给出的置信区间是近似的,一般样本容量[math]\displaystyle{ n \ge 30 }[/math]时也可以使用,如果总体分布严重偏斜或包含异常点建议样本容量[math]\displaystyle{ n \ge 50 }[/math]或更多。

原理:利用s估计[math]\displaystyle{ \sigma }[/math],利用t分布求出置信区间。虽然t分布是建立在抽样总体服从正态分布的基础上,但研究表明总体分布偏离正态分布下,利用t分布的结果还是相当不错。
总体标准差[math]\displaystyle{ \sigma }[/math]未知,样本容量大 [math]\displaystyle{ \bar{x} \pm z_{\alpha / 2} \frac{s}{\sqrt{n}} }[/math] 一般样本容量[math]\displaystyle{ n \ge 30 }[/math],如果总体分布严重偏斜或包含异常点建议样本容量[math]\displaystyle{ n \ge 50 }[/math]或更多。
总体比率 [math]\displaystyle{ p }[/math] [math]\displaystyle{ \overline{p} \pm z_{\alpha / 2} \sqrt{\frac{\overline{p}(1-\overline{p})}{n}} }[/math]
总体方差 [math]\displaystyle{ \sigma^2 }[/math] [math]\displaystyle{ \frac{(n-1) s^{2}}{\chi_{\alpha / 2}^{2}} \leq \sigma^{2} \leq \frac{(n-1) s^{2}}{\chi_{(1-\alpha / 2)}^{2}} }[/math] 式中,[math]\displaystyle{ 1-\alpha }[/math]为置信水平,[math]\displaystyle{ \chi^2 }[/math]值为小于等于下标概率的自由度n-1的卡方分布值。

两个总体区间估计

区间估计 适用情况 公式 描述
两个总体均值之差 [math]\displaystyle{ {\mu}_1 - {\mu}_2 }[/math] 2个总体标准差[math]\displaystyle{ \sigma_1,\sigma_2 }[/math]已知 [math]\displaystyle{ \left(\bar{x}_{1}-\bar{x}_{2}\right) \pm z_{\alpha / 2} \sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}} }[/math] 当两总体服从或近似正态分布,可以使用小样本容量。
当总体不服从正态分布,该公式给出的置信区间是近似的,一般样本容量都大于30时也可以使用。
2个总体标准差[math]\displaystyle{ \sigma_1,\sigma_2 }[/math]未知 [math]\displaystyle{ \left(\bar{x}_{1}-\bar{x}_{2}\right) \pm t_{\alpha / 2} \sqrt{\frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}} }[/math]
配对样本 [math]\displaystyle{ \bar{d} \pm z_{\alpha / 2} \frac{\sigma_{d}}{\sqrt{n}} }[/math]
两个总体比率之差 [math]\displaystyle{ p_1 - p_2 }[/math] [math]\displaystyle{ \left(\bar{p}_{1}-\bar{p}_{2}\right) \pm z_{\alpha / 2} \sqrt{\frac{\bar{p}_{1}\left(1-\bar{p}_{1}\right)}{n_{1}}+\frac{\bar{p}_{2}\left(1-\bar{p}_{2}\right)}{n_{2}}} }[/math]
两个总体方差之比 [math]\displaystyle{ \frac{{\sigma_1}^2}{{\sigma_2}^2} }[/math] [math]\displaystyle{ \frac{s_{1}^{2} / s_{2}^{2}}{F_{\alpha / 2}} \leq \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}} \leq \frac{s_{1}^{2} / s_{2}^{2}}{F_{(1-\alpha / 2)}} }[/math] 式中,[math]\displaystyle{ 1-\alpha }[/math]为置信水平,[math]\displaystyle{ F }[/math]值为小于等于下标概率的自由度[math]\displaystyle{ (n_1-1, n_2-1) }[/math]F分布值。

假设检验

基本概念

名称 描述
假设检验
hypothesis testing
是对总体参数提出某种假设,然后利用样本信息判断假设是否成立。
假设 做假设检验时,首先对总体提出两个相反假设:
*原假设(null hypothesis),也叫零假设,记为[math]\displaystyle{ H_0 }[/math]
*备择假设(Alternative hypothesis),也叫对立假设,记为[math]\displaystyle{ H_{a} }[/math][math]\displaystyle{ H_1 }[/math]
两类错误 因为是根据样本的统计信息去推断总体信息,所以假设检验的结果可能会存在两类错误:
*第一类错误(Type I error),也叫α错误或假阳性,是原假设[math]\displaystyle{ H_0 }[/math]是正确的,却拒绝了原假设,即弃真。
*第二类错误(Type II error),也叫β错误或假阴性,是原假设[math]\displaystyle{ H_0 }[/math]是错误的,却没有拒绝原假设,即存伪。
检验统计量
显著性水平
拒绝域

假设检验方法

方法 描述
t检验
t test
又称student t检验
卡方检验 又称[math]\displaystyle{ \chi^2 }[/math]检验
F检验

一个总体

两个总体

方差分析

基本概念

名称 描述
方差分析
Analysis of variance
简称ANOVA,通过两个及两个以上样本均值差别的假设检验,判断多个总体均值是否相等,即可得出分类型自变量对数值型因变量是否有显著影响。
单因子实验
single-factor experiment
是只对一个因子进行实验,而将其他因子都固定。
因子
factor
也称因素,即实验的自变量。
响应变量
response variable
即实验的因变量。
处理
treatments
也称水平,指因子的不同表现,即因子的不同选择方案(或称组)。

方差分析原理

方差分析有三个基本假定:

  • 1.每个总体服从正态分布。
  • 2.所有总体方差必须相同。
  • 3.观测值是独立的。


单因子方差分析

双因子方差分析

相关分析

回归分析

因子分析

时间序列分析

非参数统计

指数

资源

相关网站

相关文章

书籍

  • 《商务与经济统计》- 戴维.安德森
  • 《统计学》-贾俊平


参考