统计学

Eric讨论 | 贡献2021年5月18日 (二) 04:36的版本

统计学是一门有关收集、处理、分析、解释和展示数据的学科。统计分析数据所用的方法大体上可分为两大类:

  • 描述统计(descriptive statistics)是研究如何收集、处理、展示数据的统计学方法。
  • 推断统计(inferential statistics)是研究如何利用样本数据来推断总体特征的统计学方法。

简介

时间轴

数据

描述统计

位置度量

名称 描述 常用表示方法 公式
平均数
mean
也叫算数平均数,是一组数据的数值之和除以个数。 样本平均数:[math]\displaystyle{ \overline{x} }[/math]
样本个数:n

总体平均数:[math]\displaystyle{ \mu }[/math]
总体个数:N
[math]\displaystyle{ \overline{x} = \frac{\sum{x}_{i}}{n} = \tfrac{x_1 + x_2 + x_3 \ldots + x_n}{n} }[/math]

[math]\displaystyle{ \mu = \frac{\sum{x}_{i}}{N} = \tfrac{x_1 + x_2 + x_3 \ldots + x_N}{N} }[/math]
加权平均数
weighted mean
类似算术平均数,算数平均每个数据的权重都为[math]\displaystyle{ \frac{1}{n} }[/math],但加权平均数会根据每个数据的重要性分配权重。 样本平均数:[math]\displaystyle{ \overline{x} }[/math]
样本个数:n

总体平均数:[math]\displaystyle{ \mu }[/math]
总体个数:N
假设一组数据:[math]\displaystyle{ x_1, x_2, \dots , x_n }[/math] 权重为[math]\displaystyle{ w_1, w_2, \dots, w_n }[/math]
[math]\displaystyle{ \bar{x} = \frac{ \sum_{i=1}^n w_i x_i}{\sum_{i=1}^n w_i} = \frac{w_1 x_1 + w_2 x_2 + \cdots + w_n x_n}{w_1 + w_2 + \cdots + w_n} }[/math]
几何平均数
geometric mean
是n个数据乘积的n次方根。几何平均数比算术平均数更适合用于指数增长和变化的增长值;在商业中,几何平均数的增长率被称为复合年均增长率(CAGR)。 样本几何平均数:[math]\displaystyle{ \overline{x}_g }[/math]
样本个数:n

总体几何平均数:[math]\displaystyle{ \mu_g }[/math]
总体个数:N
[math]\displaystyle{ \overline{x}_g = \sqrt[n]{x_1 x_2 \cdots x_n}=({x_1 x_2 \cdots x_n})^{\frac{1}{n}} }[/math]

简洁记法:[math]\displaystyle{ \overline{x}_g = \left(\prod_{i=1}^n x_i\right)^\frac{1}{n} }[/math]
调和平均数
harmonic mean
是将所有数值取倒数并求其算术平均数后,再将此算术平均数取倒数。一般是在计算平均速率时使用。 [math]\displaystyle{ H }[/math] [math]\displaystyle{ H = \left(\frac{x_1^{-1} + x_2^{-1} + ... + x_n^{-1}}{n}\right)^{-1} = \frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + ... + \frac{1}{x_n}} }[/math]

简记:[math]\displaystyle{ H = \frac{n}{\sum_{i=1}^n \frac{1}{x_i}} }[/math]
调整平均数
trimmed mean
或truncated mean
是删除数据的最高和最低端的一部分数值后,再计算平均值。如丢弃最高5%和最低5%的数据再计算平均值。
中位数
median
也叫中值,是一组数据按数值大小排序后,位于正中间的数,如果正中间有2个数,取这2个数的平均值。 [math]\displaystyle{ M_e }[/math]
设一组数据:[math]\displaystyle{ x_1, x_2, \dots , x_n }[/math]。按大小顺序(升序或降序)排列后为:[math]\displaystyle{ x'_1, x'_2, \dots , x'_n }[/math]
[math]\displaystyle{ \mathrm{M_e} = \begin{cases} x'_\frac{n + 1}{2}, & \mbox{n为奇数} \\ \frac{1}{2}( x'_\frac{n}{2} + x'_{\frac{n}{2} + 1}), & \mbox{n为偶数} \end{cases} }[/math]
众数
mode
指一组数据中出现次数最多的数据值。
百分位数
percentile
将一组数据从小到大排序,并计算相应的累计百分位,某一百分位所对应数据的值就称为这一百分位的百分位数。 [math]\displaystyle{ P_k }[/math]
表示第k百分位数
四分位数
quartiles
是把所有数值按大小排序并分成四等份,处于三个分割点位置的数值就是四分位数。
*[math]\displaystyle{ Q_1 }[/math]为第一四分位数(即第25百分位数)
*[math]\displaystyle{ Q_2 }[/math]为第二四分位数(即第50百分位数或中位数)
*[math]\displaystyle{ Q_3 }[/math]为第三四分位数(即第75百分位数)
[math]\displaystyle{ Q_1 }[/math]
[math]\displaystyle{ Q_2 }[/math]
[math]\displaystyle{ Q_3 }[/math]

离散程度

名称 描述 常用表示方法 公式
极差
range
是最大值减最小值后所得数值。
四分位数间距
interquartile range
是第三四分位数[math]\displaystyle{ Q_3 }[/math]减第一四分位数[math]\displaystyle{ Q_1 }[/math]所得的数值。也就是一组数据排序后中间50%的数据的极差。 [math]\displaystyle{ IQR }[/math] [math]\displaystyle{ IQR = Q_3-Q_1 }[/math]
方差
variance
是每个值与平均值之间差的平方和,再除以个数N,对于样本除以n-1。 样本方差:[math]\displaystyle{ s^2 }[/math]
样本平均数:[math]\displaystyle{ \overline{x} }[/math]
样本个数:n

总体方差:[math]\displaystyle{ \sigma^2 }[/math]
总体平均数:[math]\displaystyle{ \mu }[/math]
总体个数:N
[math]\displaystyle{ \sigma^2 = \frac{\sum{(x_i - \mu)^2} }{N} }[/math]

[math]\displaystyle{ s^2 = \frac{\sum{(x_i - \overline{x})^2} }{n-1} }[/math]
标准差
standard deviation
是方差的平方根。 样本标准差:[math]\displaystyle{ s }[/math]

总体标准差:[math]\displaystyle{ \sigma }[/math]
[math]\displaystyle{ s = \sqrt{s^2} }[/math]

[math]\displaystyle{ \sigma = \sqrt{\sigma^2} }[/math]
变异系数
coefficient of variation
又称标准差系数,是标准差归一化度量,通常表示为百分比。它是标准差[math]\displaystyle{ \sigma }[/math]与平均值[math]\displaystyle{ \mu }[/math]之比。

分布形态

名称 描述 常用表示方法 公式
偏度
skewness
峰度
kurtosis
z-分数
z-score
也叫标准分数(standard score),是用来计算一个数据点的相对位置,即该值与平均值距离多少个标准差。 z [math]\displaystyle{ z_i = {x_i - \mu \over \sigma} }[/math]

[math]\displaystyle{ z_i = \frac{x_i-\bar{x}}{s} }[/math]

图形

概率与概率分布

概率基础

概率(probability)是对事件发生的可能性的度量,是0至1闭区间内的数字。

名称 描述 示例
试验
experiment
随机试验
随机事件
random event
简称事件,在一次随机试验中,可能出现也有可能不出现的某个特定事件。常用大写字母A、B、C等表示。
必然事件
certain event
不可能事件
impossible event
样本点
sample point
也叫基本事件(elementary event),
样本空间
sample space


离散型概率分布

连续型概率分布

参数估计

抽样与抽样分布

假设检验

方差分析

回归分析

时间序列分析

非参数统计

指数

资源

相关网站

相关文章

书籍

  • 《商务与经济统计》- 戴维.安德森
  • 《统计学(第三版)》-贾俊平


参考