统计学

统计学是一门有关收集、处理、分析、解释和展示数据的学科。统计分析数据所用的方法大体上可分为两大类：

描述统计（descriptive statistics）是研究如何收集、处理、展示数据的统计学方法。
推断统计（inferential statistics）是研究如何利用样本数据来推断总体特征的统计学方法。

简介

时间轴

数据

描述统计

位置度量

名称	描述	常用表示方法	公式
平均数 mean	也叫算数平均数，是一组数据的数值之和除以个数。	样本平均数：[math]\displaystyle{ \overline{x} }[/math] 样本个数：n 总体平均数：[math]\displaystyle{ \mu }[/math] 总体个数：N	[math]\displaystyle{ \overline{x} = \frac{\sum{x}_{i}}{n} = \tfrac{x_1 + x_2 + x_3 \ldots + x_n}{n} }[/math] [math]\displaystyle{ \mu = \frac{\sum{x}_{i}}{N} = \tfrac{x_1 + x_2 + x_3 \ldots + x_N}{N} }[/math]
加权平均数 weighted mean	类似算术平均数，算数平均每个数据的权重都为[math]\displaystyle{ \frac{1}{n} }[/math]，但加权平均数会根据每个数据的重要性分配权重。	样本平均数：[math]\displaystyle{ \overline{x} }[/math] 样本个数：n 总体平均数：[math]\displaystyle{ \mu }[/math] 总体个数：N	假设一组数据：[math]\displaystyle{ x_1, x_2, \dots , x_n }[/math] 权重为[math]\displaystyle{ w_1, w_2, \dots, w_n }[/math] [math]\displaystyle{ \bar{x} = \frac{ \sum_{i=1}^n w_i x_i}{\sum_{i=1}^n w_i} = \frac{w_1 x_1 + w_2 x_2 + \cdots + w_n x_n}{w_1 + w_2 + \cdots + w_n} }[/math]
几何平均数 geometric mean	是n个数据乘积的n次方根。几何平均数比算术平均数更适合用于指数增长和变化的增长值；在商业中，几何平均数的增长率被称为复合年均增长率(CAGR)。	样本几何平均数：[math]\displaystyle{ \overline{x}_g }[/math] 样本个数：n 总体几何平均数：[math]\displaystyle{ \mu_g }[/math] 总体个数：N	[math]\displaystyle{ \overline{x}_g = \sqrt[n]{x_1 x_2 \cdots x_n}=({x_1 x_2 \cdots x_n})^{\frac{1}{n}} }[/math] 简洁记法：[math]\displaystyle{ \overline{x}_g = \left(\prod_{i=1}^n x_i\right)^\frac{1}{n} }[/math]
调和平均数 harmonic mean	是将所有数值取倒数并求其算术平均数后，再将此算术平均数取倒数。一般是在计算平均速率时使用。	[math]\displaystyle{ H }[/math]	[math]\displaystyle{ H = \left(\frac{x_1^{-1} + x_2^{-1} + ... + x_n^{-1}}{n}\right)^{-1} = \frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + ... + \frac{1}{x_n}} }[/math] 简记：[math]\displaystyle{ H = \frac{n}{\sum_{i=1}^n \frac{1}{x_i}} }[/math]
调整平均数 trimmed mean 或truncated mean	是删除数据的最高和最低端的一部分数值后，再计算平均值。如丢弃最高5%和最低5%的数据再计算平均值。
中位数 median	也叫中值，是一组数据按数值大小排序后，位于正中间的数，如果正中间有2个数，取这2个数的平均值。	[math]\displaystyle{ M_e }[/math]	设一组数据：[math]\displaystyle{ x_1, x_2, \dots , x_n }[/math]。按大小顺序（升序或降序）排列后为：[math]\displaystyle{ x'_1, x'_2, \dots , x'_n }[/math] [math]\displaystyle{ \mathrm{M_e} = \begin{cases} x'_\frac{n + 1}{2}, & \mbox{n为奇数} \\ \frac{1}{2}( x'_\frac{n}{2} + x'_{\frac{n}{2} + 1}), & \mbox{n为偶数} \end{cases} }[/math]
众数 mode	指一组数据中出现次数最多的数据值。
百分位数 percentile	将一组数据从小到大排序，并计算相应的累计百分位，某一百分位所对应数据的值就称为这一百分位的百分位数。	[math]\displaystyle{ P_k }[/math] 表示第k百分位数
四分位数 quartiles	是把所有数值按大小排序并分成四等份，处于三个分割点位置的数值就是四分位数。 [math]\displaystyle{ Q_1 }[/math]为第一四分位数（即第25百分位数） [math]\displaystyle{ Q_2 }[/math]为第二四分位数（即第50百分位数或中位数） *[math]\displaystyle{ Q_3 }[/math]为第三四分位数（即第75百分位数）	[math]\displaystyle{ Q_1 }[/math] [math]\displaystyle{ Q_2 }[/math] [math]\displaystyle{ Q_3 }[/math]

离散程度

名称	描述	常用表示方法	公式
极差 range	是最大值减最小值后所得数值。
四分位数间距 interquartile range	是第三四分位数[math]\displaystyle{ Q_3 }[/math]减第一四分位数[math]\displaystyle{ Q_1 }[/math]所得的数值。也就是一组数据排序后中间50%的数据的极差。	[math]\displaystyle{ IQR }[/math]	[math]\displaystyle{ IQR = Q_3-Q_1 }[/math]
方差 variance	是每个值与平均值之间差的平方和，再除以个数N，对于样本除以n-1。	样本方差：[math]\displaystyle{ s^2 }[/math] 样本平均数：[math]\displaystyle{ \overline{x} }[/math] 样本个数：n 总体方差：[math]\displaystyle{ \sigma^2 }[/math] 总体平均数：[math]\displaystyle{ \mu }[/math] 总体个数：N	[math]\displaystyle{ \sigma^2 = \frac{\sum{(x_i - \mu)^2} }{N} }[/math] [math]\displaystyle{ s^2 = \frac{\sum{(x_i - \overline{x})^2} }{n-1} }[/math]
标准差 standard deviation	是方差的平方根。	样本标准差：[math]\displaystyle{ s }[/math] 总体标准差：[math]\displaystyle{ \sigma }[/math]	[math]\displaystyle{ s = \sqrt{s^2} }[/math] [math]\displaystyle{ \sigma = \sqrt{\sigma^2} }[/math]
变异系数 coefficient of variation	又称标准差系数，是标准差归一化度量，通常表示为百分比。它是标准差[math]\displaystyle{ \sigma }[/math]与平均值[math]\displaystyle{ \mu }[/math]之比。

分布形态

名称	描述	常用表示方法	公式
偏度 skewness
峰度 kurtosis
z-分数 z-score	也叫标准分数(standard score)，是用来计算一个数据点的相对位置，即该值与平均值距离多少个标准差。	z	[math]\displaystyle{ z_i = {x_i - \mu \over \sigma} }[/math] [math]\displaystyle{ z_i = \frac{x_i-\bar{x}}{s} }[/math]

图形

概率

概率基本概念

概率（probability）是对事件发生的可能性的度量，是0至1闭区间内的数字。

名称	描述	示例
试验 experiment
随机事件 random event	简称事件，在一次随机试验中，可能出现也有可能不出现的某个特定事件。常用大写字母A、B、C等表示。
确定事件	确定事件可分为2类： * 必然事件（certain event），在一定的条件下重复进行试验时，每次试验中必然出现的事件。用Ω表示 * 不可能事件（impossible event），在一定的条件下重复进行试验时，每次试验中不可能出现的事件。用Ф表示确定事件的概率为1或0，但概率为0或1的事件不一定为确定事件。
样本点 sample point	也叫基本事件（elementary event），	抛硬币有2个样本点：正面和反面。
样本空间 sample space	是试验所有可能结果的集合。常用S、Ω或U表示	掷骰子的样本空间 [math]\displaystyle{ S = \{1,2,3,4,5,6\} }[/math]
事件的补 complement	是所有不包含该事件的样本点。使用c表示，如事件[math]\displaystyle{ A }[/math]的补为 [math]\displaystyle{ A^c }[/math]。
两个事件的并 union	属于第一个事件或第二事件或同时属于二者的样本点构成的事件。使用[math]\displaystyle{ \cup }[/math]表示，如事件[math]\displaystyle{ A }[/math]和事件[math]\displaystyle{ B }[/math]的并为[math]\displaystyle{ {A}\cup{B} }[/math]。
两个事件的交 intersection	同时属于两个事件的样本点构成的事件。使用[math]\displaystyle{ \cap }[/math]表示，如事件[math]\displaystyle{ A }[/math]和事件[math]\displaystyle{ B }[/math]的交为[math]\displaystyle{ {A}\cap{B} }[/math]。
条件概率 conditional probability	在某事件发生的条件下，该事件的概率。使用[math]\displaystyle{ \| }[/math]表示，如[math]\displaystyle{ P(A\|B) }[/math]表示事件B发生的条件下事件A发生的概率。
独立事件 independent events	一个事件发生的概率不受另一个事件的是否发生影响，则称这两个事件为独立事件。如果事件A和事件B相互独立，则[math]\displaystyle{ P(A\|B) = P(A) }[/math]或[math]\displaystyle{ P(B\|A) = P(B) }[/math]

计数法则

方法	描述	示例
加法法则 addition principle
乘法法则 multiplication principle	事件A有m种试验结果（样本点），事件B有n种试验结果，且事件A与事件B相互独立，则事件A与B有 [math]\displaystyle{ {m}\times{n} }[/math]种试验结果。多步骤试验（multiple-step experiment）适用乘法法则。	如抛掷3枚硬币，抛第一枚有2种试验结果，抛第二枚有2种试验结果，抛第三枚也有2种结果，所以一共有[math]\displaystyle{ {2}\times{2}\times{2}=8 }[/math]种试验结果
组合 combinations	从N项中选取n项（0≤n≤N）的试验，选取的n个元素为一个组合。可以使用组合计数法则计算试验结果数： [math]\displaystyle{ C_{N}^{n} = {N\choose n} = \frac{N!}{n!(N-n)!} }[/math] 符号“[math]\displaystyle{ ! }[/math]”表示阶乘，如3的阶乘[math]\displaystyle{ 3! = {1}\times{2}\times{3} = 6 }[/math]。并且定义[math]\displaystyle{ 0! = 1 }[/math]
排列 permutalions	从N项中选取n项（0≤n≤N）的试验，并且考虑选取的顺序，可以使用排列计数法则计算实验结果数： [math]\displaystyle{ P_{N}^{n} = n!{N\choose n} = \frac{n!}{(N-n)!} }[/math]

概率分配

方法	描述	示例
古典法 classical method	如果一个随机试验所包含的基本事件是有限的，且每个基本事件发生的可能性均相等，可以采用古典法进行概率分配。	如掷色子，假设A表示色子点数为1的事件，则[math]\displaystyle{ P(A)=\frac{1}{6} }[/math]，B表示色子点数<=2的事件，则[math]\displaystyle{ P(B)=\frac{2}{6} }[/math]
相对频数法 relative frequency method
主观法 subjective method

概率的性质与计算

名称	公式	描述
事件A的补	[math]\displaystyle{ P(A^c)=1-P(A) }[/math]
事件A与事件B的并	[math]\displaystyle{ \begin{align} P(A\cup B) & = P(A)+P(B)-P(A\cap B) \\ P(A\cup B) & = P(A)+P(B) \qquad\mbox{如果A和B为互斥事件} \\ \end{align} }[/math]	即加法公式（addition law）
事件A与事件B的交	[math]\displaystyle{ \begin{align} P(A\cap B) & = P(A\|B)P(B) = P(B\|A)P(A)\\ P(A\cap B) & = P(A)P(B) \qquad\mbox{如果A和B为独立事件}\\ \end{align} }[/math]	即乘法公式（multiplication law）
事件B发生的情况下事件A的概率	[math]\displaystyle{ P(A \mid B) = \frac{P(A \cap B)}{P(B)} = \frac{P(B\|A)P(A)}{P(B)} }[/math]
贝叶斯定理 Bayes's theorem

随机变量

随机变量（random variable）是将试验结果用数值表示。可分为2类：

离散型随机变量（discrete random variable），取值是有限的或者是可数无穷尽的值的随机变量。
连续型随机变量（continuous random variable），取值是全部实数或者由一部分区间组成的随机变量。

以下为随机变量的数字特征：

名称	描述	离散型随机变量
数学期望 expected value	简称期望或均值，通常使用[math]\displaystyle{ E(x) }[/math]或[math]\displaystyle{ \mu }[/math]表示	[math]\displaystyle{ E(x) = \sum{x}f(x) }[/math]
方差 variance
协方差

离散型概率分布

名称	描述	概率函数
伯努利分布 bernoulli distribution	也称两点分布或者0-1分布，
二项分布 binomial distribution	二项概率分布的简称，是n个独立的（成功或失败）试验中成功的次数的离散概率分布。其中每次试验的成功概率相同，用p表示。这样的单次成功或失败试验又称为伯努利试验，多次伯努利试验称为二项试验。	[math]\displaystyle{ f(x) = {n\choose x}p^x(1-p)^{n-x} }[/math] 其中x为成功的次数，n为试验的次数
泊松分布 poisson distribution	适合于描述一个时间段或空间随机事件发生的次数的概率分布。
几何分布 geometric distribution
超几何分布 hypergeometric distribution

连续型概率分布

名称	描述	概率函数	数学期望	方差
均匀分布 uniform distribution
正态分布 normal distribution	也称高斯分布，
指数分布 exponential distribution
卡方分布 chi-square distribution	也叫[math]\displaystyle{ \chi^2 }[/math]分布。[math]\displaystyle{ \chi }[/math]是第22个希腊字母，英语名称chi，读音与“开”相同。
学生t-分布 Student's t-distribution	简称t分布。
F分布 F-distribution
伽玛分布 Gamma distribution
Beta 分布 Beta distribution	也称B分布或贝塔分布。

参数估计

抽样与抽样分布

假设检验

方差分析

回归分析

时间序列分析

非参数统计

指数

资源

书籍

《商务与经济统计》- 戴维.安德森
《统计学》-贾俊平

参考

统计学

简介

时间轴

数据

描述统计

位置度量

离散程度

分布形态

图形

概率

概率基本概念

计数法则

概率分配

概率的性质与计算

随机变量

离散型概率分布

连续型概率分布

参数估计

抽样与抽样分布

假设检验

方差分析

回归分析

时间序列分析

非参数统计

指数

资源

相关网站

相关文章

书籍

参考

目录