统计学：修订间差异

2021年6月6日 (日) 10:37的版本

统计学是一门有关收集、处理、分析、解释和展示数据的学科。统计分析数据所用的方法大体上可分为两大类：

描述统计（descriptive statistics）是研究如何收集、处理、展示数据的统计学方法。
推断统计（inferential statistics）是研究如何利用样本数据来推断总体特征的统计学方法。

简介

时间轴

数据

描述统计

位置度量

名称	描述	常用表示方法	公式
平均数 mean	也叫算数平均数，是一组数据的数值之和除以个数。	样本平均数：[math]\displaystyle{ \bar{x} }[/math] 样本个数：n 总体平均数：[math]\displaystyle{ \mu }[/math] 总体个数：N	[math]\displaystyle{ \bar{x} = \frac{\sum{x}_{i}}{n} = \tfrac{x_1 + x_2 + x_3 \ldots + x_n}{n} }[/math] [math]\displaystyle{ \mu = \frac{\sum{x}_{i}}{N} = \tfrac{x_1 + x_2 + x_3 \ldots + x_N}{N} }[/math]
加权平均数 weighted mean	类似算术平均数，算数平均每个数据的权重都为[math]\displaystyle{ \frac{1}{n} }[/math]，但加权平均数会根据每个数据的重要性分配权重。	样本平均数：[math]\displaystyle{ \bar{x} }[/math] 样本个数：n 总体平均数：[math]\displaystyle{ \mu }[/math] 总体个数：N	假设一组数据：[math]\displaystyle{ x_1, x_2, \dots , x_n }[/math] 权重为[math]\displaystyle{ w_1, w_2, \dots, w_n }[/math] [math]\displaystyle{ \bar{x} = \frac{ \sum_{i=1}^n w_i x_i}{\sum_{i=1}^n w_i} = \frac{w_1 x_1 + w_2 x_2 + \cdots + w_n x_n}{w_1 + w_2 + \cdots + w_n} }[/math]
几何平均数 geometric mean	是n个数据乘积的n次方根。几何平均数比算术平均数更适合用于指数增长和变化的增长值；在商业中，几何平均数的增长率被称为复合年均增长率(CAGR)。	样本几何平均数：[math]\displaystyle{ \bar{x}_g }[/math] 样本个数：n 总体几何平均数：[math]\displaystyle{ \mu_g }[/math] 总体个数：N	[math]\displaystyle{ \bar{x}_g = \sqrt[n]{x_1 x_2 \cdots x_n}=({x_1 x_2 \cdots x_n})^{\frac{1}{n}} }[/math] 简洁记法：[math]\displaystyle{ \bar{x}_g = \left(\prod_{i=1}^n x_i\right)^\frac{1}{n} }[/math]
调和平均数 harmonic mean	是将所有数值取倒数并求其算术平均数后，再将此算术平均数取倒数。一般是在计算平均速率时使用。	[math]\displaystyle{ H }[/math]	[math]\displaystyle{ H = \left(\frac{x_1^{-1} + x_2^{-1} + ... + x_n^{-1}}{n}\right)^{-1} = \frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + ... + \frac{1}{x_n}} }[/math] 简记：[math]\displaystyle{ H = \frac{n}{\sum_{i=1}^n \frac{1}{x_i}} }[/math]
调整平均数 trimmed mean 或truncated mean	是删除数据的最高和最低端的一部分数值后，再计算平均值。如丢弃最高5%和最低5%的数据再计算平均值。
中位数 median	也叫中值，是一组数据按数值大小排序后，位于正中间的数，如果正中间有2个数，取这2个数的平均值。	[math]\displaystyle{ M_e }[/math]	设一组数据：[math]\displaystyle{ x_1, x_2, \dots , x_n }[/math]。按大小顺序（升序或降序）排列后为：[math]\displaystyle{ x'_1, x'_2, \dots , x'_n }[/math] [math]\displaystyle{ \mathrm{M_e} = \begin{cases} x'_\frac{n + 1}{2}, & \mbox{n为奇数} \\ \frac{1}{2}( x'_\frac{n}{2} + x'_{\frac{n}{2} + 1}), & \mbox{n为偶数} \end{cases} }[/math]
众数 mode	指一组数据中出现次数最多的数据值。
百分位数 percentile	将一组数据从小到大排序，并计算相应的累计百分位，某一百分位所对应数据的值就称为这一百分位的百分位数。	[math]\displaystyle{ P_k }[/math] 表示第k百分位数
四分位数 quartiles	是把所有数值按大小排序并分成四等份，处于三个分割点位置的数值就是四分位数。 [math]\displaystyle{ Q_1 }[/math]为第一四分位数（即第25百分位数） [math]\displaystyle{ Q_2 }[/math]为第二四分位数（即第50百分位数或中位数） *[math]\displaystyle{ Q_3 }[/math]为第三四分位数（即第75百分位数）	[math]\displaystyle{ Q_1 }[/math] [math]\displaystyle{ Q_2 }[/math] [math]\displaystyle{ Q_3 }[/math]

离散程度

名称	描述	常用表示方法	公式
极差 range	是最大值减最小值后所得数值。
四分位数间距 interquartile range	是第三四分位数[math]\displaystyle{ Q_3 }[/math]减第一四分位数[math]\displaystyle{ Q_1 }[/math]所得的数值。也就是一组数据排序后中间50%的数据的极差。	[math]\displaystyle{ IQR }[/math]	[math]\displaystyle{ IQR = Q_3-Q_1 }[/math]
方差 variance	是每个值与平均值之间差的平方和，再除以个数N，对于样本除以n-1。	样本方差：[math]\displaystyle{ s^2 }[/math] 样本平均数：[math]\displaystyle{ \bar{x} }[/math] 样本个数：n 总体方差：[math]\displaystyle{ \sigma^2 }[/math] 总体平均数：[math]\displaystyle{ \mu }[/math] 总体个数：N	[math]\displaystyle{ \sigma^2 = \frac{\sum{(x_i - \mu)^2} }{N} }[/math] [math]\displaystyle{ s^2 = \frac{\sum{(x_i - \bar{x})^2} }{n-1} }[/math]
标准差 standard deviation	是方差的平方根。	样本标准差：[math]\displaystyle{ s }[/math] 总体标准差：[math]\displaystyle{ \sigma }[/math]	[math]\displaystyle{ s = \sqrt{s^2} }[/math] [math]\displaystyle{ \sigma = \sqrt{\sigma^2} }[/math]
变异系数 coefficient of variation	又称标准差系数，是标准差归一化度量，通常表示为百分比。它是标准差[math]\displaystyle{ \sigma }[/math]与平均值[math]\displaystyle{ \mu }[/math]之比。

分布形态

名称	描述	常用表示方法	公式
偏度 skewness
峰度 kurtosis
z-分数 z-score	也叫标准分数(standard score)，是用来计算一个数据点的相对位置，即该值与平均值距离多少个标准差。	z	[math]\displaystyle{ z_i = {x_i - \mu \over \sigma} }[/math] [math]\displaystyle{ z_i = \frac{x_i-\bar{x}}{s} }[/math]

图形

概率

概率基本概念

概率（probability）是对事件发生的可能性的度量，是0至1闭区间内的数字。

名称	描述	示例
试验 experiment
随机事件 random event	简称事件，在一次随机试验中，可能出现也有可能不出现的某个特定事件。常用大写字母A、B、C等表示。
确定事件	确定事件可分为2类： * 必然事件（certain event），在一定的条件下重复进行试验时，每次试验中必然出现的事件。用Ω表示 * 不可能事件（impossible event），在一定的条件下重复进行试验时，每次试验中不可能出现的事件。用Ф表示确定事件的概率为1或0，但概率为0或1的事件不一定为确定事件。
样本点 sample point	也叫基本事件（elementary event），	抛硬币有2个样本点：正面和反面。
样本空间 sample space	是试验所有可能结果的集合。常用S、Ω或U表示	掷骰子的样本空间 [math]\displaystyle{ S = \{1,2,3,4,5,6\} }[/math]
事件的补 complement	是所有不包含该事件的样本点。使用c表示，如事件[math]\displaystyle{ A }[/math]的补为 [math]\displaystyle{ A^c }[/math]。
两个事件的并 union	属于第一个事件或第二事件或同时属于二者的样本点构成的事件。使用[math]\displaystyle{ \cup }[/math]表示，如事件[math]\displaystyle{ A }[/math]和事件[math]\displaystyle{ B }[/math]的并为[math]\displaystyle{ {A}\cup{B} }[/math]。
两个事件的交 intersection	同时属于两个事件的样本点构成的事件。使用[math]\displaystyle{ \cap }[/math]表示，如事件[math]\displaystyle{ A }[/math]和事件[math]\displaystyle{ B }[/math]的交为[math]\displaystyle{ {A}\cap{B} }[/math]。
条件概率 conditional probability	在某事件发生的条件下，该事件的概率。使用[math]\displaystyle{ \| }[/math]表示，如[math]\displaystyle{ P(A\|B) }[/math]表示事件B发生的条件下事件A发生的概率。
独立事件 independent events	一个事件发生的概率不受另一个事件的是否发生影响，则称这两个事件为独立事件。如果事件A和事件B相互独立，则[math]\displaystyle{ P(A\|B) = P(A) }[/math]或[math]\displaystyle{ P(B\|A) = P(B) }[/math]

计数法则

方法	描述	示例
加法法则 addition principle
乘法法则 multiplication principle	事件A有m种试验结果（样本点），事件B有n种试验结果，且事件A与事件B相互独立，则事件A与B有 [math]\displaystyle{ {m}\times{n} }[/math]种试验结果。多步骤试验（multiple-step experiment）适用乘法法则。	如抛掷3枚硬币，抛第一枚有2种试验结果，抛第二枚有2种试验结果，抛第三枚也有2种结果，所以一共有[math]\displaystyle{ {2}\times{2}\times{2}=8 }[/math]种试验结果
组合 combinations	从N项中选取n项（0≤n≤N）的试验，选取的n个元素为一个组合。可以使用组合计数法则计算试验结果数： [math]\displaystyle{ C_{N}^{n} = {N\choose n} = \frac{N!}{n!(N-n)!} }[/math] 符号“[math]\displaystyle{ ! }[/math]”表示阶乘，如3的阶乘[math]\displaystyle{ 3! = {1}\times{2}\times{3} = 6 }[/math]。并且定义[math]\displaystyle{ 0! = 1 }[/math]
排列 permutations	从N项中选取n项（0≤n≤N）的试验，并且考虑选取的顺序，可以使用排列计数法则计算实验结果数： [math]\displaystyle{ P_{N}^{n} = n!{N\choose n} = \frac{n!}{(N-n)!} }[/math]

概率分配

方法	描述	示例
古典法 classical method	如果一个随机试验所包含的基本事件是有限的，且每个基本事件发生的可能性均相等，可以采用古典法进行概率分配。	如掷色子，假设A表示色子点数为1的事件，则[math]\displaystyle{ P(A)=\frac{1}{6} }[/math]，B表示色子点数<=2的事件，则[math]\displaystyle{ P(B)=\frac{2}{6} }[/math]
相对频数法 relative frequency method
主观法 subjective method

概率的性质与计算

名称	公式	描述
事件A的补	[math]\displaystyle{ P(A^c)=1-P(A) }[/math]
事件A与事件B的并	[math]\displaystyle{ \begin{align} P(A\cup B) & = P(A)+P(B)-P(A\cap B) \\ P(A\cup B) & = P(A)+P(B) \qquad\mbox{如果A和B为互斥事件} \\ \end{align} }[/math]	即加法公式（addition law）
事件A与事件B的交	[math]\displaystyle{ \begin{align} P(A\cap B) & = P(A\|B)P(B) = P(B\|A)P(A)\\ P(A\cap B) & = P(A)P(B) \qquad\mbox{如果A和B为独立事件}\\ \end{align} }[/math]	即乘法公式（multiplication law）
事件B发生的情况下事件A的概率	[math]\displaystyle{ P(A \mid B) = \frac{P(A \cap B)}{P(B)} = \frac{P(B\|A)P(A)}{P(B)} }[/math]
贝叶斯定理 Bayes's theorem

随机变量

随机变量（random variable）是将试验结果用数值表示。可分为2类：

离散型随机变量（discrete random variable），取值是有限的或者是可数无穷尽的值的随机变量。
连续型随机变量（continuous random variable），取值是全部实数或者由一部分区间组成的随机变量。

以下为随机变量的数字特征：

名称	描述	离散型随机变量
数学期望 expected value	简称期望或均值，通常使用[math]\displaystyle{ E(x) }[/math]或[math]\displaystyle{ \mu }[/math]表示	[math]\displaystyle{ E(x) = \sum{x}f(x) }[/math]
方差 variance
协方差

离散型概率分布

名称	描述	概率函数
伯努利分布 bernoulli distribution	也称两点分布或者0-1分布，
二项分布 binomial distribution	二项概率分布的简称，是n个独立的（成功或失败）试验中成功的次数的离散概率分布。其中每次试验的成功概率相同，用p表示。这样的单次成功或失败试验又称为伯努利试验，多次伯努利试验称为二项试验。	[math]\displaystyle{ f(x) = {n\choose x}p^x(1-p)^{n-x} }[/math] 其中x为成功的次数，n为试验的次数
泊松分布 poisson distribution	适合于描述一个时间段或空间随机事件发生的次数的概率分布。
几何分布 geometric distribution
超几何分布 hypergeometric distribution

连续型概率分布

名称	描述	概率函数	数学期望	方差
均匀分布 uniform distribution
正态分布 normal distribution	也称高斯分布，
指数分布 exponential distribution
卡方分布 chi-square distribution	也叫[math]\displaystyle{ \chi^2 }[/math]分布。[math]\displaystyle{ \chi }[/math]是第22个希腊字母，英语名称chi，读音与“开”相同。
t分布 t-distribution	也叫Student t-分布（Student's t-distribution）。
F分布 F-distribution
伽玛分布 Gamma distribution
Beta 分布 Beta distribution	也称B分布或贝塔分布。

抽样与抽样分布

基本概念

名称	描述	示例
抽样 sampling	是从总体（目标总体）中抽取一部分个体作为样本（Sample）
目标总体 target population	简称总体（population），是所有要研究的个体的集合，即进行统计推断的总体。总体按个体的数目可分为2类：有限总体无限总体
抽样总体 sample population	实际抽取样本的总体。使用样本去推断总体时，应该确保抽样总体与目标总体尽可能相似。
抽样框 frame
样本 sample	总体的一个子集，通过样本可以推测出总体的情况。样本可分为：单样本（one sample），从一个总体中抽取的样本。独立样本（independent sample），从两个总体中独立抽取的两个样本，两个样本抽取时是相互独立的。配对样本（matched sample），也称匹配样本，两个样本的值是相对应的。如一组病人服药前数据和服药后数据，一组工人使用方法A的数据和方法B的数据。
样本容量 sample size	也称样本的大小，是样本中个体的数目。通常用n表示
总体参数 parameter	总体的数值特征，如总体平均值[math]\displaystyle{ \mu }[/math]、总体标准差[math]\displaystyle{ \sigma }[/math]和总体比率[math]\displaystyle{ p }[/math]等。
样本统计量 sample statistic	样本的数值特征，如样本平均值[math]\displaystyle{ \bar{x} }[/math]、总体标准差[math]\displaystyle{ s }[/math]和总体比率[math]\displaystyle{ \overline{p} }[/math]等。

抽样方法

名称	描述	示例
简单随机抽样 simple random sampling	也叫纯随机抽样。从总体N个个体中随机地抽取n个个体作为样本，使每个个体都有相同的概率被抽中。
系统抽样 systematic sampling	也称等距抽样或机械抽样。将总体中的所有个体按一定顺序排列，在规定的范围内随机地抽取一个个体作为初始个体，然后按事先规定好的规则确定其他样本个体。
分层抽样 stratified sampling	将抽样个体按某种特征或某种规则划分为不同的层，然后从不同的层中独立、随机地抽取样本。从而保证样本的结构与总体的结构比较相近，从而提高估计的精度。
整群抽样 cluster sampling	将总体分为若干个群，然后从若干个群中随机抽取1个或多个群。该可简化工作量，缺点是估计的精度较差。	调查中学生患近视眼的情况，随机抽取某一个班进行调查。

抽样分布

参数估计

基本概念

名称	描述	示例
参数估计 parameter estimation	是使用样本统计量来估计总体参数。分为点估计和区间估计。
点估计 point estimation	是使用某个样本统计量估计某个总体参数。比如使用样本平均值[math]\displaystyle{ \bar{x} }[/math]直接作为总体平均值[math]\displaystyle{ \mu }[/math]的估计。
区间估计 interval estimation	总体参数估计的一个区间范围，是点估计加减一个估计误差得到。
置信水平 confidence level	也称置信度或置信系数，是置信区间中包含总体参数真值的概率。如95%置信水平表示我们相信总体参数的真值有95%的概率落在置信区间。
置信区间 confidence interval	是在某个置信水平下构造的区间估计。如95%置信区间表示95%置信水平下的区间。

点估计

一个总体区间估计

区间估计	适用情况	公式	描述
总体均值 [math]\displaystyle{ \mu }[/math]	总体标准差[math]\displaystyle{ \sigma }[/math]已知	[math]\displaystyle{ \bar{x} \pm z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} }[/math]	当总体服从或近似正态分布，可以使用小样本容量。当总体不服从正态分布，该公式给出的置信区间是近似的，一般样本容量[math]\displaystyle{ n \ge 30 }[/math]时也可以使用。
	总体标准差[math]\displaystyle{ \sigma }[/math]未知	[math]\displaystyle{ \bar{x} \pm t_{\alpha / 2} \frac{s}{\sqrt{n}} }[/math]	当总体服从或近似正态分布，所给的置信区间是精确的，小样本容量可以使用。当不知道总体是否服从正态分布，样本也没发现偏斜或异常点，小样本容量也可以使用。当总体不服从正态分布，该公式给出的置信区间是近似的，一般样本容量[math]\displaystyle{ n \ge 30 }[/math]时也可以使用，如果总体分布严重偏斜或包含异常点建议样本容量[math]\displaystyle{ n \ge 50 }[/math]或更多。原理：利用s估计[math]\displaystyle{ \sigma }[/math]，利用t分布求出置信区间。虽然t分布是建立在抽样总体服从正态分布的基础上，但研究表明总体分布偏离正态分布下，利用t分布的结果还是相当不错。
	总体标准差[math]\displaystyle{ \sigma }[/math]未知，样本容量大	[math]\displaystyle{ \bar{x} \pm z_{\alpha / 2} \frac{s}{\sqrt{n}} }[/math]	一般样本容量[math]\displaystyle{ n \ge 30 }[/math]，如果总体分布严重偏斜或包含异常点建议样本容量[math]\displaystyle{ n \ge 50 }[/math]或更多。
总体比率 [math]\displaystyle{ p }[/math]		[math]\displaystyle{ \overline{p} \pm z_{\alpha / 2} \sqrt{\frac{\overline{p}(1-\overline{p})}{n}} }[/math]
总体方差 [math]\displaystyle{ \sigma^2 }[/math]		[math]\displaystyle{ \frac{(n-1) s^{2}}{\chi_{\alpha / 2}^{2}} \leq \sigma^{2} \leq \frac{(n-1) s^{2}}{\chi_{(1-\alpha / 2)}^{2}} }[/math]	式中，[math]\displaystyle{ 1-\alpha }[/math]为置信水平，[math]\displaystyle{ \chi^2 }[/math]值为小于等于下标概率的自由度n-1的卡方分布值。

两个总体区间估计

区间估计	适用情况	公式	描述
两个总体均值之差 [math]\displaystyle{ {\mu}_1 - {\mu}_2 }[/math]	2个总体标准差[math]\displaystyle{ \sigma_1,\sigma_2 }[/math]已知	[math]\displaystyle{ \left(\bar{x}_{1}-\bar{x}_{2}\right) \pm z_{\alpha / 2} \sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}} }[/math]	当两总体服从或近似正态分布，可以使用小样本容量。当总体不服从正态分布，该公式给出的置信区间是近似的，一般样本容量都大于30时也可以使用。
	2个总体标准差[math]\displaystyle{ \sigma_1,\sigma_2 }[/math]未知	[math]\displaystyle{ \left(\bar{x}_{1}-\bar{x}_{2}\right) \pm t_{\alpha / 2} \sqrt{\frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}} }[/math]
	配对样本	[math]\displaystyle{ \bar{d} \pm z_{\alpha / 2} \frac{\sigma_{d}}{\sqrt{n}} }[/math]
两个总体比率之差 [math]\displaystyle{ p_1 - p_2 }[/math]		[math]\displaystyle{ \left(\bar{p}_{1}-\bar{p}_{2}\right) \pm z_{\alpha / 2} \sqrt{\frac{\bar{p}_{1}\left(1-\bar{p}_{1}\right)}{n_{1}}+\frac{\bar{p}_{2}\left(1-\bar{p}_{2}\right)}{n_{2}}} }[/math]
两个总体方差之比 [math]\displaystyle{ \frac{{\sigma_1}^2}{{\sigma_2}^2} }[/math]		[math]\displaystyle{ \frac{s_{1}^{2} / s_{2}^{2}}{F_{\alpha / 2}} \leq \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}} \leq \frac{s_{1}^{2} / s_{2}^{2}}{F_{(1-\alpha / 2)}} }[/math]	式中，[math]\displaystyle{ 1-\alpha }[/math]为置信水平，[math]\displaystyle{ F }[/math]值为小于等于下标概率的自由度[math]\displaystyle{ (n_1-1, n_2-1) }[/math]的F分布值。

假设检验

基本概念

名称	描述
假设检验 hypothesis testing	是对总体参数提出某种假设,然后利用样本信息判断假设是否成立。
假设	做假设检验时，首先对总体提出两个相反假设： *原假设（null hypothesis），也叫零假设，记为[math]\displaystyle{ H_0 }[/math]。 *备择假设（Alternative hypothesis），也叫对立假设，记为[math]\displaystyle{ H_{a} }[/math]或[math]\displaystyle{ H_1 }[/math]。
两类错误	因为是根据样本的统计信息去推断总体信息，所以假设检验的结果可能会存在两类错误： *第一类错误（Type I error），也叫α错误或假阳性，是原假设[math]\displaystyle{ H_0 }[/math]是正确的，却拒绝了原假设，即弃真。 *第二类错误（Type II error），也叫β错误或假阴性，是原假设[math]\displaystyle{ H_0 }[/math]是错误的，却没有拒绝原假设，即存伪。
检验统计量
显著性水平
拒绝域

假设检验方法

方法	描述
t检验 t test	又称student t检验
卡方检验	又称[math]\displaystyle{ \chi^2 }[/math]检验
F检验

一个总体

两个总体

方差分析

基本概念

名称	描述
方差分析 Analysis of variance	简称ANOVA，通过两个及两个以上样本均值差别的假设检验，判断多个总体均值是否相等，即可得出分类型自变量对数值型因变量是否有显著影响。
单因子实验 single-factor experiment	是只对一个因子进行实验，而将其他因子都固定。
因子 factor	也称因素，即实验的自变量。
响应变量 response variable	即实验的因变量。
处理 treatments	也称水平，指因子的不同表现，即因子的不同选择方案（或称组）。

方差分析原理

方差分析有三个基本假定：

1.每个总体服从正态分布。
2.所有总体方差必须相同。
3.观测值是独立的。

单因子方差分析

双因子方差分析

回归分析

时间序列分析

非参数统计

指数

资源

书籍

《商务与经济统计》- 戴维.安德森
《统计学》-贾俊平

参考

@@ 第606行： / 第606行： @@
 ===双因子方差分析===
+==相关分析==
 ==回归分析==

统计学：修订间差异

2021年6月6日 (日) 10:37的版本

简介

时间轴

数据

描述统计

位置度量

离散程度

分布形态

图形

概率

概率基本概念

计数法则

概率分配

概率的性质与计算

随机变量

离散型概率分布

连续型概率分布

抽样与抽样分布

基本概念

抽样方法

抽样分布

参数估计

基本概念

点估计

一个总体区间估计

两个总体区间估计

假设检验

基本概念

假设检验方法

一个总体

两个总体

方差分析

基本概念

方差分析原理

单因子方差分析

双因子方差分析

相关分析

回归分析

时间序列分析

非参数统计

指数

资源

相关网站

相关文章

书籍

参考