统计学：修订间差异

2021年7月15日 (四) 04:36的最新版本

统计学是一门有关收集、处理、分析、解释和展示数据的学科。统计分析数据所用的方法大体上可分为两大类：

描述统计（descriptive statistics）是研究如何收集、处理、展示数据的统计学方法。
推断统计（inferential statistics）是研究如何利用样本数据来推断总体特征的统计学方法。

简介

时间轴

数据

描述统计

位置度量

名称	常用表示方法	描述	公式
平均数 mean	样本：[math]\displaystyle{ \bar{x} }[/math] 总体：[math]\displaystyle{ \mu }[/math]	也叫算数平均数，是一组数据的数值之和除以个数。	[math]\displaystyle{ \bar{x} = \frac{\sum{x}_{i}}{n} = \tfrac{x_1 + x_2 + x_3 \ldots + x_n}{n} }[/math] [math]\displaystyle{ \mu = \frac{\sum{x}_{i}}{N} = \tfrac{x_1 + x_2 + x_3 \ldots + x_N}{N} }[/math] 注：式中n为样本个数，N为总体个数
加权平均数 weighted mean	样本：[math]\displaystyle{ \bar{x} }[/math] 总体：[math]\displaystyle{ \mu }[/math]	类似算术平均数，算数平均每个数据的权重都为[math]\displaystyle{ \frac{1}{n} }[/math]，但加权平均数会根据每个数据的重要性分配权重。	假设一组数据：[math]\displaystyle{ x_1, x_2, \dots , x_n }[/math] 权重为[math]\displaystyle{ w_1, w_2, \dots, w_n }[/math] [math]\displaystyle{ \bar{x} = \frac{ \sum_{i=1}^n w_i x_i}{\sum_{i=1}^n w_i} = \frac{w_1 x_1 + w_2 x_2 + \cdots + w_n x_n}{w_1 + w_2 + \cdots + w_n} }[/math] 注：式中n为样本个数，N为总体个数
几何平均数 geometric mean	样本：[math]\displaystyle{ \bar{x}_g }[/math] 总体：[math]\displaystyle{ \mu_g }[/math]	是n个数据乘积的n次方根。几何平均数比算术平均数更适合用于指数增长和变化的增长值；在商业中，几何平均数的增长率被称为复合年均增长率(CAGR)。	[math]\displaystyle{ \bar{x}_g = \sqrt[n]{x_1 x_2 \cdots x_n}=({x_1 x_2 \cdots x_n})^{\frac{1}{n}} }[/math] 简洁记法：[math]\displaystyle{ \bar{x}_g = \left(\prod_{i=1}^n x_i\right)^\frac{1}{n} }[/math] 注：式中n为样本个数，N为总体个数
调和平均数 harmonic mean	[math]\displaystyle{ H }[/math]	是将所有数值取倒数并求其算术平均数后，再将此算术平均数取倒数。一般是在计算平均速率时使用。	[math]\displaystyle{ H = \left(\frac{x_1^{-1} + x_2^{-1} + ... + x_n^{-1}}{n}\right)^{-1} = \frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + ... + \frac{1}{x_n}} }[/math] 简记：[math]\displaystyle{ H = \frac{n}{\sum_{i=1}^n \frac{1}{x_i}} }[/math]
调整平均数 trimmed mean 或truncated mean		是删除数据的最高和最低端的一部分数值后，再计算平均值。如丢弃最高5%和最低5%的数据再计算平均值。
中位数 median	[math]\displaystyle{ M_e }[/math]	也叫中值，是一组数据按数值大小排序后，位于正中间的数，如果正中间有2个数，取这2个数的平均值。	设一组数据：[math]\displaystyle{ x_1, x_2, \dots , x_n }[/math]。按大小顺序（升序或降序）排列后为：[math]\displaystyle{ x'_1, x'_2, \dots , x'_n }[/math] [math]\displaystyle{ \mathrm{M_e} = \begin{cases} x'_\frac{n + 1}{2}, & \mbox{n为奇数} \\ \frac{1}{2}( x'_\frac{n}{2} + x'_{\frac{n}{2} + 1}), & \mbox{n为偶数} \end{cases} }[/math]
众数 mode		指一组数据中出现次数最多的数据值。
百分位数 percentile	[math]\displaystyle{ P_k }[/math] 表示第k百分位数	将一组数据从小到大排序，并计算相应的累计百分位，某一百分位所对应数据的值就称为这一百分位的百分位数。
四分位数 quartiles	[math]\displaystyle{ Q_1 }[/math] [math]\displaystyle{ Q_2 }[/math] [math]\displaystyle{ Q_3 }[/math]	是把所有数值按大小排序并分成四等份，处于三个分割点位置的数值就是四分位数。 [math]\displaystyle{ Q_1 }[/math]为第一四分位数（即第25百分位数） [math]\displaystyle{ Q_2 }[/math]为第二四分位数（即第50百分位数或中位数） *[math]\displaystyle{ Q_3 }[/math]为第三四分位数（即第75百分位数）

离散程度

名称	常用表示方法	描述	公式
极差 range		是最大值减最小值后所得数值。
四分位数间距 interquartile range	[math]\displaystyle{ IQR }[/math]	是第三四分位数[math]\displaystyle{ Q_3 }[/math]减第一四分位数[math]\displaystyle{ Q_1 }[/math]所得的数值。也就是一组数据排序后中间50%的数据的极差。	[math]\displaystyle{ IQR = Q_3-Q_1 }[/math]
方差 variance	样本：[math]\displaystyle{ s^2 }[/math] 总体：[math]\displaystyle{ \sigma^2 }[/math]	是每个值与平均值之间差的平方和，再除以个数N，对于样本除以n-1。	[math]\displaystyle{ \sigma^2 = \frac{\sum{(x_i - \mu)^2} }{N} }[/math] [math]\displaystyle{ s^2 = \frac{\sum{(x_i - \bar{x})^2} }{n-1} }[/math] 注：式中n为样本个数，N为总体个数，[math]\displaystyle{ \bar{x} }[/math]为样本平均数，[math]\displaystyle{ \mu }[/math]为总体平均数
标准差 standard deviation	样本：[math]\displaystyle{ s }[/math] 总体：[math]\displaystyle{ \sigma }[/math]	是方差的平方根。	[math]\displaystyle{ s = \sqrt{s^2} }[/math] [math]\displaystyle{ \sigma = \sqrt{\sigma^2} }[/math]
标准差系数 coefficient of variation	[math]\displaystyle{ c_v }[/math]	又称变异系数，是标准差归一化度量，通常表示为百分比。它是标准差[math]\displaystyle{ \sigma }[/math]与平均值[math]\displaystyle{ \mu }[/math]之比。	[math]\displaystyle{ c_v = {\sigma \over \mu } }[/math]

两变量间关系

名称	常用表示方法	描述	公式
协方差 covariance	样本：[math]\displaystyle{ s_{xy} }[/math] 总体：[math]\displaystyle{ \sigma_{xy} }[/math]
相关系数 correlation coefficient	样本：[math]\displaystyle{ r_{xy} }[/math] 总体：[math]\displaystyle{ \rho_{xy} }[/math]	指皮尔逊积矩相关系数，

分布形态

名称	常用表示方法	描述	公式
偏度 skewness
峰度 kurtosis
z-分数 z-score	z	也叫标准分数(standard score)，是用来计算一个数据点的相对位置，即该值与平均值距离多少个标准差。	[math]\displaystyle{ z_i = {x_i - \mu \over \sigma} }[/math] [math]\displaystyle{ z_i = \frac{x_i-\bar{x}}{s} }[/math]

图形

概率

概率基本概念

概率（probability）是对事件发生的可能性的度量，是0至1闭区间内的数字。

名称	描述	示例
试验 experiment
随机事件 random event	简称事件，在一次随机试验中，可能出现也有可能不出现的某个特定事件。常用大写字母A、B、C等表示。
确定事件	确定事件可分为2类： * 必然事件（certain event），在一定的条件下重复进行试验时，每次试验中必然出现的事件。用Ω表示 * 不可能事件（impossible event），在一定的条件下重复进行试验时，每次试验中不可能出现的事件。用Ф表示确定事件的概率为1或0，但概率为0或1的事件不一定为确定事件。
样本点 sample point	也叫基本事件（elementary event），	抛硬币有2个样本点：正面和反面。
样本空间 sample space	是试验所有可能结果的集合。常用S、Ω或U表示	掷骰子的样本空间 [math]\displaystyle{ S = \{1,2,3,4,5,6\} }[/math]
事件的补 complement	是所有不包含该事件的样本点。使用c表示，如事件[math]\displaystyle{ A }[/math]的补为 [math]\displaystyle{ A^c }[/math]。
两个事件的并 union	属于第一个事件或第二事件或同时属于二者的样本点构成的事件。使用[math]\displaystyle{ \cup }[/math]表示，如事件[math]\displaystyle{ A }[/math]和事件[math]\displaystyle{ B }[/math]的并为[math]\displaystyle{ {A}\cup{B} }[/math]。
两个事件的交 intersection	同时属于两个事件的样本点构成的事件。使用[math]\displaystyle{ \cap }[/math]表示，如事件[math]\displaystyle{ A }[/math]和事件[math]\displaystyle{ B }[/math]的交为[math]\displaystyle{ {A}\cap{B} }[/math]。
条件概率 conditional probability	在某事件发生的条件下，该事件的概率。使用[math]\displaystyle{ \| }[/math]表示，如[math]\displaystyle{ P(A\|B) }[/math]表示事件B发生的条件下事件A发生的概率。
独立事件 independent events	一个事件发生的概率不受另一个事件的是否发生影响，则称这两个事件为独立事件。如果事件A和事件B相互独立，则[math]\displaystyle{ P(A\|B) = P(A) }[/math]或[math]\displaystyle{ P(B\|A) = P(B) }[/math]

计数法则

方法	描述	示例
加法法则 addition principle
乘法法则 multiplication principle	事件A有m种试验结果（样本点），事件B有n种试验结果，且事件A与事件B相互独立，则事件A与B有 [math]\displaystyle{ {m}\times{n} }[/math]种试验结果。多步骤试验（multiple-step experiment）适用乘法法则。	如抛掷3枚硬币，抛第一枚有2种试验结果，抛第二枚有2种试验结果，抛第三枚也有2种结果，所以一共有[math]\displaystyle{ {2}\times{2}\times{2}=8 }[/math]种试验结果
组合 combinations	从N项中选取n项（0≤n≤N）的试验，选取的n个元素为一个组合。可以使用组合计数法则计算试验结果数： [math]\displaystyle{ C_{N}^{n} = {N\choose n} = \frac{N!}{n!(N-n)!} }[/math] 符号“[math]\displaystyle{ ! }[/math]”表示阶乘，如3的阶乘[math]\displaystyle{ 3! = {1}\times{2}\times{3} = 6 }[/math]。并且定义[math]\displaystyle{ 0! = 1 }[/math]
排列 permutations	从N项中选取n项（0≤n≤N）的试验，并且考虑选取的顺序，可以使用排列计数法则计算实验结果数： [math]\displaystyle{ P_{N}^{n} = n!{N\choose n} = \frac{n!}{(N-n)!} }[/math]

概率分配

方法	描述	示例
古典法 classical method	如果一个随机试验所包含的基本事件是有限的，且每个基本事件发生的可能性均相等，可以采用古典法进行概率分配。	如掷色子，假设A表示色子点数为1的事件，则[math]\displaystyle{ P(A)=\frac{1}{6} }[/math]，B表示色子点数<=2的事件，则[math]\displaystyle{ P(B)=\frac{2}{6} }[/math]
相对频数法 relative frequency method
主观法 subjective method

概率的性质与计算

名称	公式	描述
事件A的补	[math]\displaystyle{ P(A^c)=1-P(A) }[/math]
事件A与事件B的并	[math]\displaystyle{ \begin{align} P(A\cup B) & = P(A)+P(B)-P(A\cap B) \\ P(A\cup B) & = P(A)+P(B) \qquad\mbox{如果A和B为互斥事件} \\ \end{align} }[/math]	即加法公式（addition law）
事件A与事件B的交	[math]\displaystyle{ \begin{align} P(A\cap B) & = P(A\|B)P(B) = P(B\|A)P(A)\\ P(A\cap B) & = P(A)P(B) \qquad\mbox{如果A和B为独立事件}\\ \end{align} }[/math]	即乘法公式（multiplication law）
事件B发生的情况下事件A的概率	[math]\displaystyle{ P(A \mid B) = \frac{P(A \cap B)}{P(B)} = \frac{P(B\|A)P(A)}{P(B)} }[/math]
贝叶斯定理 Bayes's theorem

随机变量

随机变量（random variable）是将试验结果用数值表示。可分为2类：

离散型随机变量（discrete random variable），取值是有限的或者是可数无穷尽的值的随机变量。
连续型随机变量（continuous random variable），取值是全部实数或者由一部分区间组成的随机变量。

以下为随机变量的数字特征：

名称	描述	离散型随机变量
数学期望 expected value	简称期望或均值，通常使用[math]\displaystyle{ E(x) }[/math]或[math]\displaystyle{ \mu }[/math]表示	[math]\displaystyle{ E(x) = \sum{x}f(x) }[/math]
方差 variance
协方差

离散型概率分布

名称	描述	概率函数
伯努利分布 bernoulli distribution	也称两点分布或者0-1分布，
二项分布 binomial distribution	二项概率分布的简称，是n个独立的（成功或失败）试验中成功的次数的离散概率分布。其中每次试验的成功概率相同，用p表示。这样的单次成功或失败试验又称为伯努利试验，多次伯努利试验称为二项试验。	[math]\displaystyle{ f(x) = {n\choose x}p^x(1-p)^{n-x} }[/math] 其中x为成功的次数，n为试验的次数
泊松分布 poisson distribution	适合于描述一个时间段或空间随机事件发生的次数的概率分布。
几何分布 geometric distribution
超几何分布 hypergeometric distribution

连续型概率分布

名称	描述	概率函数	数学期望	方差
均匀分布 uniform distribution
正态分布 normal distribution	也称高斯分布，
指数分布 exponential distribution
卡方分布 chi-square distribution	也叫[math]\displaystyle{ \chi^2 }[/math]分布。[math]\displaystyle{ \chi }[/math]是第22个希腊字母，英语名称chi，读音与“开”相同。
t分布 t-distribution	也叫Student t-分布（Student's t-distribution）。
F分布 F-distribution
伽玛分布 Gamma distribution
Beta 分布 Beta distribution	也称B分布或贝塔分布。

抽样与抽样分布

基本概念

名称	描述	示例
抽样 sampling	是从总体（目标总体）中抽取一部分个体作为样本（Sample）
目标总体 target population	简称总体（population），是所有要研究的个体的集合，即进行统计推断的总体。总体按个体的数目可分为2类：有限总体无限总体
抽样总体 sample population	实际抽取样本的总体。使用样本去推断总体时，应该确保抽样总体与目标总体尽可能相似。
抽样框 frame
样本 sample	总体的一个子集，通过样本可以推测出总体的情况。样本可分为：单样本（one sample），从一个总体中抽取的样本。独立样本（independent sample），从两个总体中独立抽取的两个样本，两个样本抽取时是相互独立的。配对样本（matched sample），也称匹配样本，两个样本的值是相对应的。如一组病人服药前数据和服药后数据，一组工人使用方法A的数据和方法B的数据。
样本容量 sample size	也称样本的大小，是样本中个体的数目。通常用n表示
总体参数 parameter	总体的数值特征，如总体平均值[math]\displaystyle{ \mu }[/math]、总体标准差[math]\displaystyle{ \sigma }[/math]和总体比率[math]\displaystyle{ p }[/math]等。
样本统计量 sample statistic	样本的数值特征，如样本平均值[math]\displaystyle{ \bar{x} }[/math]、总体标准差[math]\displaystyle{ s }[/math]和总体比率[math]\displaystyle{ \overline{p} }[/math]等。

抽样方法

名称	描述	示例
简单随机抽样 simple random sampling	也叫纯随机抽样。从总体N个个体中随机地抽取n个个体作为样本，使每个个体都有相同的概率被抽中。
系统抽样 systematic sampling	也称等距抽样或机械抽样。将总体中的所有个体按一定顺序排列，在规定的范围内随机地抽取一个个体作为初始个体，然后按事先规定好的规则确定其他样本个体。
分层抽样 stratified sampling	将抽样个体按某种特征或某种规则划分为不同的层，然后从不同的层中独立、随机地抽取样本。从而保证样本的结构与总体的结构比较相近，从而提高估计的精度。
整群抽样 cluster sampling	将总体分为若干个群，然后从若干个群中随机抽取1个或多个群。该可简化工作量，缺点是估计的精度较差。	调查中学生患近视眼的情况，随机抽取某一个班进行调查。

抽样分布

参数估计

基本概念

名称	描述	示例
参数估计 parameter estimation	是使用样本统计量来估计总体参数。分为点估计和区间估计。
点估计 point estimation	是使用某个样本统计量估计某个总体参数。比如使用样本平均值[math]\displaystyle{ \bar{x} }[/math]直接作为总体平均值[math]\displaystyle{ \mu }[/math]的估计。
区间估计 interval estimation	总体参数估计的一个区间范围，是点估计加减一个估计误差得到。
置信水平 confidence level	也称置信度或置信系数，是置信区间中包含总体参数真值的概率。如95%置信水平表示我们相信总体参数的真值有95%的概率落在置信区间。
置信区间 confidence interval	是在某个置信水平下构造的区间估计。如95%置信区间表示95%置信水平下的区间。

点估计

一个总体区间估计

区间估计	适用情况	公式	描述
总体均值 [math]\displaystyle{ \mu }[/math]	总体标准差[math]\displaystyle{ \sigma }[/math]已知	[math]\displaystyle{ \bar{x} \pm z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} }[/math]	当总体服从或近似正态分布，可以使用小样本容量。当总体不服从正态分布，该公式给出的置信区间是近似的，一般样本容量[math]\displaystyle{ n \ge 30 }[/math]时也可以使用。
	总体标准差[math]\displaystyle{ \sigma }[/math]未知	[math]\displaystyle{ \bar{x} \pm t_{\alpha / 2} \frac{s}{\sqrt{n}} }[/math]	当总体服从或近似正态分布，所给的置信区间是精确的，小样本容量可以使用。当不知道总体是否服从正态分布，样本也没发现偏斜或异常点，小样本容量也可以使用。当总体不服从正态分布，该公式给出的置信区间是近似的，一般样本容量[math]\displaystyle{ n \ge 30 }[/math]时也可以使用，如果总体分布严重偏斜或包含异常点建议样本容量[math]\displaystyle{ n \ge 50 }[/math]或更多。原理：利用s估计[math]\displaystyle{ \sigma }[/math]，利用t分布求出置信区间。虽然t分布是建立在抽样总体服从正态分布的基础上，但研究表明总体分布偏离正态分布下，利用t分布的结果还是相当不错。
	总体标准差[math]\displaystyle{ \sigma }[/math]未知，样本容量大	[math]\displaystyle{ \bar{x} \pm z_{\alpha / 2} \frac{s}{\sqrt{n}} }[/math]	一般样本容量[math]\displaystyle{ n \ge 30 }[/math]，如果总体分布严重偏斜或包含异常点建议样本容量[math]\displaystyle{ n \ge 50 }[/math]或更多。
总体比率 [math]\displaystyle{ p }[/math]		[math]\displaystyle{ \overline{p} \pm z_{\alpha / 2} \sqrt{\frac{\overline{p}(1-\overline{p})}{n}} }[/math]
总体方差 [math]\displaystyle{ \sigma^2 }[/math]		[math]\displaystyle{ \frac{(n-1) s^{2}}{\chi_{\alpha / 2}^{2}} \leq \sigma^{2} \leq \frac{(n-1) s^{2}}{\chi_{(1-\alpha / 2)}^{2}} }[/math]	式中，[math]\displaystyle{ 1-\alpha }[/math]为置信水平，[math]\displaystyle{ \chi^2 }[/math]值为小于等于下标概率的自由度n-1的卡方分布值。

两个总体区间估计

区间估计	适用情况	公式	描述
两个总体均值之差 [math]\displaystyle{ {\mu}_1 - {\mu}_2 }[/math]	2个总体标准差[math]\displaystyle{ \sigma_1,\sigma_2 }[/math]已知	[math]\displaystyle{ \left(\bar{x}_{1}-\bar{x}_{2}\right) \pm z_{\alpha / 2} \sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}} }[/math]	当两总体服从或近似正态分布，可以使用小样本容量。当总体不服从正态分布，该公式给出的置信区间是近似的，一般样本容量都大于30时也可以使用。
	2个总体标准差[math]\displaystyle{ \sigma_1,\sigma_2 }[/math]未知	[math]\displaystyle{ \left(\bar{x}_{1}-\bar{x}_{2}\right) \pm t_{\alpha / 2} \sqrt{\frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}} }[/math]
	配对样本	[math]\displaystyle{ \bar{d} \pm z_{\alpha / 2} \frac{\sigma_{d}}{\sqrt{n}} }[/math]
两个总体比率之差 [math]\displaystyle{ p_1 - p_2 }[/math]		[math]\displaystyle{ \left(\bar{p}_{1}-\bar{p}_{2}\right) \pm z_{\alpha / 2} \sqrt{\frac{\bar{p}_{1}\left(1-\bar{p}_{1}\right)}{n_{1}}+\frac{\bar{p}_{2}\left(1-\bar{p}_{2}\right)}{n_{2}}} }[/math]
两个总体方差之比 [math]\displaystyle{ \frac{{\sigma_1}^2}{{\sigma_2}^2} }[/math]		[math]\displaystyle{ \frac{s_{1}^{2} / s_{2}^{2}}{F_{\alpha / 2}} \leq \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}} \leq \frac{s_{1}^{2} / s_{2}^{2}}{F_{(1-\alpha / 2)}} }[/math]	式中，[math]\displaystyle{ 1-\alpha }[/math]为置信水平，[math]\displaystyle{ F }[/math]值为小于等于下标概率的自由度[math]\displaystyle{ (n_1-1, n_2-1) }[/math]的F分布值。

假设检验

基本概念

名称	描述
假设检验 hypothesis testing	是对总体参数提出某种假设,然后利用样本信息判断假设是否成立。
假设	做假设检验时，首先对总体提出两个相反假设： *原假设（null hypothesis），也叫零假设，记为[math]\displaystyle{ H_0 }[/math]。 *备择假设（Alternative hypothesis），也叫对立假设，记为[math]\displaystyle{ H_{a} }[/math]或[math]\displaystyle{ H_1 }[/math]。
两类错误	因为是根据样本的统计信息去推断总体信息，所以假设检验的结果可能会存在两类错误： *第一类错误（Type I error），也叫α错误或假阳性，是原假设[math]\displaystyle{ H_0 }[/math]是正确的，却拒绝了原假设，即弃真。 *第二类错误（Type II error），也叫β错误或假阴性，是原假设[math]\displaystyle{ H_0 }[/math]是错误的，却没有拒绝原假设，即存伪。
检验统计量
显著性水平
拒绝域

假设检验方法

方法	描述
t检验 t test	又称student t检验
卡方检验	又称[math]\displaystyle{ \chi^2 }[/math]检验
F检验

一个总体

两个总体

方差分析

基本概念

名称	描述
方差分析 Analysis of variance	简称ANOVA，通过两个及两个以上样本均值差别的假设检验，判断多个总体均值是否相等，即可得出分类型自变量对数值型因变量是否有显著影响。
单因子实验 single-factor experiment	是只对一个因子进行实验，而将其他因子都固定。
因子 factor	也称因素，即实验的自变量。
响应变量 response variable	即实验的因变量。
处理 treatments	也称水平，指因子的不同表现，即因子的不同选择方案（或称组）。

方差分析原理

方差分析有三个基本假定：

1.每个总体服从正态分布。
2.所有总体方差必须相同。
3.观测值是独立的。

单因子方差分析

双因子方差分析

回归分析

因子分析

时间序列分析

非参数统计

指数

资源

书籍

《商务与经济统计》- 戴维.安德森
《统计学》-贾俊平

参考

@@ 第1行： / 第1行： @@
-统计学是一门有关收集、处理、分析、解释和展示数据的学科。统计分析数据所用的方法大体上可分为'''描述统计'''（descriptive statistics）和'''推断统计'''（inferential statistics）两大类。描述统计是研究如何收集、处理、展示数据的统计学方法。推断统计是研究如何利用样本数据来推断总体特征的统计学方法。
+统计学是一门有关收集、处理、分析、解释和展示数据的学科。统计分析数据所用的方法大体上可分为两大类：
+*'''描述统计'''（descriptive statistics）是研究如何收集、处理、展示数据的统计学方法。
+*'''推断统计'''（inferential statistics）是研究如何利用样本数据来推断总体特征的统计学方法。
 ==简介==
 ===时间轴===
+==数据==
 ==描述统计==
+===位置度量===
+{| class="wikitable"  style="width: 100%;
+! 名称
+! 常用表示方法
+! 描述
+! 公式
+|-
+| 平均数<br \>mean
+| 样本：<math>\bar{x}</math> <br \> 总体：<math>\mu</math>
+| 也叫算数平均数，是一组数据的数值之和除以个数。
+|<math>\bar{x} = \frac{\sum{x}_{i}}{n} = \tfrac{x_1 + x_2 + x_3 \ldots + x_n}{n} </math> <br \><br \>  <math>\mu = \frac{\sum{x}_{i}}{N} = \tfrac{x_1 + x_2 + x_3 \ldots + x_N}{N} </math> <br \><br \>注：式中n为样本个数，N为总体个数
+|-
+| 加权平均数<br \>weighted mean
+| 样本：<math>\bar{x}</math>  <br \>总体：<math>\mu</math>
+| 类似算术平均数，算数平均每个数据的权重都为<math>\frac{1}{n}</math>，但加权平均数会根据每个数据的重要性分配权重。
+| 假设一组数据：<math>x_1, x_2, \dots , x_n</math> 权重为<math>w_1, w_2, \dots, w_n</math> <br \> <math>\bar{x} = \frac{ \sum_{i=1}^n w_i x_i}{\sum_{i=1}^n w_i} = \frac{w_1 x_1 + w_2 x_2 + \cdots + w_n x_n}{w_1 + w_2 + \cdots + w_n}</math>  <br \><br \>注：式中n为样本个数，N为总体个数
+|-
+| 几何平均数<br \>geometric mean
+| 样本：<math>\bar{x}_g</math> <br \>总体：<math>\mu_g</math>
+| 是n个数据乘积的n次方根。几何平均数比算术平均数更适合用于指数增长和变化的增长值；在商业中，几何平均数的增长率被称为复合年均增长率(CAGR)。
+| <math>\bar{x}_g  = \sqrt[n]{x_1 x_2 \cdots x_n}=({x_1 x_2 \cdots x_n})^{\frac{1}{n}}</math> <br \><br \>简洁记法：<math>\bar{x}_g = \left(\prod_{i=1}^n x_i\right)^\frac{1}{n}</math><br \>注：式中n为样本个数，N为总体个数
+|-
+| 调和平均数<br \>harmonic mean
+| <math>H</math>
+| 是将所有数值取倒数并求其算术平均数后，再将此算术平均数取倒数。一般是在计算平均速率时使用。
+| <math>H = \left(\frac{x_1^{-1} + x_2^{-1}  + ... + x_n^{-1}}{n}\right)^{-1} = \frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + ... + \frac{1}{x_n}} </math> <br \><br \>简记：<math>H = \frac{n}{\sum_{i=1}^n \frac{1}{x_i}}</math>
+|-
+| 调整平均数<br \>trimmed mean <br \>或truncated mean
+|
+| 是删除数据的最高和最低端的一部分数值后，再计算平均值。如丢弃最高5%和最低5%的数据再计算平均值。
+|
+|-
+| 中位数<br \>median
+|<math>M_e</math> <br \>
+| 也叫中值，是一组数据按数值大小排序后，位于正中间的数，如果正中间有2个数，取这2个数的平均值。
+|设一组数据：<math>x_1, x_2, \dots , x_n</math>。按大小顺序（升序或降序）排列后为：<math>x'_1, x'_2, \dots , x'_n</math><br \><math>
+\mathrm{M_e} =
+\begin{cases}
+ x'_\frac{n + 1}{2},                                   & \mbox{n为奇数} \\
+ \frac{1}{2}( x'_\frac{n}{2} + x'_{\frac{n}{2} + 1}), & \mbox{n为偶数}
+\end{cases}
+</math>
+|-
+| 众数 <br \>mode
+|
+|指一组数据中出现次数最多的数据值。
+|
+|-
+| 百分位数<br \>percentile
+| <math>P_k</math> <br \>表示第k百分位数
+| 将一组数据从小到大排序，并计算相应的累计百分位，某一百分位所对应数据的值就称为这一百分位的百分位数。
+|
+|-
+| 四分位数<br \>quartiles
+|<math>Q_1</math><br \><math>Q_2</math><br \><math>Q_3</math><br \>
+| 是把所有数值按大小排序并分成四等份，处于三个分割点位置的数值就是四分位数。<br \>*<math>Q_1</math>为第一四分位数（即第25百分位数）<br \>*<math>Q_2</math>为第二四分位数（即第50百分位数或中位数）<br \>*<math>Q_3</math>为第三四分位数（即第75百分位数）
+|
+|}
+===离散程度===
+{| class="wikitable"  style="width: 100%;
+! 名称
+! 常用表示方法
+! 描述
+! 公式
+|-
+|极差<br \>range
+|
+|是最大值减最小值后所得数值。
+|
+|-
+|四分位数间距<br \>interquartile range
+|<math>IQR</math>
+|是第三四分位数<math>Q_3</math>减第一四分位数<math>Q_1</math>所得的数值。也就是一组数据排序后中间50%的数据的极差。
+|<math>IQR = Q_3-Q_1</math>
+|-
+|方差 <br \> variance
+| 样本：<math>s^2</math> <br \>总体：<math>\sigma^2</math><br \>
+|是每个值与平均值之间差的平方和，再除以个数N，对于样本除以n-1。
+|<math>\sigma^2 = \frac{\sum{(x_i - \mu)^2} }{N}</math> <br \><br \> <math>s^2 = \frac{\sum{(x_i - \bar{x})^2} }{n-1}</math> <br \><br \>注：式中n为样本个数，N为总体个数，<math>\bar{x}</math>为样本平均数，<math>\mu</math>为总体平均数
+|-
+| 标准差 <br \> standard deviation
+| 样本：<math>s</math> <br \>总体：<math>\sigma</math>
+| 是方差的平方根。
+| <math>s = \sqrt{s^2} </math><br \> <math>\sigma = \sqrt{\sigma^2} </math>
+|-
+| 标准差系数<br \> coefficient of variation
+| <math>c_v</math>
+| 又称变异系数，是标准差归一化度量，通常表示为百分比。它是标准差<math> \sigma </math>与平均值<math> \mu </math>之比。
+| <math>c_v = {\sigma \over \mu }</math>
+|}
+===两变量间关系===
+{| class="wikitable"  style="width: 100%;
+! 名称
+! 常用表示方法
+! 描述
+! 公式
+|-
+|协方差 <br \>covariance
+|样本：<math>s_{xy}</math> <br \>总体：<math>\sigma_{xy}</math>
+|
+|
+|-
+|相关系数 <br \>correlation coefficient
+|样本：<math>r_{xy}</math> <br \>总体：<math>\rho_{xy}</math>
+|指皮尔逊积矩相关系数，
+|
+|}
+===分布形态===
+{| class="wikitable"  style="width: 100%;
+! 名称
+! 常用表示方法
+! 描述
+! 公式
+|-
+|偏度 <br \>skewness
+|
+|
+|
+|-
+|峰度 <br \>kurtosis
+|
+|
+|
+|-
+|z-分数  <br \>z-score
+|z
+|也叫标准分数(standard score)，是用来计算一个数据点的相对位置，即该值与平均值距离多少个标准差。
+|<math> z_i = {x_i - \mu \over \sigma}</math> <br \><br \> <math>z_i = \frac{x_i-\bar{x}}{s}</math>
+|}
+===图形===
+==概率==
+===概率基本概念===
+概率（probability）是对事件发生的可能性的度量，是0至1闭区间内的数字。
+{| class="wikitable"  style="width: 100%;
+! 名称
+! 描述
+! 示例
+|-
+| 试验 <br \>experiment
+|
+|
+|-
+| 随机事件 <br \>random event
+| 简称'''事件'''，在一次随机试验中，可能出现也有可能不出现的某个特定事件。常用大写字母A、B、C等表示。
+|
+|-
+| 确定事件
+| 确定事件可分为2类：<br \>* '''必然事件'''（certain event），在一定的条件下重复进行试验时，每次试验中必然出现的事件。用'''Ω'''表示<br \>* '''不可能事件'''（impossible event），在一定的条件下重复进行试验时，每次试验中不可能出现的事件。用'''Ф'''表示 <br \>确定事件的概率为1或0，但概率为0或1的事件不一定为确定事件。
+|
+|-
+| 样本点 <br \>sample point
+| 也叫'''基本事件'''（elementary event），
+| 抛硬币有2个样本点：'''正面'''和'''反面'''。
+|-
+| 样本空间<br \>sample space
+| 是试验所有可能结果的集合。常用'''S'''、'''Ω'''或'''U'''表示
+| 掷骰子的样本空间 <math>S = \{1,2,3,4,5,6\}</math>
+|-
+| 事件的补 <br \>complement
+| 是所有不包含该事件的样本点。使用c表示，如事件<math>A</math>的补为 <math>A^c</math>。
+|
+|-
+| 两个事件的并 <br \>union
+| 属于第一个事件或第二事件或同时属于二者的样本点构成的事件。使用<math>\cup</math>表示，如事件<math>A</math>和事件<math>B</math>的并为<math>{A}\cup{B}</math>。
+|
+|-
+| 两个事件的交 <br \>intersection
+| 同时属于两个事件的样本点构成的事件。使用<math>\cap</math>表示，如事件<math>A</math>和事件<math>B</math>的交为<math>{A}\cap{B}</math>。
+|
+|-
+| 条件概率 <br \>conditional probability
+| 在某事件发生的条件下，该事件的概率。使用<math>|</math>表示，如<math>P(A|B)</math>表示事件B发生的条件下事件A发生的概率。
+|
+|-
+| 独立事件 <br \>independent events
+| 一个事件发生的概率不受另一个事件的是否发生影响，则称这两个事件为独立事件。如果事件A和事件B相互独立，则<math>P(A|B) = P(A)</math>或<math>P(B|A) = P(B)</math>
+|
+|}
+===计数法则===
+{| class="wikitable"  style="width: 100%;
+! 方法
+! 描述
+! 示例
+|-
+| 加法法则 <br \>addition principle
+|
+|
+|-
+| 乘法法则 <br \>multiplication principle
+| 事件A有m种试验结果（样本点），事件B有n种试验结果，且事件A与事件B相互独立，则事件A与B有 <math>{m}\times{n}</math>种试验结果。多步骤试验（multiple-step experiment）适用乘法法则。
+| 如抛掷3枚硬币，抛第一枚有2种试验结果，抛第二枚有2种试验结果，抛第三枚也有2种结果，所以一共有<math>{2}\times{2}\times{2}=8</math>种试验结果
+|-
+| 组合 <br \>combinations
+| 从N项中选取n项（0≤n≤N）的试验，选取的n个元素为一个组合。可以使用组合计数法则计算试验结果数：<br \><math>C_{N}^{n} = {N\choose n} = \frac{N!}{n!(N-n)!} </math> <br \>符号“<math>!</math>”表示阶乘，如3的阶乘<math>3! = {1}\times{2}\times{3} = 6</math>。并且定义<math>0! = 1</math>
+|
+|-
+| 排列 <br \>permutations
+| 从N项中选取n项（0≤n≤N）的试验，并且考虑选取的顺序，可以使用排列计数法则计算实验结果数：<br \><math>P_{N}^{n} = n!{N\choose n} = \frac{n!}{(N-n)!} </math>
+|
+|}
+===概率分配===
+{| class="wikitable"  style="width: 100%;
+! 方法
+! 描述
+! 示例
+|-
+| 古典法 <br \>classical method
+| 如果一个随机试验所包含的基本事件是有限的，且每个基本事件发生的可能性均相等，可以采用古典法进行概率分配。
+| 如掷色子，假设A表示色子点数为1的事件，则<math>P(A)=\frac{1}{6}</math>，B表示色子点数<=2的事件，则<math>P(B)=\frac{2}{6}</math>
+|-
+| 相对频数法 <br \>relative frequency method
+|
+|
+|-
+| 主观法 <br \>subjective method
+|
+|
+|}
+===概率的性质与计算===
+{| class="wikitable"
+|-
+!名称!!公式!!描述
+|-
+|事件A的补||<math>P(A^c)=1-P(A)</math>
+|
+|-
+|事件A与事件B的并
+|<math>\begin{align}
+P(A\cup B) & = P(A)+P(B)-P(A\cap B) \\
+P(A\cup B) & = P(A)+P(B) \qquad\mbox{如果A和B为互斥事件} \\
+\end{align}</math>
+|即'''加法公式'''（addition law） <br \>
+|-
+|事件A与事件B的交
+|<math>\begin{align}
+P(A\cap B) & = P(A|B)P(B) = P(B|A)P(A)\\
+P(A\cap B) &  = P(A)P(B) \qquad\mbox{如果A和B为独立事件}\\
+\end{align}</math>
+|即'''乘法公式'''（multiplication law） <br \>
+|-
+|事件B发生的情况下事件A的概率
+|<math>P(A \mid B) = \frac{P(A \cap B)}{P(B)} = \frac{P(B|A)P(A)}{P(B)} </math>
+|
+|-
+|贝叶斯定理 <br \>Bayes's theorem
+|
+|
+|-
+|}
+===随机变量===
+随机变量（random variable）是将试验结果用数值表示。可分为2类：
+* '''离散型随机变量'''（discrete random variable），取值是有限的或者是可数无穷尽的值的随机变量。
+* '''连续型随机变量'''（continuous random variable），取值是全部实数或者由一部分区间组成的随机变量。
+以下为随机变量的数字特征：
+{| class="wikitable"
+|-
+!名称!!描述!!离散型随机变量!!连续型随机变量
+|-
+|数学期望 <br \>expected value
+|简称期望或均值，通常使用<math>E(x)</math>或<math>\mu</math>表示
+|<math>E(x) = \sum{x}f(x)</math>
+|
+|-
+|方差 <br \>variance
+|
+|
+|
+|-
+|协方差
+|
+|
+|
+|-
+|
+|
+|
+|
+|}
-==推断统计==
+===离散型概率分布===
+{| class="wikitable"
+|-
+!名称!!描述!!概率函数!!数学期望!!方差
+|-
+|伯努利分布 <br \>bernoulli distribution
+|也称'''两点分布'''或者'''0-1分布'''，
+|
+|
+|-
+|二项分布 <br \>binomial distribution
+|二项概率分布的简称，是n个独立的（'''成功'''或'''失败'''）试验中'''成功'''的次数的离散概率分布。其中每次试验的成功概率相同，用'''p'''表示。这样的单次成功或失败试验又称为伯努利试验，多次伯努利试验称为二项试验。
+|<math> f(x) = {n\choose x}p^x(1-p)^{n-x}</math> <br \>其中x为成功的次数，n为试验的次数
+|
+|
+|-
+|泊松分布 <br \>poisson distribution
+|适合于描述一个时间段或空间随机事件发生的次数的概率分布。
+|
+|
+|
+|-
+|几何分布 <br \>geometric distribution
+|
+|
+|
+|
+|-
+|超几何分布 <br \>hypergeometric distribution
+|
+|
+|
+|
+|}
+===连续型概率分布===
+{| class="wikitable"
+|-
+!名称!!描述!!概率函数!!数学期望!!方差
+|-
+|均匀分布 <br \>uniform distribution
+|
+|
+|
+|
+|-
+|[[正态分布]] <br \>normal distribution
+|也称高斯分布，
+|
+|
+|
+|-
+|指数分布 <br \>exponential distribution
+|
+|
+|
+|
+|-
+|[[卡方分布]] <br \>chi-square distribution
+|也叫'''<math>\chi^2</math>分布'''。<math>\chi</math>是第22个[[希腊字母]]，英语名称chi，读音与“开”相同。
+|
+|
+|
+|-
+| [[t分布]] <br \> t-distribution
+|也叫Student t-分布（Student's t-distribution）。
+|
+|
+|
+|-
+|[[F分布]] <br \> F-distribution
+|
+|
+|
+|
+|-
+|伽玛分布 <br \> Gamma distribution
+|
+|
+|
+|
+|-
+|Beta 分布 <br \> Beta distribution
+|也称B分布或贝塔分布。
+|
+|
+|
+|}
+==抽样与抽样分布==
+===基本概念===
+{| class="wikitable"  style="width: 100%;
+! 名称
+! 描述
+! 示例
+|-
+| 抽样 <br \>sampling
+| 是从总体（目标总体）中抽取一部分个体作为样本（Sample）
+|
+|-
+| 目标总体 <br \>target population
+| 简称总体（population），是所有要研究的个体的集合，即进行统计推断的总体。总体按个体的数目可分为2类：<br \>*有限总体 <br \>*无限总体
+|
+|-
+| 抽样总体 <br \>sample population
+| 实际抽取样本的总体。使用样本去推断总体时，应该确保抽样总体与目标总体尽可能相似。
+|
+|-
+| 抽样框 <br \>frame
+|
+|
+|-
+| 样本 <br \>sample
+| 总体的一个子集，通过样本可以推测出总体的情况。样本可分为：<br \>'''单样本'''（one sample），从一个总体中抽取的样本。<br \>'''独立样本'''（independent sample），从两个总体中独立抽取的两个样本，两个样本抽取时是相互独立的。<br \>'''配对样本'''（matched sample），也称匹配样本，两个样本的值是相对应的。如一组病人服药前数据和服药后数据，一组工人使用方法A的数据和方法B的数据。
+|
+|-
+| 样本容量 <br \>sample size
+| 也称样本的大小，是样本中个体的数目。通常用n表示
+|
+|-
+| 总体参数 <br \>parameter
+| 总体的数值特征，如总体平均值<math>\mu</math>、总体标准差<math>\sigma</math>和总体比率<math>p</math>等。
+|
+|-
+| 样本统计量 <br \>sample statistic
+| 样本的数值特征，如样本平均值<math>\bar{x}</math>、总体标准差<math>s</math>和总体比率<math>\overline{p}</math>等。
+|
+|}
+===抽样方法===
+{| class="wikitable"  style="width: 100%;
+! 名称
+! 描述
+! 示例
+|-
+|简单随机抽样 <br \> simple random sampling
+|也叫纯随机抽样。从总体N个个体中随机地抽取n个个体作为样本，使每个个体都有相同的概率被抽中。
+|
+|-
+|系统抽样 <br \> systematic sampling
+|也称等距抽样或机械抽样。将总体中的所有个体按一定顺序排列，在规定的范围内随机地抽取一个个体作为初始个体，然后按事先规定好的规则确定其他样本个体。
+|
+|-
+|分层抽样 <br \>stratified sampling
+|将抽样个体按某种特征或某种规则划分为不同的层，然后从不同的层中独立、随机地抽取样本。从而保证样本的结构与总体的结构比较相近，从而提高估计的精度。
+|
+|-
+|整群抽样 <br \>cluster sampling
+|将总体分为若干个群，然后从若干个群中随机抽取1个或多个群。该可简化工作量，缺点是估计的精度较差。
+|调查中学生患近视眼的情况，随机抽取某一个班进行调查。
+|}
+===抽样分布===
+==参数估计==
+===基本概念===
+{| class="wikitable"  style="width: 100%;
+! 名称
+! 描述
+! 示例
+|-
+|参数估计  <br \>parameter estimation
+|是使用样本统计量来估计总体参数。分为点估计和区间估计。
+|
+|-
+|点估计  <br \>point estimation
+|是使用某个样本统计量估计某个总体参数。比如使用样本平均值<math>\bar{x}</math>直接作为总体平均值<math>\mu</math>的估计。
+|
+|-
+|区间估计  <br \>interval estimation
+|总体参数估计的一个区间范围，是点估计加减一个估计误差得到。
+|
+|-
+|置信水平 <br \>confidence level
+|也称置信度或置信系数，是置信区间中包含总体参数真值的概率。如95%置信水平表示我们相信总体参数的真值有95%的概率落在置信区间。
+|
+|-
+|置信区间  <br \>confidence interval
+|是在某个置信水平下构造的区间估计。如95%置信区间表示95%置信水平下的区间。
+|
+|}
+===点估计===
+===一个总体区间估计===
+{| class="wikitable"  style="width: 100%;
+! 区间估计
+! 适用情况
+! 公式
+! 描述
+|-
+|rowspan="3"|总体均值 <math>\mu</math>
+|总体标准差<math>\sigma</math>已知
+|<math>\bar{x} \pm z_{\alpha / 2}  \frac{\sigma}{\sqrt{n}} </math>
+|当总体服从或近似正态分布，可以使用小样本容量。<br \>当总体不服从正态分布，该公式给出的置信区间是近似的，一般样本容量<math>n \ge 30</math>时也可以使用。
+|-
+|总体标准差<math>\sigma</math>未知
+|<math>\bar{x} \pm t_{\alpha / 2}  \frac{s}{\sqrt{n}} </math>
+|当总体服从或近似正态分布，所给的置信区间是精确的，小样本容量可以使用。<br \>当不知道总体是否服从正态分布，样本也没发现偏斜或异常点，小样本容量也可以使用。 <br \>当总体不服从正态分布，该公式给出的置信区间是近似的，一般样本容量<math>n \ge 30</math>时也可以使用，如果总体分布严重偏斜或包含异常点建议样本容量<math>n \ge 50</math>或更多。<br \><br \>原理：利用s估计<math>\sigma</math>，利用t分布求出置信区间。虽然t分布是建立在抽样总体服从正态分布的基础上，但研究表明总体分布偏离正态分布下，利用t分布的结果还是相当不错。
+|-
+|总体标准差<math>\sigma</math>未知，样本容量大
+|<math>\bar{x} \pm z_{\alpha / 2}  \frac{s}{\sqrt{n}} </math>
+|一般样本容量<math>n \ge 30</math>，如果总体分布严重偏斜或包含异常点建议样本容量<math>n \ge 50</math>或更多。
+|-
+|总体比率 <math>p</math>
+|
+|<math>\overline{p} \pm z_{\alpha / 2}  \sqrt{\frac{\overline{p}(1-\overline{p})}{n}} </math>
+|
+|-
+|总体方差 <math>\sigma^2</math>
+|
+|<math>\frac{(n-1) s^{2}}{\chi_{\alpha / 2}^{2}} \leq \sigma^{2} \leq \frac{(n-1) s^{2}}{\chi_{(1-\alpha / 2)}^{2}} </math>
+|式中，<math>1-\alpha</math>为置信水平，<math>\chi^2</math>值为小于等于下标概率的自由度n-1的[[卡方分布]]值。
+|}
+===两个总体区间估计===
+{| class="wikitable"  style="width: 100%;
+! 区间估计
+! 适用情况
+! 公式
+! 描述
+|-
+|rowspan="3"|两个总体均值之差 <math>{\mu}_1 - {\mu}_2</math>
+|2个总体标准差<math>\sigma_1,\sigma_2</math>已知
+|<math>\left(\bar{x}_{1}-\bar{x}_{2}\right) \pm z_{\alpha / 2} \sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}}</math>
+|当两总体服从或近似正态分布，可以使用小样本容量。<br \>当总体不服从正态分布，该公式给出的置信区间是近似的，一般样本容量都大于30时也可以使用。
+|-
+|2个总体标准差<math>\sigma_1,\sigma_2</math>未知
+|<math>\left(\bar{x}_{1}-\bar{x}_{2}\right) \pm t_{\alpha / 2} \sqrt{\frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}}</math>
+|
+|-
+|配对样本
+|<math>\bar{d} \pm z_{\alpha / 2} \frac{\sigma_{d}}{\sqrt{n}}</math>
+|
+|-
+|两个总体比率之差 <math>p_1 - p_2</math>
+|
+|<math>\left(\bar{p}_{1}-\bar{p}_{2}\right) \pm z_{\alpha / 2} \sqrt{\frac{\bar{p}_{1}\left(1-\bar{p}_{1}\right)}{n_{1}}+\frac{\bar{p}_{2}\left(1-\bar{p}_{2}\right)}{n_{2}}}</math>
+|
+|-
+|两个总体方差之比 <math>\frac{{\sigma_1}^2}{{\sigma_2}^2}</math>
+|
+|<math>\frac{s_{1}^{2} / s_{2}^{2}}{F_{\alpha / 2}} \leq \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}} \leq \frac{s_{1}^{2} / s_{2}^{2}}{F_{(1-\alpha / 2)}}</math>
+|式中，<math>1-\alpha</math>为置信水平，<math>F</math>值为小于等于下标概率的自由度<math>(n_1-1, n_2-1)</math>的[[F分布]]值。
+|}
+==假设检验==
+===基本概念===
+{| class="wikitable"  style="width: 100%;
+! 名称
+! 描述
+|-
+|假设检验 <br \>hypothesis testing
+|是对总体参数提出某种假设,然后利用样本信息判断假设是否成立。
+|-
+|假设
+|做假设检验时，首先对总体提出两个相反假设：<br \>*'''原假设'''（null hypothesis），也叫零假设，记为<math>H_0</math>。<br \>*'''备择假设'''（Alternative hypothesis），也叫对立假设，记为<math>H_{a}</math>或<math>H_1</math>。
+|-
+|两类错误
+|因为是根据样本的统计信息去推断总体信息，所以假设检验的结果可能会存在两类错误：<br \>*'''第一类错误'''（Type I error），也叫α错误或假阳性，是原假设<math>H_0</math>是正确的，却拒绝了原假设，即弃真。<br \>*'''第二类错误'''（Type II error），也叫β错误或假阴性，是原假设<math>H_0</math>是错误的，却没有拒绝原假设，即存伪。
+|-
+|检验统计量
+|
+|
+|-
+|显著性水平
+|
+|
+|-
+|拒绝域
+|
+|-
+|
+|
+|}
+===假设检验方法===
+{| class="wikitable"  style="width: 100%;
+! 方法
+! 描述
+|-
+|t检验 <br \>t test
+|又称student t检验
+|-
+|卡方检验
+|又称'''<math>\chi^2</math>'''检验
+|-
+|F检验
+|
+|-
+|
+|
+|}
+===一个总体===
+===两个总体===
+==方差分析==
+===基本概念===
+{| class="wikitable"  style="width: 100%;
+! 名称
+! 描述
+|-
+|方差分析 <br \>Analysis of variance
+|简称'''ANOVA'''，通过两个及两个以上样本均值差别的假设检验，判断多个总体均值是否相等，即可得出分类型自变量对数值型因变量是否有显著影响。
+|-
+|单因子实验 <br \>single-factor experiment
+|是只对一个因子进行实验，而将其他因子都固定。
+|-
+|因子 <br \>factor
+|也称因素，即实验的自变量。
+|-
+|响应变量 <br \>response variable
+|即实验的因变量。
+|-
+|处理 <br \>treatments
+|也称水平，指因子的不同表现，即因子的不同选择方案（或称组）。
+|}
+===方差分析原理===
+方差分析有三个基本假定：
+*1.每个总体服从正态分布。
+*2.所有总体方差必须相同。
+*3.观测值是独立的。
+===单因子方差分析===
+===双因子方差分析===
+==相关分析==
+==回归分析==
+==因子分析==
+==时间序列分析==
+==非参数统计==
+==指数==
 ==资源==
+===相关网站===
+*[http://staff.ustc.edu.cn/~zwp/teach/Prob-Stat/probstat.htm 中国科学技术大学：概率论与数理统计]
+*[https://seeing-theory.brown.edu/basic-probability/cn.html 美国布朗大学：看见统计]
+*[https://rpubs.com/xuefliang RPubs：梁雪枫]
+*[https://cosx.org/ 统计之都]
+*[https://bookdown.org/hezhijian/book/ 何志坚：数理统计讲义]
+*[https://sites.google.com/site/fundamentalstatistics/home Bryan R. Burnham：Fundamental Statistics for the Behavioral Sciences]
+===相关文章===
+*[https://www.sohu.com/a/358716327_120233365 搜狐：统计学的实质是什么？--写给所有将要或者正在学习统计学的朋友们]
+*[https://cosx.org/2008/11/domain-of-statistics-by-yihui/ 统计之都：谢益辉-统计学的领域（写给在统计学院学习的学弟学妹之一）]
+*[https://stanford.edu/~shervine/l/zh/teaching/cs-229/refresher-probabilities-statistics 斯坦福大学：CS 229 - 机器学习 概率和统计回顾]
+*[https://www.jiqizhixin.com/articles/2017-01-09-9 机器之心：自学数据科学与机器学习，19个数学和统计学公开课推荐]
+*[http://www.woshipm.com/data-analysis/4195180.html 人人都是产品经理：数据分析必备——统计学入门基础知识]
 ===书籍===
-*《商务与经济统计（原书第12版）》- 戴维.安德森
+*《商务与经济统计》- 戴维.安德森
-*《统计学（第三版）》-贾俊平
+*《统计学》-贾俊平
 ==参考==
 * [https://zh.wikipedia.org/wiki/统计学 维基百科：统计学]
 * [https://en.wikipedia.org/wiki/Statistics 维基百科：统计学（英）]
+* [https://zh.wikipedia.org/wiki/集中趋势 维基百科：集中趋势]
+* [https://zh.wikipedia.org/wiki/概率 维基百科：概率]
+* [https://zh.wikipedia.org/wiki/概率分布 维基百科：概率分布]
+* [https://zh.wikipedia.org/wiki/抽样 维基百科：抽样]
+* [https://en.wikipedia.org/wiki/Confidence_interval 维基百科：置信区间]
 [[分类:统计学]]