统计学：修订间差异

2021年5月18日 (二) 17:54的版本

统计学是一门有关收集、处理、分析、解释和展示数据的学科。统计分析数据所用的方法大体上可分为两大类：

描述统计（descriptive statistics）是研究如何收集、处理、展示数据的统计学方法。
推断统计（inferential statistics）是研究如何利用样本数据来推断总体特征的统计学方法。

简介

时间轴

数据

描述统计

位置度量

名称	描述	常用表示方法	公式
平均数 mean	也叫算数平均数，是一组数据的数值之和除以个数。	样本平均数：[math]\displaystyle{ \overline{x} }[/math] 样本个数：n 总体平均数：[math]\displaystyle{ \mu }[/math] 总体个数：N	[math]\displaystyle{ \overline{x} = \frac{\sum{x}_{i}}{n} = \tfrac{x_1 + x_2 + x_3 \ldots + x_n}{n} }[/math] [math]\displaystyle{ \mu = \frac{\sum{x}_{i}}{N} = \tfrac{x_1 + x_2 + x_3 \ldots + x_N}{N} }[/math]
加权平均数 weighted mean	类似算术平均数，算数平均每个数据的权重都为[math]\displaystyle{ \frac{1}{n} }[/math]，但加权平均数会根据每个数据的重要性分配权重。	样本平均数：[math]\displaystyle{ \overline{x} }[/math] 样本个数：n 总体平均数：[math]\displaystyle{ \mu }[/math] 总体个数：N	假设一组数据：[math]\displaystyle{ x_1, x_2, \dots , x_n }[/math] 权重为[math]\displaystyle{ w_1, w_2, \dots, w_n }[/math] [math]\displaystyle{ \bar{x} = \frac{ \sum_{i=1}^n w_i x_i}{\sum_{i=1}^n w_i} = \frac{w_1 x_1 + w_2 x_2 + \cdots + w_n x_n}{w_1 + w_2 + \cdots + w_n} }[/math]
几何平均数 geometric mean	是n个数据乘积的n次方根。几何平均数比算术平均数更适合用于指数增长和变化的增长值；在商业中，几何平均数的增长率被称为复合年均增长率(CAGR)。	样本几何平均数：[math]\displaystyle{ \overline{x}_g }[/math] 样本个数：n 总体几何平均数：[math]\displaystyle{ \mu_g }[/math] 总体个数：N	[math]\displaystyle{ \overline{x}_g = \sqrt[n]{x_1 x_2 \cdots x_n}=({x_1 x_2 \cdots x_n})^{\frac{1}{n}} }[/math] 简洁记法：[math]\displaystyle{ \overline{x}_g = \left(\prod_{i=1}^n x_i\right)^\frac{1}{n} }[/math]
调和平均数 harmonic mean	是将所有数值取倒数并求其算术平均数后，再将此算术平均数取倒数。一般是在计算平均速率时使用。	[math]\displaystyle{ H }[/math]	[math]\displaystyle{ H = \left(\frac{x_1^{-1} + x_2^{-1} + ... + x_n^{-1}}{n}\right)^{-1} = \frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + ... + \frac{1}{x_n}} }[/math] 简记：[math]\displaystyle{ H = \frac{n}{\sum_{i=1}^n \frac{1}{x_i}} }[/math]
调整平均数 trimmed mean 或truncated mean	是删除数据的最高和最低端的一部分数值后，再计算平均值。如丢弃最高5%和最低5%的数据再计算平均值。
中位数 median	也叫中值，是一组数据按数值大小排序后，位于正中间的数，如果正中间有2个数，取这2个数的平均值。	[math]\displaystyle{ M_e }[/math]	设一组数据：[math]\displaystyle{ x_1, x_2, \dots , x_n }[/math]。按大小顺序（升序或降序）排列后为：[math]\displaystyle{ x'_1, x'_2, \dots , x'_n }[/math] [math]\displaystyle{ \mathrm{M_e} = \begin{cases} x'_\frac{n + 1}{2}, & \mbox{n为奇数} \\ \frac{1}{2}( x'_\frac{n}{2} + x'_{\frac{n}{2} + 1}), & \mbox{n为偶数} \end{cases} }[/math]
众数 mode	指一组数据中出现次数最多的数据值。
百分位数 percentile	将一组数据从小到大排序，并计算相应的累计百分位，某一百分位所对应数据的值就称为这一百分位的百分位数。	[math]\displaystyle{ P_k }[/math] 表示第k百分位数
四分位数 quartiles	是把所有数值按大小排序并分成四等份，处于三个分割点位置的数值就是四分位数。 [math]\displaystyle{ Q_1 }[/math]为第一四分位数（即第25百分位数） [math]\displaystyle{ Q_2 }[/math]为第二四分位数（即第50百分位数或中位数） *[math]\displaystyle{ Q_3 }[/math]为第三四分位数（即第75百分位数）	[math]\displaystyle{ Q_1 }[/math] [math]\displaystyle{ Q_2 }[/math] [math]\displaystyle{ Q_3 }[/math]

离散程度

名称	描述	常用表示方法	公式
极差 range	是最大值减最小值后所得数值。
四分位数间距 interquartile range	是第三四分位数[math]\displaystyle{ Q_3 }[/math]减第一四分位数[math]\displaystyle{ Q_1 }[/math]所得的数值。也就是一组数据排序后中间50%的数据的极差。	[math]\displaystyle{ IQR }[/math]	[math]\displaystyle{ IQR = Q_3-Q_1 }[/math]
方差 variance	是每个值与平均值之间差的平方和，再除以个数N，对于样本除以n-1。	样本方差：[math]\displaystyle{ s^2 }[/math] 样本平均数：[math]\displaystyle{ \overline{x} }[/math] 样本个数：n 总体方差：[math]\displaystyle{ \sigma^2 }[/math] 总体平均数：[math]\displaystyle{ \mu }[/math] 总体个数：N	[math]\displaystyle{ \sigma^2 = \frac{\sum{(x_i - \mu)^2} }{N} }[/math] [math]\displaystyle{ s^2 = \frac{\sum{(x_i - \overline{x})^2} }{n-1} }[/math]
标准差 standard deviation	是方差的平方根。	样本标准差：[math]\displaystyle{ s }[/math] 总体标准差：[math]\displaystyle{ \sigma }[/math]	[math]\displaystyle{ s = \sqrt{s^2} }[/math] [math]\displaystyle{ \sigma = \sqrt{\sigma^2} }[/math]
变异系数 coefficient of variation	又称标准差系数，是标准差归一化度量，通常表示为百分比。它是标准差[math]\displaystyle{ \sigma }[/math]与平均值[math]\displaystyle{ \mu }[/math]之比。

分布形态

名称	描述	常用表示方法	公式
偏度 skewness
峰度 kurtosis
z-分数 z-score	也叫标准分数(standard score)，是用来计算一个数据点的相对位置，即该值与平均值距离多少个标准差。	z	[math]\displaystyle{ z_i = {x_i - \mu \over \sigma} }[/math] [math]\displaystyle{ z_i = \frac{x_i-\bar{x}}{s} }[/math]

图形

概率

概率基本概念

概率（probability）是对事件发生的可能性的度量，是0至1闭区间内的数字。

名称	描述	示例
试验 experiment
随机事件 random event	简称事件，在一次随机试验中，可能出现也有可能不出现的某个特定事件。常用大写字母A、B、C等表示。
确定事件	确定事件可分为2类： * 必然事件（certain event），在一定的条件下重复进行试验时，每次试验中必然出现的事件。用Ω表示 * 不可能事件（impossible event），在一定的条件下重复进行试验时，每次试验中不可能出现的事件。用Ф表示确定事件的概率为1或0，但概率为0或1的事件不一定为确定事件。
样本点 sample point	也叫基本事件（elementary event），	抛硬币有2个样本点：正面和反面。
样本空间 sample space	是试验所有可能结果的集合。常用S、Ω或U表示	掷骰子的样本空间 [math]\displaystyle{ S = \{1,2,3,4,5,6\} }[/math]
事件的补 complement	是所有不包含该事件的样本点。使用c表示，如事件[math]\displaystyle{ A }[/math]的补为 [math]\displaystyle{ A^c }[/math]。
两个事件的并 union	属于第一个事件或第二事件或同时属于二者的样本点构成的事件。使用[math]\displaystyle{ \cup }[/math]表示，如事件[math]\displaystyle{ A }[/math]和事件[math]\displaystyle{ B }[/math]的并为[math]\displaystyle{ {A}\cup{B} }[/math]。
两个事件的交 intersection	同时属于两个事件的样本点构成的事件。使用[math]\displaystyle{ \cap }[/math]表示，如事件[math]\displaystyle{ A }[/math]和事件[math]\displaystyle{ B }[/math]的交为[math]\displaystyle{ {A}\cap{B} }[/math]。
条件概率 conditional probability	在某事件发生的条件下，该事件的概率。使用[math]\displaystyle{ \| }[/math]表示，如[math]\displaystyle{ P(A\|B) }[/math]表示事件B发生的条件下事件A发生的概率。
独立事件 independent events	一个事件发生的概率不受另一个事件的是否发生影响，则称这两个事件为独立事件。如果事件A和事件B相互独立，则[math]\displaystyle{ P(A\|B) = P(A) }[/math]或[math]\displaystyle{ P(B\|A) = P(B) }[/math]

计数法则

方法	描述	示例
加法法则 addition principle
乘法法则 multiplication principle	事件A有m种试验结果（样本点），事件B有n种试验结果，且事件A与事件B相互独立，则事件A与B有 [math]\displaystyle{ {m}\times{n} }[/math]种试验结果。多步骤试验（multiple-step experiment）适用乘法法则。	如抛掷3枚硬币，抛第一枚有2种试验结果，抛第二枚有2种试验结果，抛第三枚也有2种结果，所以一共有[math]\displaystyle{ {2}\times{2}\times{2}=8 }[/math]种试验结果
组合 combinations	从N项中选取n项（0≤n≤N）的试验，选取的n个元素为一个组合。可以使用组合计数法则计算试验结果数： [math]\displaystyle{ C_{N}^{n} = \begin{pmatrix} N \\ n \end{pmatrix} = \frac{N!}{n!(N-n)!} }[/math] 符号“[math]\displaystyle{ ! }[/math]”表示阶乘，如3的阶乘[math]\displaystyle{ 3! = {1}\times{2}\times{3} = 6 }[/math]。并且定义[math]\displaystyle{ 0! = 1 }[/math]
排列 permutalions	从N项中选取n项（0≤n≤N）的试验，并且考虑选取的顺序，可以使用排列计数法则计算实验结果数： [math]\displaystyle{ P_{N}^{n} = n! \begin{pmatrix} N \\ n \end{pmatrix} = \frac{n!}{(N-n)!} }[/math]

概率分配

方法	描述	示例
古典法 classical method	如果一个随机试验所包含的基本事件是有限的，且每个基本事件发生的可能性均相等，可以采用古典法进行概率分配。	如掷色子，假设A表示色子点数为1的事件，则[math]\displaystyle{ P(A)=\frac{1}{6} }[/math]，B表示色子点数<=2的事件，则[math]\displaystyle{ P(B)=\frac{2}{6} }[/math]
相对频数法 relative frequency method
主观法 subjective method

概率的性质与计算

名称	公式	描述
事件A的补	[math]\displaystyle{ P(A^c)=1-P(A) }[/math]
事件A与事件B的并	[math]\displaystyle{ \begin{align} P(A\cup B) & = P(A)+P(B)-P(A\cap B) \\ P(A\cup B) & = P(A)+P(B) \qquad\mbox{如果A和B为互斥事件} \\ \end{align} }[/math]	即加法公式（addition law）
事件A与事件B的交	[math]\displaystyle{ \begin{align} P(A\cap B) & = P(A\|B)P(B) = P(B\|A)P(A)\\ P(A\cap B) & = P(A)P(B) \qquad\mbox{如果A和B为独立事件}\\ \end{align} }[/math]	即乘法公式（multiplication law）
事件B发生的情况下事件A的概率	[math]\displaystyle{ P(A \mid B) = \frac{P(A \cap B)}{P(B)} = \frac{P(B\|A)P(A)}{P(B)} }[/math]
贝叶斯定理 Bayes's theorem

随机变量

离散型概率分布

连续型概率分布

参数估计

抽样与抽样分布

假设检验

方差分析

回归分析

时间序列分析

非参数统计

指数

资源

书籍

《商务与经济统计》- 戴维.安德森
《统计学》-贾俊平

参考

@@ 第126行： / 第126行： @@
 |}
 ===图形===
-==概率与概率分布==
+==概率==
 ===概率基本概念===
 概率（probability）是对事件发生的可能性的度量，是0至1闭区间内的数字。
@@ 第173行： / 第173行： @@
 | 独立事件 <br \>independent events
 | 一个事件发生的概率不受另一个事件的是否发生影响，则称这两个事件为独立事件。如果事件A和事件B相互独立，则<math>P(A|B) = P(A)</math>或<math>P(B|A) = P(B)</math>
+|
+|}
+===计数法则===
+{| class="wikitable"  style="width: 100%;
+! 方法
+! 描述
+! 示例
+|-
+| 加法法则 <br \>addition principle
+|
+|
+|-
+| 乘法法则 <br \>multiplication principle
+| 事件A有m种试验结果（样本点），事件B有n种试验结果，且事件A与事件B相互独立，则事件A与B有 <math>{m}\times{n}</math>种试验结果。多步骤试验（multiple-step experiment）适用乘法法则。
+| 如抛掷3枚硬币，抛第一枚有2种试验结果，抛第二枚有2种试验结果，抛第三枚也有2种结果，所以一共有<math>{2}\times{2}\times{2}=8</math>种试验结果
+|-
+| 组合 <br \>combinations
+| 从N项中选取n项（0≤n≤N）的试验，选取的n个元素为一个组合。可以使用组合计数法则计算试验结果数：<br \><math>C_{N}^{n} = \begin{pmatrix}  N \\  n \end{pmatrix} = \frac{N!}{n!(N-n)!} </math> <br \>符号“<math>!</math>”表示阶乘，如3的阶乘<math>3! = {1}\times{2}\times{3} = 6</math>。并且定义<math>0! = 1</math>
+|
+|-
+| 排列 <br \>permutalions
+| 从N项中选取n项（0≤n≤N）的试验，并且考虑选取的顺序，可以使用排列计数法则计算实验结果数：<br \><math>P_{N}^{n} = n! \begin{pmatrix}  N \\  n \end{pmatrix} = \frac{n!}{(N-n)!} </math>
 |
 |}
@@ 第193行： / 第215行： @@
 |
 |}
+===概率的性质与计算===
+{| class="wikitable"
+|-
+!名称!!公式!!描述
+|-
+|事件A的补||<math>P(A^c)=1-P(A)</math>
+|
+|-
+|事件A与事件B的并
+|<math>\begin{align}
+P(A\cup B) & = P(A)+P(B)-P(A\cap B) \\
+P(A\cup B) & = P(A)+P(B) \qquad\mbox{如果A和B为互斥事件} \\
+\end{align}</math>
+|即'''加法公式'''（addition law） <br \>
+|-
+|事件A与事件B的交
+|<math>\begin{align}
+P(A\cap B) & = P(A|B)P(B) = P(B|A)P(A)\\
+P(A\cap B) &  = P(A)P(B) \qquad\mbox{如果A和B为独立事件}\\
+\end{align}</math>
+|即'''乘法公式'''（multiplication law） <br \>
+|-
+|事件B发生的情况下事件A的概率
+|<math>P(A \mid B) = \frac{P(A \cap B)}{P(B)} = \frac{P(B|A)P(A)}{P(B)} </math>
+|
+|-
+|贝叶斯定理 <br \>Bayes's theorem
+|
+|
+|-
+|}
+===随机变量===
 ===离散型概率分布===
@@ 第218行： / 第275行： @@
 ==资源==
 ===相关网站===
+*[http://staff.ustc.edu.cn/~zwp/teach/Prob-Stat/probstat.htm 中国科学技术大学：概率论与数理统计]
+*[https://seeing-theory.brown.edu/basic-probability/cn.html 美国布朗大学：看见统计]
 *[https://cosx.org/ 统计之都]
-*[https://seeing-theory.brown.edu/basic-probability/cn.html 美国布朗大学：看见统计]
 *[https://bookdown.org/hezhijian/book/ 何志坚：数理统计讲义]
 ===相关文章===