查看“统计学”的源代码

统计学是一门有关收集、处理、分析、解释和展示数据的学科。统计分析数据所用的方法大体上可分为两大类：
*'''描述统计'''（descriptive statistics）是研究如何收集、处理、展示数据的统计学方法。
*'''推断统计'''（inferential statistics）是研究如何利用样本数据来推断总体特征的统计学方法。

==简介==
===时间轴===

==数据==



==描述统计==
===位置度量===

{| class="wikitable"  style="width: 100%;
! 名称
! 描述
! 常用表示方法
! 公式
|-
| 平均数<br \>mean
| 也叫算数平均数，是一组数据的数值之和除以个数。
| 样本平均数：<math>\overline{x}</math> <br \>样本个数：n<br \><br \>总体平均数：<math>\mu</math><br \>总体个数：N<br \>
|<math>\overline{x} = \frac{\sum{x}_{i}}{n} = \tfrac{x_1 + x_2 + x_3 \ldots + x_n}{n} </math> <br \><br \>  <math>\mu = \frac{\sum{x}_{i}}{N} = \tfrac{x_1 + x_2 + x_3 \ldots + x_N}{N} </math>
|- 
| 加权平均数<br \>weighted mean 
| 类似算术平均数，算数平均每个数据的权重都为<math>\frac{1}{n}</math>，但加权平均数会根据每个数据的重要性分配权重。
| 样本平均数：<math>\overline{x}</math> <br \>样本个数：n<br \><br \>总体平均数：<math>\mu</math><br \>总体个数：N<br \>
| 假设一组数据：<math>x_1, x_2, \dots , x_n</math> 权重为<math>w_1, w_2, \dots, w_n</math> <br \> <math>\bar{x} = \frac{ \sum_{i=1}^n w_i x_i}{\sum_{i=1}^n w_i} = \frac{w_1 x_1 + w_2 x_2 + \cdots + w_n x_n}{w_1 + w_2 + \cdots + w_n}</math> 
|- 
| 几何平均数<br \>geometric mean
| 是n个数据乘积的n次方根。几何平均数比算术平均数更适合用于指数增长和变化的增长值；在商业中，几何平均数的增长率被称为复合年均增长率(CAGR)。
| 样本几何平均数：<math>\overline{x}_g</math> <br \>样本个数：n<br \><br \>总体几何平均数：<math>\mu_g</math><br \>总体个数：N<br \>
| <math>\overline{x}_g  = \sqrt[n]{x_1 x_2 \cdots x_n}=({x_1 x_2 \cdots x_n})^{\frac{1}{n}}</math> <br \><br \>简洁记法：<math>\overline{x}_g = \left(\prod_{i=1}^n x_i\right)^\frac{1}{n}</math>
|- 
| 调和平均数<br \>harmonic mean
| 是将所有数值取倒数并求其算术平均数后，再将此算术平均数取倒数。一般是在计算平均速率时使用。
| <math>H</math>
| <math>H = \left(\frac{x_1^{-1} + x_2^{-1}  + ... + x_n^{-1}}{n}\right)^{-1} = \frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + ... + \frac{1}{x_n}} </math> <br \><br \>简记：<math>H = \frac{n}{\sum_{i=1}^n \frac{1}{x_i}}</math>
|- 
| 调整平均数<br \>trimmed mean <br \>或truncated mean
| 是删除数据的最高和最低端的一部分数值后，再计算平均值。如丢弃最高5%和最低5%的数据再计算平均值。
| 
|
|- 
| 中位数<br \>median
| 也叫中值，是一组数据按数值大小排序后，位于正中间的数，如果正中间有2个数，取这2个数的平均值。
|<math>M_e</math> <br \>
|设一组数据：<math>x_1, x_2, \dots , x_n</math>。按大小顺序（升序或降序）排列后为：<math>x'_1, x'_2, \dots , x'_n</math><br \><math>
\mathrm{M_e} = 
\begin{cases} 
 x'_\frac{n + 1}{2},                                   & \mbox{n为奇数} \\
 \frac{1}{2}( x'_\frac{n}{2} + x'_{\frac{n}{2} + 1}), & \mbox{n为偶数}  
\end{cases}
</math>
|- 
| 众数 <br \>mode
|指一组数据中出现次数最多的数据值。
|
|
|- 
| 百分位数<br \>percentile
| 将一组数据从小到大排序，并计算相应的累计百分位，某一百分位所对应数据的值就称为这一百分位的百分位数。
| <math>P_k</math> <br \>表示第k百分位数
|
|- 
| 四分位数<br \>quartiles
| 是把所有数值按大小排序并分成四等份，处于三个分割点位置的数值就是四分位数。<br \>*<math>Q_1</math>为第一四分位数（即第25百分位数）<br \>*<math>Q_2</math>为第二四分位数（即第50百分位数或中位数）<br \>*<math>Q_3</math>为第三四分位数（即第75百分位数）
|<math>Q_1</math><br \><math>Q_2</math><br \><math>Q_3</math><br \>
|
|}
===离散程度===
{| class="wikitable"  style="width: 100%;
! 名称
! 描述
! 常用表示方法
! 公式
|-
|极差<br \>range
|是最大值减最小值后所得数值。
|
|
|-
|四分位数间距<br \>interquartile range
|是第三四分位数<math>Q_3</math>减第一四分位数<math>Q_1</math>所得的数值。也就是一组数据排序后中间50%的数据的极差。
|<math>IQR</math>
|<math>IQR = Q_3-Q_1</math>
|-
|方差 <br \> variance
|是每个值与平均值之间差的平方和，再除以个数N，对于样本除以n-1。
| 样本方差：<math>s^2</math> <br \>样本平均数：<math>\overline{x}</math> <br \>样本个数：n<br \><br \>总体方差：<math>\sigma^2</math><br \>总体平均数：<math>\mu</math><br \>总体个数：N<br \>
|<math>\sigma^2 = \frac{\sum{(x_i - \mu)^2} }{N}</math> <br \><br \> <math>s^2 = \frac{\sum{(x_i - \overline{x})^2} }{n-1}</math> 
|-
| 标准差 <br \> standard deviation
| 是方差的平方根。
| 样本标准差：<math>s</math> <br \><br \>总体标准差：<math>\sigma</math>
| <math>s = \sqrt{s^2} </math><br \><br \> <math>\sigma = \sqrt{\sigma^2} </math>
|-
| 变异系数 <br \> coefficient of variation
| 又称标准差系数，是标准差归一化度量，通常表示为百分比。它是标准差<math> \sigma </math>与平均值<math> \mu </math>之比。
|
|
|} 

===分布形态===
{| class="wikitable"  style="width: 100%;
! 名称
! 描述
! 常用表示方法
! 公式
|-
|偏度 <br \>skewness
|
|
|
|-
|峰度 <br \>kurtosis
|
|
|
|-
|z-分数  <br \>z-score
|也叫标准分数(standard score)，是用来计算一个数据点的相对位置，即该值与平均值距离多少个标准差。
|z
|<math> z_i = {x_i - \mu \over \sigma}</math> <br \><br \> <math>z_i = \frac{x_i-\bar{x}}{s}</math>
|}
===图形===
==概率==
===概率基本概念===
概率（probability）是对事件发生的可能性的度量，是0至1闭区间内的数字。

{| class="wikitable"  style="width: 100%;
! 名称
! 描述
! 示例
|-
| 试验 <br \>experiment
| 
|
|-
| 随机事件 <br \>random event
| 简称'''事件'''，在一次随机试验中，可能出现也有可能不出现的某个特定事件。常用大写字母A、B、C等表示。
|
|-
| 确定事件  
| 确定事件可分为2类：<br \>* '''必然事件'''（certain event），在一定的条件下重复进行试验时，每次试验中必然出现的事件。用'''Ω'''表示<br \>* '''不可能事件'''（impossible event），在一定的条件下重复进行试验时，每次试验中不可能出现的事件。用'''Ф'''表示 <br \>确定事件的概率为1或0，但概率为0或1的事件不一定为确定事件。
|
|-
| 样本点 <br \>sample point
| 也叫'''基本事件'''（elementary event），
| 抛硬币有2个样本点：'''正面'''和'''反面'''。
|-
| 样本空间<br \>sample space
| 是试验所有可能结果的集合。常用'''S'''、'''Ω'''或'''U'''表示
| 掷骰子的样本空间 <math>S = \{1,2,3,4,5,6\}</math>
|-
| 事件的补 <br \>complement
| 是所有不包含该事件的样本点。使用c表示，如事件<math>A</math>的补为 <math>A^c</math>。
| 
|-
| 两个事件的并 <br \>union
| 属于第一个事件或第二事件或同时属于二者的样本点构成的事件。使用<math>\cup</math>表示，如事件<math>A</math>和事件<math>B</math>的并为<math>{A}\cup{B}</math>。
| 
|-
| 两个事件的交 <br \>intersection
| 同时属于两个事件的样本点构成的事件。使用<math>\cap</math>表示，如事件<math>A</math>和事件<math>B</math>的交为<math>{A}\cap{B}</math>。
|
|-
| 条件概率 <br \>conditional probability
| 在某事件发生的条件下，该事件的概率。使用<math>|</math>表示，如<math>P(A|B)</math>表示事件B发生的条件下事件A发生的概率。
|
|-
| 独立事件 <br \>independent events
| 一个事件发生的概率不受另一个事件的是否发生影响，则称这两个事件为独立事件。如果事件A和事件B相互独立，则<math>P(A|B) = P(A)</math>或<math>P(B|A) = P(B)</math>
|
|}
===计数法则===
{| class="wikitable"  style="width: 100%;
! 方法
! 描述
! 示例
|-
| 加法法则 <br \>addition principle 
| 
|
|-
| 乘法法则 <br \>multiplication principle 
| 事件A有m种试验结果（样本点），事件B有n种试验结果，且事件A与事件B相互独立，则事件A与B有 <math>{m}\times{n}</math>种试验结果。多步骤试验（multiple-step experiment）适用乘法法则。
| 如抛掷3枚硬币，抛第一枚有2种试验结果，抛第二枚有2种试验结果，抛第三枚也有2种结果，所以一共有<math>{2}\times{2}\times{2}=8</math>种试验结果
|-
| 组合 <br \>combinations
| 从N项中选取n项（0≤n≤N）的试验，选取的n个元素为一个组合。可以使用组合计数法则计算试验结果数：<br \><math>C_{N}^{n} = {N\choose n} = \frac{N!}{n!(N-n)!} </math> <br \>符号“<math>!</math>”表示阶乘，如3的阶乘<math>3! = {1}\times{2}\times{3} = 6</math>。并且定义<math>0! = 1</math>
|
|-
| 排列 <br \>permutalions
| 从N项中选取n项（0≤n≤N）的试验，并且考虑选取的顺序，可以使用排列计数法则计算实验结果数：<br \><math>P_{N}^{n} = n!{N\choose n} = \frac{n!}{(N-n)!} </math> 
|
|}
===概率分配===
{| class="wikitable"  style="width: 100%;
! 方法
! 描述
! 示例
|-
| 古典法 <br \>classical method
| 如果一个随机试验所包含的基本事件是有限的，且每个基本事件发生的可能性均相等，可以采用古典法进行概率分配。
| 如掷色子，假设A表示色子点数为1的事件，则<math>P(A)=\frac{1}{6}</math>，B表示色子点数<=2的事件，则<math>P(B)=\frac{2}{6}</math>
|-
| 相对频数法 <br \>relative frequency method
| 
| 
|-
| 主观法 <br \>subjective method
|
| 
|}
===概率的性质与计算===
{| class="wikitable"
|-
!名称!!公式!!描述
|-
|事件A的补||<math>P(A^c)=1-P(A)</math>
|
|-
|事件A与事件B的并
|<math>\begin{align}
P(A\cup B) & = P(A)+P(B)-P(A\cap B) \\
P(A\cup B) & = P(A)+P(B) \qquad\mbox{如果A和B为互斥事件} \\
\end{align}</math>
|即'''加法公式'''（addition law） <br \>
|-
|事件A与事件B的交
|<math>\begin{align}
P(A\cap B) & = P(A|B)P(B) = P(B|A)P(A)\\
P(A\cap B) &  = P(A)P(B) \qquad\mbox{如果A和B为独立事件}\\
\end{align}</math>
|即'''乘法公式'''（multiplication law） <br \>
|-
|事件B发生的情况下事件A的概率
|<math>P(A \mid B) = \frac{P(A \cap B)}{P(B)} = \frac{P(B|A)P(A)}{P(B)} </math>
|
|-
|贝叶斯定理 <br \>Bayes's theorem
|
|
|-
|}


===随机变量===
随机变量（random variable）是将试验结果用数值表示。可分为2类：
* '''离散型随机变量'''（discrete random variable），取值是有限的或者是可数无穷尽的值的随机变量。
* '''连续型随机变量'''（continuous random variable），取值是全部实数或者由一部分区间组成的随机变量。

以下为随机变量的数字特征：
{| class="wikitable"
|-
!名称!!描述!!离散型随机变量!!连续型随机变量
|-
|数学期望 <br \>expected value
|简称期望或均值，通常使用<math>E(x)</math>或<math>\mu</math>表示
|<math>E(x) = \sum{x}f(x)</math>
|
|-
|方差 <br \>variance
|
|
|
|-
|协方差
|
|
|
|-
|
|
|
|
|}

===离散型概率分布===
{| class="wikitable"
|-
!名称!!描述!!概率函数!!数学期望!!方差
|-
|伯努利分布 <br \>bernoulli distribution
|也称'''两点分布'''或者'''0-1分布'''，
|
|
|-
|二项分布 <br \>binomial distribution
|二项概率分布的简称，是n个独立的（'''成功'''或'''失败'''）试验中'''成功'''的次数的离散概率分布。其中每次试验的成功概率相同，用'''p'''表示。这样的单次成功或失败试验又称为伯努利试验，多次伯努利试验称为二项试验。
|<math> f(x) = {n\choose x}p^x(1-p)^{n-x}</math> <br \>其中x为成功的次数，n为试验的次数
|
|
|-
|泊松分布 <br \>poisson distribution
|适合于描述一个时间段或空间随机事件发生的次数的概率分布。
|
|
|
|-
|几何分布 <br \>geometric distribution
|
|
|
|
|-
|超几何分布 <br \>hypergeometric distribution
|
|
|
|
|}

===连续型概率分布===

==参数估计==

==抽样与抽样分布==

==假设检验==

==方差分析==

==回归分析==

==时间序列分析==

==非参数统计==


==指数==


==资源==
===相关网站===
*[http://staff.ustc.edu.cn/~zwp/teach/Prob-Stat/probstat.htm 中国科学技术大学：概率论与数理统计]
*[https://seeing-theory.brown.edu/basic-probability/cn.html 美国布朗大学：看见统计]
*[https://cosx.org/ 统计之都]
*[https://bookdown.org/hezhijian/book/ 何志坚：数理统计讲义]


===相关文章===
*[https://www.sohu.com/a/358716327_120233365 搜狐：统计学的实质是什么？--写给所有将要或者正在学习统计学的朋友们]
*[https://cosx.org/2008/11/domain-of-statistics-by-yihui/ 统计之都：谢益辉-统计学的领域（写给在统计学院学习的学弟学妹之一）]
*[https://stanford.edu/~shervine/l/zh/teaching/cs-229/refresher-probabilities-statistics 斯坦福大学：CS 229 - 机器学习 概率和统计回顾]
*[https://www.jiqizhixin.com/articles/2017-01-09-9 机器之心：自学数据科学与机器学习，19个数学和统计学公开课推荐]
*[http://www.woshipm.com/data-analysis/4195180.html 人人都是产品经理：数据分析必备——统计学入门基础知识]

===书籍===
*《商务与经济统计》- 戴维.安德森 
*《统计学》-贾俊平


==参考==
* [https://zh.wikipedia.org/wiki/统计学 维基百科：统计学]
* [https://en.wikipedia.org/wiki/Statistics 维基百科：统计学（英）]
* [https://zh.wikipedia.org/wiki/集中趋势 维基百科：集中趋势]
* [https://zh.wikipedia.org/wiki/概率 维基百科：概率]
* [https://zh.wikipedia.org/wiki/概率分布 维基百科：概率分布]

[[分类:统计学]]