统计学:修订间差异
(创建页面,内容为“统计学是一门有关收集、处理、分析、解释和展示数据的学科。统计分析数据所用的方法大体上可分为'''描述统计'''(descripti…”) |
无编辑摘要 |
||
(未显示同一用户的26个中间版本) | |||
第1行: | 第1行: | ||
统计学是一门有关收集、处理、分析、解释和展示数据的学科。统计分析数据所用的方法大体上可分为两大类: | |||
*'''描述统计'''(descriptive statistics)是研究如何收集、处理、展示数据的统计学方法。 | |||
*'''推断统计'''(inferential statistics)是研究如何利用样本数据来推断总体特征的统计学方法。 | |||
==简介== | ==简介== | ||
===时间轴=== | ===时间轴=== | ||
==数据== | |||
==描述统计== | ==描述统计== | ||
===位置度量=== | |||
{| class="wikitable" style="width: 100%; | |||
! 名称 | |||
! 常用表示方法 | |||
! 描述 | |||
! 公式 | |||
|- | |||
| 平均数<br \>mean | |||
| 样本:<math>\bar{x}</math> <br \> 总体:<math>\mu</math> | |||
| 也叫算数平均数,是一组数据的数值之和除以个数。 | |||
|<math>\bar{x} = \frac{\sum{x}_{i}}{n} = \tfrac{x_1 + x_2 + x_3 \ldots + x_n}{n} </math> <br \><br \> <math>\mu = \frac{\sum{x}_{i}}{N} = \tfrac{x_1 + x_2 + x_3 \ldots + x_N}{N} </math> <br \><br \>注:式中n为样本个数,N为总体个数 | |||
|- | |||
| 加权平均数<br \>weighted mean | |||
| 样本:<math>\bar{x}</math> <br \>总体:<math>\mu</math> | |||
| 类似算术平均数,算数平均每个数据的权重都为<math>\frac{1}{n}</math>,但加权平均数会根据每个数据的重要性分配权重。 | |||
| 假设一组数据:<math>x_1, x_2, \dots , x_n</math> 权重为<math>w_1, w_2, \dots, w_n</math> <br \> <math>\bar{x} = \frac{ \sum_{i=1}^n w_i x_i}{\sum_{i=1}^n w_i} = \frac{w_1 x_1 + w_2 x_2 + \cdots + w_n x_n}{w_1 + w_2 + \cdots + w_n}</math> <br \><br \>注:式中n为样本个数,N为总体个数 | |||
|- | |||
| 几何平均数<br \>geometric mean | |||
| 样本:<math>\bar{x}_g</math> <br \>总体:<math>\mu_g</math> | |||
| 是n个数据乘积的n次方根。几何平均数比算术平均数更适合用于指数增长和变化的增长值;在商业中,几何平均数的增长率被称为复合年均增长率(CAGR)。 | |||
| <math>\bar{x}_g = \sqrt[n]{x_1 x_2 \cdots x_n}=({x_1 x_2 \cdots x_n})^{\frac{1}{n}}</math> <br \><br \>简洁记法:<math>\bar{x}_g = \left(\prod_{i=1}^n x_i\right)^\frac{1}{n}</math><br \>注:式中n为样本个数,N为总体个数 | |||
|- | |||
| 调和平均数<br \>harmonic mean | |||
| <math>H</math> | |||
| 是将所有数值取倒数并求其算术平均数后,再将此算术平均数取倒数。一般是在计算平均速率时使用。 | |||
| <math>H = \left(\frac{x_1^{-1} + x_2^{-1} + ... + x_n^{-1}}{n}\right)^{-1} = \frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + ... + \frac{1}{x_n}} </math> <br \><br \>简记:<math>H = \frac{n}{\sum_{i=1}^n \frac{1}{x_i}}</math> | |||
|- | |||
| 调整平均数<br \>trimmed mean <br \>或truncated mean | |||
| | |||
| 是删除数据的最高和最低端的一部分数值后,再计算平均值。如丢弃最高5%和最低5%的数据再计算平均值。 | |||
| | |||
|- | |||
| 中位数<br \>median | |||
|<math>M_e</math> <br \> | |||
| 也叫中值,是一组数据按数值大小排序后,位于正中间的数,如果正中间有2个数,取这2个数的平均值。 | |||
|设一组数据:<math>x_1, x_2, \dots , x_n</math>。按大小顺序(升序或降序)排列后为:<math>x'_1, x'_2, \dots , x'_n</math><br \><math> | |||
\mathrm{M_e} = | |||
\begin{cases} | |||
x'_\frac{n + 1}{2}, & \mbox{n为奇数} \\ | |||
\frac{1}{2}( x'_\frac{n}{2} + x'_{\frac{n}{2} + 1}), & \mbox{n为偶数} | |||
\end{cases} | |||
</math> | |||
|- | |||
| 众数 <br \>mode | |||
| | |||
|指一组数据中出现次数最多的数据值。 | |||
| | |||
|- | |||
| 百分位数<br \>percentile | |||
| <math>P_k</math> <br \>表示第k百分位数 | |||
| 将一组数据从小到大排序,并计算相应的累计百分位,某一百分位所对应数据的值就称为这一百分位的百分位数。 | |||
| | |||
|- | |||
| 四分位数<br \>quartiles | |||
|<math>Q_1</math><br \><math>Q_2</math><br \><math>Q_3</math><br \> | |||
| 是把所有数值按大小排序并分成四等份,处于三个分割点位置的数值就是四分位数。<br \>*<math>Q_1</math>为第一四分位数(即第25百分位数)<br \>*<math>Q_2</math>为第二四分位数(即第50百分位数或中位数)<br \>*<math>Q_3</math>为第三四分位数(即第75百分位数) | |||
| | |||
|} | |||
===离散程度=== | |||
{| class="wikitable" style="width: 100%; | |||
! 名称 | |||
! 常用表示方法 | |||
! 描述 | |||
! 公式 | |||
|- | |||
|极差<br \>range | |||
| | |||
|是最大值减最小值后所得数值。 | |||
| | |||
|- | |||
|四分位数间距<br \>interquartile range | |||
|<math>IQR</math> | |||
|是第三四分位数<math>Q_3</math>减第一四分位数<math>Q_1</math>所得的数值。也就是一组数据排序后中间50%的数据的极差。 | |||
|<math>IQR = Q_3-Q_1</math> | |||
|- | |||
|方差 <br \> variance | |||
| 样本:<math>s^2</math> <br \>总体:<math>\sigma^2</math><br \> | |||
|是每个值与平均值之间差的平方和,再除以个数N,对于样本除以n-1。 | |||
|<math>\sigma^2 = \frac{\sum{(x_i - \mu)^2} }{N}</math> <br \><br \> <math>s^2 = \frac{\sum{(x_i - \bar{x})^2} }{n-1}</math> <br \><br \>注:式中n为样本个数,N为总体个数,<math>\bar{x}</math>为样本平均数,<math>\mu</math>为总体平均数 | |||
|- | |||
| 标准差 <br \> standard deviation | |||
| 样本:<math>s</math> <br \>总体:<math>\sigma</math> | |||
| 是方差的平方根。 | |||
| <math>s = \sqrt{s^2} </math><br \> <math>\sigma = \sqrt{\sigma^2} </math> | |||
|- | |||
| 标准差系数<br \> coefficient of variation | |||
| <math>c_v</math> | |||
| 又称变异系数,是标准差归一化度量,通常表示为百分比。它是标准差<math> \sigma </math>与平均值<math> \mu </math>之比。 | |||
| <math>c_v = {\sigma \over \mu }</math> | |||
|} | |||
===两变量间关系=== | |||
{| class="wikitable" style="width: 100%; | |||
! 名称 | |||
! 常用表示方法 | |||
! 描述 | |||
! 公式 | |||
|- | |||
|协方差 <br \>covariance | |||
|样本:<math>s_{xy}</math> <br \>总体:<math>\sigma_{xy}</math> | |||
| | |||
| | |||
|- | |||
|相关系数 <br \>correlation coefficient | |||
|样本:<math>r_{xy}</math> <br \>总体:<math>\rho_{xy}</math> | |||
|指皮尔逊积矩相关系数, | |||
| | |||
|} | |||
===分布形态=== | |||
{| class="wikitable" style="width: 100%; | |||
! 名称 | |||
! 常用表示方法 | |||
! 描述 | |||
! 公式 | |||
|- | |||
|偏度 <br \>skewness | |||
| | |||
| | |||
| | |||
|- | |||
|峰度 <br \>kurtosis | |||
| | |||
| | |||
| | |||
|- | |||
|z-分数 <br \>z-score | |||
|z | |||
|也叫标准分数(standard score),是用来计算一个数据点的相对位置,即该值与平均值距离多少个标准差。 | |||
|<math> z_i = {x_i - \mu \over \sigma}</math> <br \><br \> <math>z_i = \frac{x_i-\bar{x}}{s}</math> | |||
|} | |||
===图形=== | |||
==概率== | |||
===概率基本概念=== | |||
概率(probability)是对事件发生的可能性的度量,是0至1闭区间内的数字。 | |||
{| class="wikitable" style="width: 100%; | |||
! 名称 | |||
! 描述 | |||
! 示例 | |||
|- | |||
| 试验 <br \>experiment | |||
| | |||
| | |||
|- | |||
| 随机事件 <br \>random event | |||
| 简称'''事件''',在一次随机试验中,可能出现也有可能不出现的某个特定事件。常用大写字母A、B、C等表示。 | |||
| | |||
|- | |||
| 确定事件 | |||
| 确定事件可分为2类:<br \>* '''必然事件'''(certain event),在一定的条件下重复进行试验时,每次试验中必然出现的事件。用'''Ω'''表示<br \>* '''不可能事件'''(impossible event),在一定的条件下重复进行试验时,每次试验中不可能出现的事件。用'''Ф'''表示 <br \>确定事件的概率为1或0,但概率为0或1的事件不一定为确定事件。 | |||
| | |||
|- | |||
| 样本点 <br \>sample point | |||
| 也叫'''基本事件'''(elementary event), | |||
| 抛硬币有2个样本点:'''正面'''和'''反面'''。 | |||
|- | |||
| 样本空间<br \>sample space | |||
| 是试验所有可能结果的集合。常用'''S'''、'''Ω'''或'''U'''表示 | |||
| 掷骰子的样本空间 <math>S = \{1,2,3,4,5,6\}</math> | |||
|- | |||
| 事件的补 <br \>complement | |||
| 是所有不包含该事件的样本点。使用c表示,如事件<math>A</math>的补为 <math>A^c</math>。 | |||
| | |||
|- | |||
| 两个事件的并 <br \>union | |||
| 属于第一个事件或第二事件或同时属于二者的样本点构成的事件。使用<math>\cup</math>表示,如事件<math>A</math>和事件<math>B</math>的并为<math>{A}\cup{B}</math>。 | |||
| | |||
|- | |||
| 两个事件的交 <br \>intersection | |||
| 同时属于两个事件的样本点构成的事件。使用<math>\cap</math>表示,如事件<math>A</math>和事件<math>B</math>的交为<math>{A}\cap{B}</math>。 | |||
| | |||
|- | |||
| 条件概率 <br \>conditional probability | |||
| 在某事件发生的条件下,该事件的概率。使用<math>|</math>表示,如<math>P(A|B)</math>表示事件B发生的条件下事件A发生的概率。 | |||
| | |||
|- | |||
| 独立事件 <br \>independent events | |||
| 一个事件发生的概率不受另一个事件的是否发生影响,则称这两个事件为独立事件。如果事件A和事件B相互独立,则<math>P(A|B) = P(A)</math>或<math>P(B|A) = P(B)</math> | |||
| | |||
|} | |||
===计数法则=== | |||
{| class="wikitable" style="width: 100%; | |||
! 方法 | |||
! 描述 | |||
! 示例 | |||
|- | |||
| 加法法则 <br \>addition principle | |||
| | |||
| | |||
|- | |||
| 乘法法则 <br \>multiplication principle | |||
| 事件A有m种试验结果(样本点),事件B有n种试验结果,且事件A与事件B相互独立,则事件A与B有 <math>{m}\times{n}</math>种试验结果。多步骤试验(multiple-step experiment)适用乘法法则。 | |||
| 如抛掷3枚硬币,抛第一枚有2种试验结果,抛第二枚有2种试验结果,抛第三枚也有2种结果,所以一共有<math>{2}\times{2}\times{2}=8</math>种试验结果 | |||
|- | |||
| 组合 <br \>combinations | |||
| 从N项中选取n项(0≤n≤N)的试验,选取的n个元素为一个组合。可以使用组合计数法则计算试验结果数:<br \><math>C_{N}^{n} = {N\choose n} = \frac{N!}{n!(N-n)!} </math> <br \>符号“<math>!</math>”表示阶乘,如3的阶乘<math>3! = {1}\times{2}\times{3} = 6</math>。并且定义<math>0! = 1</math> | |||
| | |||
|- | |||
| 排列 <br \>permutations | |||
| 从N项中选取n项(0≤n≤N)的试验,并且考虑选取的顺序,可以使用排列计数法则计算实验结果数:<br \><math>P_{N}^{n} = n!{N\choose n} = \frac{n!}{(N-n)!} </math> | |||
| | |||
|} | |||
===概率分配=== | |||
{| class="wikitable" style="width: 100%; | |||
! 方法 | |||
! 描述 | |||
! 示例 | |||
|- | |||
| 古典法 <br \>classical method | |||
| 如果一个随机试验所包含的基本事件是有限的,且每个基本事件发生的可能性均相等,可以采用古典法进行概率分配。 | |||
| 如掷色子,假设A表示色子点数为1的事件,则<math>P(A)=\frac{1}{6}</math>,B表示色子点数<=2的事件,则<math>P(B)=\frac{2}{6}</math> | |||
|- | |||
| 相对频数法 <br \>relative frequency method | |||
| | |||
| | |||
|- | |||
| 主观法 <br \>subjective method | |||
| | |||
| | |||
|} | |||
===概率的性质与计算=== | |||
{| class="wikitable" | |||
|- | |||
!名称!!公式!!描述 | |||
|- | |||
|事件A的补||<math>P(A^c)=1-P(A)</math> | |||
| | |||
|- | |||
|事件A与事件B的并 | |||
|<math>\begin{align} | |||
P(A\cup B) & = P(A)+P(B)-P(A\cap B) \\ | |||
P(A\cup B) & = P(A)+P(B) \qquad\mbox{如果A和B为互斥事件} \\ | |||
\end{align}</math> | |||
|即'''加法公式'''(addition law) <br \> | |||
|- | |||
|事件A与事件B的交 | |||
|<math>\begin{align} | |||
P(A\cap B) & = P(A|B)P(B) = P(B|A)P(A)\\ | |||
P(A\cap B) & = P(A)P(B) \qquad\mbox{如果A和B为独立事件}\\ | |||
\end{align}</math> | |||
|即'''乘法公式'''(multiplication law) <br \> | |||
|- | |||
|事件B发生的情况下事件A的概率 | |||
|<math>P(A \mid B) = \frac{P(A \cap B)}{P(B)} = \frac{P(B|A)P(A)}{P(B)} </math> | |||
| | |||
|- | |||
|贝叶斯定理 <br \>Bayes's theorem | |||
| | |||
| | |||
|- | |||
|} | |||
===随机变量=== | |||
随机变量(random variable)是将试验结果用数值表示。可分为2类: | |||
* '''离散型随机变量'''(discrete random variable),取值是有限的或者是可数无穷尽的值的随机变量。 | |||
* '''连续型随机变量'''(continuous random variable),取值是全部实数或者由一部分区间组成的随机变量。 | |||
以下为随机变量的数字特征: | |||
{| class="wikitable" | |||
|- | |||
!名称!!描述!!离散型随机变量!!连续型随机变量 | |||
|- | |||
|数学期望 <br \>expected value | |||
|简称期望或均值,通常使用<math>E(x)</math>或<math>\mu</math>表示 | |||
|<math>E(x) = \sum{x}f(x)</math> | |||
| | |||
|- | |||
|方差 <br \>variance | |||
| | |||
| | |||
| | |||
|- | |||
|协方差 | |||
| | |||
| | |||
| | |||
|- | |||
| | |||
| | |||
| | |||
| | |||
|} | |||
== | ===离散型概率分布=== | ||
{| class="wikitable" | |||
|- | |||
!名称!!描述!!概率函数!!数学期望!!方差 | |||
|- | |||
|伯努利分布 <br \>bernoulli distribution | |||
|也称'''两点分布'''或者'''0-1分布''', | |||
| | |||
| | |||
|- | |||
|二项分布 <br \>binomial distribution | |||
|二项概率分布的简称,是n个独立的('''成功'''或'''失败''')试验中'''成功'''的次数的离散概率分布。其中每次试验的成功概率相同,用'''p'''表示。这样的单次成功或失败试验又称为伯努利试验,多次伯努利试验称为二项试验。 | |||
|<math> f(x) = {n\choose x}p^x(1-p)^{n-x}</math> <br \>其中x为成功的次数,n为试验的次数 | |||
| | |||
| | |||
|- | |||
|泊松分布 <br \>poisson distribution | |||
|适合于描述一个时间段或空间随机事件发生的次数的概率分布。 | |||
| | |||
| | |||
| | |||
|- | |||
|几何分布 <br \>geometric distribution | |||
| | |||
| | |||
| | |||
| | |||
|- | |||
|超几何分布 <br \>hypergeometric distribution | |||
| | |||
| | |||
| | |||
| | |||
|} | |||
===连续型概率分布=== | |||
{| class="wikitable" | |||
|- | |||
!名称!!描述!!概率函数!!数学期望!!方差 | |||
|- | |||
|均匀分布 <br \>uniform distribution | |||
| | |||
| | |||
| | |||
| | |||
|- | |||
|[[正态分布]] <br \>normal distribution | |||
|也称高斯分布, | |||
| | |||
| | |||
| | |||
|- | |||
|指数分布 <br \>exponential distribution | |||
| | |||
| | |||
| | |||
| | |||
|- | |||
|[[卡方分布]] <br \>chi-square distribution | |||
|也叫'''<math>\chi^2</math>分布'''。<math>\chi</math>是第22个[[希腊字母]],英语名称chi,读音与“开”相同。 | |||
| | |||
| | |||
| | |||
|- | |||
| [[t分布]] <br \> t-distribution | |||
|也叫Student t-分布(Student's t-distribution)。 | |||
| | |||
| | |||
| | |||
|- | |||
|[[F分布]] <br \> F-distribution | |||
| | |||
| | |||
| | |||
| | |||
|- | |||
|伽玛分布 <br \> Gamma distribution | |||
| | |||
| | |||
| | |||
| | |||
|- | |||
|Beta 分布 <br \> Beta distribution | |||
|也称B分布或贝塔分布。 | |||
| | |||
| | |||
| | |||
|} | |||
==抽样与抽样分布== | |||
===基本概念=== | |||
{| class="wikitable" style="width: 100%; | |||
! 名称 | |||
! 描述 | |||
! 示例 | |||
|- | |||
| 抽样 <br \>sampling | |||
| 是从总体(目标总体)中抽取一部分个体作为样本(Sample) | |||
| | |||
|- | |||
| 目标总体 <br \>target population | |||
| 简称总体(population),是所有要研究的个体的集合,即进行统计推断的总体。总体按个体的数目可分为2类:<br \>*有限总体 <br \>*无限总体 | |||
| | |||
|- | |||
| 抽样总体 <br \>sample population | |||
| 实际抽取样本的总体。使用样本去推断总体时,应该确保抽样总体与目标总体尽可能相似。 | |||
| | |||
|- | |||
| 抽样框 <br \>frame | |||
| | |||
| | |||
|- | |||
| 样本 <br \>sample | |||
| 总体的一个子集,通过样本可以推测出总体的情况。样本可分为:<br \>'''单样本'''(one sample),从一个总体中抽取的样本。<br \>'''独立样本'''(independent sample),从两个总体中独立抽取的两个样本,两个样本抽取时是相互独立的。<br \>'''配对样本'''(matched sample),也称匹配样本,两个样本的值是相对应的。如一组病人服药前数据和服药后数据,一组工人使用方法A的数据和方法B的数据。 | |||
| | |||
|- | |||
| 样本容量 <br \>sample size | |||
| 也称样本的大小,是样本中个体的数目。通常用n表示 | |||
| | |||
|- | |||
| 总体参数 <br \>parameter | |||
| 总体的数值特征,如总体平均值<math>\mu</math>、总体标准差<math>\sigma</math>和总体比率<math>p</math>等。 | |||
| | |||
|- | |||
| 样本统计量 <br \>sample statistic | |||
| 样本的数值特征,如样本平均值<math>\bar{x}</math>、总体标准差<math>s</math>和总体比率<math>\overline{p}</math>等。 | |||
| | |||
|} | |||
===抽样方法=== | |||
{| class="wikitable" style="width: 100%; | |||
! 名称 | |||
! 描述 | |||
! 示例 | |||
|- | |||
|简单随机抽样 <br \> simple random sampling | |||
|也叫纯随机抽样。从总体N个个体中随机地抽取n个个体作为样本,使每个个体都有相同的概率被抽中。 | |||
| | |||
|- | |||
|系统抽样 <br \> systematic sampling | |||
|也称等距抽样或机械抽样。将总体中的所有个体按一定顺序排列,在规定的范围内随机地抽取一个个体作为初始个体,然后按事先规定好的规则确定其他样本个体。 | |||
| | |||
|- | |||
|分层抽样 <br \>stratified sampling | |||
|将抽样个体按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。从而保证样本的结构与总体的结构比较相近,从而提高估计的精度。 | |||
| | |||
|- | |||
|整群抽样 <br \>cluster sampling | |||
|将总体分为若干个群,然后从若干个群中随机抽取1个或多个群。该可简化工作量,缺点是估计的精度较差。 | |||
|调查中学生患近视眼的情况,随机抽取某一个班进行调查。 | |||
|} | |||
===抽样分布=== | |||
==参数估计== | |||
===基本概念=== | |||
{| class="wikitable" style="width: 100%; | |||
! 名称 | |||
! 描述 | |||
! 示例 | |||
|- | |||
|参数估计 <br \>parameter estimation | |||
|是使用样本统计量来估计总体参数。分为点估计和区间估计。 | |||
| | |||
|- | |||
|点估计 <br \>point estimation | |||
|是使用某个样本统计量估计某个总体参数。比如使用样本平均值<math>\bar{x}</math>直接作为总体平均值<math>\mu</math>的估计。 | |||
| | |||
|- | |||
|区间估计 <br \>interval estimation | |||
|总体参数估计的一个区间范围,是点估计加减一个估计误差得到。 | |||
| | |||
|- | |||
|置信水平 <br \>confidence level | |||
|也称置信度或置信系数,是置信区间中包含总体参数真值的概率。如95%置信水平表示我们相信总体参数的真值有95%的概率落在置信区间。 | |||
| | |||
|- | |||
|置信区间 <br \>confidence interval | |||
|是在某个置信水平下构造的区间估计。如95%置信区间表示95%置信水平下的区间。 | |||
| | |||
|} | |||
===点估计=== | |||
===一个总体区间估计=== | |||
{| class="wikitable" style="width: 100%; | |||
! 区间估计 | |||
! 适用情况 | |||
! 公式 | |||
! 描述 | |||
|- | |||
|rowspan="3"|总体均值 <math>\mu</math> | |||
|总体标准差<math>\sigma</math>已知 | |||
|<math>\bar{x} \pm z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} </math> | |||
|当总体服从或近似正态分布,可以使用小样本容量。<br \>当总体不服从正态分布,该公式给出的置信区间是近似的,一般样本容量<math>n \ge 30</math>时也可以使用。 | |||
|- | |||
|总体标准差<math>\sigma</math>未知 | |||
|<math>\bar{x} \pm t_{\alpha / 2} \frac{s}{\sqrt{n}} </math> | |||
|当总体服从或近似正态分布,所给的置信区间是精确的,小样本容量可以使用。<br \>当不知道总体是否服从正态分布,样本也没发现偏斜或异常点,小样本容量也可以使用。 <br \>当总体不服从正态分布,该公式给出的置信区间是近似的,一般样本容量<math>n \ge 30</math>时也可以使用,如果总体分布严重偏斜或包含异常点建议样本容量<math>n \ge 50</math>或更多。<br \><br \>原理:利用s估计<math>\sigma</math>,利用t分布求出置信区间。虽然t分布是建立在抽样总体服从正态分布的基础上,但研究表明总体分布偏离正态分布下,利用t分布的结果还是相当不错。 | |||
|- | |||
|总体标准差<math>\sigma</math>未知,样本容量大 | |||
|<math>\bar{x} \pm z_{\alpha / 2} \frac{s}{\sqrt{n}} </math> | |||
|一般样本容量<math>n \ge 30</math>,如果总体分布严重偏斜或包含异常点建议样本容量<math>n \ge 50</math>或更多。 | |||
|- | |||
|总体比率 <math>p</math> | |||
| | |||
|<math>\overline{p} \pm z_{\alpha / 2} \sqrt{\frac{\overline{p}(1-\overline{p})}{n}} </math> | |||
| | |||
|- | |||
|总体方差 <math>\sigma^2</math> | |||
| | |||
|<math>\frac{(n-1) s^{2}}{\chi_{\alpha / 2}^{2}} \leq \sigma^{2} \leq \frac{(n-1) s^{2}}{\chi_{(1-\alpha / 2)}^{2}} </math> | |||
|式中,<math>1-\alpha</math>为置信水平,<math>\chi^2</math>值为小于等于下标概率的自由度n-1的[[卡方分布]]值。 | |||
|} | |||
===两个总体区间估计=== | |||
{| class="wikitable" style="width: 100%; | |||
! 区间估计 | |||
! 适用情况 | |||
! 公式 | |||
! 描述 | |||
|- | |||
|rowspan="3"|两个总体均值之差 <math>{\mu}_1 - {\mu}_2</math> | |||
|2个总体标准差<math>\sigma_1,\sigma_2</math>已知 | |||
|<math>\left(\bar{x}_{1}-\bar{x}_{2}\right) \pm z_{\alpha / 2} \sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}}</math> | |||
|当两总体服从或近似正态分布,可以使用小样本容量。<br \>当总体不服从正态分布,该公式给出的置信区间是近似的,一般样本容量都大于30时也可以使用。 | |||
|- | |||
|2个总体标准差<math>\sigma_1,\sigma_2</math>未知 | |||
|<math>\left(\bar{x}_{1}-\bar{x}_{2}\right) \pm t_{\alpha / 2} \sqrt{\frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}}</math> | |||
| | |||
|- | |||
|配对样本 | |||
|<math>\bar{d} \pm z_{\alpha / 2} \frac{\sigma_{d}}{\sqrt{n}}</math> | |||
| | |||
|- | |||
|两个总体比率之差 <math>p_1 - p_2</math> | |||
| | |||
|<math>\left(\bar{p}_{1}-\bar{p}_{2}\right) \pm z_{\alpha / 2} \sqrt{\frac{\bar{p}_{1}\left(1-\bar{p}_{1}\right)}{n_{1}}+\frac{\bar{p}_{2}\left(1-\bar{p}_{2}\right)}{n_{2}}}</math> | |||
| | |||
|- | |||
|两个总体方差之比 <math>\frac{{\sigma_1}^2}{{\sigma_2}^2}</math> | |||
| | |||
|<math>\frac{s_{1}^{2} / s_{2}^{2}}{F_{\alpha / 2}} \leq \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}} \leq \frac{s_{1}^{2} / s_{2}^{2}}{F_{(1-\alpha / 2)}}</math> | |||
|式中,<math>1-\alpha</math>为置信水平,<math>F</math>值为小于等于下标概率的自由度<math>(n_1-1, n_2-1)</math>的[[F分布]]值。 | |||
|} | |||
==假设检验== | |||
===基本概念=== | |||
{| class="wikitable" style="width: 100%; | |||
! 名称 | |||
! 描述 | |||
|- | |||
|假设检验 <br \>hypothesis testing | |||
|是对总体参数提出某种假设,然后利用样本信息判断假设是否成立。 | |||
|- | |||
|假设 | |||
|做假设检验时,首先对总体提出两个相反假设:<br \>*'''原假设'''(null hypothesis),也叫零假设,记为<math>H_0</math>。<br \>*'''备择假设'''(Alternative hypothesis),也叫对立假设,记为<math>H_{a}</math>或<math>H_1</math>。 | |||
|- | |||
|两类错误 | |||
|因为是根据样本的统计信息去推断总体信息,所以假设检验的结果可能会存在两类错误:<br \>*'''第一类错误'''(Type I error),也叫α错误或假阳性,是原假设<math>H_0</math>是正确的,却拒绝了原假设,即弃真。<br \>*'''第二类错误'''(Type II error),也叫β错误或假阴性,是原假设<math>H_0</math>是错误的,却没有拒绝原假设,即存伪。 | |||
|- | |||
|检验统计量 | |||
| | |||
| | |||
|- | |||
|显著性水平 | |||
| | |||
| | |||
|- | |||
|拒绝域 | |||
| | |||
|- | |||
| | |||
| | |||
|} | |||
===假设检验方法=== | |||
{| class="wikitable" style="width: 100%; | |||
! 方法 | |||
! 描述 | |||
|- | |||
|t检验 <br \>t test | |||
|又称student t检验 | |||
|- | |||
|卡方检验 | |||
|又称'''<math>\chi^2</math>'''检验 | |||
|- | |||
|F检验 | |||
| | |||
|- | |||
| | |||
| | |||
|} | |||
===一个总体=== | |||
===两个总体=== | |||
==方差分析== | |||
===基本概念=== | |||
{| class="wikitable" style="width: 100%; | |||
! 名称 | |||
! 描述 | |||
|- | |||
|方差分析 <br \>Analysis of variance | |||
|简称'''ANOVA''',通过两个及两个以上样本均值差别的假设检验,判断多个总体均值是否相等,即可得出分类型自变量对数值型因变量是否有显著影响。 | |||
|- | |||
|单因子实验 <br \>single-factor experiment | |||
|是只对一个因子进行实验,而将其他因子都固定。 | |||
|- | |||
|因子 <br \>factor | |||
|也称因素,即实验的自变量。 | |||
|- | |||
|响应变量 <br \>response variable | |||
|即实验的因变量。 | |||
|- | |||
|处理 <br \>treatments | |||
|也称水平,指因子的不同表现,即因子的不同选择方案(或称组)。 | |||
|} | |||
===方差分析原理=== | |||
方差分析有三个基本假定: | |||
*1.每个总体服从正态分布。 | |||
*2.所有总体方差必须相同。 | |||
*3.观测值是独立的。 | |||
===单因子方差分析=== | |||
===双因子方差分析=== | |||
==相关分析== | |||
==回归分析== | |||
==因子分析== | |||
==时间序列分析== | |||
==非参数统计== | |||
==指数== | |||
==资源== | ==资源== | ||
===相关网站=== | |||
*[http://staff.ustc.edu.cn/~zwp/teach/Prob-Stat/probstat.htm 中国科学技术大学:概率论与数理统计] | |||
*[https://seeing-theory.brown.edu/basic-probability/cn.html 美国布朗大学:看见统计] | |||
*[https://rpubs.com/xuefliang RPubs:梁雪枫] | |||
*[https://cosx.org/ 统计之都] | |||
*[https://bookdown.org/hezhijian/book/ 何志坚:数理统计讲义] | |||
*[https://sites.google.com/site/fundamentalstatistics/home Bryan R. Burnham:Fundamental Statistics for the Behavioral Sciences] | |||
===相关文章=== | |||
*[https://www.sohu.com/a/358716327_120233365 搜狐:统计学的实质是什么?--写给所有将要或者正在学习统计学的朋友们] | |||
*[https://cosx.org/2008/11/domain-of-statistics-by-yihui/ 统计之都:谢益辉-统计学的领域(写给在统计学院学习的学弟学妹之一)] | |||
*[https://stanford.edu/~shervine/l/zh/teaching/cs-229/refresher-probabilities-statistics 斯坦福大学:CS 229 - 机器学习 概率和统计回顾] | |||
*[https://www.jiqizhixin.com/articles/2017-01-09-9 机器之心:自学数据科学与机器学习,19个数学和统计学公开课推荐] | |||
*[http://www.woshipm.com/data-analysis/4195180.html 人人都是产品经理:数据分析必备——统计学入门基础知识] | |||
===书籍=== | ===书籍=== | ||
* | *《商务与经济统计》- 戴维.安德森 | ||
* | *《统计学》-贾俊平 | ||
==参考== | ==参考== | ||
* [https://zh.wikipedia.org/wiki/统计学 维基百科:统计学] | * [https://zh.wikipedia.org/wiki/统计学 维基百科:统计学] | ||
* [https://en.wikipedia.org/wiki/Statistics 维基百科:统计学(英)] | * [https://en.wikipedia.org/wiki/Statistics 维基百科:统计学(英)] | ||
* [https://zh.wikipedia.org/wiki/集中趋势 维基百科:集中趋势] | |||
* [https://zh.wikipedia.org/wiki/概率 维基百科:概率] | |||
* [https://zh.wikipedia.org/wiki/概率分布 维基百科:概率分布] | |||
* [https://zh.wikipedia.org/wiki/抽样 维基百科:抽样] | |||
* [https://en.wikipedia.org/wiki/Confidence_interval 维基百科:置信区间] | |||
[[分类:统计学]] | [[分类:统计学]] |
2021年7月15日 (四) 04:36的最新版本
统计学是一门有关收集、处理、分析、解释和展示数据的学科。统计分析数据所用的方法大体上可分为两大类:
- 描述统计(descriptive statistics)是研究如何收集、处理、展示数据的统计学方法。
- 推断统计(inferential statistics)是研究如何利用样本数据来推断总体特征的统计学方法。
简介
时间轴
数据
描述统计
位置度量
名称 | 常用表示方法 | 描述 | 公式 |
---|---|---|---|
平均数 mean |
样本:[math]\displaystyle{ \bar{x} }[/math] 总体:[math]\displaystyle{ \mu }[/math] |
也叫算数平均数,是一组数据的数值之和除以个数。 | [math]\displaystyle{ \bar{x} = \frac{\sum{x}_{i}}{n} = \tfrac{x_1 + x_2 + x_3 \ldots + x_n}{n} }[/math] [math]\displaystyle{ \mu = \frac{\sum{x}_{i}}{N} = \tfrac{x_1 + x_2 + x_3 \ldots + x_N}{N} }[/math] 注:式中n为样本个数,N为总体个数 |
加权平均数 weighted mean |
样本:[math]\displaystyle{ \bar{x} }[/math] 总体:[math]\displaystyle{ \mu }[/math] |
类似算术平均数,算数平均每个数据的权重都为[math]\displaystyle{ \frac{1}{n} }[/math],但加权平均数会根据每个数据的重要性分配权重。 | 假设一组数据:[math]\displaystyle{ x_1, x_2, \dots , x_n }[/math] 权重为[math]\displaystyle{ w_1, w_2, \dots, w_n }[/math] [math]\displaystyle{ \bar{x} = \frac{ \sum_{i=1}^n w_i x_i}{\sum_{i=1}^n w_i} = \frac{w_1 x_1 + w_2 x_2 + \cdots + w_n x_n}{w_1 + w_2 + \cdots + w_n} }[/math] 注:式中n为样本个数,N为总体个数 |
几何平均数 geometric mean |
样本:[math]\displaystyle{ \bar{x}_g }[/math] 总体:[math]\displaystyle{ \mu_g }[/math] |
是n个数据乘积的n次方根。几何平均数比算术平均数更适合用于指数增长和变化的增长值;在商业中,几何平均数的增长率被称为复合年均增长率(CAGR)。 | [math]\displaystyle{ \bar{x}_g = \sqrt[n]{x_1 x_2 \cdots x_n}=({x_1 x_2 \cdots x_n})^{\frac{1}{n}} }[/math] 简洁记法:[math]\displaystyle{ \bar{x}_g = \left(\prod_{i=1}^n x_i\right)^\frac{1}{n} }[/math] 注:式中n为样本个数,N为总体个数 |
调和平均数 harmonic mean |
[math]\displaystyle{ H }[/math] | 是将所有数值取倒数并求其算术平均数后,再将此算术平均数取倒数。一般是在计算平均速率时使用。 | [math]\displaystyle{ H = \left(\frac{x_1^{-1} + x_2^{-1} + ... + x_n^{-1}}{n}\right)^{-1} = \frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + ... + \frac{1}{x_n}} }[/math] 简记:[math]\displaystyle{ H = \frac{n}{\sum_{i=1}^n \frac{1}{x_i}} }[/math] |
调整平均数 trimmed mean 或truncated mean |
是删除数据的最高和最低端的一部分数值后,再计算平均值。如丢弃最高5%和最低5%的数据再计算平均值。 | ||
中位数 median |
[math]\displaystyle{ M_e }[/math] |
也叫中值,是一组数据按数值大小排序后,位于正中间的数,如果正中间有2个数,取这2个数的平均值。 | 设一组数据:[math]\displaystyle{ x_1, x_2, \dots , x_n }[/math]。按大小顺序(升序或降序)排列后为:[math]\displaystyle{ x'_1, x'_2, \dots , x'_n }[/math] [math]\displaystyle{ \mathrm{M_e} = \begin{cases} x'_\frac{n + 1}{2}, & \mbox{n为奇数} \\ \frac{1}{2}( x'_\frac{n}{2} + x'_{\frac{n}{2} + 1}), & \mbox{n为偶数} \end{cases} }[/math] |
众数 mode |
指一组数据中出现次数最多的数据值。 | ||
百分位数 percentile |
[math]\displaystyle{ P_k }[/math] 表示第k百分位数 |
将一组数据从小到大排序,并计算相应的累计百分位,某一百分位所对应数据的值就称为这一百分位的百分位数。 | |
四分位数 quartiles |
[math]\displaystyle{ Q_1 }[/math] [math]\displaystyle{ Q_2 }[/math] [math]\displaystyle{ Q_3 }[/math] |
是把所有数值按大小排序并分成四等份,处于三个分割点位置的数值就是四分位数。 *[math]\displaystyle{ Q_1 }[/math]为第一四分位数(即第25百分位数) *[math]\displaystyle{ Q_2 }[/math]为第二四分位数(即第50百分位数或中位数) *[math]\displaystyle{ Q_3 }[/math]为第三四分位数(即第75百分位数) |
离散程度
名称 | 常用表示方法 | 描述 | 公式 |
---|---|---|---|
极差 range |
是最大值减最小值后所得数值。 | ||
四分位数间距 interquartile range |
[math]\displaystyle{ IQR }[/math] | 是第三四分位数[math]\displaystyle{ Q_3 }[/math]减第一四分位数[math]\displaystyle{ Q_1 }[/math]所得的数值。也就是一组数据排序后中间50%的数据的极差。 | [math]\displaystyle{ IQR = Q_3-Q_1 }[/math] |
方差 variance |
样本:[math]\displaystyle{ s^2 }[/math] 总体:[math]\displaystyle{ \sigma^2 }[/math] |
是每个值与平均值之间差的平方和,再除以个数N,对于样本除以n-1。 | [math]\displaystyle{ \sigma^2 = \frac{\sum{(x_i - \mu)^2} }{N} }[/math] [math]\displaystyle{ s^2 = \frac{\sum{(x_i - \bar{x})^2} }{n-1} }[/math] 注:式中n为样本个数,N为总体个数,[math]\displaystyle{ \bar{x} }[/math]为样本平均数,[math]\displaystyle{ \mu }[/math]为总体平均数 |
标准差 standard deviation |
样本:[math]\displaystyle{ s }[/math] 总体:[math]\displaystyle{ \sigma }[/math] |
是方差的平方根。 | [math]\displaystyle{ s = \sqrt{s^2} }[/math] [math]\displaystyle{ \sigma = \sqrt{\sigma^2} }[/math] |
标准差系数 coefficient of variation |
[math]\displaystyle{ c_v }[/math] | 又称变异系数,是标准差归一化度量,通常表示为百分比。它是标准差[math]\displaystyle{ \sigma }[/math]与平均值[math]\displaystyle{ \mu }[/math]之比。 | [math]\displaystyle{ c_v = {\sigma \over \mu } }[/math] |
两变量间关系
名称 | 常用表示方法 | 描述 | 公式 |
---|---|---|---|
协方差 covariance |
样本:[math]\displaystyle{ s_{xy} }[/math] 总体:[math]\displaystyle{ \sigma_{xy} }[/math] |
||
相关系数 correlation coefficient |
样本:[math]\displaystyle{ r_{xy} }[/math] 总体:[math]\displaystyle{ \rho_{xy} }[/math] |
指皮尔逊积矩相关系数, |
分布形态
名称 | 常用表示方法 | 描述 | 公式 |
---|---|---|---|
偏度 skewness |
|||
峰度 kurtosis |
|||
z-分数 z-score |
z | 也叫标准分数(standard score),是用来计算一个数据点的相对位置,即该值与平均值距离多少个标准差。 | [math]\displaystyle{ z_i = {x_i - \mu \over \sigma} }[/math] [math]\displaystyle{ z_i = \frac{x_i-\bar{x}}{s} }[/math] |
图形
概率
概率基本概念
概率(probability)是对事件发生的可能性的度量,是0至1闭区间内的数字。
名称 | 描述 | 示例 |
---|---|---|
试验 experiment |
||
随机事件 random event |
简称事件,在一次随机试验中,可能出现也有可能不出现的某个特定事件。常用大写字母A、B、C等表示。 | |
确定事件 | 确定事件可分为2类: * 必然事件(certain event),在一定的条件下重复进行试验时,每次试验中必然出现的事件。用Ω表示 * 不可能事件(impossible event),在一定的条件下重复进行试验时,每次试验中不可能出现的事件。用Ф表示 确定事件的概率为1或0,但概率为0或1的事件不一定为确定事件。 |
|
样本点 sample point |
也叫基本事件(elementary event), | 抛硬币有2个样本点:正面和反面。 |
样本空间 sample space |
是试验所有可能结果的集合。常用S、Ω或U表示 | 掷骰子的样本空间 [math]\displaystyle{ S = \{1,2,3,4,5,6\} }[/math] |
事件的补 complement |
是所有不包含该事件的样本点。使用c表示,如事件[math]\displaystyle{ A }[/math]的补为 [math]\displaystyle{ A^c }[/math]。 | |
两个事件的并 union |
属于第一个事件或第二事件或同时属于二者的样本点构成的事件。使用[math]\displaystyle{ \cup }[/math]表示,如事件[math]\displaystyle{ A }[/math]和事件[math]\displaystyle{ B }[/math]的并为[math]\displaystyle{ {A}\cup{B} }[/math]。 | |
两个事件的交 intersection |
同时属于两个事件的样本点构成的事件。使用[math]\displaystyle{ \cap }[/math]表示,如事件[math]\displaystyle{ A }[/math]和事件[math]\displaystyle{ B }[/math]的交为[math]\displaystyle{ {A}\cap{B} }[/math]。 | |
条件概率 conditional probability |
在某事件发生的条件下,该事件的概率。使用[math]\displaystyle{ | }[/math]表示,如[math]\displaystyle{ P(A|B) }[/math]表示事件B发生的条件下事件A发生的概率。 | |
独立事件 independent events |
一个事件发生的概率不受另一个事件的是否发生影响,则称这两个事件为独立事件。如果事件A和事件B相互独立,则[math]\displaystyle{ P(A|B) = P(A) }[/math]或[math]\displaystyle{ P(B|A) = P(B) }[/math] |
计数法则
方法 | 描述 | 示例 |
---|---|---|
加法法则 addition principle |
||
乘法法则 multiplication principle |
事件A有m种试验结果(样本点),事件B有n种试验结果,且事件A与事件B相互独立,则事件A与B有 [math]\displaystyle{ {m}\times{n} }[/math]种试验结果。多步骤试验(multiple-step experiment)适用乘法法则。 | 如抛掷3枚硬币,抛第一枚有2种试验结果,抛第二枚有2种试验结果,抛第三枚也有2种结果,所以一共有[math]\displaystyle{ {2}\times{2}\times{2}=8 }[/math]种试验结果 |
组合 combinations |
从N项中选取n项(0≤n≤N)的试验,选取的n个元素为一个组合。可以使用组合计数法则计算试验结果数: [math]\displaystyle{ C_{N}^{n} = {N\choose n} = \frac{N!}{n!(N-n)!} }[/math] 符号“[math]\displaystyle{ ! }[/math]”表示阶乘,如3的阶乘[math]\displaystyle{ 3! = {1}\times{2}\times{3} = 6 }[/math]。并且定义[math]\displaystyle{ 0! = 1 }[/math] |
|
排列 permutations |
从N项中选取n项(0≤n≤N)的试验,并且考虑选取的顺序,可以使用排列计数法则计算实验结果数: [math]\displaystyle{ P_{N}^{n} = n!{N\choose n} = \frac{n!}{(N-n)!} }[/math] |
概率分配
方法 | 描述 | 示例 |
---|---|---|
古典法 classical method |
如果一个随机试验所包含的基本事件是有限的,且每个基本事件发生的可能性均相等,可以采用古典法进行概率分配。 | 如掷色子,假设A表示色子点数为1的事件,则[math]\displaystyle{ P(A)=\frac{1}{6} }[/math],B表示色子点数<=2的事件,则[math]\displaystyle{ P(B)=\frac{2}{6} }[/math] |
相对频数法 relative frequency method |
||
主观法 subjective method |
概率的性质与计算
名称 | 公式 | 描述 |
---|---|---|
事件A的补 | [math]\displaystyle{ P(A^c)=1-P(A) }[/math] | |
事件A与事件B的并 | [math]\displaystyle{ \begin{align} P(A\cup B) & = P(A)+P(B)-P(A\cap B) \\ P(A\cup B) & = P(A)+P(B) \qquad\mbox{如果A和B为互斥事件} \\ \end{align} }[/math] | 即加法公式(addition law) |
事件A与事件B的交 | [math]\displaystyle{ \begin{align} P(A\cap B) & = P(A|B)P(B) = P(B|A)P(A)\\ P(A\cap B) & = P(A)P(B) \qquad\mbox{如果A和B为独立事件}\\ \end{align} }[/math] | 即乘法公式(multiplication law) |
事件B发生的情况下事件A的概率 | [math]\displaystyle{ P(A \mid B) = \frac{P(A \cap B)}{P(B)} = \frac{P(B|A)P(A)}{P(B)} }[/math] | |
贝叶斯定理 Bayes's theorem |
随机变量
随机变量(random variable)是将试验结果用数值表示。可分为2类:
- 离散型随机变量(discrete random variable),取值是有限的或者是可数无穷尽的值的随机变量。
- 连续型随机变量(continuous random variable),取值是全部实数或者由一部分区间组成的随机变量。
以下为随机变量的数字特征:
名称 | 描述 | 离散型随机变量 | 连续型随机变量 |
---|---|---|---|
数学期望 expected value |
简称期望或均值,通常使用[math]\displaystyle{ E(x) }[/math]或[math]\displaystyle{ \mu }[/math]表示 | [math]\displaystyle{ E(x) = \sum{x}f(x) }[/math] | |
方差 variance |
|||
协方差 | |||
离散型概率分布
名称 | 描述 | 概率函数 | 数学期望 | 方差 |
---|---|---|---|---|
伯努利分布 bernoulli distribution |
也称两点分布或者0-1分布, | |||
二项分布 binomial distribution |
二项概率分布的简称,是n个独立的(成功或失败)试验中成功的次数的离散概率分布。其中每次试验的成功概率相同,用p表示。这样的单次成功或失败试验又称为伯努利试验,多次伯努利试验称为二项试验。 | [math]\displaystyle{ f(x) = {n\choose x}p^x(1-p)^{n-x} }[/math] 其中x为成功的次数,n为试验的次数 |
||
泊松分布 poisson distribution |
适合于描述一个时间段或空间随机事件发生的次数的概率分布。 | |||
几何分布 geometric distribution |
||||
超几何分布 hypergeometric distribution |
连续型概率分布
名称 | 描述 | 概率函数 | 数学期望 | 方差 |
---|---|---|---|---|
均匀分布 uniform distribution |
||||
正态分布 normal distribution |
也称高斯分布, | |||
指数分布 exponential distribution |
||||
卡方分布 chi-square distribution |
也叫[math]\displaystyle{ \chi^2 }[/math]分布。[math]\displaystyle{ \chi }[/math]是第22个希腊字母,英语名称chi,读音与“开”相同。 | |||
t分布 t-distribution |
也叫Student t-分布(Student's t-distribution)。 | |||
F分布 F-distribution |
||||
伽玛分布 Gamma distribution |
||||
Beta 分布 Beta distribution |
也称B分布或贝塔分布。 |
抽样与抽样分布
基本概念
名称 | 描述 | 示例 |
---|---|---|
抽样 sampling |
是从总体(目标总体)中抽取一部分个体作为样本(Sample) | |
目标总体 target population |
简称总体(population),是所有要研究的个体的集合,即进行统计推断的总体。总体按个体的数目可分为2类: *有限总体 *无限总体 |
|
抽样总体 sample population |
实际抽取样本的总体。使用样本去推断总体时,应该确保抽样总体与目标总体尽可能相似。 | |
抽样框 frame |
||
样本 sample |
总体的一个子集,通过样本可以推测出总体的情况。样本可分为: 单样本(one sample),从一个总体中抽取的样本。 独立样本(independent sample),从两个总体中独立抽取的两个样本,两个样本抽取时是相互独立的。 配对样本(matched sample),也称匹配样本,两个样本的值是相对应的。如一组病人服药前数据和服药后数据,一组工人使用方法A的数据和方法B的数据。 |
|
样本容量 sample size |
也称样本的大小,是样本中个体的数目。通常用n表示 | |
总体参数 parameter |
总体的数值特征,如总体平均值[math]\displaystyle{ \mu }[/math]、总体标准差[math]\displaystyle{ \sigma }[/math]和总体比率[math]\displaystyle{ p }[/math]等。 | |
样本统计量 sample statistic |
样本的数值特征,如样本平均值[math]\displaystyle{ \bar{x} }[/math]、总体标准差[math]\displaystyle{ s }[/math]和总体比率[math]\displaystyle{ \overline{p} }[/math]等。 |
抽样方法
名称 | 描述 | 示例 |
---|---|---|
简单随机抽样 simple random sampling |
也叫纯随机抽样。从总体N个个体中随机地抽取n个个体作为样本,使每个个体都有相同的概率被抽中。 | |
系统抽样 systematic sampling |
也称等距抽样或机械抽样。将总体中的所有个体按一定顺序排列,在规定的范围内随机地抽取一个个体作为初始个体,然后按事先规定好的规则确定其他样本个体。 | |
分层抽样 stratified sampling |
将抽样个体按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。从而保证样本的结构与总体的结构比较相近,从而提高估计的精度。 | |
整群抽样 cluster sampling |
将总体分为若干个群,然后从若干个群中随机抽取1个或多个群。该可简化工作量,缺点是估计的精度较差。 | 调查中学生患近视眼的情况,随机抽取某一个班进行调查。 |
抽样分布
参数估计
基本概念
名称 | 描述 | 示例 |
---|---|---|
参数估计 parameter estimation |
是使用样本统计量来估计总体参数。分为点估计和区间估计。 | |
点估计 point estimation |
是使用某个样本统计量估计某个总体参数。比如使用样本平均值[math]\displaystyle{ \bar{x} }[/math]直接作为总体平均值[math]\displaystyle{ \mu }[/math]的估计。 | |
区间估计 interval estimation |
总体参数估计的一个区间范围,是点估计加减一个估计误差得到。 | |
置信水平 confidence level |
也称置信度或置信系数,是置信区间中包含总体参数真值的概率。如95%置信水平表示我们相信总体参数的真值有95%的概率落在置信区间。 | |
置信区间 confidence interval |
是在某个置信水平下构造的区间估计。如95%置信区间表示95%置信水平下的区间。 |
点估计
一个总体区间估计
区间估计 | 适用情况 | 公式 | 描述 |
---|---|---|---|
总体均值 [math]\displaystyle{ \mu }[/math] | 总体标准差[math]\displaystyle{ \sigma }[/math]已知 | [math]\displaystyle{ \bar{x} \pm z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} }[/math] | 当总体服从或近似正态分布,可以使用小样本容量。 当总体不服从正态分布,该公式给出的置信区间是近似的,一般样本容量[math]\displaystyle{ n \ge 30 }[/math]时也可以使用。 |
总体标准差[math]\displaystyle{ \sigma }[/math]未知 | [math]\displaystyle{ \bar{x} \pm t_{\alpha / 2} \frac{s}{\sqrt{n}} }[/math] | 当总体服从或近似正态分布,所给的置信区间是精确的,小样本容量可以使用。 当不知道总体是否服从正态分布,样本也没发现偏斜或异常点,小样本容量也可以使用。 当总体不服从正态分布,该公式给出的置信区间是近似的,一般样本容量[math]\displaystyle{ n \ge 30 }[/math]时也可以使用,如果总体分布严重偏斜或包含异常点建议样本容量[math]\displaystyle{ n \ge 50 }[/math]或更多。 原理:利用s估计[math]\displaystyle{ \sigma }[/math],利用t分布求出置信区间。虽然t分布是建立在抽样总体服从正态分布的基础上,但研究表明总体分布偏离正态分布下,利用t分布的结果还是相当不错。 | |
总体标准差[math]\displaystyle{ \sigma }[/math]未知,样本容量大 | [math]\displaystyle{ \bar{x} \pm z_{\alpha / 2} \frac{s}{\sqrt{n}} }[/math] | 一般样本容量[math]\displaystyle{ n \ge 30 }[/math],如果总体分布严重偏斜或包含异常点建议样本容量[math]\displaystyle{ n \ge 50 }[/math]或更多。 | |
总体比率 [math]\displaystyle{ p }[/math] | [math]\displaystyle{ \overline{p} \pm z_{\alpha / 2} \sqrt{\frac{\overline{p}(1-\overline{p})}{n}} }[/math] | ||
总体方差 [math]\displaystyle{ \sigma^2 }[/math] | [math]\displaystyle{ \frac{(n-1) s^{2}}{\chi_{\alpha / 2}^{2}} \leq \sigma^{2} \leq \frac{(n-1) s^{2}}{\chi_{(1-\alpha / 2)}^{2}} }[/math] | 式中,[math]\displaystyle{ 1-\alpha }[/math]为置信水平,[math]\displaystyle{ \chi^2 }[/math]值为小于等于下标概率的自由度n-1的卡方分布值。 |
两个总体区间估计
区间估计 | 适用情况 | 公式 | 描述 |
---|---|---|---|
两个总体均值之差 [math]\displaystyle{ {\mu}_1 - {\mu}_2 }[/math] | 2个总体标准差[math]\displaystyle{ \sigma_1,\sigma_2 }[/math]已知 | [math]\displaystyle{ \left(\bar{x}_{1}-\bar{x}_{2}\right) \pm z_{\alpha / 2} \sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}} }[/math] | 当两总体服从或近似正态分布,可以使用小样本容量。 当总体不服从正态分布,该公式给出的置信区间是近似的,一般样本容量都大于30时也可以使用。 |
2个总体标准差[math]\displaystyle{ \sigma_1,\sigma_2 }[/math]未知 | [math]\displaystyle{ \left(\bar{x}_{1}-\bar{x}_{2}\right) \pm t_{\alpha / 2} \sqrt{\frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}} }[/math] | ||
配对样本 | [math]\displaystyle{ \bar{d} \pm z_{\alpha / 2} \frac{\sigma_{d}}{\sqrt{n}} }[/math] | ||
两个总体比率之差 [math]\displaystyle{ p_1 - p_2 }[/math] | [math]\displaystyle{ \left(\bar{p}_{1}-\bar{p}_{2}\right) \pm z_{\alpha / 2} \sqrt{\frac{\bar{p}_{1}\left(1-\bar{p}_{1}\right)}{n_{1}}+\frac{\bar{p}_{2}\left(1-\bar{p}_{2}\right)}{n_{2}}} }[/math] | ||
两个总体方差之比 [math]\displaystyle{ \frac{{\sigma_1}^2}{{\sigma_2}^2} }[/math] | [math]\displaystyle{ \frac{s_{1}^{2} / s_{2}^{2}}{F_{\alpha / 2}} \leq \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}} \leq \frac{s_{1}^{2} / s_{2}^{2}}{F_{(1-\alpha / 2)}} }[/math] | 式中,[math]\displaystyle{ 1-\alpha }[/math]为置信水平,[math]\displaystyle{ F }[/math]值为小于等于下标概率的自由度[math]\displaystyle{ (n_1-1, n_2-1) }[/math]的F分布值。 |
假设检验
基本概念
名称 | 描述 | |
---|---|---|
假设检验 hypothesis testing |
是对总体参数提出某种假设,然后利用样本信息判断假设是否成立。 | |
假设 | 做假设检验时,首先对总体提出两个相反假设: *原假设(null hypothesis),也叫零假设,记为[math]\displaystyle{ H_0 }[/math]。 *备择假设(Alternative hypothesis),也叫对立假设,记为[math]\displaystyle{ H_{a} }[/math]或[math]\displaystyle{ H_1 }[/math]。 | |
两类错误 | 因为是根据样本的统计信息去推断总体信息,所以假设检验的结果可能会存在两类错误: *第一类错误(Type I error),也叫α错误或假阳性,是原假设[math]\displaystyle{ H_0 }[/math]是正确的,却拒绝了原假设,即弃真。 *第二类错误(Type II error),也叫β错误或假阴性,是原假设[math]\displaystyle{ H_0 }[/math]是错误的,却没有拒绝原假设,即存伪。 | |
检验统计量 | ||
显著性水平 | ||
拒绝域 | ||
假设检验方法
方法 | 描述 |
---|---|
t检验 t test |
又称student t检验 |
卡方检验 | 又称[math]\displaystyle{ \chi^2 }[/math]检验 |
F检验 | |
一个总体
两个总体
方差分析
基本概念
名称 | 描述 |
---|---|
方差分析 Analysis of variance |
简称ANOVA,通过两个及两个以上样本均值差别的假设检验,判断多个总体均值是否相等,即可得出分类型自变量对数值型因变量是否有显著影响。 |
单因子实验 single-factor experiment |
是只对一个因子进行实验,而将其他因子都固定。 |
因子 factor |
也称因素,即实验的自变量。 |
响应变量 response variable |
即实验的因变量。 |
处理 treatments |
也称水平,指因子的不同表现,即因子的不同选择方案(或称组)。 |
方差分析原理
方差分析有三个基本假定:
- 1.每个总体服从正态分布。
- 2.所有总体方差必须相同。
- 3.观测值是独立的。
单因子方差分析
双因子方差分析
相关分析
回归分析
因子分析
时间序列分析
非参数统计
指数
资源
相关网站
- 中国科学技术大学:概率论与数理统计
- 美国布朗大学:看见统计
- RPubs:梁雪枫
- 统计之都
- 何志坚:数理统计讲义
- Bryan R. Burnham:Fundamental Statistics for the Behavioral Sciences
相关文章
- 搜狐:统计学的实质是什么?--写给所有将要或者正在学习统计学的朋友们
- 统计之都:谢益辉-统计学的领域(写给在统计学院学习的学弟学妹之一)
- 斯坦福大学:CS 229 - 机器学习 概率和统计回顾
- 机器之心:自学数据科学与机器学习,19个数学和统计学公开课推荐
- 人人都是产品经理:数据分析必备——统计学入门基础知识
书籍
- 《商务与经济统计》- 戴维.安德森
- 《统计学》-贾俊平