统计学
统计学是一门有关收集、处理、分析、解释和展示数据的学科。统计分析数据所用的方法大体上可分为两大类:
- 描述统计(descriptive statistics)是研究如何收集、处理、展示数据的统计学方法。
- 推断统计(inferential statistics)是研究如何利用样本数据来推断总体特征的统计学方法。
简介
时间轴
数据
描述统计
位置度量
名称 | 描述 | 常用表示方法 | 公式 |
---|---|---|---|
平均数 mean |
也叫算数平均数,是一组数据的数值之和除以个数。 | 样本平均数:[math]\displaystyle{ \overline{x} }[/math] 样本个数:n 总体平均数:[math]\displaystyle{ \mu }[/math] 总体个数:N |
[math]\displaystyle{ \overline{x} = \frac{\sum{x}_{i}}{n} = \tfrac{x_1 + x_2 + x_3 \ldots + x_n}{n} }[/math] [math]\displaystyle{ \mu = \frac{\sum{x}_{i}}{N} = \tfrac{x_1 + x_2 + x_3 \ldots + x_N}{N} }[/math] |
加权平均数 weighted mean |
类似算术平均数,算数平均每个数据的权重都为[math]\displaystyle{ \frac{1}{n} }[/math],但加权平均数会根据每个数据的重要性分配权重。 | 样本平均数:[math]\displaystyle{ \overline{x} }[/math] 样本个数:n 总体平均数:[math]\displaystyle{ \mu }[/math] 总体个数:N |
假设一组数据:[math]\displaystyle{ x_1, x_2, \dots , x_n }[/math] 权重为[math]\displaystyle{ w_1, w_2, \dots, w_n }[/math] [math]\displaystyle{ \bar{x} = \frac{ \sum_{i=1}^n w_i x_i}{\sum_{i=1}^n w_i} = \frac{w_1 x_1 + w_2 x_2 + \cdots + w_n x_n}{w_1 + w_2 + \cdots + w_n} }[/math] |
几何平均数 geometric mean |
是n个数据乘积的n次方根。几何平均数比算术平均数更适合用于指数增长和变化的增长值;在商业中,几何平均数的增长率被称为复合年均增长率(CAGR)。 | 样本几何平均数:[math]\displaystyle{ \overline{x}_g }[/math] 样本个数:n 总体几何平均数:[math]\displaystyle{ \mu_g }[/math] 总体个数:N |
[math]\displaystyle{ \overline{x}_g = \sqrt[n]{x_1 x_2 \cdots x_n}=({x_1 x_2 \cdots x_n})^{\frac{1}{n}} }[/math] 简洁记法:[math]\displaystyle{ \overline{x}_g = \left(\prod_{i=1}^n x_i\right)^\frac{1}{n} }[/math] |
调和平均数 harmonic mean |
是将所有数值取倒数并求其算术平均数后,再将此算术平均数取倒数。一般是在计算平均速率时使用。 | [math]\displaystyle{ H }[/math] | [math]\displaystyle{ H = \left(\frac{x_1^{-1} + x_2^{-1} + ... + x_n^{-1}}{n}\right)^{-1} = \frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + ... + \frac{1}{x_n}} }[/math] 简记:[math]\displaystyle{ H = \frac{n}{\sum_{i=1}^n \frac{1}{x_i}} }[/math] |
调整平均数 trimmed mean 或truncated mean |
是删除数据的最高和最低端的一部分数值后,再计算平均值。如丢弃最高5%和最低5%的数据再计算平均值。 | ||
中位数 median |
也叫中值,是一组数据按数值大小排序后,位于正中间的数,如果正中间有2个数,取这2个数的平均值。 | [math]\displaystyle{ M_e }[/math] |
设一组数据:[math]\displaystyle{ x_1, x_2, \dots , x_n }[/math]。按大小顺序(升序或降序)排列后为:[math]\displaystyle{ x'_1, x'_2, \dots , x'_n }[/math] [math]\displaystyle{ \mathrm{M_e} = \begin{cases} x'_\frac{n + 1}{2}, & \mbox{n为奇数} \\ \frac{1}{2}( x'_\frac{n}{2} + x'_{\frac{n}{2} + 1}), & \mbox{n为偶数} \end{cases} }[/math] |
众数 mode |
指一组数据中出现次数最多的数据值。 | ||
百分位数 percentile |
将一组数据从小到大排序,并计算相应的累计百分位,某一百分位所对应数据的值就称为这一百分位的百分位数。 | [math]\displaystyle{ P_k }[/math] 表示第k百分位数 |
|
四分位数 quartiles |
是把所有数值按大小排序并分成四等份,处于三个分割点位置的数值就是四分位数。 *[math]\displaystyle{ Q_1 }[/math]为第一四分位数(即第25百分位数) *[math]\displaystyle{ Q_2 }[/math]为第二四分位数(即第50百分位数或中位数) *[math]\displaystyle{ Q_3 }[/math]为第三四分位数(即第75百分位数) |
[math]\displaystyle{ Q_1 }[/math] [math]\displaystyle{ Q_2 }[/math] [math]\displaystyle{ Q_3 }[/math] |
离散程度
名称 | 描述 | 常用表示方法 | 公式 |
---|---|---|---|
极差 range |
是最大值减最小值后所得数值。 | ||
四分位数间距 interquartile range |
是第三四分位数[math]\displaystyle{ Q_3 }[/math]减第一四分位数[math]\displaystyle{ Q_1 }[/math]所得的数值。也就是一组数据排序后中间50%的数据的极差。 | [math]\displaystyle{ IQR }[/math] | [math]\displaystyle{ IQR = Q_3-Q_1 }[/math] |
方差 variance |
是每个值与平均值之间差的平方和,再除以个数N,对于样本除以n-1。 | 样本方差:[math]\displaystyle{ s^2 }[/math] 样本平均数:[math]\displaystyle{ \overline{x} }[/math] 样本个数:n 总体方差:[math]\displaystyle{ \sigma^2 }[/math] 总体平均数:[math]\displaystyle{ \mu }[/math] 总体个数:N |
[math]\displaystyle{ \sigma^2 = \frac{\sum{(x_i - \mu)^2} }{N} }[/math] [math]\displaystyle{ s^2 = \frac{\sum{(x_i - \overline{x})^2} }{n-1} }[/math] |
标准差 standard deviation |
是方差的平方根。 | 样本标准差:[math]\displaystyle{ s }[/math] 总体标准差:[math]\displaystyle{ \sigma }[/math] |
[math]\displaystyle{ s = \sqrt{s^2} }[/math] [math]\displaystyle{ \sigma = \sqrt{\sigma^2} }[/math] |
变异系数 coefficient of variation |
又称标准差系数,是标准差归一化度量,通常表示为百分比。它是标准差[math]\displaystyle{ \sigma }[/math]与平均值[math]\displaystyle{ \mu }[/math]之比。 |
分布形态
名称 | 描述 | 常用表示方法 | 公式 |
---|---|---|---|
偏度 skewness |
|||
峰度 kurtosis |
|||
z-分数 z-score |
也叫标准分数(standard score),是用来计算一个数据点的相对位置,即该值与平均值距离多少个标准差。 | z | [math]\displaystyle{ z_i = {x_i - \mu \over \sigma} }[/math] [math]\displaystyle{ z_i = \frac{x_i-\bar{x}}{s} }[/math] |
图形
概率与概率分布
概率基础
概率(probability)是对事件发生的可能性的度量,是0至1闭区间内的数字。
名称 | 描述 | 示例 |
---|---|---|
试验 experiment |
||
随机试验 | ||
随机事件 random event |
简称事件,在一次随机试验中,可能出现也有可能不出现的某个特定事件。常用大写字母A、B、C等表示。 | |
必然事件 certain event |
||
不可能事件 impossible event |
||
样本点 sample point |
也叫基本事件(elementary event), | |
样本空间 sample space |
||
离散型概率分布
连续型概率分布
参数估计
抽样与抽样分布
假设检验
方差分析
回归分析
时间序列分析
非参数统计
指数
资源
相关网站
相关文章
- 搜狐:统计学的实质是什么?--写给所有将要或者正在学习统计学的朋友们
- 统计之都:谢益辉-统计学的领域(写给在统计学院学习的学弟学妹之一)
- 机器之心:自学数据科学与机器学习,19个数学和统计学公开课推荐
- 人人都是产品经理:数据分析必备——统计学入门基础知识
书籍
- 《商务与经济统计》- 戴维.安德森
- 《统计学(第三版)》-贾俊平