随机变量种类可分为离散型随机变量和连续型随机变量,离散型概率分布的概率函数称为概率质量函数,概率是散布在随机变量的各个离散值上的,所以二维坐标的纵轴为概率;连续型概率分布的概率函数被称为概率密度函数,二维坐标纵轴为密度(区别于离散型概率分布的概率)。
离散型概率分布的主要有二项分布、多项分布、超几何分布、泊松分布。连续型概率分布主要有正态分布、连续型均匀概率分布和指数分布。
正态分布
正态概率分布是统计学中最重要的连续型分布,正态分布的曲线酷似钟型,并且关于均值上的垂线对称。于是,曲线下方的面积有50%处于这条曲线的左边,50%处于右边,曲线向着正无穷和负无穷连续延生,即在两个方向上越来越接近横轴但永不相交。
对于正态分布有一个经验法则:对于任意近似正态分布的总体,大约68.3%的数据位于区间μ±σ内,大于95.4%的数据位于区间μ±2σ内,大约99.7%的数据位于区间μ±3σ内。这种推广对于近似正态分布的样本亦成立(μ为均值,σ为标准差)。这个法则是工业生产中运用广泛的质量控制方法—六西格玛法则的基础。
连续型均匀概率分布
均匀概率分布特征:随机变量X的所有取值有相等的概率。这里用离散型均匀分布的例子引入:投掷骰子就是一个典型的离散型均匀分布,投掷的结果(从1到6)的概率相等,都是1/6;如果将例中离散型随机变量的取值(骰子1到6)换成连续型随机变量的取值区域(0≤x≤6),随机变量在该区域内可以任意取值,且概率为常数(1/6),就是连续型概率分布。
指数分布
先回顾以下泊松分布:泊松分布是在过去经验值(在一段时间或空间内,随机事件的平均成功次数)的基础上,预测将来在同样长的时间或空间内随机事件成功次数的概率分布。
如果一个随机事件的发生是泊松过程,则事件相继发生的间隔时间或空间是指数分布的。指数分布曲线如下图所示: