如何确定数据的概率分布类型

目录:

Anonim

当您收集了有关系统或流程的数据时,下一步是确定具有哪种类型的概率分布。概率分布的类型是:离散均匀,伯努利,二项式,负二项式,泊松,几何,连续均匀,正常(钟形曲线),指数,伽马和贝塔分布。从可能性列表中缩小甚至几个,使得确定哪个是最接近的R平方值更快。

你需要的物品

  • 图形软件

  • 计算R平方值的方法(最佳拟合分析)

绘制数据以获得数据类型的直观表示。

确定数据分布的最初步骤之一 - 以及用于建模数据的等式类型 - 是排除它不可能的东西。 •如果数据集中存在任何峰值,则它不能是离散的均匀分布。 •如果数据有多个峰值,则不是泊松或二项式。 •如果它具有单个曲线,没有次峰,并且每侧具有缓慢的斜率,则可以是泊松或伽马分布。但它不能是一个离散的均匀分布。 •如果数据均匀分布,并且没有向一侧倾斜,则可以安全地排除伽玛或威布尔分布。 •如果函数在绘制结果的中间具有均匀分布或峰值,则它不是几何分布或指数分布。 •如果因子的出现随环境变量而变化,则可能不是泊松分布。

在缩小概率分布类型之后,对每种可能的概率分布类型进行R平方分析。具有最高R平方值的那个最可能是正确的。

消除一个异常数据点。然后重新计算R平方。如果相同的概率分布类型出现为最接近的匹配,则可以确信这是用于数据集的正确概率分布。

提示

  • 如果数据显示多个峰值的广泛分散,则可能正在进行两个单独的过程或者正在采样的产品是混合的。重新收集数据,然后重新分析。

警告

验证针对以后数据集生成的等式,以确认它对于数据集仍然是准确的。环境因素和过程漂移可能使当前的方程和模型不正确。

受到推崇的