西格玛的使用,也称为标准偏差,可能令人困惑。但是,它是分析任何数据集的绝佳工具。使用两西格玛控制限制可以通过剔除不需要的数据并仅坚持手头的相关数据来使分析受益。最重要的是,由于控制限制背后的理论基于标准偏差,因此涉及的数学非常少。
标准偏差
任何类型的Sigma测量都基于一系列数字的标准偏差。标准偏差是一组数字内的可变性的度量。数字之间具有少量差异的数据集将具有小的标准偏差,而具有各种不同数字的数据集将具有更高的标准偏差。一组数字的标准偏差由希腊字符sigma表示,这是两西格玛,三西格玛和六西格玛等术语的来源。
正态分布
标准偏差的使用在很大程度上取决于正态分布,这意味着数据集内的数字是相对压缩的。大多数数字都非常接近均值,几乎没有异常值扭曲数据。如果数据集的分布不正常,则使用标准偏差的分析不起作用。但是,如果数据集确实属于正态分布,则可以使用标准偏差了解有关数据的大量信息。
二西格玛
正态分布显示数字将如何根据数据集的标准偏差下降。正态分布的规则规定所有数字的68%将落在均值的一个标准偏差内,也称为数据集中所有数字的平均值。在等式中添加标准偏差意味着包含更多数字;使用正态分布,95%的数据都在平均值的两个标准偏差范围内。这95%是在证明假设时使用的非常常见的置信区间,因为它排除了异常值并坚持主要的数据供应。
商业中的双西格玛
虽然two-sigma为分析提供了良好的置信水平,但它不是一种很好的生产方法。如果任何生产过程的控制限制在平均值的两个标准偏差范围内,那么该过程就会遇到严重问题。它基本上说,在生产的100万台中,超过300,000台将是有缺陷的。这是生产任何商品的极其低效的方式。以三西格玛的速度生产将使缺陷水平降至66,000;虽然这绝不是完美的,但它比两西格玛的产量高出近500%。