热搜: 保健品  周黑  海产品  奶粉  烟台  黑作坊  黑窝点  食品  小龙虾  葡萄酒 
 
当前位置: 首页 » 检测应用 » 检测技术 » 实验室常识 » 正文

当化学计量学与统计学相遇时,该如何定义异常值?

放大字体  缩小字体 发布日期:2017-06-29
核心提示:自从数学学科诞生出统计学和化学计量学这对近亲之后,表面看上去那些“模糊”的计算结果不会再有出头之日,但数据中噪音的出现和其他形式的模糊性却让计算结果变得越加“模糊”,即使我们使用了最准确的计算方法,但我们得到的计算结果仍旧是一个近似值。所以,异常值的存在和处理势必成为计算过程中不可忽视的一个问题。
   今天这篇在文章将带大家弄清楚一个容易被混淆的概念。
 
  自从数学学科诞生出统计学和化学计量学这对近亲之后,表面看上去那些“模糊”的计算结果不会再有出头之日,但数据中噪音的出现和其他形式的模糊性却让计算结果变得越加“模糊”,即使我们使用了最准确的计算方法,但我们得到的计算结果仍旧是一个近似值。所以,异常值的存在和处理势必成为计算过程中不可忽视的一个问题。
 
  任何领域的测量都会存在误差,随机误差的研究和解释就是统计学能够给我们最好的馈赠。我们今天要讨论的就是统计学在光谱学及相关光学和数学领域内的应用,尤其是在化学计量学学科中使用光学仪器执行化学分析时使用的数学分支学科。
 
  但是在化学计量学当中即使你使用了非常高深且复杂的算法处理分析结果,但并不意味着会改变较低基础水平和具有较低应用原理数据的结果。比如说化学计量学算法行为的随机性所产生的影响。
 
  有关随机性这样的一个研究点是为了验证任何一种测量方式,即使是像光谱学这样的多变量测量方式,也只不过是随机存在的众多可能性中的一个例子。
 
  这种现象和异常值很像。当我们看到异常值出现时,它是当瞬时噪声有不同的值存在时,从众多可能的测量中得出的一个例子。
 
  因此,当读数吸引了我们的注意力时,我们会怀疑它的有效性,即使我们使用的算法一场复杂,但是我们仍旧需要使用已知数据的行为和算法决定我们的怀疑是否正确。
 
  近观奇异值
 
  奇异值,统计学家曾使用或者习惯上使用不同的专业术语表达这个词汇,有的人管奇异值叫做“discordant”(不一致的观察结果),还有的人将其称之为“aberrant”(异常观察结果),但是我们这里习惯把它叫做“outlier”。想要知道到底何为奇异值,其实从“它不是什么”的角度解释会更加容易理解。
 
  何为奇异值?我们应该如何检测它们?它们产生的原因何在?我们如何确定可疑数据值实际上是奇异值?如何将奇异值与其他有问题的数据进行区分?数据是单变量或者多变量会对奇异值产生影响吗?最后,如果你手中真的存在奇异值,那么如何应对呢?
 
  上面的每一个问题的答案和解决方式都可以写成一本书。实际上却是有很多书专门解决奇异值问题,虽然有些书已经很陈旧,但是数据处理的基本原理在这些年没发生太多变化。如果您想知道更多关于奇异值的问题,我们文章末尾会为你推荐一些网站,读者可以自行学习。
 
  我们进行讨论的主题主要是用于化学分析的光谱仪器的校准环境中奇异值的检测与应用,也有一些应用是与使用化学计量学算法应用有关的问题。
 
  何为奇异值
 
  解释奇异值的含义,最能够让大家理解的方式就是从我们需要解决的问题入手。网上有很多关于奇异值的解释,我们择选了几个供大家参考:
 
  “同一样品中,具有与其他值显着不同的统计观察结果”;
 
  “奇异值指的是‘位于’其他值之外的数值”;
 
  “奇异值是一种观察值,它与来自总数据中的随机样本数据之间存在异常的差距”; 这个定义还包含以下含义:在某种意义上,这个定义留给分析员(或意见一致的处理过程)来决定什么会被认为是不正常的。在异常观测出来之前,有必要描述正常观测值。
 
  “奇异值是指分布在整体模式之外的观察值”;
 
  有的参考文献也这样定义:我们应该在一组作为观察值使用的数据集中对奇异值进行定义,在这组观察值数据中,奇异值似乎与该组数据的其余部分不一致。
 
  这种情况的潜在(根本)原因是,由于物理测量具有不可控的物理原因,因此会受到来自随机变化带来的影响,由于随机变化的影响,一个给定的度量可以产生具有在某个值范围内浮动的结果。
 
  这种范围,其特征是在传播范围内的值分布(稍后再谈),是数据“模糊”的最终来源。这种分布会为从这活多或少的模糊数据计算得到的任何属性带来相同程度的模糊性。
 
  人们使用统计学的目的是希望能够指定可以从包含随机贡献的数据中合理推断出想要的结果,从而提供了很多的工具,我们数据在什么时间开始执行,我们可以从这些数据中提取结论。
 
  因此,基本概念的模糊性必然导致定义的模糊性,并引出一系列相关问题:“明显不同”到底有多么的不同?“位于”其他值之外的值究竟有什么含义?到底多大的差距才能称得上是“异常”差距?我们如何测量这种“差距”? 我们如何知道观测值与其他观测结果是否“不一致”?
 
  这里我们无法为每一个答案找到百分百匹配的答案,我们也不可能仅通过这一片图文像大家准确的给出关于奇异值清晰、简明和明确的定义。我们能做的就是为各位提供相应的工具(大型的统计工具)来帮助你在你遇到的情况基础上找到你的答案,比如说:这个观察值是奇异值吗?
 
  为了解决这个问题,我们需要了解数据表现的基本原理。我们感兴趣的数据通常遵循以下几种分布方式中的一种:均匀分布、正太(高斯)分布、t分布、卡方(χ2)分布、F分布、二项式分布、泊松分布、以及不常用的几何和超几何分。因为它们的特点是数学定义清晰而有特点,因此这些分布处理起来都比较容易。
 
  这些数学定义告诉我们关于数据的一个非常基本的事实:不同范围内数据点的比例包括了数据。反过来,这个事实可以转化为在不同的子领域内的数据跨度寻找数据点的概率。然而,决定哪种分布方式更适合手头数据并不容易。
 
  另外,数据必须要有属于自己的分布方式,因此任何不遵循其中一个分布的数据值,必然会遵循经验定义的分布,也就是说,分布由数据定义
 
  这些分布也最终导致指定各子数据的概率值,但这些概率一般不能用解析数学表达式来表示。用经验定义的分布,我们可获得一个引用来做比较的单个数据值,但是,使用经验定义的分布来描述数据集也会在描述单个数据值时产生一些困难。
 
  要确定与之相对应的分布比数学定义的分布更为困难。在所有情况下,要决定给定的数据值是否为离群值,必须将其与数据集中的其他值进行比较,大概可以遵循一个已知的分布或一些经验分布。
 
  因此,在这一点上来看,谈论奇异值不是什么比解释它是什么更容易。相干集合中的数据将根据定义该分布规范的概率进行分布。这种方法引入了一个关键概念:奇异值只能根据它所属的指定分布的概率来描述。
 
  因此,一个具有一定分布的一组数据集的“奇异值”的数据值,对于不同分布的集合可能是或可能不是一个奇异值。在这个意义上,那么,我们可以定义一个奇异值作为任何数据点,这种数据点不能被认为是表征了其余的数据特点的分布的一部分。毕竟,任何有限的数据集都必须有一个最大值和一个最小值。
 
  如果可疑数据不是用于比较的数据集的合法部分,那么,这个数据的一个特点就是它与数据的其余部分“相去甚远”、“有明显不同”,或者“距离异常”,这可以讲得通。
 
  正是对数据分布的依赖,使得奇异值的定义显得非常模糊。尽管所有统计数据都受到数据集固有的随机性的影响,但异常值的检测可能比数据的其他方面更容易受影响,因为根据定义,奇异值取决于单个读数。因此,仅通过数据处理就可以获得好处的情况非常少有。
 
  更重要的是数据分析人员的关注点是从数据中得到什么,并不单纯依赖电脑为自己找答案。事实上,数据变换(二阶导数)揭示了一个异常值。但是人们习惯使用眼睛观察光谱寻找异常值,错误的光谱被视为在一个光谱区内“摆动”,而其他区域的光谱看上去很平滑。会有多少数据分析师肯花时间或有耐心仔细检查他们的数据呢?
 
  结语
 
  我们对数据的直觉倾向于导致我们对数据的假设,即分布是正态的(即高斯)。如果不是这种情况,但是,如果数据来自一个χ2分布,那么很多关于数据的直觉假设都是错误的。χ2分布往往是一个延伸向更高值的长尾不对称分布。长尾意味着高值χ2 很常见,因此,实际上长尾不是“不寻常”,或者与其他数据处于“异常距离”。
 
  References
 
  H. Mark and J. Workman, Spectroscopy 30(10), 26–31 (2015).
 
  H. Mark and J. Workman, Spectroscopy 31(2), 28–38 (2016).
 
  H. Mark and J. Workman, Spectroscopy 31(11), 36–39 (2016).
 
  H. Mark, Appl. Spectrosc. 42(8), 1427–1440 (1988).
 
  H. Mark and J. Workman, Spectroscopy 30(2), 24–33 (2015).
 
  V. Barnett and T. Lewis, Outliers in Statistical Data (John Wiley & Sons, New York, 1978).
 
  http://en.wikipedia.org/wiki/Outlier
 
  http://www.merriam-webster.com/dictionary/outlier
 
  http://www.mathsisfun.com/data/outliers.html
 
  http://www.itl.nist.gov/div898/handbook/prc/section1/prc16.htm
 
  http://mathworld.wolfram.com/Outlier.html
 
  H. Mark and J. Workman, Statistics in Spectroscopy, 2nd Edition (Academic Press, New York, 2003).
 
  J. Workman and H. Mark, Spectroscopy 30(6), 18–29 (2015).
 
  T. Fearn, NIR News 27(6), 24–25 (2016).
 
 
[ 检测应用搜索 ]  [ 加入收藏 ]  [ 告诉好友 ]  [ 打印本文 ]  [ 违规举报 ]  [ 关闭窗口 ]

 
0条 [查看全部]  相关评论

 
推荐图文
推荐检测应用
点击排行
  

鲁公网安备 37060202000213号