嗨玩手游网

误差处理的部分应用 - 离群

1、概述

涉及到几个手段,分别是:

1.14d检验法

1.2Q检验法

1.3Grubbs检验法

1.4偏态-峰态数据分布正态性检验法

1.5相对极差

1.6STD、RSD

说明:本文公式均为Excel公式,那种大计算公式懒得敲。

对于以上6种手段,其中1-3为离群值的剔除,4也可以做离群值的剔除,详见GB/T 4883-2008偏度-峰度检验法,5-6为整体离散度的一个判断。

2、离散度

图片来自百度,侵删。

离散程度,英文名Measures of Dispersion,是指通过随机地观测变量各个取值之间的差异程度,用来衡量风险大小的指标。

定义来自百度百科。

2.1相对极差:

示意图2.1

极差:

对比上图可以看得出来,极差做的就是离散的判断,最基本的计算,所以也叫做全距。

相对极差:

对比上图可以看得出来,引入平均值后,对于相同极差的数据也能够体现出不同的离散度。

但是相对极差不如极差显著。

2.2STD、RSD:

示意图2.2

STD:

对比示意图2.2可以看出来,两组数据的离散是一致的,但是两组数据实际并不在一个范畴中,一个属于1以下,一个属于10以上。标准偏差是每个值与平均值比较,因为乘方的关系会扩大这种差异,对于1、2、3、4、5和1、2、2、5、5这种数据,极差是无法处理的,标准偏差就可以明确的给出离散程度的区别。

可以看下面这个示例:

示例图2.2

RSD:

对比示意图2.2可以看得出来,相对标准偏差体现出了两组范畴不同的数据的差别,同样也因为这个平均值,对于10.112和0.112这两组数据就明显体现出精密度的差别了,一个是五位有效数字一个是三位有效数字,同样波动下,显然五位有效数字这组精密度更好。

3、离群值

上面的方法做了离散度的判断,那么具体有哪些值离群了呢?是否可以非主观的去判断离群值从而方便查找原因和数据处理呢?

有。

3.14d检验法:很简单的小方法,问题也不少,先说计算。

示意图3.1

4d检验法

适用于10个数据以上的处理,如果数据量在5~10,可以酌情使用2.5d,问题是数据量不够的时候(<10),容易无确判断是否离群值。

3.2Q检验法:适用于10个数据以内的处理。

示意图3.2

Q检验法:

3.2.1选取可疑值:

3.2.2计算测定次数

3.2.3与可疑值最接近的值的绝对差值

3.2.4Q值

3.2.5查表

这里解释一下,数据是5个没错,但是因为查询表返回的数值是以0.01那行开始计算的,index的作用是返回对应行、列的数值,那么查出来0.01那一列的数据,如果用5,就会查到7和0.01交叉的数值,但是数据实际是n=3开始的,所以要-2。

3.2.6判断

3.3Grubbs检验法:

示意图3.3

Grubbs检验法:

3.3.1上侧

3.3.2下侧

3.3.3判断

IF(上侧>临界值,"上侧检出:"&MAX(范围),"上侧未检出")&","&IF(下侧>临界值,"下侧检出:"&MIN(范围),"下侧未检出")

稍做一下改变:

示例图3.3.3-1

再做一下改变:

示例图3.3.3-2

还做一下改变:

示例图3.3.3-3

对于检测来说,如果整组数据RSD符合就没必要再去剔除离群值。

3.4偏态-峰态数据分布正态性检验法:

数据是正态分布以上手段才是有效的。那么就验证正态分布吧。

示意图3.4

偏态-峰态数据分布正态性检验法:

3.4.1母体方差

解释一下power函数中的2改3、改4就可以。

3.4.2A偏态

解释一下,0.5即开方。

3.4.3B峰态

3.4.4判断

偏态判定:IF(偏态<INDEX(XLOOKUP(置信概率&"偏态A1"查询范围,返回范围),MATCH(COUNT(范围),范围,0)),"通过","不通过")

解释一下,match中的0为精确查找,就是=。

峰态判定:IF(AND(INDEX(XLOOKUP(置信概率"峰态B1",查询范围,返回范围),MATCH(COUNT(数据量,范围,0))<峰态,峰态<INDEX(XLOOKUP(置信概率&"峰态B2",查询范围,返回范围),MATCH(COUNT(范围),范围,0))),"通过","不通过")

最终判定:

这东西没有一定数据量没啥意义,一般会结合Grubbs剔除异常值后去做,先上100个数据。

统计学之描述性统计 | Descriptive Statistics

“统计学就像比基尼,你所看到的就是真实显露的,但隐藏起来的才是至关重要的”——无名氏

统计是有一些枯燥,但同时也可以很有趣,不是么?

我们知道统计学包括描述性统计和推论统计,而今天的主题是描述性统计的介绍。

什么是描述性统计呢?维基百科的定义:

\"A descriptive statistic is a summary statistic that quantitatively describes orsummarizes features of a collection of information.\"

中文翻译:描述性统计是一种汇总统计,用于定量描述或总结信息集合的特征。

这里把关键词勾划一下:

1、Describe-描述

2、Summarize-总结

注意:描述性统计的对象既可以是总体,也可以总体的一部分即是样本。

一、描述性统计的分类

描述性统计又分为

§ 集中趋势 Measures of central tendency

§ 离散趋势 Measures of Dispersion

1、集中趋势 Measures of Central Tendency

集中趋势又称 “数据的中心位置”,它是一组数据的代表值。集中趋势的概念就是平均数(Average)的概念,它能够对总体的某一特征具有代表性,表明所研究的对象在一定时间、空间条件下的共同性质和一般水平。

常用的集中趋势统计量(statistics)有:

§ 算数均值

§ 中位数

§ 众数

再强调下,在统计学中,这三个统计量都有 average(平均) 的含义。

1、均值 Mean

某组观测值的算术平均数(Arithmetic mean)

2、中位数 Median

按大小顺序排列的数据组之中点位置对应的数值,该数值把数据组分成两半

3、众数 Mode

出现频次最高的观测值。

看起来集中趋势的概念很简单,那么有什么现实价值?

这里我们举两个简化的例子加以说明:

某创业公司A有10个员工,其中1人月薪10万,9人月薪2万;创业公司B也有10个员工,其中1人月薪5万,9人月薪2.5万。

现在假设你要对两家公司员工的收入水平进行对比,你会如何做呢?

通过简单计算我们可得:

公司A:

算术平均 Mean 2.8万;中位数 Median 2万;众数 Mode 2万

公司B:

算术平均 Mean 2.75万;中位数 Median 2.5万;众数 Mode 2.5万

如果看均值 Mean,结果是A公司比B公司高(少数高收入者会把整体平均拉高);如果看中位数 Median,显然B公司更高。

那么应该用Mean还是Median?这取决于我们的目的。

如果我们的目的是研究大多数人的薪资水平,显然用中位数更好,因为B公司90%的人的薪水要高于A公司。

但是在现实生活中,我们往往看到的是用均值mean进行统计说明,尤其是国内媒体,经常用均值来描述某地区某时间段的收入水平。一个不好的结果是,大部分人都会觉得自己“被平均”了。这样做出来的数据固然好看(就像上述公司A),但并不能更准确地展示普通大众真实的收入水平。

看到这里,你应该就能深刻理解“统计学就像比基尼,你所看到的就是真实显露的,但隐藏起来的才是至关重要的”这句话的含义了是不。

二、离散趋势 Measure of Dispersion

所谓离散趋势就是研究观测值偏离中心值(center) 的程度。仅仅研究集中趋势往往是不够的,所以还需要研究离散趋势Measure of Dispersion.

常用离散统计量有:

§ 极差

§ 标准差(方差)

§ 四分位数间距

§ 变异系数(相对标准差)

1、极差 Range

为一组数据的最大值和最小值之差。极差的计算较简单,但是它只考虑了数据中的最大值和最小值,而忽略了全部观察值之间的差异。极差在SPC控制图中有大量应用。

2、方差或标准差 Variance or Standard deviation

方差和标准差所反映的是一组数据与其均值为代表的中心的平均离散水平。因为标准差的计算应用到每一个变量值,所以,会受到极端值的影响,当数据中有较明显的极端值(outlier)时不宜使用。必须知道这一点,所有方差/标准差分析的前提是:样本总体服从正态分布,如果不服从,就要有补救措施,比如数据转换。

3、四分位数间距 Inter Quartile Range (IQR)

即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。第三 \"四分位数\" 与第一 \"四分位数\" 的差距又称四分位距, 常和中位数一起使用。比如箱型图。

4、变异系数 Coefficient of Variation (CV)

又叫相对标准差(RSD),变异系数CV是原始数据标准差与原始数据平均数的比。标准差只能度量一组数据对其均值的偏离程度。但若要比较两组数据的离散程度,用两个标准差直接进行比较有时就显得不合适了。例如一个总体的标准差是10,均值是100;如果另有一个总体的标准差是20,均值是2000。如果直接用标准差来进行比较,后一总体的标准差是前一总体标准差的2倍,似乎前一总体的分布集中,而后一总体的分布分散。但前一总体用标准差来衡量的各数据的差异量是其均值的1/10;后一总体用标准差来衡量的各数据差异是其均值的1/100,是微不足道的。可见用标准差与均值的比值大小来衡量不同总体数据的相对分散程度更合理。

三、图形化工具

前文刚开始我们提到关于描述性统计的两个关键词是 Describe(描述) 和 Summarize(总结);同时我们也介绍了可以通过集中趋势统计量以及离散趋势统计量来对目标数据进行描述、总结。但这些统计量基本都是数学计算,比较抽象,有没有更好的方法呢?

答案是有:Visulization!

没错,那就是一系列的图形化工具。

在Excel软件或者Minitab软件都有很多图形化工具用以描述、总结和展示数据,下面摘选部分:

§ 柱状图

§ 条形图

§ 箱型图

§ 散点图

§ 雷达图

§ 气泡图

金元素及其常用测量方法

金元素及其常用测量方法介绍

金是一种常见贵金属,具有稳定的化学性质和物理性质。以下是金的性质:

金的颜色为金黄色,具有金属光泽。纯金具有艳丽的黄色,但掺入其他金属后颜色变化较大,如金铜合金呈暗红色,含金合金呈浅黄色或灰白色。当金被熔化时发出的蒸汽是绿色的,冶炼过程中它的金粉通常是咖啡色。

金的硬度较低,矿物硬度为3.7,24K金首饰硬度仅为2.5。这种柔软性使黄金非常易于加工,然而对装饰品的制造者来说,又是不利因素,因为这样很容易使装饰品蹭伤,使其失去光泽以至影响美观。所以在用黄金制作首饰时,一般都要添加铜和金,以提高其硬度。

金的密度较大,手感沉甸。纯金在20°C时密度为19.32 g/cm3,直径仅为46 mm的纯金球,其质量就有1 000g。但因为纯金在自然界中并不存在,所以常见的黄金密度在15~ 19 g/cm3。

金的熔点为1 064°C,沸点为2 808℃。金在1 000℃高温下不熔化、不氧化、不变质、不损耗,这也被称为“真金不怕火炼”。

金具有良好的延展性和可锻性。在现代技术条件下,可以把黄金碾成0.00001 mm厚的薄膜(即金箔),10万张叠在一起仅1 cm厚;1 g黄金可以拉成3.5 km长、直径为0.004 3 mm的细丝。此外,金具有极高的传热性和导电性,纯金的电阻为2.4 Ω。

金元素是化学元素,原子序数为79,化学符号为Au。金具有良好的物理化学性质,包括高密度、柔韧性、抗腐蚀性和高导电性

金的化学稳定性极强,它不与水、王水、碱、酸等起反应。在盐酸、过氧化氢、硝酸等强氧化剂中,金的原子不会失去电子而形成化合物,表明它不易被氧化。此外,金也耐高温,对热的抗蚀能力也很强,甚至达到黄金的熔点时,也不会被熔化。

金的化学性质非常稳定,它很难与其它物质发生反应。这使得金在珠宝制造中得到广泛应用,因为它的稳定性可以让珠宝保持长久的光泽和颜色。金在室温下为固体,密度高,柔软,光亮,抗腐蚀,是展性最好的金属。

金元素在室温下为固体,密度高,柔软,光亮,抗腐蚀,是展性最好的金属。金的化学稳定性极强,它不与水、王水、碱、酸等起反应。在盐酸、过氧化氢、硝酸等强氧化剂中,金的原子不会失去电子而形成化合物,表明它不易被氧化。此外,金也耐高温,对热的抗蚀能力也很强,甚至达到黄金的熔点时,也不会被熔化。

自然界中,金以单质的形式出现在岩石中的金块或金粒、地下矿脉及冲积层中。纯金的亮黄色在传统上被认为具有吸引力。

金元素以其独特的物理化学性质和象征意义,在人类文化和生活领域中扮演着重要的角色。

在珠宝领域,金被用于制作各种首饰,如项链、戒指、耳环和手镯等。由于其高价值和美观性,金在珠宝市场一直备受欢迎。此外,金也被用于装饰品和餐具上,如镶嵌在手表上、用于制作高档的餐具和茶具等。

在投资领域,金通常被视为一种避险资产,可以用于对冲股票等高风险资产的风险。人们通常会购买金条或黄金股票来增加自己的投资组合多样性。

在货币领域,金是一种主要的储备资产,被多个国家央行用于储备资产。在某些国家,金还可以作为货币流通。

在电子领域,金被用于制造电路板和连接器等组件,因为它的导电性和稳定性非常好。此外,金还被用于医疗设备和航天领域,如用于制造假肢和飞机内部组件等。

在实际使用中金元素的检测方法有多种,其中包括分光光度法、滴定法、原子光谱分析法、X射线荧光光谱法、电感耦合等离子体光谱法等。

分光光度法:这是一种对金属元素进行定量分析的分析方法,通过测定被测物质的特定波长范围内的吸光度和发光强度,对该物质进行定性和定量分析。分光光度法具有应用广泛、灵敏度高、选择性好,准确度高、分析成本低等特点。但一次只能分析一个元素。

滴定法:这是一种用标准浓度的试验试剂对溶液中所包含的金属成分进行测试的方法。该方法适用于含量在1%以上各种物质的测试。

原子光谱分析法:可以分为原子吸收光谱法和原子发射光谱法,是一种传统的分析金属材料成分的技术。原子吸收光谱法的原理是通过气态状态下基态原子的外层电子对可见光和紫外线的相对应原子共振辐射线的吸收强度来定量分析被测元素含量。

X射线荧光光谱法:大多数用来测定金属元素,是一种常见的金属材料成分测定方法。

电感耦合等离子体光谱法。

在金元素测量中,原子吸收法具有较高的准确性和灵敏度,为研究金的化学性质、化合物组成以及含量提供了有效的手段。

接下来,我们使用原子吸收法来测量元素的含量。具体的步骤如下:

制备待测样品。将需要测量的元素样品制备成溶液,一般需要使用混酸进行消解,以便于后续的测量。

选择合适的原子吸收光谱仪。根据待测样品的性质和需要测量的元素含量范围,选择合适的原子吸收光谱仪。

调整原子吸收光谱仪的参数。根据待测元素和仪器型号,调整原子吸收光谱仪的参数,包括光源、原子化器、检测器等。

测量元素的吸光度。将待测样品放入原子化器中,通过光源发射特定波长的光辐射,待测元素会吸收这些光辐射,产生能级跃迁。通过检测器测量元素的吸光度。

计算元素的含量。根据吸光度和标准曲线,计算出元素的含量。以下是一款仪器测量元素用到的具体参数。

金(Au)

标准物:金粉(99.99%)。

方法:准确称取0.1000g金粉,溶于少量王水中,用水准确定容至100mL,此溶液中Au浓度为1000μg/mL。避光保存于聚乙烯瓶中。

火焰类型:空气-乙炔,贫燃焰。

分析参数:

波长(nm) 242.8

光谱带宽(nm) 0.4

滤波系数 0.3

推荐灯电流(mA) 2

负高压(v) 340.50

燃烧头高度(mm) 8

积分时间(S) 3

空气压力及流量(MPa,mL/min) 0.20

乙炔压力及流量(MPa,mL/min) 0.05,1300

线性范围(μg/mL) 0.05~10

线性相关系数 0.9997

特征浓度(μg/mL) 0.059

检出限(μg/mL) 0.016

RSD(%) 0.44

计算方式 连续法

溶液酸度 0.5% HNO3

测试表格:

序号

测量对象

样品编号

Abs

浓度

SD

RSD[%]

1

标准样品

Au1

-0.000

0.000

0.0004

-81.0337

2

标准样品

Au2

0.084

1.000

0.0009

1.1058

3

标准样品

Au3

0.235

3.000

0.0010

0.4407

4

标准样品

Au4

0.392

5.000

0.0033

0.8415

5

标准样品

Au5

0.749

10.000

0.0036

0.4776

校准曲线:

干扰:

试验表明,金、铂、钯会干扰金的测定,铁(3价)有正干扰。

金比较容易离子化,加入硝酸钾或氯化钾使K的终浓度为2000μg/mL,以抑制离子化。当样品是未知基质时,推荐使用标准加入法。仔细进行基质匹配是很有必要的。

阴离子有干扰,特别是SO42-。标准和样品溶液应保持酸度一致。

笑气-乙炔火焰能克服所有干扰,但灵敏度有所降低。

实际工作中需要根据现场具体需要选择适合的测量方法。这些方法在实验室和工业中广泛应用于金元素的分析和检测。

更多攻略
游戏推荐
更多+