- 多光谱食品品质检测技术与信息处理研究
- 刘翠玲
- 3453字
- 2020-11-28 22:19:29
2.3 常规光谱预处理方法
由于仪器、样品特征和测量环境、条件的变化,光谱预处理并没有通用的解决方法,也没有一个处理效果评定的指标。光谱预处理常规使用的方法有平滑、求导、多元散射校正、标准正态变换等,实际处理时,会依照一定的次序组合上述的几种方法用于具体情况具体分析。
本节介绍一些常用的预处理方法。
2.3.1 中心化
中心化,又称为标准化或归一化处理。在建立近红外光谱定标分析模型时,需将光谱的特征与待测样品的性质或结构特征相互关联。正是基于如上的特点,在建立近红外光定量或定性模型前,往往需要采用一些数据增强算法来降低直至消除一些冗余信息,从而在降低样品间相关性的同时,也能够增大样本之间的差异,进而达到提高模型的重现性和预测能力的效果。常用的算法有均值中心化、标准化和归一化等。这些方法的基本思路是计算每个样品的平均值,将光谱数据减去这些数值,使所有样品的有关数据都分布在零点两侧,充分反映变化信息,这样温度或人为操作等客观因素所带来的变化对光谱数据造成的影响可以被有效去除,并且对以后回归运算有一定的简化作用。
2.3.2 平滑法
由光谱仪得到的光谱信号中既含有有用信息,同时也叠加着随机误差,即噪声。信号平滑是消除噪声最常用的一种方法,其基本假设是光谱含有的噪声为零均值随机白噪声,若多次测量取平均值可降低噪声提高信噪比。常用的信号平滑方法有移动平均平滑法和Savitzky-Golay卷积平滑法。
1.移动平均平滑法
如图2-6所示,移动平均平滑法选择一个具有一定宽度的平滑窗口(2ω+1),每个窗口内有奇数个波长点,用窗口内中心波长点k以及前后ω点处测量值的平均值代替波长点的测量值,自左至右依次移动k,完成对所有点的平滑:
图2-6 窗口移动平滑法示意图
采用移动平均平滑法时,平滑窗口宽度是一个重要参数,若窗口宽度太小,平滑去噪效果将不佳,若窗口宽度太大,进行简单求均值运算,会在对噪声进行平滑的同时也将有用信息平滑掉,造成光谱信号的失真,如图2-7所示。
2.Savitzky-Golay卷积平滑法
Savitzky-Golay(S-G)卷积平滑又称多项式平滑,波长k处经平滑后的平均值为
式中,hi为平滑系数;H为归一化因子,,每一测量值乘以平滑系数hi的目的是尽可能减小平滑对有用信息的影响。
Savitzky-Golay卷积平滑法与移动平均平滑法的基本思想是类似的,只是该方法没有使用简单的平均而是通过多项式来对移动窗口内的数据进行多项式最小二乘拟合,其实质是一种加权平均法,更强调中心点的中心作用。Savitzky-Golay卷积平滑法是目前应用较广泛的去噪方法,移动窗口宽度(常称平滑点数)的影响要明显低于移动平均平滑法。
图2-7 不同窗口宽度对平滑效果的影响
2.3.3 导数法
光谱的一阶和二阶导数是光谱分析中常用的基线校正和光谱分辨预处理方法。对光谱求导一般采用直接差分法和改进的Norris求导法。
1.直接差分法
直接差分法是一种简单的离散波谱求导方法,对于一离散光谱xk,分别按下式计算波长k处、差分宽度为g的一阶导数和二阶导数光谱:
一阶导数:
二阶导数:
2.Norris求导法
为了消除光谱变换带来的噪声,常在求导前对原始光谱进行平滑。这种方法最早是由Norris等人提出的,即被常称为Norris求导法。如图2-8所示,对光谱进行7点平滑、3点差分宽度的Norris求导,即先用窗口宽度为7点的移动平滑对光谱进行去噪,再用宽度为3点的直接差分法求导。
2.3.4 标准正态变量变换法
标准正态变量变换(Standard Normal Variate transformation,SNV)用来减小颗粒大小不均匀和粒子表面非特异性散射的影响。SNV与标准化的计算公式相同,区别在于标准化过程是基于光谱阵的列进行运算,即对一组光谱数据进行处理,而标准正态变量变换是基于光谱阵的行,即对一条光谱数据进行处理。对需SNV的光谱按下式计算:
式中,;m为波长点数;k=1,2,…,m。
2.3.5 去趋势法
去趋势算法是对SNV后的光谱进行处理的,将原始光谱的吸光度和波长拟合出一条趋势线,然后从原光谱中减掉趋势线,从而消除漫反射光谱的基线漂移。
图2-8 Norris求导法示意图
2.3.6 多元散射校正
多元散射校正(MSC)由Martens等人提出,是基于一组样品的光谱阵进行运算。该方法的基本思想是假定散射系数在所有波长处都是相同的,将化学物质的吸收信息与光谱中的散射光信号进行有效分离。
多元散射的校正过程:
首先,计算所需校正光谱的平均光谱,如式(2-10)所示:
其次,对平均光谱做回归,如式(2-11)所示:
最后,对每一条光谱做MSC,如式(2-12)所示:
MSC可消除近红外漫反射光谱中由于样品的镜面反射及不均匀造成的噪声,消除光谱的基线漂移现象及光谱的不重复性。但是,由于MSC假定了散射同波长和样品的浓度的变化无关,所以对于组分性质变化范围较大的样品处理效果并不明显,甚至导致较大误差。
2.3.7 小波变换
小波变换(Wavelet Transform,WT)的基本原理与傅里叶变换类似,不同的是,它既保持了傅里叶变换的优点又具有良好的局部化性质。因此,小波变换被誉为分析信号领域的显微镜,已被广泛应用于光谱数据平滑、降噪以及数据压缩等诸多方面。小波变换的实质是将信号x(t)投影到小波Ψa,b(t)上,即x(t)与Ψa,b(t)的内积,得到便于处理的小波系数,按照光谱分析的需要对小波系数进行处理,然后对处理后的小波系数进行逆变换,进而得到处理后的信号:
式中,Ψa,b(t)为一个函数族,通过Ψ(t)的伸缩和平移产生;Ψ(t)为小波基或小波母函数;a为尺度参数,用来控制伸缩;b为平移参数,用来控制位置。
在分析光谱信号的小波变换处理中,通常使用的是离散WT。离散WT定义为
a=a0m(a0>1,m∈Z),b=nb0a0m(b0∈R,n∈Z) (2-14)则。在利用小波变换对光谱函数进行预处理时,选择合适的参数很重要。
2.3.8 连续投影算法
连续投影算法(SPA)是一种能够很好地消除波长变量间共线性问题的变量选择方法,利用向量投影来优选出冗余度低、共线性小又能反映样本光谱关键信息的有效特征波段,通过减少建模输入变量的数目来提高建模速度并降低模型复杂程度,最大限度地避免光谱信息重叠。SPA以其简单、快速的优势被应用于选取多种样品波长,获得了较好的结果。为了提高分析模型的精度,本书尝试应用SPA进行谱区筛选和模型优化,其算法原理如下:校正集样本数目M和波点数K组成表面增强拉曼散射光谱的吸光度矩阵XM×K,令xk(0)为初始迭代向量,N(N>M-1)为需要提取的波段数目,SPA从一个波段出发进行前向循环选择,每次循环时计算该波段在其他波段上的投影,若某一波段上投影向量最大,则将其加入波段组合中,N次循环中每次循环选中的波段都与上次循环选中的波段有最小的线性关系,具体步骤如下:
1)初始化:n=1,在表面增强拉曼散射光谱吸光度矩阵中任选一个列向量xj进行第一次迭代,记为xk(0)(即k(0)=j);
2)集合S定义为:S={j,1≤j≤K,j∉{k(0),…k(n-1)}},即未被选入的列向量,计算xj在S上每一个列向量的投影:
Pxj=xj-(xj-xk(n-1))xk(n-1)(xTk(n-1)-xk(n-1))-1 (2-15)
3)记录最大投影的序号:
k(n)=arg(max‖Pxj‖,j∈S) (2-16)
4)以最大投影作为下次循环的投影向量:
xj=Pxj,j∈S (2-17)
5)n=n+1,如果n>N回到2)继续投影。
循环结束得到M×K对波长组合,使用每对xk(0)和N组合建立定量模型,预测方均差最小时所对应的x∗k(0)和N∗为最优波长组合。
2.3.9 正交信号校正
利用正交信号校正算法,对原始光谱数据进行预处理,可以有效地取出光谱数据中所包含的各种干扰噪声信号。在实际应用近红外光谱技术进行分析时,部分系统误差或干扰噪声等与有效信息无关的信息常常会被引入在光谱中,这时,用PLS法建立的定标模型的前几个主因子数对应的光谱载荷经常不是有用的浓度矩阵信息,而是与浓度矩阵无关的噪声信号。因而,在建立定标模型前,通过正交的数学运算,除去与浓度阵无关的噪声,然后将经过数学运算处理后的光谱矩阵作为新的自变量矩阵,再利用PLS法建立校正模型。
只要保证除去的部分与预测值矩阵能够正交,则除去部分所含有的信息必然与光谱矩阵没有必然的关系。正是基于这种新颖的思想,S.Wold等人在1998年提出正交信号校正方法。但是这种最初的算法的缺点是每次迭代计算均需要计算一遍PLS,计算时间较长,且内置PLS法的成分数很难确定。Sjoblom又改进了该算法,其算法与Wold基本一致,只是计算次序略有差别。这种算法在迭代时不用反复计算PLS,其主成分数也容易通过交叉验证的方法确定。但同样该方法的缺点是无法严格证明其剔除的信息与光谱矩阵正交。经过学者们长时间的不断探索和研究,陆续出现了逐渐完善的算法,如Fearn的类PCA算法、Andersson的DO算法、Westerhuis的DOSC算法、Trygg的O-PLS算法、Feudale的POSC算法等。这些改良后的预处理方法的基本原理是在建立定标分析模型前,将光谱矩阵与浓度矩阵正交,去掉光谱与浓度矩阵无关的冗余信号,再进行多元校正,从而使所建立的模型更加简化,并且提高模型的稳定性和预测能力。