鸡蛋新鲜度为鸡蛋运输、加工以及销售等环节中所需要考察的重要指标[1]。随着鸡蛋新鲜度越来越受重视,新鲜度检测水平亟待提高,其中优化新鲜度检测模型、提高检测效率至关重要。
近年来,国内外学者运用光谱分析[2-3]、介电特性[4-5]、电子鼻[6-7]、机器视觉[8-11]等检测技术对鸡蛋新鲜度无损检测进行了相关理论研究。其中光谱分析技术因其具有采样速度快、操作方便等特点一直都是鸡蛋新鲜度常用且有效的检测手段,通过采集鸡蛋光谱数据结合数学运算处理方法获取新鲜度信息。为了提高鸡蛋新鲜度光谱分析速率,减少光谱噪声信息的影响,通过对光谱数据进行相关处理以优化模型,例如杨晓玉等[12]获取400~1 000 nm波长范围鸡蛋高光谱信息,运用遗传偏最小二乘法对光谱数据进行特征选择,建立的最小二乘支持向量机预测模型相关系数为83.2%,研究表明高光谱技术可以应用于鸡蛋新鲜度检测。王巧华等[13]分别利用无信息变量消除法和多模式共识法进行鸡蛋光谱波长特征选择,通过比较发现,多模式共识选择出的39 个特征点结合偏最小二乘判别分析法建立鸡蛋新鲜度预测模型效果更佳,识别准确率为91.23%。Lin Hao等[14]尝试独立成分分析和主成分分析对鸡蛋近红外光谱进行特征提取,并结合遗传算法的人工神经网络分别建立鸡蛋新鲜度回归预测模型,得出通过独立成分分析提取特征后光谱数据所建立的模型性能最佳,预测集的相关系数达到87.9%。Saman等[15]采集400~1 100 nm鸡蛋透射光谱,分别使用主成分分析特征提取和遗传算法特征选择两种方法处理光谱数据,分析结果表明遗传算法选择的特征波长结合人工神经网络建立模型得到的鸡蛋新鲜度识别率优于其他方法。
通过上述研究表明,特征选择和特征提取方法常用于光谱数据分析[16-20],不仅降低了光谱运算数据量提高鸡蛋新鲜度检测速率,而且尽可能消除无用干扰信息以取得较好的预测效果。虽然特征选择或者特征提取在一定程度上降低了数据运算量、提高了检测效率,但是使用中仍可能出现以下问题,一方面特征提取是将光谱数据从高维度空间通过运算映射到一个低维度空间中,再利用低维数据进行建模,其光谱数据参与运算的数量本质并没有减少;另一方面特征选择法获得的波长个数可能出现较多的情况。因此,针对上述问题,本研究结合特征选择和特征提取方法的优势,将两者进行有机融合,首先运用竞争性自适应重加权(competitive adaptive reweighted sampling,CARS)算法特征选择获取一阶微分处理后鸡蛋光谱的特征波长,然后利用非线性特征提取方法中的局部切空间排列(local tangent space alignment,LTSA)算法对特征波长进行有效信息再提取,结合支持向量回归(support vector regression,SVR)建立鸡蛋新鲜度定量预测模型,以期达到良好的检测效果,方法融合后进一步提升鸡蛋新鲜度光谱检测效率,提高预测精度,优化检测模型。
随机挑选蛋壳完好的1 日龄新鲜鸡蛋220 枚,将表面擦拭干净后共同放置于温度25 ℃、相对湿度70%的恒温恒湿培养箱中。
USB2000+微型光纤光谱仪(LS-3000系列高功率卤素灯) 美国Ocean Optics公司。
1.2.1 鸡蛋光谱数据采集
为了获得不同新鲜程度的鸡蛋样本,每3 d从恒温恒湿箱中随机选取30 枚鸡蛋,使用采集装置(图1)获取每个鸡蛋的透射光谱数据。
图1 鸡蛋透射光谱采集系统
Fig. 1 Schematic representation of the acquisition system of transmittance spectra for eggs
采集软件设置积分时间50 ms、平滑宽度5、平均次数3、光谱采集范围550~950 nm,获取的鸡蛋样本原始透射光谱如图2所示。
图2 鸡蛋样本透射率光谱曲线
Fig. 2 Transmittance spectra of egg samples
1.2.2 鸡蛋新鲜度测定
每当采集完光谱,使用电子秤对鸡蛋称质量,然后破壳并水平放置于托盘中,将蛋白高度测定仪校正,测量离蛋黄1 cm左右3 处不同位置的蛋白高度取平均值,根据鸡蛋质量和蛋白高度计算出哈夫单位值,以其表征鸡蛋新鲜度。
1.2.3 样本集划分
表1 样本集哈夫单位相关参数值
Table 1 Haugh unit values of training and prediction sets
images/BZ_284_224_2646_1204_2740.png训练集 159 96.40 24.20 59.13 18.15预测集 52 97.99 24.25 57.75 18.14
随着贮藏时间的延长,鸡蛋蛋白在实验后期稀化严重,导致部分鸡蛋的浓蛋白含量极低甚至少量鸡蛋出现散黄现象,无法准确测量其哈夫单位值,因此本实验共获取了211 个有效的鸡蛋样本数据,利用光谱-理化值共生距离SPXY算法按照3∶1比例划分为训练集和预测集样本。从表1可以看出,训练集和预测集两者的哈夫单位平均值以及标准差相对比较接近,说明实验样本集划分合理,适用于模型建立与检验。
1.2.4 LTSA算法
LTSA是流形学习方法中的一种非线性特征提取方法,其基本思想是通过将数据邻近点转化到切空间坐标表示流形局部几何空间结构,再由局部切空间映射寻求低维嵌入坐标[21-24]。
设鸡蛋光谱筛选特征变量后所构成的样本数据集X=[x1,x2,x3,…,xN],xm∈RC,d为变换矩阵映射后的光谱数据维数,其中d<C,其算法的实现计算过程如下:
1)针对每个鸡蛋光谱样本点xm,通过K邻近算法获取包含自身的鸡蛋光谱样本点邻域,每个光谱样本点构建一个邻域矩阵XNm=[xm1,xm2,xm3,…,xmn],其中n=1,2,3,…,k(k为近邻点数)。
2)求解每个鸡蛋样本点xm所在d维切空间的非零正交向量组Am以及邻域矩阵中xmn点切空间中的正交投影矩为k邻域平均值,Am选择XNm-
矩阵中前d 个最大左奇异向量,得到XNm局部坐标矩阵为
3)通过仿射变换将p 个局部坐标转化到全局坐标[φm1,φm2,φm3,…,φmk],计算全局空间重构误差最小值获取低维坐标,得到鸡蛋光谱的低维空间数据。
通常在光谱采集过程中,环境、人为等因素的影响导致光谱数据存在大量随机噪声信息,不利于预测模型准确性的提高,光谱预处理对于建立稳定可靠模型必不可少[25]。前期研究中已经比较了不同光谱预处理数据建立的预测模型效果,确定了一阶微分是鸡蛋新鲜度光谱检测相对较优的预处理方式,有利于消除基线漂移对鸡蛋光谱数据的影响[26],因此以下研究中的鸡蛋光谱处理与分析均基于一阶微分处理后的光谱数据。
由于全光谱中存在的部分无效干扰信息降低了定量模型预测精度,同时数据量较多也增加了模型复杂度和运算时间,通过特征选择方法能够有效获取光谱特征波长,提升模型检测效率[27]。
CARS是一种以进化论“适者生存”为依据的特征变量筛选方法,结合衰减函数和自适应加权采样对变量进行逐步保留与剔除,最终找出交叉验证均方根误差(root mean square error of cross validation,RMSECV)最小的光谱数据子集作为最优变量组合[28-30]。本研究利用CARS算法对训练集中的鸡蛋光谱数据进行波长优选,其中蒙特卡洛采样次数设置为50,CARS算法选择特征波长的运算过程见图3。
表2 CARS选取的特征波长组合
Table 2 Combinations of characteristic wavelengths selected by CARS
images/BZ_285_201_773_1180_1453.png
图3 CARS特征波长选择过程
Fig. 3 Selection of characteristic wavelengths by CARS
由图3a可知,伴随着采样次数的增加,参与运算的变量个数逐步减少,在采样初期变量个数迅速递减;由图3b可以得出,由于每次采样时光谱数据子集合发生变化,因此RMSECV会得到不同的结果,并呈现先下降后上升的变化趋势,误差值先下降说明采样初期剔除了一些无用的光谱信息从而提高了模型精度,误差值随后上升说明随着采样次数的增加,变量个数逐步减少导致部分有效的光谱波长被消除,降低了模型精度;由图3c所示,当采样运行次数为21 次时,RMSECV达到最小值,说明此时采样所得到的光谱数据子集合为最优波长组合,共选取了45 个光谱波长变量,表2为通过CARS算法最终选取的具体特征波长点分布。
利用SVR对CARS算法选取的特征波长变量建立鸡蛋新鲜度定量模型,其中SVR的核函数采用径向基函数,惩罚因子和核参数通过十折交叉验证寻优。模型得到训练集交叉验证相关系数(Rcv)为0.880 5,RMSECV为8.59,预测集相关系数(Rp)为0.888 9,预测集均方根误差(root mean square error of prediction,RMSEP)为8.42,其模型预测效果如图4所示。
图4 基于特征波长建立的SVR模型预测效果
Fig. 4 Prediction performance of SVR model based on characteristic wavelengths
如表3所示,通过SVR结合特征选择后的光谱数据建立鸡蛋新鲜度定量模型结果相比于波长特征选择前全光谱建模得到的RMSECV值减少了1.09,表明CARS特征选择算法有效地筛选了鸡蛋光谱变量,提高了模型精度,同时光谱数据量减少了355 个,简化了检测模型,每个鸡蛋样本平均检测时间为0.053 s。
表3 CARS特征选择前后的模型预测效果
Table 3 Model prediction results before and after characteristic wavelength selection by CARS
images/BZ_285_1276_2538_2254_2633.pngCARS特征选择前 0.842 6 9.68 0.846 5 9.57 CARS特征选择后 0.880 5 8.59 0.888 9 8.42
虽然与全光谱相比数据量大幅减少,很大程度上提高了光谱检测效率和精度,但是可以看出变量个数仍然相对较多,进一步提取有效光谱特征,减少参模数据量对于优化模型、提升检测效率有利。
利用特征提取法对特征选择获取的波长变量进行再次提取,分析二者融合算法得到的鸡蛋新鲜度检测模型效果。
在LTSA对鸡蛋光谱数据进行特征提取中,低维空间目标维数d和近邻点数k是需要调节的两个重要参数,不同参数对于提取结果以及模型精度会产生不同影响。为了得到最佳的参数组合,利用网格遍历法对一定范围内的参数进行逐个选取,通过SVR对不同参数组合特征提取后数据建模得到的RMSECV评价参数优劣。考虑k过小会导致构建的邻域图不连通,无法准确获取低维嵌入坐标[31],因此d选取1~35,k选取45~100,d和k的步长都设置为1,对两个参数的所有取值进行组合形成“网格”,结合不同参数组合进行LTSA特征提取,并分别建立比较特征提取后的多个检测模型,其结果显示,当d=31、k=88时,模型得到的RMSECV达到最小值。
通过选取d 29~32为例说明LTSA算法中k值对提取特征的影响,从图5A观察固定d时结合不同k值的结果,发现RMSECV值均变化平稳,说明k值选取的约束较小,确定d后k值对模型的影响不大;选取k 86~89为例说明LTSA算法中d值对提取特征的影响,从图5B观察固定k时结合不同d值的结果,发现RMSECV随d值变化较大,得出在d较小时,RMSECV值较大,且大于特征提取前得到的模型误差值,说明在提取维数较低时,部分有用信息被弱化导致模型精度差;随着d值的增加,由于有用特征信息被有效提取出来,RMSECV值逐步变小,模型精度随之提高,在d为31时RMSECV值达到最低;继续增加提取维数,RMSECV值开始增大,表明提取的过大维数中存在干扰不利信息导致模型精度反而降低。
图5 LTSA中d(A)和k(B)变化的影响
Fig. 5 Effects of number of dimensions d (A) and nearest neighbors k (B)in LTSA on RMSECV
本实验选取RMSECV最小时的d和k值作为LTSA算法最优参数,结合特征提取的光谱数据建立SVR新鲜度定量模型得到Rcv=0.896 0,RMSECV=8.04,Rp=0.898 3,RMSEP=8.18,其模型预测效果如图6所示。将CARSSVR模型与CARS-LTSA-SVR模型分析比较,后者相比前者RMSECV值减少了0.55,RMSEP值减少了0.24,Rcv和Rp均有所提升,参模维数减少了14 个,可知CARSLTSA-SVR模型预测效果更好,每个鸡蛋样本平均检测时间为0.032 s,模型运行时间更短,表明单一使用CARS特征选择的波长中可能还是存在部分冗余信息,融合LTSA特征提取算法能够进一步消除不利影响,不仅减少了模型复杂度,而且提高了模型运行效率,增强了模型稳定性与适用性。
图6 基于CARS-LTSA光谱处理建立的SVR模型预测效果
Fig. 6 Prediction performance of SVR model based on CARS-LTSA processing
本实验将CARS算法特征选择与LTSA算法特征提取相结合共同用于鸡蛋光谱数据的处理加工中,再利用SVR建立鸡蛋新鲜度(哈夫单位值)定量模型,获得以下结论:1)采用CARS特征选择对一阶微分预处理后的鸡蛋光谱进行特征变量选择,使光谱维数相比于特征选择前的预处理数据减少了355 个,RMSECV值相比于变量提取前的模型减少了1.09,表明CARS特征选择在一定程度上有效地消除了无用信息的影响;2)利用LTSA对CARS选择的特征波长数据进行特征再提取,与仅使用CARS算法处理后建模相比,光谱维数继续减少14 个,模型精度再次提高,表明LTSA特征提取法能够进一步在CARS特征选择的数据中获取有效信息,减少了冗余,简化了模型,其模型精度及速率均高于先前的研究[26];3)CARS-LTSA融合算法共同处理鸡蛋可见-近红外光谱数据有效,所建立SVR定量模型用于鸡蛋新鲜度光谱快速无损检测可行,表明将特征选择与特征提取方法综合利用,在光谱数据分析处理中尽可能地减少光谱数据量、增强模型稳定性以及提高光谱检测效率具有一定的优势,可为光谱检测模型的优化提供一定的参考依据。
[1] 傅忙娟, 李志成, 张静, 等. 鸡蛋新鲜度与其挥发性有机化合物间的关系研究[J]. 中国食品学报, 2016, 16(1): 237-244. DOI:10.16429/j.1009-7848.2016.01.032.
[2] DONG X G, DONG J, LI Y L, et al. Maintaining the predictive abilities of egg freshness models on new variety based on VIS-NIR spectroscopy technique[J]. Computers and Electronics in Agriculture,2019, 156: 669-676. DOI:10.1016/j.compag.2018.12.012.
[3] MOHAMMAD A, AMIR S, TOORAJ A N, et al. Quality assessment of poultry egg based on visible-near infrared spectroscopy and radial basis function networks[J]. International Journal of Food Properties,2016, 19: 1163-1172. DOI:10.1080/10942912.2015.1075215.
[4] MAHMOUD S, MAHMOUD O. Detection of poultry egg freshness by dielectric spectroscopy and machine learning techniques[J]. LWTFood Science and Technology, 2015, 62(2): 1034-1042. DOI:10.1016/j.lwt.2015.02.019.
[5] 孙俊, 刘彬, 毛罕平, 等. 基于介电特性与蛋黄指数回归模型的鸡蛋新鲜度无损检测[J]. 农业工程学报, 2016, 32(21): 290-295.DOI:10.11975/j.issn.1002-6819.2016.21.040.
[6] 刘鹏, 屠康, 潘磊庆, 等. 基于D-S证据理论的鸡蛋新鲜度多传感器融合识别[J]. 农业机械学报, 2011, 42(8): 122-127. DOI:10.3969/j.issn.1000-1298.2011.08.024.
[7] 李佳婷, 王俊, 李园, 等. 基于电子鼻的鸡蛋新鲜度检测[J]. 现代食品科技, 2017, 33(4): 300-305. DOI:10.13982/j.mfst.1673-9078.2017.4.046.
[8] TAN Z J, CHENG F, WU P F, et al. Detection of egg freshness through polarization imaging[J]. Applied Engineering in Agriculture,2014, 30(2): 317-323. DOI:10.13031/aea.30.09831.
[9] 郑丽敏, 杨旭, 徐桂云, 等. 基于计算机视觉的鸡蛋新鲜度无损检测[J]. 农业工程学报, 2009, 25(增刊2): 335-339. DOI:10.3969/j.issn.1002-6819.2009.z2.063.
[10] 刘莹莹, 钟南. 基于图像处理的鸡蛋新鲜度预测模型研究[J]. 食品与机械, 2017, 33(12): 103-109. DOI:10.13652/j.issn.1003-5788.2017.12.021.
[11] 杨简, 潘贺, 李太浩, 等. 基于灰色神经网络的蛋品新鲜度无损检测的研究[J]. 中国农机化学报, 2014, 35(1): 229-234. DOI:103969/j.issn.2095-5553.2014.01.054.
[12] 杨晓玉, 丁佳兴, 房盟盟, 等. 基于可见/近红外高光谱成像技术的鸡蛋新鲜度无损检测[J]. 食品与机械, 2017, 33(11): 131-136.DOI:10.13652/j.issn.1003-5788.2017.11.028.
[13] 王巧华, 李小明, 段宇飞. 基于CUVE-PLS-DA的鸡蛋新鲜度在线检测分级[J]. 食品科学, 2016, 37(22): 187-191. DOI:10.7506/spkx1002-6630-201622028.
[14] LIN H, ZHAO J W, SUN L, et al. Freshness measurement of eggs using near infrared (NIR) spectroscopy and multivariate data analysis[J]. Innovative Food Science and Emerging Technologies,2011, 12(2): 182-186. DOI:10.1016/j.ifset.2011.01.008.
[15] SAMAN A M, SAEID M, NIGEL H H, et al. An intelligent system for egg quality classification based on visible-infrared transmittance spectroscopy[J]. Information Processing in Agriculture, 2014, 1(2):105-114. DOI:10.1016/j.inpa.2014.10.002.
[16] 王轩慧, 陈建毅, 郑西来, 等. 基于SGA-RF算法的农业土壤镉浓度反演研究[J]. 农业机械学报, 2018, 49(10): 261-269. DOI:10.6041/j.issn.1000-1298.2018.10.029.
[17] 刘燕德, 肖怀春, 孙旭东, 等. 柑橘叶片黄龙病光谱特征选择及检测模型[J]. 农业工程学报, 2018, 34(3): 180-187. DOI:10.11975/j.issn.1002-6819.2018.03.024.
[18] 卢鹏飞, 范雅, 周林华, 等. 支持向量机的动物血液光谱特征提取和识别分类[J]. 光谱学与光谱分析, 2017, 37(12): 3828-3832.DOI:10.3964/j.issn.1000-0593(2017)12-3828-05.
[19] CHEN H, TAN C, LIN Z, et al. Classification and quantitation of milk powder by near-infrared spectroscopy and mutual information-based variable selection and partial least squares[J]. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2018, 189: 183-189. DOI:10.1016/j.saa.2017.08.034.
[20] 吕晓翠, 李国林, 李晗, 等. 基于特征提取的极限学习机算法在可调谐二极管激光吸收光谱学中的应用[J]. 中国激光, 2018, 45(9): 139-146. DOI:10.3788/CJL201845.0911013.
[21] 万鹏, 王红军, 徐小力. 局部切空间排列和支持向量机的故障诊断模型[J]. 仪器仪表学报, 2012, 33(12): 2789-2795. DOI:10.3969/j.issn.0254-3087.2012.12.023.
[22] 孙伟伟, 刘春, 施蓓琦, 等. 面向高光谱影像分类的改进局部切空间排列降维[J]. 同济大学学报(自然科学版), 2014, 42(1): 124-130.DOI:10.3969/j.issn.0253-374x.2014.01.020.
[23] 崔鹏, 张雪婷. 基于流形学习的泛化改进的LTSA算法[J]. 计算机工程与应用, 2017, 53(3): 201-204. DOI:10.3778/j.issn.1002-8331.1505-0041.[24] 崔建国, 张文生, 齐义文, 等. 基于LTSA和RVM的复合材料损伤预测分析[J]. 振动、测试与诊断, 2017, 37(1): 26-32. DOI:10.16450/j.cnki.issn.1004-6801.2017.01.004.
[25] YUAN J Z, DING H Q, GAO H Z, et al. Research on improving the accuracy of near infrared non-invasive hemoglobin detection[J].Infrared Physics and Technology, 2015, 72: 117-121. DOI:10.1016/j.infrared.2015.06.009.
[26] 段宇飞, 王巧华, 马美湖, 等. 基于LLE-SVR的鸡蛋新鲜度可见/近红外光谱无损检测方法[J]. 光谱学与光谱分析, 2016, 36(4): 981-985.DOI:10.3964/j.issn.1000-0593(2016)04-0981-05.
[27] 丁佳兴, 杨晓玉, 房盟盟, 等. 可见/近红外高光谱成像技术对鸡蛋种类无损判别[J]. 发光学报, 2018, 39(3): 394-402. DOI:10.3788/fgxb20183903.0394.
[28] 蔡亮红, 丁建丽. 小波变换耦合CARS算法提高土壤水分含量高光谱反演精度[J]. 农业工程学报, 2017, 33(16): 144-151.DOI:10.11975/j.issn.1002-6819.2017.16.019.
[29] LI H D, LIANG Y Z, XU Q S, et al. Key wavelengths screening using competitive adaptive reweighted sampling method for multivariate calibration[J]. Analytica Chimica Acta, 2009, 648(1): 77-84.DOI:10.1016/j.aca.2009.06.046.
[30] 刘珊珊, 张俊, 林思寒, 等. 激光诱导击穿光谱结合竞争自适应重加权采样算法对猪饲料中铜元素的定量分析[J]. 激光与光电子学进展, 2018, 55(2): 463-469. DOI:10.3788/LOP55.023001.
[31] 高小方, 梁吉业. 基于采样密度和流形弯曲度的动态邻域算法[J]. 计算机工程, 2010, 36(12): 17-18. DOI:10.3969/j.issn.1000-3428.2010.12.006.
Optimization of a Predictive Model for Rapid Detection of Egg Freshness Using Visible Near-Infrared Spectra Based on Combination of Feature Selection and Feature Extraction
DUAN Yufei, WANG Qiaohua. Optimization of a predictive model for rapid detection of egg freshness using visible nearinfrared spectra based on combination of feature selection and feature extraction[J]. Food Science, 2020, 41(12): 273-278.(in Chinese with English abstract) DOI:10.7506/spkx1002-6630-20190213-060. http://www.spkx.net.cn