基于光谱预处理结合遗传算法优化波长的面粉水分快速检测

孙晓荣,周子健,刘翠玲,付新鑫,窦 颖

(北京工商大学计算机与信息工程学院,食品安全大数据技术北京市重点实验室,北京 100048)

摘 要:基于光谱预处理及遗传算法(genetic algorithm,GA)法优化波长,再结合偏最小二乘(partial least squares,PLS)法建立面粉中水分的定量分析模型,对比在不同预处理方法下相关系数R2、校正标准差(root mean square error of calibration,RMSEC)、预测标准偏差(root mean square error of prediction,RMSEP)3 个指标,随机选择130 份样本建立预处理+GA+PLS定量分析模型,实验结果为R2从0.955 2提高到0.977 7、RMSEC从0.375 8降低到0.245 3、RMSEP从0.268降低到0.264。结果表明基于光谱预处理结合GA优化波长来定量分析面粉中水分含量是可行的,且准确性和误差度皆优于无优化模型。

关键词:光谱预处理;遗传算法;近红外光谱;偏最小二乘法;面粉;水分

面粉是重要的碳水化合物来源,且富含各种人体所需的微量元素和营养物质。面粉中水分含量会影响面制食品的白度、柔软度和保鲜时间等,目前国标测定水分的方法为105 ℃衡温法和130 ℃高温定时法,但由于高温烘干法不但耗时费力还造成资源浪费,越来越多的研究人员将光谱检测与化学计量学结合建立定量分析模型用于面粉的品质检测[1-4]。目前,偏最小二乘(partial least squares,PLS)法是应用最广的多元回归预测建模方法,但在检测过程中存在诸多因素干扰模型的准确性和稳定性,因此对光谱进行预处理以及波长的优化有极其重要的意义[5]。常用预处理方法有矢量归一化、Savitsky-Golay卷积平滑法、导数法、标准正态变量变换(standard normal variate correction,SNV)、多元散射校正(multiplicative scatter correction,MSC)[6-8]等。常用波长优化方法有相关系数法、无信息量消除法、模拟退火算法(simulated annealing algorithm,SAA)、遗传算法(genetic algorithm,GA)等[9-13]

光谱预处理方法众多,对于不同的待测样本不同的预处理方法有着自身的优越性和缺点。例如:校正不同厚度的样本多使用矢量归一化,对于颗粒状固体或表面散射样本多使用SNV[14]。GA是由美国Holland教授1975年首先提出,源于自然界优胜劣汰原则。GA利用选择、交换和突变等算子等操作,通过迭代的手段,根据目标函数值留下较优变量,去除较差变量,最终实现特征变量优选,是一个自适应的全局搜索算法。GA相比于其他波长优化方法有如下特点[15-17]:适合求解离散问题;直接对结构对象进行操作,不存在求导和函数连续性的限定;采用概率化的寻优方法,能自动获取和指导优化的搜索空间,自适应地调整搜索方向,不需要确定的规则。

GA在许多行业和领域都发挥着极重要的作用。蔡丽君等[18]运用小波压缩结合GA筛选变量建立关于脐橙糖度的定量模型,结果良好,应用于在线检测可提升预测精度。黄常毅等[19]为降低模型计算复杂程度、提高预测性能,运用GA筛选谱区,建立预测红曲菌固态发酵生物量PLS定量模型。实验证明了GA应用于该模型的可行性且为进一步实现在线控制提供了理论与实践依据。

建立在相关领域研究的基础上,提出基于光谱预处理+GA波长优化,并结合PLS建立面粉中水分的定量分析模型,达到模型优化的目的。

1 材料与方法

1.1 材料

实验中所用130 份面粉样本均取自古船面粉不同批次以及不同种类的面粉产品,待测组分真实值均来自古船面粉厂依据传统国标法测得的实验数据。

1.2 仪器与设备

近红外定量模型优化实验采用德国布鲁克(Bruker)公司Vertex 70傅里叶红外光谱仪采集面粉样本的近红外光谱。光谱数据分析在Matlab 2014环境下完成。

仪器参数设置为:分辨率8 cm-1,样本扫描次数64 次,背景扫描次数64 次,采集光谱范围12 000~4 000 cm-1,光阑孔径设置6 mm,扫描速率10 kHz。

1.3 方法

1.3.1 光谱预处理方法

为了将光谱仪器采集到的除自身信息以外的无关变量和噪声,如杂散光、样本背景削弱或清除,保证光谱信息和含量值之间有很好的相关性,实验运用适合的预处理方法十分关键[20-21]

常用的光谱预处理方法很多,本实验研究结合样本特性和预处理方法功能,对比分析最终选择了5 种预处理方法,分别为矢量归一化、Savitsky-Golay卷积平滑法、导数法、SNV以及MSC[22-23]

1.3.2 常用波长筛选算法原理及特点

波长的优化不仅减少参与校正计算的数据量,降低数据运算时间,提升检测工作的效率,并且校正模型整体质量有一定程度的提高。目前在光谱分析中,常用优化算法很多,一些常用算法的实现方式和特点如表1所示。

表1 常用波长筛选算法原理及特点
Table 1 The principle and characteristics of wavelength selection methods

传统筛选方法更多考虑的是光谱波长与待测组分的关系,因此需要研究人员提供更多化学经验和知识作为理论参考;而随机优化算法则更多展现的是在复杂问题中强大的搜索能力,在合理时间内最大限度根据客观实验结果参数找出最优波长,减少了人为因素干扰。在算法的选择上,应具体问题具体对象进行具体分析,寻找最适合实验模型的优化算法。综合各方面考虑,本研究最终选择GA进行波长筛选。一方面尽量避免专业知识及经验的影响和限制;GA适合解决离散问题,且具有全局最优的优势。

1.3.3 GA及适应度函数

GA的操作过程包括选择、交叉、变异,其中选择环节依据适应度函数,选择优良个体。

适应度函数是GA中至关重要的复杂函数,用于区分个体优劣,提升整体优势[29-31]。可选择校正模型的相关系数R2、校正标准偏差(root mean square error of calibration,RMSEC)或者预测标准偏差(root mean square error of prediction,RMSEP)。R2、RMSEC、RMSEP都是评价校正模型的重要参数,分别按公式(1)~(3)计算。

式中:yi,a为第i个样本参考方法的测定值;yi,a为校正集所有样本参考方法测定值的平均值;yi,p为预测过程中第i个样本的预测值;n为校正集的样本数。

式中:yi,a为第i个样本参考方法的测定值;yi,p为验证集预测过程中第i个样本的预测值;m为验证集的样本数。

1.4 数据处理

实验中利用OPUS 7.0软件将收集到的光谱转换为数据点格式以及单一PLS回归预测曲线,光谱预处理+GA结合PLS由Matlab 2014软件完成。

2 结果与分析

2.1 采集样品的近红外光谱

图1 部分面粉样本的近红外光谱图
Fig. 1 Near infrared spectra of partial samples

实验中共130 份面粉样本,基于SPXY样本划分法选取其中106 份样本作为校正集,24 份样本作为测试集。实验每隔0.5 h采集一次背景光谱,并保持室内恒温26 ℃。光谱仪器扫描次数设置为64 次,分辨率为8 cm-1采集部分面粉样本近红外光谱如图1所示。

2.2 光谱预处理结合PLS建立面粉中水分含量的定量模型实验选用归一化、导数、SNV、MSC、Savitsky-Golay平滑5 种常用光谱预处理方法,按照一定关系排列成11 种组合,分别对面粉中水分定量分析模型进行光谱处理,旨在最大程度消除光谱数据无关信息和噪音,提升校正模型的预测性能和稳健性,通过对结果对比分析,找出最适合面粉检测的预处理方法。模型基于11 种预处理组合分别建立PLS全谱模型,结果如表2所示。

表2 不同预处理方法的定量模型结果对比
Table 2 Comparison of quantitative models developed using different spectral pretreatments

从表2可以看出,平滑结合归一化和平滑结合一阶导数预处理组合优化光谱后,所见模型部分参数略优于原始光谱所建模型。包含二阶求导预处理方法的组合,对模型并未起到优化作用,甚至各个参数均明显低于原始光谱定量模型,因此二阶求导并不适用于建立关于面粉中水分含量的定量分析模型。其余组合方法优化效果不明显。

2.3 面粉中水分含量的GA-PLS定量模型

实验在建立基于GA优化波长的面粉中水分含量PLS定量模型时,GA适应度函数收敛结果如图2所示,GA在迭代150 次时适应度函数已经趋于平稳;相关系数R2和RMSEC随特征波长数量变化如图3所示,模型参数在特征波长数量为60的时候趋于平稳。因此综合以上分析,种群规模设定为30,最大迭代次数设定为150 次,提取特征波长数量为60 个,适应度函数选择RMSEP。

图2 适应度函数随迭代次数收敛结果
Fig. 2 Superconvergence of fitness function with varying number of iterations

图3 R2和RMSEC随特征波长数量变化
Fig. 3 Curves of R2 and RMSEC against number of characteristic wavelengths

2.4 结合光谱预处理的GA-PLS定量模型对比

采用水分含量区间为10%~16%的校正样本建立全谱PLS定量分析模型,并结合光谱预处理以及GA优化该模型,由于结合二阶导数的预处理组合建模效果较差,因此预处理结合波长优化方法实验中将不再使用该组合,各方法优化结果如表3所示。

本研究在模型评价方面,除使用相关系数R2和RMSEP评价模型预测准确性外,还引入稳健性参数RMSEP/RMSEC和RPD两个评价指标。在实际应用中,待测样本光谱在采集时会遇干扰产生变动,模型稳健性是描述模型容许光谱变动的包容能力,即模型抗干扰能力。国际谷物化学组织规定在正常容变范围之内RMSEP/ RMSEC应小于1.2,若稳健性参数大于1.2则表示模型稳健性不足;另外,使用相对分析误差RPD对预测精度进行进一步评价,即相对分析误差RPD为SD/RMSEP(SD为验证集标准偏差)。如果RPD不小于3,说明预测效果良好,建立的定量分析模型可用于实际检测;如果RPD在2.5与3之间,说明利用近红外光谱定量分析是可行的,但预测精度有待于进一步提高;如果RPD不大于2.5,则说明难于进行近红外光谱定量分析[32-33]

表3 近红外光谱经预处理结合GA优化模型结果
Table 3 Comparison of PLSR models developed using different spectral pretreatments combined with GA-based wavelength selection

从实验结果得出,在保证模型稳健性的情况下,GA筛选特征波长可以有效提升模型的预测准确性,结合适合的光谱预处理方法后,模型的优化结果进一步得到提升。

图4 SG平滑(17)+一阶导数+SNV法预处理后近红外光谱
Fig. 4 NIR spectra treated by SG(17) + first derivative + SNV

图5 SG(17)+一阶导数+SNV+GA的水分PLS校正集定量模型
Fig. 5 Predictive values from SG + first derivative + SNV + GA + PLS model and actual values for calibration set

近红外光谱经SG平滑(17点)+一阶导数+SNV预处理后谱图如图4所示,SG平滑(17)+一阶导数+ SNV结合GA优化的水分PLS定量分析校正集模型如图5所示,测试集定量模型如图6所示。

图6 SG(17)+一阶导数+SNV+GA的水分PLS测试集定量模型
Fig. 6 Predictive values from SG + first derivative + SNV + GA + PLS model and actual values for test set

3 结 论

研究在不同光谱预处理组合方式与波长筛选方法做了大量实验,旨在优化面粉近红外光谱定量分析模型,使模型具备良好的预测准确性与稳健性。在实验过程中探讨了11 种光谱预处理组合方式对模型评价参数的影响,以及不同预处理组合结合GA筛选波长对优化模型评价参数的影响。

近红外光谱不经过预处理以及波长优化,模型在相关系数R2、RMSEC和RMSEP 3 方面指标均较低,说明面粉中水分含量PLS定量模型准确性和稳健性都较差。结合GA建立的GA-PLS模型得到完善,再结合光谱预处理,模型得到进一步提升。在众多预处理组合中,SG平滑+一阶导数+SNV与GA相结合后模型的预测准确性最好,并且RPD结果较好属于可接受范围内,表明模型稳健性良好。利用模型可以绿色环保的应用在面粉品质快速检测的生产活动中,减少面粉工厂的人力消耗,提升生产厂家效益。

参考文献:

[1] 王玉庭. 中国小麦消费现状及趋势分析[J]. 中国实物与营养, 2010(5): 47-50. DOI:10.3969/j.issn.1006-9577.2010.05.013.

[2] 肖驰. 水分对面粉净含量的影响[J]. 山东工业技术, 2015(21): 231. DOI:10.16640/j.cnki.37-1222/t.2015.21.206.

[3] 豆康宁. 小麦与面粉中水分的测定方法[J]. 现代面粉工业, 2016(1): 30-32. DOI:10.3969/j.issn.1674-5280.2016.01.012.

[4] SHEN F, YING Y B, XU H R, et al. Identification of aging status of Chinese rice wine using Fourier transform near-infrared spectroscopy[J]. Transactions of the Asabe, 2011, 54: 1857-1862. DOI:10.13031/2013.39825.

[5] 马兰, 夏俊芳, 张战锋, 等. 番茄总糖含量的近红外光谱无损检测方法研究[J]. 食品科学, 2009, 30(6): 171-174. DOI:10.3321/ j.issn:1002-6630.2009.06.037.

[6] 褚小立, 刘慧颖, 燕泽程. 近红外光谱分析技术实用手册[M]. 北京:机械工业出版社, 2016: 115-117.

[7] 刘永, 杨华蓉, 林大胜, 等. 近红外光谱法测定三七通舒胶囊粉末的混合均匀度[J]. 华西医学杂志, 2012, 27(4): 418-420. DOI:10.13375/ j.cnki.wcjps.2012.04.013.

[8] 陆婉珍. 现代近红外光谱分析技术[M]. 2版. 北京: 中国石化出版社, 2006: 35-36.

[9] 窦颖, 孙晓荣, 刘翠玲, 等. 基于模拟退火算法优化波长的面粉品质检测[J]. 食品科学, 2016, 37(12): 208-211. DOI:10.7506/spkx1002-6630-201612037.

[10] 褚小立, 袁洪福, 陆婉珍. 近红外分析中光谱预处理及波长选择方法进展与应用[J]. 化学进展, 2004, 16(4): 528-542. DOI:10.3321/ j.issn:1005-281X.2004.04.008.

[11] 褚小立. 化学计量学方法与分子光谱分析技术[M]. 北京: 化学工业出版社, 2011: 83-84.

[12] ZOU Xiaobo, ZHAO Jiewen. Variables selection methods in nearinfrared spectroscopy[J]. Analytica Chimica Acta, 2010, 667(1/2): 14-23. DOI:10.1016/j.aca.2010.03.048.

[13] 马永杰, 云文霞. 遗传算法研究进展[J]. 计算机应用研究, 2012, 29(4): 1201-1206. DOI:10.3969/j.issn.1001-3695.2012.04.001.

[14] 黄承伟, 戴连奎, 董学锋. 结合SNV的分段直接标准化方法在拉曼光谱模型传递中的应用[J]. 光谱学与光谱分析, 2011, 31(5): 1279-1282. DOI:10.3964/j.issn.1000-0593(2011)05-1279-04.

[15] 杜文丽, 原亮. 遗传算法的特点及应用领域研究[J]. 科技信息, 2008(10): 31-54. DOI:10.3969/j.issn.1001-9960.2008.10.022.

[16] 边霞, 米良. 遗传算法理论及其应用研究进展[J]. 计算机应用研究, 2010, 27(7): 2425-2434. DOI:10.3969/j.issn.1001-3695.2010.07.006.

[17] 王元忠, 赵艳丽, 张霁, 等. 红外光谱结合统计分析对不同产地玛咖的鉴别分类[J]. 食品科学, 2016, 37(4): 169-175. DOI:10.7506/ spkx1002-6630-201604030.

[18] 蔡丽君, 刘燕德, 万常斓. 脐橙糖度近红外光谱在线检测的建模变量优选[J]. 西北农林科技大学学报(自然科学版), 2012(1): 215-220. DOI:CNKI:61-1390/S.20111216.1116.002.

[19] 黄常毅, 范海滨, 刘飞, 等. 近红外光谱结合遗传算法快速检测红曲菌固态发酵生物量[J]. 分析测试学报, 2014, 33(5): 520-526. DOI:10.3969/j.issn.1004-4957.2014.05.005.

[20] STEFANOV I, BAETEN V, ABBAS O. Analysis of milk oddand branched-chain fatty acids using fourier transform (FT)-raman spectroscopy[J]. Journal of Agricultural & Food Chemistry, 2010, 58(20): 10804-10811. DOI:10.1021/jf102037g.

[21] BARBARA M, BERNHARD L, ANTONIO M D, et al. Determination of oil and water content in olive pomace using near infrared and Raman spectrometry. A comparative study[J]. Analytical & Bioanalytical Chemistry, 2004, 379(1): 35-41. DOI:10.1007/s00216-004-2493-5.

[22] 周扬, 戴曙光, 吕进, 等. 光谱预处理对近红外光谱快速检测黄酒酒精度的影响[J]. 光电工程, 2011, 38(4): 54-58. DOI:10.3969/ j.issn.1003-501X.2011.04.010.

[23] 芦永军, 曲艳玲, 冯志庆, 等. 多元散射校正技术用于近红外定标波长组合的优选研究[J]. 光谱学与光谱分析, 2007, 27(1): 58-61. DOI:10.3321/j.issn:1000-0593.2007.01.016.

[24] 郝勇, 孙旭东, 潘圆媛, 等. 蒙特卡罗无信息变量消除方法用于近红外光谱预测果品硬度和表面色泽的研究[J]. 2011, 31(5): 1225-1229. DOI:10.3964/j.issn.1000-0593(2011)05-1225-05.

[25] 李倩倩, 田旷达, 李祖红, 等. 无信息变量消除法变量筛选优化烟草中总氮和总糖的定量模型[J]. 分析化学, 2013, 41(6): 917-921. DOI:10.3724/SP.J.1096.2013.21017.

[26] 郭亮, 吉海彦. 蚁群算法在近红外光谱定量分析中的应用研究[J].光谱学与光谱分析, 2007(9): 1703-1705.

[27] XIE Y. Principle and realization of the simulated annealing algorithm[J]. Numerical Mathematies A Journal of Chinese Universities, 1999(3): 212-218.

[28] 石吉勇, 邹小波, 王开亮, 等. 模拟退火算法用于食醋总酸含量近红外光谱模型的波数点优选[J]. 食品科学, 2011, 32(10): 120-123.

[29] 朱鳌鑫. 遗传算法的适应度函数研究[J]. 系统工程与电子技术, 1998(11): 57-62. DOI:10.3321/j.issn:1001-506X.1998.11.015.

[30] 徐承爱, 林伟, 肖红. 一种基于加权海明距离的自适应遗传算法[J]. 华南师范大学学报, 2015, 47(6): 121-127. DOI:10.6054/ j.jscnun.2015.05.003.

[31] 刘英. 遗传算法中适应度函数的研究[J]. 兰州工业高等专科学校学报, 2006, 13(3): 1-4. DOI:10.3969/j.issn.1009-2269.2006.03.001.

[32] 林新, 牛智有. 绿茶茶多酚近红外光谱定量分析模型优化研究[J]. 食品科学, 2009, 30(10): 144-148. DOI:10.3321/ j.issn:1002-6630.2009.10.028.

[33] 张小燕, 杨炳南, 刘威, 等. 马铃薯主要营养成分的近红外光谱分析[J].食品科学, 2013, 34(2): 165-169.

Fast Detection of Flour Moisture through Spectral Data Pretreatment and Genetic Algorithm-Based Wavelength Selection

SUN Xiaorong, ZHOU Zijian, LIU Cuiling, FU Xinxin, DOU Ying
(Beijing Key Laboratory of Big Data Technology for Food Safety, School of Computer and Information Engineering, Beijing Technology and Business University, Beijing 100048, China)

Abstract:A near infrared (NIR) spectroscopic model for the quantitation of flour moisture was developed using partial least squares regression (PLSR). Infrared spectra of 130 randomly selected samples were used to establish PLSR models employing different spectral pretreatments combined with wavelength selection using genetic algorithm (GA). The correlation coefficient (R2), root mean square error of calibration (RMSEC) and root mean square error of prediction (RMSEP) of the optimized model were 0.977 7, 0.245 3 and 0.264, which were respectively higher, lower and lower than those of the unoptimized one. Thus tt is feasible to establish a quantitative model for estimating flour moisture by spectral data pretreatment and GA-based wavelength selection which had better accuracy and lower errors than the unoptimized one.

Key words:spectral data pretreatment; genetic algorithm (GA); near infrared spectroscopy; partial least squares (PLS); flour; moisture

DOI:10.7506/spkx1002-6630-201716041

中图分类号:TS231

文献标志码:A

文章编号:1002-6630(2017)16-0256-05

引文格式:

孙晓荣, 周子健, 刘翠玲, 等. 基于光谱预处理结合遗传算法优化波长的面粉水分快速检测[J]. 食品科学, 2017, 38(16): 256-260. DOI:10.7506/spkx1002-6630-201716041. http://www.spkx.net.cn

SUN Xiaorong, ZHOU Zijian, LIU Cuiling, et al. Fast detection of flour moisture through spectral data pretreatment and genetic algorithm-based wavelength selection[J]. Food Science, 2017, 38(16): 256-260. (in Chinese with English abstract)

DOI:10.7506/spkx1002-6630-201716041. http://www.spkx.net.cn

收稿日期:2016-08-24

基金项目:北京市教委科研计划重点项目(KZ201310011012);北京市教委科技创新平台建设项目(PXM_2012_014213_000023);北京市自然科学基金项目(4142012);北京市优秀人才资助项目(2012D005003000007);北京市大学生科研训练计划深化项目

作者简介:孙晓荣(1976—),女,副教授,硕士,研究方向为智能测量技术与数据处理、系统建模与仿真方法、智能控制

方法。E-mail:sxrchy@sohu.com