基于近红外光谱技术的腐竹脂肪定量分析

王加华1,王 军1,王一方2,3,韩东海2,*

(1.许昌学院食品与生物工程学院,河南 许昌 461000;2.中国农业大学食品科学与营养工程学院,北京 100083;

3.许昌市食品药品监督管理局,河南 许昌 461000)

 

摘 要:采用近红外光谱技术结合化学计量学方法,建立腐竹脂肪含量的快速分析方法。收集不同生产线、不同时间的腐竹样本180 份,利用积分球附件采集漫反射光谱(4 000~10 000 cm-1)。为消除颗粒散射影响和光谱基线漂移,二阶导数和卷积平滑用于光谱预处理。采用反向区间偏最小二乘法、组合区间偏最小二乘法、搜索组合移动窗口偏最小二乘法和遗传偏最小二乘法优化建模变量,最终构建了定量预测模型。结果显示,4 种方法均可有效地提取信息变量、降低模型维度、提高预测性能;遗传偏最小二乘法一次优选获得143 个变量,构建的模型性能最佳,其校正相关系数、校正均方根误差、预测相关系数、预测均方根误差分别为0.96、0.95、0.92和1.17。研究表明,经过信息变量提取后所构建的近红外模型简单、预测精度高,可用于腐竹脂肪含量的日常监测。

关键词:近红外光谱;腐竹;脂肪;变量提取;定量分析

 

Determination of Fat Content in Yuba by Near Infrared Spectroscopy and Chemometrics

 

WANG Jia-hua1, WANG Jun1, WANG Yi-fang2,3, HAN Dong-hai2,*

(1. College of Food and Biological Engineering, Xuchang University, Xuchang 461000, China;

2. College of Food Science and Nutritional Engineering, China Agricultural University, Beijing 100083, China;

3. Xuchang Food and Drug Administration, Xuchang 461000, China)

 

Abstract: The objective of this study was to develop a method to determine the fat content in yuba by near infrared (NIR) spectroscopy combined with chemometrics. A total of 180 yuba samples collected at different occasions from different production lines were tested by NIR spectroscopy. The diffuse reflectance spectra (4 000?10 000 cm-1) were collected using an integrating sphere attachment. In order to eliminate the particle scattering and baseline drift, the NIR reflectance spectra were preprocessed by 2nd order derivative with Savitzky-Golay. Backward interval partial least squares (BiPLS), synergy interval partial least squares (SiPLS), searching combination moving window partial least squares (SCMWPLS) and genetic algorithms partial least squares (GAPLS) were employed to extract informative variables and construct quantitative models for the fat content in yuba. After comparison, the best model was obtained by GAPLS method with 143 data points. The correlation coefficient (r) was 0.96 and the root mean square error of cross-validation (RMSECV) was 0.95 in calibration set, and the r was 0.92 and the root mean square error of prediction (RMSEP) was 1.17 in prediction set. This work demonstrates that variables extraction methods not only allow selection of the NIR informative variables for the fat content of yuba and simplify the models, but also highlight the potential of NIR technique for assessing the quality of yuba on-line.

Key words: near infrared spectroscopy (NIRS); yuba; fat; variables extraction; quantitative detection

中图分类号:O657.3;TS214.2 文献标志码:A 文章编号:1002-6630(2014)18-0136-05

doi:10.7506/spkx1002-6630-201418027

腐竹是我国典型的传统干制豆制品,生产历史悠久,用传统加工工艺,反映地方和民族特色,它是一个民族长期适应的自然选择。腐竹是豆浆中的蛋白质分子在变性过程中与脂肪分子相聚合而形成的薄膜(蛋白质-脂质膜),具有良好的风味性、营养性、健康性和安全性,能为人体提供均衡能量,长期以来深受人们的喜爱。

国内外学者大多关注腐竹成膜理论[1]、工艺优化[2-4]、膜结构和特性[5-7]等方面,而对于成品腐竹的品质检测研究较少。脂肪是腐竹重要的营养成分之一,且脂肪含量越高,膜的透水率越低、阻水性越强,防腐效果越好,货架期就越长[8],因此腐竹脂肪的测定对于质量评级、生产控制具有重要意义。目前,腐竹脂肪测定采用常规测试方法,效率低、费时费力,不能满足腐竹规模化生产的需求。因此,对于腐竹脂肪检测,迫切需求一种快速、可实施在线监控的分析技术。

近红外光谱记录的是含氢基团X—H(X:C、N、O)单个化学键的基频振动的倍频和合频信息,动植物性食品的成分大多由这些基团构成,基团的吸收频谱表征了这些成分的化学结构和含量,因此近红外光谱分析技术已广泛用于果蔬[9-10]、畜产食品[11-12]、水产品[13-14]、粮油[15-16]、茶叶[17-18]、药食材料[19-20]等品质指标检测。腐竹的红外光谱受含氢基团的重叠主导,信息丰富,为近红外分析提供了理论基础,但对于腐竹品质近红外检测应用尚未见报道。

本实验以传统食品腐竹为研究对象,比较研究反向区间偏最小二乘法(backward interval partial least squares,BiPLS)、组合区间偏最小二乘法(synergy interval partial least squares,SiPLS)、搜索组合移动窗口偏最小二乘法(searching combination moving window partial least squares,SCMWPLS)和遗传偏最小二乘法(genetic algorithms partial least squares,GAPLS)优化腐竹脂肪信息变量的效果,并构建定量分析模型,以期为实现腐竹脂肪含量的绿色、快速检测提供一定的参考依据。

1 材料与方法

1.1 材料与试剂

腐竹样品 许昌某豆制品加工企业。

为获取代表性样品,分别在a、b、c、d四条不同生产线上,连续15 d收集生产的成品,在每条线生产的初、中和末3 个时期各收集3 个样品,共有180 份独立样品。样品密封于封口袋,包装后运回实验室,并分别标号后备用。

1.2 仪器与设备

ANTARISⅡ型傅里叶变换近红外光谱仪(配备积分球采集附件、InGaAs检测器) 美国Thermo Fisher Nicolet公司;R254S型索氏提取器 德国Behr实验仪器设备公司;AUY220型电子分析天平(精度0.1 mg) 日本岛津公司;HB-DK-S26型电热恒温水浴锅 北京恒奥德仪器仪表有限公司;DHG-9023A型鼓风烘箱 沈阳林频实验设备有限公司;JYL-C012型料理机 九阳股份有限公司。

1.3 方法

1.3.1 光谱采集

腐竹样品经粉碎后,过18 目筛后加入到样品杯,采集腐竹的积分球漫反射光谱。为获取代表性的腐竹光谱,采用自动旋转样品杯附件采集,采集光谱范围4 000~10 000 cm-1,分辨率8 cm-1,旋转杯偏心距为8 mm,扫描32 次取平均。

1.3.2 脂肪化学值测定

采用索氏抽提法测定腐竹脂肪含量,方法参照GB/T 5009.6—2003《食品中脂肪的测定》。

1.3.3 化学计量学方法

BiPLS和SiPLS是Nørgaard[21]提出的区间偏最小二乘(interval partial least squares,iPLS)法的改进和演化。BiPLS是将整个光谱分割成k 个等宽子区间,分别计算各子区间的交互验证均方根误差(root mean square error of cross-validation,RMSECV)值,然后逐步去除RMSECV最大的区间i(i=0、1、2…k),在剩余的k-i区间上建立偏最小二乘法(partial least squares,PLS)模型,并给出相应的RMSECV值。当RMSECV值最小时所对应的多个区间即为所优化的组合区间。SiPLS是在各子区间上,计算所有可能的j(2jh)个子区间组合模型,依RMSECV值大小给出各个组合区间,当RMSECV值最小时该组合区间为最优区间组合。

SCMWPLS[22]是基于移动窗口偏最小二乘法(moving window partial least squares,MWPLS)基本原理的演化,计算步骤简述如下:1)在给定最大窗口p下,计算1~p所有窗口下的MWPLS,获取不同宽度的信息区间,在所得信息区间里选择残差最小的区间作为基础信息区间A;2)以基础信息区间A为基准,在剩余信息区间(除基础信息区间A)里依次选择单个区间与信息区间A进行组合,并计算残差,残差最小时,得到最优组合信息区间A和B;3)再以信息区间A和B为基准,重复步骤2),得到最佳信息区间组合信息区间A+B+C;4)按上述方法重复计算,至组合计算次数结束。结果输出每步组合下的信息区间和残差。最小残差信息组合即为最优结果。

GAPLS[23]是引用生物界物种竞争选择的进化机制,以适应度函数为依据,通过对群体中个体施加遗传操作,如选择、交叉、变异,来实现群体内个体结构重组的迭代优化。采用遗传算法选择特征变量,由于每次运行初始参数不同,如初始群体选择,交叉变异位置等,输出的0~1二进制编码各异,因此,独立运行100 次,以RMSECV为目标函数选取出现频率较高的变量。

BiPLS、SiPLS、SCMWPLS和GAPLS程序均在MATLAB V7.0中实现。

2 结果与分析

2.1 光谱特征及预处理

腐竹是蛋白质分子在变性过程中与多糖和脂肪通过分子间的相互作用而形成的可食性膜,具有多孔网络结构,光谱信息丰富,且相互重叠。腐竹原始积分球漫反射光谱如图1a所示,光谱形状相似,在5 155 cm-1
和6 890 cm-1处为水分子O—H伸缩和HOH弯曲振动的组合频,8 310 cm-1处为水分子O—H比较弱的组合频吸收。受颗粒散射影响,光谱基线漂移严重,二阶导数可以消除基线漂移,且可以放大光谱信号,图1b为二阶导数(2D)和卷积平滑(7点3阶多项式S-G平滑)处理后的光谱,处理后消除了基线漂移,4 230~6 080 cm-1
区间信号更加丰富,而且也使6 329~6 828、8 060~8 650 cm-1区间的光谱差异凸显。

759737.jpg 

759757.jpg 

图 1 腐竹原始光谱(a)和二阶导数平滑处理后光谱(b)

Fig.1 Spectra of yuba obtained from original data (a) and 2-Der with S-G smothering pretreatment (b)

在建立校正模型前,采用TQ软件程序V8.0,在95%置信度下进行Chauvenet检验(置信度95%),剔除异常光谱。剩下的样本依据化学值大小排序,依31左右分为校正集和预测集,化学值的最大和最小样本归为校正集,统计参数如表1所示。

表 1 腐竹校正集和预测集样品化学值统计表

Table 1 Statistics of fat content in yuba for calibration and
prediction data sets

样品集

样本数

脂肪含量/%

变异

系数/%

最大值

最小值

平均值

标准偏差

校正集

136

27.92

11.96

19.09

3.26

17.08

预测集

44

24.45

12.45

19.04

3.00

15.76

 

 

2.2 BiPLS模型

考察区间分割数对选择结果及模型的影响,将整条光谱(1 557 个数据点)分为k个子区间(k=10~50,间隔5),在每种分割情况下运行BiPLS程序。采用留一法计算RMSECV,最大因子数设为10。

当分割数为40时,BiPLS所得RMSECV值最小为1.45,入选子区间为[8 31 6 21 34 4 13 20 26],所对应的信息区间分别是4 451~4 597、4 752~4 898、5 053~5 199、5 805~5 951、6 858~7 155、7 760~7 907、8 512~8 659 cm-1和8 964~9 110 cm-1,如图2上方所示。BiPLS共选择了351 个数据点,占全谱的25.5%。区间变量表征了腐竹脂肪分子振动信息,如4 587、4 545 cm-1附近是C=O伸缩振动合频吸收,5 865、5 900 cm-1附件主要是甲基C—H伸缩振动一倍频吸收,7 092 cm-1为油脂中O—H一倍频吸收,5 128 cm-1和8 622 cm-1是C=O伸缩振动的二倍频和四倍频吸收,8 547 cm-1为不饱和脂肪酸中烯烃的C—H二倍频吸收。

759773.jpg 

图 2 BiPLS和SiPLS信息区间选择结果

Fig.2 Informative regions obtained by BiPLS and SiPLS procedures

在上述信息区间内建立BiPLS模型,校正和预测结果如表3所示,其校正相关系数(R)和校正均方根误差(root mean square error of calibration,RMSEC)分别为0.90、1.48;其预测相关系数(r)、相对预测均方根误差(relative prediction mean square error,RMSEP)分别为0.89和1.53,优于全谱PLS模型(r=0.86,RMSEP=1.68),但数据点显著减少。

2.3 SiPLS模型

在使用SiPLS程序时,不同的子区间数和组合数对输出结果均有影响。在本实验中,也将光谱分为k个子区间(k=10~50,间隔5),在不同分割数下,分别计算不同组合数(1~4)下的结果。

当分割数为40时,入选子区间为[8 20 28 31],所得RMSECV值最小为1.56,此时所选择的信息区间是5 053~5 199、6 858~7 004、8 061~8 208 cm-1和8 512~8 659 cm-1,如图2下方所示。SiPLS共选择了156 个数据点,占全谱的10%。SiPLS选择波段中5 053~5 199、6 858~7 004 cm-1和8 512~8 659 cm-1与BiPLS选择结果相同,反映了腐竹脂肪特征吸收;而在8 208 cm-1附近主要反映了乙基C—H二倍频吸收。在信息区间建立模型SiPLS,预测结果如表3所示,其r、RMSEP分别为0.87和1.60,其模型性能接近BiPLS模型,但是建模数据进一步减少到156 个。

2.4 SCMWPLS模型

SCMWPLS运行参数如下:基础区间计算窗口大小为k(k=4~300,间隔1),次级区间窗宽为2,组合次数为100,最大因子数为10。

根据上述方法运行SCMWPLS程序,当k=201时,所得RMSECV值最小为1.54,对应基础信息区间为7 328~8 100 cm-1,主要表征的是C—H的二倍频和合频吸收。在此基础区间上,SCMWPLS进行最优搜索组合,最终RMSECV最小达到1.48,所获得的次级信息区间分别为5 053~5 151、8 613~8 624 cm-1,共有29 个数据点,5 128 cm-1附近是—CO2R官能团的C=O伸缩振动二倍频吸收,而在8 622附近是C=O伸缩振动四倍频吸收。SCMWPLS共选择了230 个数据点,占全谱的14.8%,在上述信息变量下建立SCMWPLS模型,预测结果如表3所示,其r、RMSEP分别为0.90和1.49,其模型预测性能略优于BiPLS和SiPLS模型。

2.5 GAPLS模型

当光谱变量数超过200时,运行GAPLS可能导致过拟合的风险[21]。本实验在此作两步处理:1)将整条光谱数据分割成8 个子区间,在每个子区间下运行GAPLS,将每个子区间下的最小RMSECV值对应的变量选出,重新构造一个光谱矩阵M,在新矩阵M下建立GAPLS1模型;2)在光谱矩阵M下,再运行GAPLS,二次选择信息变量,并建立GAPLS2模型。

GAPLS运行参数分别为:种群大小30,入选变量数最大值30,变异概率0.01,交叉概率0.5,最大因子数10。独立运行100 次,计算每个数据点标识为“1”的概率。入选变量以RMSECV为目标函数,当满足F检验
(P<0.1)时为最佳结果。

首先将1 557个数据点分割成8 个子区间,在每个子区间下运行GAPLS,输出最小RMSECV值和对应的变量数,如表2所示,在第6个子区间(7 837~8 601 cm-1)内,RMSECV值最低,且模型具有较低的维度,表明在此区间变量表征了腐竹脂肪分子振动信息。

表 2 不同子区间下GAPLS选择结果

Table 2 Results of GAPLS in different intervals

区间代码

1

2

3

4

5

6

7

8

原始变量数

199

199

199

199

199

199

199

164

GAPLS选择变量数

14

18

12

9

27

17

8

38

最佳因子数

4

6

1

3

3

2

2

2

RMSECV

1.70

1.65

1.83

1.83

1.67

1.61

1.82

1.84

 

 

GAPLS一次优化共选择了143 个数据点,占全谱的9.2%,采用上述143 个变量重新构造一个光谱矩阵M(图3),新矩阵光谱差异明显,排除了较多的非目标信息变量。在矩阵M下建立GAPLS1模型,其R、RMSECV分别为0.96和0.95,采用外部44 个样品检验模型预测性能,散点图如图4所示,预测结果r、RMSEP分别为0.92和1.17(表3),显著优于全谱PLS、BiPLS和SiPLS模型,且变量数最小。

759791.jpg 

图 3 经分段处理后GAPLS重构光谱矩阵

Fig.3 Reconstruction spectrum matrix obtained by GAPLS after segmented treatment

759809.jpg 

图 4 GAPLS1模型预测结果散点图

Fig.4 Plots of measured firmness value vs. GAPLS1 predicted value

759827.jpg 

759844.jpg 

图 5 GA-PLS程序运行结果(a)变量选择概率(b)
不同变量数下的RMSECV值

Fig.5 Variables selections accomplished by GA-PLS

在新矩阵M下再次运行GAPLS选择变量,入选变量数与RMSECV值关系如图5b所示,当有25 个变量入选时,即图5a中水平线为所选择的变量,RMSECV值达到最小(1.564)。由表3可得,GAPLS二次所选的25 个变量中有15 个变量来源于表2中的第6个子区间,进一步说明了该区间包含了较多的腐竹脂肪信息变量,主要是脂肪烃的C—H二倍频吸收,与表2所示该区间RMSECV值最小相一致。采用所选25 个变量构建模型GAPLS2,预测结果如表3所示,其r、EMSEP分别为0.87和1.60,与BiPLS和SiPLS相当,但数据使用量仅为全谱的1.6%。

表 3 腐竹脂肪的不同PLS模型及性能评价结果

Table 3 Results of PLS modeling for fat content of yuba and evaluation of the performance of their corresponding models

模型

变量数

校正模型光谱区间/cm—1

因子数

R

RMSEC

r

RMSEP

PLS

1557

4 000~10 000

10

0.86

1.69

0.86

1.68

BiPLS

351

4 451~4 597、4 752~4 898、5 053~5 199、5 805~5 951、6 858~7 155、7 760~7 907、8 512~8 659、8 964~9 110

6

0.90

1.48

0.89

1.53

SiPLS

156

5 053~5 199、6 557~6 703、6 858~7 004、8 512~8 659

5

0.89

1.56

0.87

1.60

SCMWPLS

230

5 053~5 151、7 328~8 100、

8 613~8 624

5

0.91

1.47

0.90

1.49

GAPLS1

143

 

9

0.96

0.95

0.92

1.17

GAPLS2

25

7 293、7 455~7 459、7 837~7 841、7 895~7 907、8 003、8 061、8 100、8 343、8 474、8 508、8 551~8 559、8 613、8 620、9 484、9 500、9 689~9 692、9 854

2

0.88

1.55

0.87

1.60

 

3 结 论

应用积分球附件采集腐竹样品近红外漫反射光谱,经过导数和平滑处理,以消除颗粒散射影响和基线漂移,探讨BiPLS、SiPLS、SCMWPLS和GAPLS四种方法优化腐竹脂肪信息变量的有效性,并构建预测模型。结果表明经变量优化后,BiPLS、SiPLS、SCMWPLS和GAPLS四种方法的入选变量数分别为351、156、230 个和143 个,分别占全谱的变量数(1 557 个变量数)的22.5%、10%、14.8%、9.2%。用GAPLS一次优选变量(143 个数据点)所构建的GAPLS1模型最优,其R、RMSECV、r、RMSEP分别为0.96、0.95、0.92和1.17;在重构光谱矩阵基础上,进行GAPLS二次优化获得25 个变量,所构建的GAPLS2模型性能与全谱相当。结果表明:近红外光谱技术结合化学计量学方法可用于构建腐竹脂肪定量模型,信息变量提取可简化模型,提高预测性能,同时显示了近红外光谱技术在腐竹营养指标快速评价方面的应用潜力。

参考文献:

[1] CHEN Y, YAMAGUCHI S, ONO T. Mechanism of the chemical composition changes of yuba prepared by a laboratory processing method[J]. Journal of Agricultural and Food Chemistry, 2009, 57(9): 3831-3836.

[2] LONG Lei, HAN Zhi, ZHANG Xiujin, et al. Effects of different heating methods on the production of protein-lipid film[J]. Journal of Food Engineering, 2007, 82(3): 292-297.

[3] MARIA B P, JOHN M K. Drying temperature effect on water vapor permeability and mechanical properties of whey protein-lipid emulsion films[J]. Journal of Agricultural and Food Chemistry, 2000, 48(7): 2687-2692.

[4] 谢丽燕, 林莹, 谭瑶瑶, . 正交试验优化传统腐竹制作工艺[J]. 食品科学, 2014, 35(2): 36-40.

[5] ZHELUDEVA S, NOVIKOVA N, STEPINA N, et al. Molecular organization in protein-lipid film on the water surface studied by X-ray standing wave measurements under total external reflection[J]. Spectrochimica Acta Part B, 2008, 63(12): 1399-1403.

[6] KOKOSZKA S, DEBEAUFORT F, LENARTA A, et al. Liquid and vapour water transfer through whey protein/lipid emulsion films[J]. Journal of the Science of Food and Agriculture, 2010, 90(5): 1673-1680.

[7] CHEN Y, ONO T. The mechanisms for yuba formation and its stable lipid[J]. Journal of Agricultural and Food Chemistry, 2010, 58(10): 6485-6489.

[8] 欧锦强, 王兴国, 金青哲. 大豆组分对腐竹性能的影响[J]. 中国油脂, 2005, 30(2): 37-40.

[9] NICOLAÏ B M, BEULLENSA K, BOBELYNA E, et al. Non-destructive measurement of fruit and vegetable quality by means of NIR spectroscopy: a review[J]. Postharvest Biology and Technology, 2007, 46(2): 99-118.

[10] 刘燕德, 高荣杰, 孙旭东. 便携式水果内部品质近红外检测仪研究进展[J]. 光谱学与光谱分析, 2010, 30(10): 2874-2878.

[11] 樊玉霞. 猪肉肉糜品质与安全可见/近红外光谱快速检测方法的实验研究[D]. 杭州: 浙江大学, 2011.

[12] 王田子, 郑丽敏, 田立军, 等. 近红外在乳及乳制品质量检测中的研究进展[J]. 光谱学与光谱分析, 2010, 30(12): 3208-3212.

[13] 徐文杰, 李俊杰, 贾丹, 等. 近红外光谱技术分析草鱼营养成分[J]. 食品科学, 2013, 34(20): 161-164.

[14] 徐文杰, 刘茹, 洪响声, 等. 基于近红外光谱技术的淡水鱼品种快速鉴别[J]. 农业工程学报, 2014, 30(1): 253-258.

[15] 王加华, 王一方, 屈凌波. 粮食品质近红外光谱无损检测研究进展[J]. 河南工业大学学报: 自然科学版, 2011, 32(6): 80-87.

[16] 刘建学, 刘珊珊. 芝麻油真伪快速检测方法研究[J]. 中国粮油学报, 2012, 27(12): 116-121.

[17] 张龙, 潘家荣, 朱诚. 基于近红外光谱的不同发酵类型茶叶判别[J]. 食品科学, 2012, 33(20): 149-152.

[18] 宁井铭, 宛晓春, 张正竹, 等. 近红外光谱技术结合人工神经网络判别普洱茶发酵程度[J]. 农业工程学报, 2013, 29(6): 255-260.

[19] 汤丽华, 刘敦华. 基于近红外光谱的枸杞化学成分定量分析[J]. 现代食品科技, 2013, 29(9): 2306-2310.

[20] 赵羚志. 短波近红外光谱技术结合人工神经网络用于药物无损定量分析的研究[D]. 长春: 吉林大学, 2009.

[21] NØRGAARD L, SAUDLAND A, WAGNER J, et al. Interval partial least squares regression (iPLS): a comparative chemometric study with an example from near-infrared spectroscopy[J]. Applied Spectroscopy, 2000, 54(3): 413-419.

[22] DU Yiping, LIANG Yizeng, JIANG Jianhui, et al. Spectral regions selection to improve prediction ability of PLS models by changeable size moving window partial least squares and searching combination moving window partial least squares[J]. Analytica Chimica Acta, 2004, 501(2): 183-191.

[23] LEARDI R. Application of genetic algorithm-PLS for feature selection in spectral data sets[J]. Journal of Chemometrics, 2000, 14(5): 643-655.

 

收稿日期:2013-12-03

基金项目:国家自然科学基金青年科学基金项目(31401579);河南省科技攻关计划项目(122102210247)

作者简介:王加华(1979—),男,副教授,博士,研究方向为食品质量控制与检测技术。E-mail:w.jiahua@163.com

*通信作者:韩东海(1958—),男,教授,博士,研究方向为食品质量无损检测技术。E-mail:handh@cau.edu.cn