近红外光谱结合SIMCA对不同产地枸杞溯源模型的优化

雷建刚1,刘敦华2,*

(宁夏大学农学院,宁夏 银川 750021)

 

要:采用近红外光谱结合簇类独立软模式法(SIMCA)建立枸杞溯源模型,比较不同光谱预处理方法建立的溯源模型的优劣。结果表明,在950~1650nm波长范围内,原始光谱经二阶导数、五点平滑以及矢量归一化处理后,在波长1135、1175、1235、1335、1395、1535nm处,均有明显的特征吸收峰;新疆、中宁、甘肃、青海、南梁、惠农、固原和内蒙的8个产地模型的主成分数分别为3时,采用SIMCA法建立的枸杞溯源模型最好;在10%显著水平下,建立的8个产地模型中,固原模型最好,惠农模型最差。

关键词:近红外光谱;簇类独立软模式法(SIMCA);枸杞;产地溯源;模型

 

Optimization of Wolfberry (Lycium barbarum L.) Traceability Model for Different Geographic Origins Using

Near Infrared Spectroscopy Combined with SIMCA

 

LEI Jian-gang1,LIU Dun-hua2,*

(School of Agriculture, Ningxia University, Yinchuan 750021, China)

 

Abstract:In this study, traceability models for wolfberry from different geographic origins were established by using near infrared spectroscopy combined with cluster class independent soft model method (SIMCA). Different spectral preprocessing methods were compared for modeling. The results showed that, in the wavelength range of 950 to 1650 nm, obvious characteristic absorption peaks at 1135, 1175, 1235, 1335, 1415, 1395 nm and 1535 nm were observed after second order derivative processing, five-point smoothing and SNV processing of the original spectra. When the number of principal components for each of the 8 growing areas, Xinjiang, Zhongning, Gansu, Qinghai, Nanliang, Huinong, Guyuan and Inner Mongolia was 3, the traceability models established by the SIMCA method were the best. At the significance level of 10%, 95%, 85%, 95%, 95%, 80%, 80%, 95% and 95% of unknown samples from these growing areas were recognized and only 2.86%, 14.28%, 2.86%, 0%, 5.72%, 17.13%, 0% and 2.86% were incorrectly judged. The model for samples from Guyuan was the best, whereas that for Huinong was the worst.

Key words:near infrared spectrum;cluster class independent soft mode method;Lycium barbarum L.;origin traceability;models

中图分类号:TS201.2 文献标志码:A 文章编号:1002-6630(2013)20-0148-05

doi:10.7506/spkx1002-6630-201320030

随着枸杞产业的蓬勃发展,枸杞交易市场上恶意造假、掺假的现象也愈加严重,严重影响了枸杞的品质。

近年来,近红外技术在国外已经成为农产品检测中的一种关键技术[1],但在国内还处于起步阶段。以近红外光谱技术对不同产地的枸杞进行区分和鉴别,不仅能提高枸杞道地性质量标准,也能保护消费者的合法权益。所以此方面的研究具有非常重要的现实意义。

近红外光谱技术由于其快速、简便、无损伤、无污染等独特优势[2],不仅适用于产品组分的品质控制和定量分析[3-4],还能利用光谱所反映的组成和结构信息进行定性判别[5-6]。簇类独立软模式(soft independent modeling of class analogy,SIMCA)法是一种基于主成分分析的特征投影显示方法,其基本思想是先利用主成分分析的结果得到样本分类的基本分布,然后分别建立各类样本的分类模型,再用这些模型对未知样本进行判别分析[7]。目前,近红外光谱技术已经在茶叶[8]、蜂蜜[9-10]、药材[11-14]、肉类[15-17]等产品的溯源研究中得到了广泛应用,但对枸杞产地溯源的研究还很少,周群等[18]应用红外光谱进行了枸杞产地的研究。本实验采用近红外光谱结合模式识别方法建立枸杞产地溯源模型,并对模型进行优化,以期为今后不同产地枸杞资源的合理开发利用提供溯源依据。

1 材料与方法

1.1 材料

枸杞干果分别取自南梁(NL)、惠农(HN)、固原(GY)、中宁(ZN)、内蒙(NM)、甘肃(GS)、青海(QH)、新疆(XJ)8个产地。采样时间在2011年6月初至7月下旬。其中在每个产地的不同采样点取60份样品,每份样品质量为500g,总样品份数为480。

1.2 仪器与设备

DA7200近红外光谱仪 瑞典Perten公司,该仪器的参数:扫描波长范围:950~1650nm;扫描次数:100次/s;扫描间隔:2.0nm。

1.3 方法

1.3.1 近红外光谱数据的采集

利用软件Simplicity进行光谱数据采集。将所有枸杞干果分别放入50℃烘箱中干燥24h,使水分的平均含量保持在(13.12±1.00)%范围,以消除水分的差异对光谱采集造成的影响。同一产地的枸杞干果保持颗粒大小均匀一致,以减少同一产地枸杞内部差异造成的误差。接着将干燥好的枸杞干果分别装进直径5cm、高2.5cm的铝合金样品盘中,铺满整个盘体,用刮板将样品表面刮平整,放到光谱采集平台上并在控制面板上按顺序编号,然后在950~1650nm波长范围内采集近红外光谱数据,为了减少误差,每个样品扫描4次,取平均光谱数据值。

1.3.2 数据处理和分析

为了减少光谱噪声干扰和误差,以提取出光谱中有效的特征信息,从而使溯源模型更完善,必须用适当的方法对近红外原始光谱数据进行预处理,再建立溯源模型。采用求导、平滑和SNV 3者相结合的处理方法,总共有3种,分别是一阶导数+五点平滑处理(A法)、一阶导数+五点平滑+SNV处理(B法)、二阶导数+五点平滑+SNV处理(C法)。

SIMCA建模和光谱处理均采用Uscrambler X10.2软件。溯源模型的分析采用SIMCA模式识别法,首先针对每一类样本进行PCA分析,然后在PCA的结果基础上建立识别模型和判别模型。每个产地取40个样品作为校准集,20个样品作为预报集,按式(1)计算模型的识别率,其他7个产地每个地方选取5个样品,共计35个样品作为判别集,按式(2)计算模型的误判率。利用识别率和误判率来判断每个产地SIMCA模型的好坏;同时对未知样本进行分类。

识别率/%=识别自身样本个数/预报集样本总个数×100 (1)

误判率/%=误判其他类样本个数/其他类样本参与判别集总个数×100 (2)

2 结果与分析

2.1 枸杞全波长近红外图谱的分析

452764.jpg 

图 1 8个产地枸杞样品的近红外光谱图

Fig.1 Near infrared spectra of wolfberry from eight regions

从图1可以看出,8个产地枸杞样品在950~1300nm和1510~1650nm波长范围内存在许多较宽的峰且峰形相似。480个枸杞样品光谱变化趋势相似,说明各个样品含有的化学成分种类相同,采集到的原始光谱的数量较大,具有一定的代表性,以确保能得到稳健的溯源模型。但考虑到原始光谱数据存在重叠,必须对光谱进行预处理,提取光谱中的特征信息,从而对每个产地的枸杞光谱建立溯源模型,比较不同产地模型的好坏。

2.2 不同预处理方法对SIMCA模型的优化

2.2.1 一阶导数+五点平滑处理的SIMCA模型分析

452778.jpg 

图 2 一阶导数+五点平滑处理(A法)的近红外图谱

Fig.2 Near infrared spectra processed with first derivative plus

five-points smooth processing (method A)

从图2可以看出,近红外光谱中脂肪、水以及碳水化合物的吸收波段被放大。在1392、1526nm和1650nm波长处的近红外光谱与脂肪的吸收有关[19]。1650~1720nm波长处的2个较小的峰与C—H键的一阶倍频吸收有关(2未显示),而1210nm波长处的峰与C—H键的二阶倍频吸收有关[20]。另外在1446nm波长处的峰与O—H键的吸收有关[21]。

提取图2中的每个产地近红外光谱数据分别做主成分分析,从而建立各个产地的SIMCA模型,模型的识别率和误判率如表1所示。

表 1 A法处理的不同产地的SIMCA模型的识别率和误判率

Table 1 Percentages of samples from eight regions recognized and those incorrectly judged based on spectral pre-processing by method A

产地

名称

识别率/%

 

误判率/%

1%

5%

10%

 

1%

5%

10%

XJ

95

95

90

 

14.29

11.43

8.57

ZN

85

85

85

 

31.43

25.71

14.29

GS

100

95

95

 

8.57

2.86

2.86

QH

85

80

80

 

22.86

11.42

8.57

NL

95

90

90

 

22.86

8.57

5.71

HN

95

95

80

 

57.15

37.14

19.99

GY

100

95

95

 

22.85

17.14

8.58

NM

95

95

95

 

20.01

11.44

5.72

 

注:1%、5%、10%表示显著水平。下同。

 

从表1可以看出,不同产地的枸杞的识别率和误判率有很大差异。各个产地的识别率随着显著水平的提高而提高,误判率随着显著水平的增大而降低。当显著水平为10%时,在8个产地中,甘肃、固原和内蒙模型的识别率均为95%,而甘肃的误判率最低,为2.86%,说明甘肃的溯源模型最好;惠农的识别率较低且误判率最高,说明惠农溯源模型的预报能力最差。

452791.jpg 

图 3 A法处理后的主成分得分图

Fig.3 Principal component score plot of the near infrared spectra processed by method A

由图3可知,第1和第2主成分数的累计方差贡献率为95%,前3个主成分数的累计方差贡献率为99%,因此当主成分个数取3时,能够充分反映样品主成分得分在二维空间的分布特征。在图中甘肃和内蒙的枸杞光谱主成分得分的点都能各自较明显地聚为一类,说明这两地的枸杞模型识别率高,误判率低,两地枸杞之间的差异性显著。也充分说明表1中得到的结论是正确的,甘肃和内蒙的溯源模型都比较好。

2.2.2 一阶导数+五点平滑+SNV处理的SIMCA模型分析

从图4可以看出,特征吸收峰个数有所增加,而且吸收峰更加明显,噪音干扰变小。尤其在1175、1335、1415、1555nm波长处,特征吸收峰更加突出,说明此处的光谱信息更能反映枸杞的产地属性,因此更有利于建立各个产地的SIMCA模型。

452804.jpg 

图 4 一阶导数+五点平滑+SNV处理(B法)的近红外图谱

Fig.4 Near infrared spectra after first order derivative, five-point smoothing and SNV processing (method B)

提取图4中的每个产地近红外光谱数据分别进行PCA分析,从而建立各个产地的SIMCA模型,模型的识别率和误判率如表2所示。

表 2 B法处理的不同产地的SIMCA模型的识别率和误判率

Table 2 Percentages of samples from eight regions recognized and those incorrectly judged based on spectral pre-processing by method B

产地名称

识别率/%

 

误判率/%

1%

5%

10%

 

1%

5%

10%

XJ

100

95

80

 

2.86

2.86

0

ZN

85

85

85

 

34.29

28.57

17.14

GS

100

100

100

 

8.57

2.86

2.86

QH

95

90

85

 

28.56

14.28

5.72

NL

95

90

85

 

22.79

5.71

2.86

HN

90

90

70

 

31.43

20

17.14

GY

100

95

95

 

17.13

11.43

5.72

NM

95

95

95

 

11.43

11.43

2.86

 

 

从表2可以看出,光谱经过SNV处理后,在10%显著水平上,甘肃的模型识别率100%,预报能力最好;固原和内蒙的模型识别率为95%;惠农模型的识别率最低,为70%,误判率最高,为17.14%,说明惠农模型预报能力最差。部分产地模型的误判率有所下降,说明经一阶导数+五点平滑+SNV处理后的模型更加稳健,预报能力增强。

452817.jpg 

图 5 B法处理后的主成分得分图

Fig.5 Principal component score plot of the near infrared spectra processed by method B

由图5可知,第1和第2主成分的累计方差贡献率为86%,前3个主成分的累计方差贡献率为99%,因此当主成分数也取3时,能够充分反映样品主成分得分在二维空间的分布特征。可以看出甘肃样点在主成分得分图上表现出很显著的聚集,说明甘肃枸杞的识别率较高。这也充分说明表2中得到的结论是正确的。

2.2.3 二阶导数+五点平滑+SNV处理的SIMCA模型分析

452830.jpg 

图 6 二阶导数+五点平滑+SNV处理(C法)的近红外图谱

Fig.6 Near infrared spectra after second order derivative and

five-point smoothing and SNV processing (method C)

从图6可以明显地看出,特征吸收峰又有所增加,光谱变得更加平滑,说明噪音干扰又进一步降低。在1135、1175、1235、1335、1395、1535nm波长处,均有明显的特征吸收峰,尤其是1395nm波长处有非常突出的吸收峰,相比图4中增加了2处明显的吸收峰,说明原始光谱经C法处理后,波长特征得到进一步强化,所反映的枸杞近红外光谱特征信息更明显,使用此法处理的光谱数据建立的各产地溯源模型将会更加稳健。

表 3 C法处理的不同产地的SIMCA模型的识别率和误判率

Table 3 Percentages of samples from eight regions recognized and those incorrectly judged based on spectral pre-processing by method C

产地名称

识别率/%

 

误判率/%

1%

5%

10%

 

1%

5%

10%

XJ

100

100

95

 

14.29

14.29

2.86

ZN

85

85

85

 

37.15

25.71

14.28

GS

100

100

95

 

11.43

5.71

2.86

QH

95

95

95

 

28.57

11.43

0

NL

95

90

80

 

17.13

11.42

5.72

HN

85

85

80

 

37.15

31.43

17.13

GY

100

100

100

 

25.71

11.43

0

NM

95

95

95

 

34.28

19.99

2.86

 

 

C法处理的不同产地的SIMCA模型的识别率和误判率如表3所示。从表中可以看出,各个产地的溯源模型的识别率都有所提高,而误判率都有所降低。其中固原模型的识别率最高,达到100%,误判率为0%,说明其预报能力最好;新疆、甘肃、青海和内蒙4个产地的模型的识别率均达到95%,而误判率均在2.86%以下,说明这4个地方的模型的预报能力仅次于固原;惠农模型的识别率最低,为80%,误判率最高,为17.13%,说明惠农模型的预报能力最差,差异性不显著,易与其他产地枸杞混淆。

452844.jpg 

图 7 C法处理后的主成分得分图

Fig.7 Principal component score plot of the near infrared spectra processed by method C

从图7可以看出,第1和第2主成分数的累计方差贡献率为87%,前3个主成分数的累计方差贡献率为99%,所以当主成分数也取3时,能够充分反映样品主成分得分在二维空间的分布特征。固原、甘肃、青海、新疆和内蒙5个产地枸杞得分点都有明显聚集,其中固原的聚集较集中,内蒙次之,总之,这5个枸杞产地的区分度很高,相应的模型识别率也很高。图7充分说明表3中得到的结论的正确性,即固原、新疆、甘肃、青海和内蒙的溯源模型都很好,其中固原的模型最好。

综上所述,通过比较3种光谱处理方法建立的溯源模型可以看出,采用二阶导数+五点平滑+SNV处理的光谱数据建立8个产地枸杞的溯源模型,它的预报能力最好,模型的稳健性最强。再进一步比较各个产地模型的识别率和错判率,表明固原模型最好,惠农模型最差,这可能是由于不同产地枸杞之间品质差异性和环境因素差异造成的。

3 结 论

经过二阶导数及SNV处理后的近红外光谱图,其特征吸收峰有所增加,有效地消除了信号中含有的低频背景和常数项,降低了高次项的幂次,从而提高了近红外光谱的灵敏度和分辨率。使用此法处理的光谱数据建立的各产地溯源模型比其他两种预处理方法的结果要好。

在950~1650nm波长范围内,光谱经五点平滑,二阶导数以及SNV处理后,当新疆、中宁、甘肃、青海、南梁、惠农、固原和内蒙的产地模型的主成分数分别取3时,主成分数的方差累计贡献率达到99%,此时采用SIMCA法建立的枸杞产地溯源模型预报能力最好,最稳健;在10%显著水平下,建立的8个产地模型中固原模型最好,惠农模型最差。

参考文献:

[1] URBANO C M, de Castro M D L, GOMEZ-NIETO M A. Study of spectral analytical data using fingerprints and scaled similarity measurements[J]. Analytical and Bioanalytical Chemistry, 2005, 381(4): 953-954.

[2] 张玲, 邱芳萍, 于键. 现代近红外光谱技术[J]. 长春工业大学学报, 2003, 24(4): 23-26.

[3] VILJOEN M, HOFFMAN L C, BRAND T S. Study of spectral analysis on food[J]. Small Ruminant Research, 2007, 69: 88-89.

[4] SUN D V. Infrared spectroscopy for food quality analysis and control[M]. New York: Academic Press, 2009, 179-180.

[5] FRANKE B M, GREMAUD G, HADORN R. The classification by using NIR for food[J]. European Food Research & Technology, 2005, 221: 493-495.

[6] LUYKX D M A M, van RUTH S M. The application of NIR on classification of food[J]. Food Chemistry, 2008, 107(2): 897-898.

[7] WOLD S. Pattern recognition by means of disjoint principle components models[J]. Pattern Recognition, 1976, 8(3): 127-139.

[8] 周健, 成浩, 叶阳, 等. 滇青、青饼和普洱茶(熟饼)近红外指纹图谱分析[J]. 核农学报, 2009, 23(1): 110-113.

[9] 董蕊. 锻树蜜、菩子蜜和刺槐蜜红外指纹图谱及抗氧化研究[D]. 长春: 吉林农业大学, 2011: 4-9.

[10] WOODLOCK T, DOWNEY G, ODONNELL C P. Near infrared spectral fingerprinting for confirmation of claimed PDO provenance of honey[J]. Food Chemistry, 2009, 114(2): 742-746.

[11] 孙丽英, 杨天鸣, 王云英. 不同产地黄柏的近红外指纹图谱鉴别分析[J]. 计算机与应用化学, 2008, 25(3): 329-332.

[12] 孙鹏. 青蒿药材红外指纹图谱研究[D]. 重庆: 重庆医科大学, 2007: 11-15.

[13] 孙丽英. 用于中药材定性定量分析的近红外指纹图谱研究[D]. 武汉: 中南民族大学, 2008: 7-13.

[14] 徐永群, 黄昊, 周群, 等. 红外指纹图谱和聚类分析法在赤芍产域分类鉴别中的应用[J]. 分析化学研究报告, 2003, 31(1): 5-9.

[15] 孙淑敏, 郭波莉, 魏益民, 等. 近红外光谱指纹分析在羊肉产地溯源中的应用[J]. 光谱学与光谱分析, 2011, 31(4): 937-941.

[16] 李勇, 魏益民, 潘家荣, 等. 基于FTIR指纹光谱的牛肉产地溯源技术研究[J]. 光谱学与光谱分析, 2009, 29(3): 647-651.

[17] 张宁. 羊肉产地近红外光谱溯源模型的建立与机理初探[D]. 北京: 中国农业科学研究院, 2008: 9-12.

[18] 周群, 孙素琴, 梁曦云. 枸杞产地的红外指纹图谱与聚类分析法研究[J]. 光谱学与光谱分析, 2003, 23(3): 509-511.

[19] ESPINOZA L H, LUCAS D, LITTLEJOHN D, et al. Total organic carbon content in aqueous samples determined by near-IR spectroscopy[J]. Journal of Applied Spectroscopy, 1999, 53(1): 103-107.

[20] PURCELL D, OSHEA M, KOKOT S. Complex biopolymeric systems at stalk/epicuticular wax plant interface: an NIRS study of the sugarcane example[J]. Biopolymers, 2009, 91(8): 642-651.

[21] MCCLURE W F, MAEDA H, DONG J, et al. Two dimensional correlation of Fourier transform near-infrared and Fourier transform Raman spectral: mixtures of sugar and protein[J]. Journal of Applied Spectroscopy, 1996, 50(4): 467-475.

 

收稿日期:2012-11-29

基金项目:“十一五”国家科技支撑计划项目(2009BAI72B04)

作者简介:雷建刚(1987—),男,硕士研究生,研究方向为食品质量与安全。E-mail:ljg870606@163.com

*通信作者:刘敦华(1964—),男,教授,博士,研究方向为天然药食及食品科学与工程。E-mail:dunhualiu@163.com