基于高光谱成像技术和连续投影算法检测
葡萄果皮花色苷含量

吴 迪1,宁纪锋1,*,刘 旭2,3,*,梁 曼2,杨蜀秦4,张振文2

(1.西北农林科技大学信息工程学院,陕西 杨凌 712100;2.西北农林科技大学葡萄酒学院,陕西 杨凌 712100;

3.陕西省葡萄与葡萄酒工程中心,陕西 杨凌 712100;4.西北农林科技大学机械与电子工程学院,陕西 杨凌 712100)

 

摘 要:应用高光谱成像技术结合连续投影算法(SPA)实现葡萄果皮中花色苷含量的快速无损检测。采集60组样本高光谱图像,获取样本光谱曲线,并采用多元散射校正预处理方法提高信噪比。然后采用SPA选择光谱变量,将其作为多元线性回归(MLR)、偏最小二乘(PLS)模型和BP神经网络(BPNN)的输入变量,分别建立SPA-MLR、SPA-PLS和SPA-BPNN模型并与全光谱变量PLS模型相比较。结果表明,SPA-MLR、SPA-BPNN和SPA-PLS模型的预测精度均优于全光谱变量PLS模型,其中SPA-PLS模型获得了最佳预测结果,其预测相关系数Rp和预测均方根误差(RMSEP)分别为0.900 0和0.550 6。结果表明,利用近红外高光谱成像技术能够有效检测酿酒葡萄果皮中花色苷含量。

关键词:酿酒葡萄;花色苷;高光谱图像;连续投影法;偏最小二乘法

 

Determination of Anthocyanin Content in Grape Skins Using Hyperspectral Imaging Technique and
Successive Projections Algorithm

 

WU Di1, NING Ji-feng1,*, LIU Xu2,3,*, LIANG Man2, YANG Shu-qin4, ZHANG Zhen-wen2

(1. College of Information Engineering, Northwest A & F University, Yangling 712100, China;

2. College of Enology, Northwest A & F University, Yangling 712100, China;

3. Shaanxi Engineering Research Center for Viti-Viniculture, Yangling 712100, China;

4. College of Mechanical and Electronic Engineering, Northwest A & F University, Yangling 712100, China)

 

Abstract:This work aimed to determine the anthocyanin content in grape skins based on hyperspectral imaging technology in combination with successive projections algorithm (SPA). Cabernet Sauvignon (Vitis vinifera L.) grape berries from Shaanxi province were used as experimental materials. Hyperspectral images of 60 groups of grape samples were collected by near infrared hyperspectral camera and the anthocyanin contents in these samples were detected. Multiplicative scatter correction was used to improve the signal-to-noise ratio (SNR). Moreover, SPA was applied for the extraction of effective wavelengths (EWs), which showed least collinearity and redundancies in the spectral data. The selected effective wavelengths were used as the inputs of multiple linear regression (MLR), partial least squares (PLS) and BP neural network (BPNN). Then SPA-MLR, SPA-PLS and SPA-BPNN models were developed and compared with full-spectrum-PLS model. It was shown that SPA-MLR, SPA-PLS and SPA-BPNN models were better than full-spectrum-PLS model. The best performance was achieved by SPA-PLS model with Rp of 0.900 0 and RMSEP of 0.550 6. These results indicate that anthocyanin contents in grape skins could be measured effectively by using near infrared hyperspectral imaging.

Key words: winegrape; anthocyanin; hyperspectral image; successive projections algorithm (SPA); partial least squares (PLS)

中图分类号:S663.1 文献标志码:A 文章编号:1002-6630(2014)08-0057-05

doi:10.7506/spkx1002-6630-201408010

花色苷是葡萄与葡萄酒酒中一类重要的酚类化合物,主要存在于葡萄浆果表皮下3~4 层细胞的液泡里[1]。是决定葡萄酒感官质量的重要因素,也是红葡萄酒耐储存的基础[2-3]。传统的化学检测法会破坏检测对象,难以实现快速、大样本量的检测。而国内外针对酿酒葡萄果实中花色苷含量的快速检测的研究还较少。近年来,高光谱成像技术作为一种无损检测方法引起了广泛的关注,与传统近红外光谱技术相比,高光谱成像技术显示出其独特的优越性。使用近红外光谱技术时,每次仅可以得到某一个或几个点的光谱信息,在选择点的位置和数量方面会有较大的随机性和片面性。而高光谱图像技术可以获取到被分析物的图像,不仅提供了更加丰富的信息,在光谱数据处理方面也提供了更加合理和有效的分析方法[4]。在利用高光谱成像技术结合偏最小二乘(partial least squares,PLS)方法建模的过程中,随着对PLS 方法研究的深入,发现通过特定方法筛选特征波长或波长区间可能会得到更好的定量校正模型[5]。

连续投影算法(successive projection algorithm,SPA)是一种前向循环的变量的选择方法[6],它可以从严重重叠的光谱信息中提取有效信息,使光谱变量之间的共线性影响最小化,并改善多元线性回归模型(multiple linear regression,MLR)的建模条件[7]。SPA-MLR模型比常规的全光谱偏最小二乘模型更易于解释和说明,因为PLS模型是通过没有物理意义的潜变量建立模型,而MLR模型更加依赖于光谱变量的优选[6]。由于SPA能够简化校正模型和缩短校正时间,在各类样品的光谱变量选择中得到越来越多的应用 [8-11]。在全波段进行SPA运算,会增加计算量,所以在进行SPA计算之前,可对全光谱波段进行波段预选择[6,12]或对光谱变量进行无信息变量消除[13-15],以便减少SPA的计算量。除了用于光谱变量的选择,SPA亦用于确定由主成分分析所得到的主成分的最佳主成分组合[16]。

赤霞珠(Cabernet Sauvignon,CS)是一个广泛用于酿造红葡萄酒的葡萄品种。本实验采用近红外高光谱图像获得赤霞珠果皮的光谱数据,利用pH示差法测量其花色苷含量,结合光谱预处理方法和现代化学计量学建模方法,建立葡萄果皮中花色苷含量的预测模型,并应用SPA对预测模型进行优化,实现红色酿酒葡萄果皮中花色苷含量的快速无损检测。

1 材料与方法

1.1 样品准备

赤霞珠果实,采样日期为2012年9月上旬,采样地点为陕西省泾阳县口镇。葡萄成熟时从4 个不同产量水平不同植株随机取下1 500 粒葡萄,以保证样本具有代表性。每25 粒葡萄作为一个样本,共计60 个样本。将样本随机分为校正集和检验集,其中校正集40 个样本,检验集20 个样本。

1.2 试剂与仪器

盐酸、甲醇、氯化钠、醋酸、醋酸钠 国药集团化学试剂有限公司。

ImSpector N17E成像光谱仪 芬兰Spectral Imaging公司;XEVA2616面阵CCD相机(像素为320×256) 比利时XenICs公司;Spectral SENS-V17E软件 英国Gilden Photonics公司;UV2450紫外-可见分光光度计 日本Shimadzu公司;数据分析软件:ENVI4.7(Research system Inc,Boulder,Co.USA)和Matlab2009(The Math Works,Natick,USA)。

1.3 方法

1.3.1 样品高光谱图像采集

高光谱图像成像系统由成像光谱仪、面阵CCD相机、卤钨灯白光光源、高精度的电控平移台装置、计算机等一系列部件组成。其中成像光谱仪采集光谱范围为900~1 700 nm,光谱分辨率2.8 nm,入射光狭缝宽度为30 μm。将高光谱图像采集系统的曝光时间设置成10 ms,移动平台移动速率20 mm/s。每次将25 粒葡萄作为一个样本放置载物台上,采集其高光谱图像。

为了消除光源强度在各波段下分布不均以及摄像头中暗电流噪声的影响,需对获得的图像进行黑白标定[17]。具体方法为对反射率为99%标准白色校正板进行图像采集,得到全白的标定图像Rr,然后拧上镜头盖,关闭光源,采集得到全黑标定图像Rd。原始的高光谱图像为Ri,根据式(1)计算校正后的图像R[18]。

590531.jpg (1)

1.3.2 样品花色苷含量测定

小心撕取每个样本(25 粒浆果)的果皮,超纯水冲洗干净后用吸水纸吸干水分,称质量,然后用液氮研磨成粉。利用pH示差法[19]测定花色苷含量。

1.3.3 连续投影算法

连续投影算法SPA如下:设矩阵Xn×p,其中n为样本容量,p为全谱波长数。N为需要提取的变量个数,N的最大可能取值M=min(n,p)。xk(0)为初始迭代向量:

步骤0:迭代开始前,任选光谱矩阵的一列j,把建模集的第j列赋值给xj,记为xk(0);

步骤1:把未选入的列向量位置的集合记为S,S = {j, 1 ≤j≤J,j∉{k(0),…,k(n-1)}};

步骤2:分别计算xj对剩下列向量的投影Pxj= xj-(xjTxk(n-1))xk(n-1)(xk(n- 1)Txk(n- 1))-1,j∈S;

步骤3:记k(n) = argmax(|| Pxj||, j∈S);

步骤4:记xj = Pxj,j∈S;

步骤5:令n = n+1,如果n<N返回步骤1

最后,得到的波长是{xk(n); n = 0,…, N-1}。

对应于每一个k(0)和N,循环一次后进行多元线性回归分析(MLR),得到校正集的内部交叉验证均方根误差(RMSECV),由最小的RMSECV值对应的k(0)和N就是最优值[16]。

1.3.4 预测模型的建立方法

SPA提取特征波段之后,将特征波段作为MLR、BPNN、PLS的输入,建立起3 个预测模型SPA-MLR、SPA-BPNN和SPA-PLS来预测葡萄果皮中花色苷的含量。

偏最小二乘法是一种新型的多元统计数据分析方法,它主要研究多因变量对多自变量的回归建模[20]。当各变量内部高度线性相关时,用PLS法更有效。多元线性回归以最小二乘法识别因变量和多个自变量之间的线性关系。人工神经网络是目前常用的非线性模型,目前应用较广的是基于误差反向传播算法的BP神经网络(back propagation neural network,BPNN)。由于具有显著非线性处理信息的能力,已在各领域得到了广泛应用[21]。

2 结果与分析

2.1 总花色苷含量测定结果

将总花色甘含量作为样品的化学描述值,所有样本的总花色苷含量的测定统计结果如表1所示。表1为样本划分结果,可以看出校正集与验证集分布比较均匀合理,样本具有良好的代表性。

表 1 花色苷含量统计

Table 1 Descriptive statistics of total anthocyanin contents in samples

数量

最小值/(mg/g)

最大值/(mg/g)

平均值/(mg/g)

方差/

(mg/g)

校正集

40

1.83

5.45

3.41

1.29

检验集

20

1.82

5.93

3.66

1.51

 

 

2.2 光谱校正

wd-t1.tif 

图 1 原始高光谱图像

Fig.1 Original hyperspectral image of grapes

1 400 nm波段处原始高光谱图像见图1。根据葡萄果实和背景的不同光谱特性,选择波长1 060 nm和1 400 nm的图像进行波段比运算,得到一幅波段比图像。通过分析发现波段比图像中葡萄果实区域的值大于6,而背景噪声的值在1左右,因此将阈值定为6。由此得到一幅背景区域为0、果实区域为1的二值图像。把二值图像作为掩膜,将高光谱图像中的葡萄果实区域(图2)作为感兴趣区域(range of interest,ROI)提取出来,然后计算出所有ROI的平均光谱。

wd-t2.tif 

图 2 葡萄果实区域的高光谱图像

Fig.2 Hyperspectral images of grape regions

60 条样本高光谱图像ROI的平均光谱曲线见图3。由于在成像光谱区间的两端噪声较多,光谱在931 nm以下和1 700 nm以上存在较多噪声,若将此部分也加入到模型中将降低整个模型的精度,因此在数据分析中只采用931~1 700 nm间的数据,共236 个波长点。从图3可以发现,由于光照的影响,不同样本光谱差异变大,光谱发生了基线偏移现象。因此需要对原始光谱进行预处理。

590595.jpg 

图 3 高光谱图像感兴趣区域的平均光谱曲线

Fig.3 Average spectral profile of hyperspectral images of ROI regions

因此采用多元散射校正(multiple scatter correct,MSC)对光谱曲线进行预处理[22]。如图3所示,经过MSC校正后得到的光谱数据,有效地消除散射影响所导致的基线偏移现象[23],使样本之间的反射比差异减小,增强与成分含量相关的光谱吸收信息,提高信噪比[24]。故后续分析都是基于此预处理后的光谱数据进行的。

2.3 光谱变量选择

利用连续投影算法对葡萄果皮花色苷校正模型进行光谱变量选择,指定波长数N范围选为2~39,根据校正集的内部交叉验证RMSECV值确定最佳的光谱变量总数。

整个计算过程通过Matlab实现。经过分析,从236 个波长点中优选出20 个光谱变量,分别是908、1 064、1 088、1 147、1 210、1 254、1 277、1 297、1 317、1 376、1 390、1 469、1 496、1 549、1 576、1 579、1 599、1 605、1 642、1 645 nm 波长处的光谱,如图4所示。从所选光谱变量的波长点可知,特征波长大部分分布在1 200~1 610 nm。说明在葡萄果皮花色苷含量测定时1 200~1 610 nm波段起到了比较大的作用。

600456.jpg 

变量个数20,RMSECV = 0.5282。

a.样本模型最佳光谱变量总数

590639.jpg 

b.相应的波长点

图 4 样本模型最佳光谱变量总数和相应的波长点

Fig.4 Selection of the optimal number of wavelengths and selected wavelength using SPA of the whole sample model

2.4 结果验证与分析

将SPA优选的光谱变量,直接作为MLR模型和BPNN模型的变量,建立SPA-MLR线性模型和SPA-BPNN模型。其中神经网络为三层结构,各层的传递函数采用线性(purelin)函数。网络输入层节点数为20,隐层节点数由经验公式得出为15,输出层节点数为1。训练算法采用trainlm,设定目标误差为0.005,网络指定参数中学习速率为0.05,设定训练迭代次数为1 000次。进一步提取所优选出的光谱变量的主成分,建立SPA-PLS模型。并与全光谱变量所建的PLS模型进行比较,比较结果如表2所示。其中表2中的变量数具体是指MLR和BPNN模型中的光谱变量个数和PLS模型中的隐含变量个数。

为评估回归模型的有效性,实验以模型校正相关系数(Rc)、校正均方根误差(root mean square error of calibration set,RMSEC)、预测相关系数(Rp)、预测均方根误差(root mean square error of prediction set,RMSEP)等指标作为依据,对所建模型进行比较分析,并对模型的预测结果进行评价。

表 2 不同预测模型性的能评估

Table 2 Comparative analyses of different prediction models

预测模型

变量个数

评价指标

Rc

RMSEC

Rp

RMSEP

PLS

14

0.982 4

0.214 0

0.716 1

0.881 6

SPA-MLR

20

0.931 4

0.541 7

0.854 0

0.612 9

SPA-PLS

18

0.911 1

0.473 4

0.900 0

0.550 6

SPA-BPNN

20

0.850 9

0.603 3

0.849 9

0.665 6

 

590658.jpg 

a.模型校正

590679.jpg 

b.模型检验

图 5 SPA-PLS建模方法下葡萄中花色苷预测值与实际值的比较

Fig.5 Predicted vs. observed values of anthocyanin contents of grapes using SPA-PLS modeling method

从表2可以看出,预测酿酒葡萄果皮中花色苷含量的最优模型为SPA-PLS,其预测相关系数Rp和RMSEP分别为0.900 0和0.550 6,预测效果如图5所示。SPA-MLR模型与SPA-BPNN模型的预测精度相当,但均高于全光谱变量PLS模型。因此SPA算法提高了酿酒葡萄果皮中花色苷含量预测模型的精度。

利用SPA选取的少数波长变量所建立的模型预测精度高于全光谱变量PLS模型的预测精度,说明SPA所优选出的波长能够正确反映待测组分信息,很好地消除了众多波长变量之间的共线性影响。

3 结 论

本实验基于931~1 700 nm近红外波段高光谱成像系统获取葡萄浆果的高光谱图像,利用连续投影算法SPA进行波长变量选择,最终从236个波长点中优选出20个光谱变量,采用不同的建模方法建立葡萄果皮中花色苷含量的预测模型。结果表明:1)连续投影算法SPA不仅能够有效选出特征光谱变量,简化校正模型和缩短校正时间,且提高了模型的预测精度,是一种有效实用的光谱变量选择方法。2)在PLS、SPA-MLR、SPA-BPNN和SPA-PLS这4 个预测模型中,以SPA-PLS模型的预测效果最好,其预测相关系数Rp和预测RMSEP分别为0.900 0和0.550 6,保持得了较好的预测结果。因此,酿酒葡萄浆果的光谱数据与果皮中花色苷的含量相关性高,利用近红外高光谱成像技术能够有效检测酿酒葡萄果皮中花色苷含量。

参考文献:

[1] Hardie W J, Obrien T P, Jaudzems V G. Morphology, anatomy and development of the pericarp after anthesis in grape, Vitis vinifera L.[J]. Australian Journal of Grape and Wine Research, 1996, 2(2): 97-142.

[2] Downey M O, Dokoozlian N K, Krstic M P. Cultural practice and environmental impacts on the flavonoid composition of grapes and wine: a review of recent research[J]. American Journal of Enology and Viticulture, 2006, 57(3): 257-268.

[3] Ribereau-Gayon P, Glories Y, Maujean A, et al. Handbook of enology: the chemistry of wine stabilization and treatments[M]. Chichester: John Wiley & Sons Inc., 2006: 136-139.

[4] Sun D. Hyperspectralimaging for food quality analysis and control[M]. Massachusetts: Academic Press, 2010.

[5] 褚小立, 袁洪福, 陆婉珍. 近红外分析中光谱预处理及波长选择方法进展与应用[J].化学进展, 2004, 16(4): 528-542.

[6] Araújo M C U, Saldanha T C B, Galvão R K H, et al. The successive projections algorithm for variable selection in spectroscopic multicomponent analysis[J]. Chemometrics and Intelligent Laboratory Systems, 2001, 57(2): 65-73.

[7] Galvão R K H, Araújo M C U, Silva E C, et al. Cross-validation for the selection of spectral variables using the successive projections algorithm[J]. Journal of the Brazilian Chemical Society, 2007, 18(8): 1580-1584.

[8] Pontes M J C, Galva?o R K H, Arau?jo M C U, et al. The successive projections algorithm for spectral variable selection in classification problems[J]. Chemometrics and Intelligent Laboratory Systems, 2005, 78(1): 11-18.

[9] 高洪智, 卢启鹏, 丁海泉, 等. 基于连续投影算法的土壤总氮近红外特征波长的选取[J]. 光谱学与光谱分析, 2009, 29(11): 2951-2954.

[10] Liu Fei, He Yong. Application of successive projections algorithm for variable selection to determine organic acids of plum vinegar[J]. Food Chemistry, 2009, 115(4): 1430-1436.

[11] Moreira E D T, Pontes M J C, Galva?o R K H, et al. Near infrared reflectance spectrometry classification of cigarettes using the successive projections algorithm for variable selection[J]. Talanta, 2009, 79(5): 1260-1264.

[12] 吴迪, 汪志平, 何勇, 等. iPLS-SPA 变量选择方法在螺旋藻粉无损检测中的应用[J]. 农业工程学报, 2009, 25(2): 330-334.

[13] 陈斌, 孟祥龙, 王豪. 连续投影算法在近红外光谱校正模型优化中的应用[J]. 分析测试学报, 2007, 26(1): 66-69.

[14] 黄凌霞, 吴迪, 金航峰, 等. 基于变量选择的蚕茧茧层量可见-近红外光谱无损检测[J]. 农业工程学报, 2010, 26(2): 231-236.

[15] Ye Shengfeng, Wang Dong, Min Shungeng. Successive projections algorithm combined with uninformative variable elimination for spectral variable selection[J]. Chemometrics and Intelligent Laboratory Systems, 2008, 91(2): 194-199.

[16] 吴迪, 金春华, 何勇.基于连续投影算法的光谱主成分组合优化方法研究[J].光谱学与光谱分析, 2009, 29(10): 2734-2737.

[17] 邹小波, 陈正伟, 石吉勇, 等. 基于近红外高光谱图像的黄瓜叶片色素含量快速检测[J]. 农业机械学报, 2012, 43(5): 152-156.

[18] 赵杰文, 刘剑华, 陈全胜, 等. 利用高光谱图像技术检测水果轻微损伤[J]. 农业机械学报, 2008, 39(1): 106-109.

[19] 唐琳, 李子江, 赵磊, 等. 两种pH值法测定玫瑰花花色苷含量的比较[J]. 食品科学, 2009, 30(18): 310-313.

[20] Wold S, Ruhe A, Wold H. The collinearity problem in linear regression. The partial least squares (PLS) approach to generalized inverses[J]. SIAM Journal on Scientific and Statistical Computing, 1984, 5(3): 735-743.

[21] 吴桂芳, 黄凌霞, 何勇. 葡萄浆果糖度可见/近红外光谱检测的研究[J]. 光谱学与光谱分析, 2008, 28(9): 2090-2093.

[22] 芦永军, 曲艳玲, 宋敏. 近红外相关光谱的多元散射校正处理研究[J]. 光谱学与光谱分析, 2007, 27(5): 877-880.

[23] 张雷蕾, 李永玉, 彭彦昆, 等. 基于高光谱成像技术的猪肉新鲜度评价[J]. 农业工程学报, 2012, 28(7): 254-259.

[24] 赵强, 张工力, 陈星旦. 多元散射校正对近红外光谱分析定标模型的影响[J]. 光学精密工程, 2005, 13(1): 53-58.

 

收稿日期:2013-08-21

基金项目:国家自然科学基金面上项目(61003151);国家现代农业(葡萄)产业技术体系建设专项(CARS-30-02A);

中央高校基本科研业务费专项资金项目(QN2011099;QN2013062;QN2013055)

作者简介:吴迪(1988—),男,硕士研究生,研究方向为计算机视觉。E-mail:wudi150150495@126.com

*通信作者:宁纪锋(1975—),男,副教授,博士,研究方向为计算机视觉、模式识别与农业信息化。E-mail:jf_ning@sina.com

刘旭(1980—),男,讲师,博士,研究方向为酿酒葡萄果实生理与质量控制。E-mail:liuxu@nwsuaf.edu.cn