红外光谱结合统计分析对不同产地玛咖的鉴别分类

王元忠,赵艳丽,张 霁,金 航 *
(云南省农业科学院药用植物研究所,云南 昆明 650200)

摘 要:采用傅里叶变换红外光谱法,对采自云南及秘鲁共139 份玛咖样品进行产地鉴别研究。采用多元散射校正结合二阶导数和Norris平滑预处理光谱,通过剔除噪声明显的光谱波段,筛选出适宜的主成分数为8。基于最优主成分数,采用间隔偏最小二乘(interval partial least-squares,iPLS)法对3 650.59~651.82 cm -1光谱进行优化分析。结果显示,筛选98 份样品在1 855.19~651.822、3 054.69~2 756.78 cm -1和3 650.59~3 353.6 cm -1光谱建立的间隔偏最小二乘判别分析(interval partial least-squares discriminant analysis,iPLS-DA)分类模型,其R 2、校正均方根误差和预测均方根误差分别为0.958 4、0.785 8和1.164 2。通过41 份样品验证,验证正确率与原光谱建立的分类模型保持一致,均为87.80%。为进一步提高分类模型的精度,在iPLS筛选的光谱波段基础上,分别采用遗传算法(genetic algorithm,GA)和蛙跳算法( shuffled frog leaping algorithm,SFLA)对光谱信息进行优化,结果显示,采用GA筛选频率大于4和5的光谱信息,筛选的光谱数据点分别为62 个和29 个;利用SFLA筛选概率大于0.1和0.15的光谱信息,筛选的光谱数据点分别为77 个和27 个。验证结果显示,采用GA-PLS-DA (62 个数据点)和GA-PLS-DA (29 个数据点)建立的PLS-DA分类模型识别正确率分别为95.12%和97.56%,采用SFLA-PLS-DA (77 个数据点)和SFLA-PLS-DA (27 个数据点)建 立的分类模型识别正确率分别为92.68%和97.56%。对比上述方法可知,采用iPLS-DA、GA-PLS-DA和SFLA-PLSDA建立的分类模型均具有较好的预测性能,其中GA-PLS-DA (29 个数据点)和SFLA-PLS-DA (27 个数据点)建立分类模型能更准确地鉴别不同产地的玛咖。该方法的建立为玛咖红外光谱产地鉴别提供一种新的思路,所筛选的光谱变量可为不同产地玛咖内在化学成分(组分)差异性分析提供基础依据。

关键词:玛咖;红外光谱;间隔偏最小二乘法;遗传算法;蛙跳算法

玛咖(Lepidi um meyenii Walp.)属十字花科(Cruciferae)独荇菜属(Lepidium)一年生草本植物,原产南美安第斯山区,主要分布于秘鲁东南部和中部 [1-2]。玛咖在南美有悠久的食用历史,地下贮藏根是主要使用部分,直径2~5 cm,根据颜色分为黑、黄、红等类型 [3]。玛咖中富含碳水化合物,脂肪和脂肪酸,蛋白质,矿物质和维生素等营养成分 [4-6],同时还有生物碱 [7]、芥子油苷及其异硫氰酸苄酯 [8]、甾醇类 [9]等次生代谢产物。种类多样的内含物使得药食兼用玛咖不仅具有丰富的营养价值 [10],还有独特的药用功效,能提高生育力和性能力 [11-13]、抗衰老 [14]、抗疲劳 [15]、抗肿瘤 [16]、抗氧化 [17]、调节内分泌 [18]等。

作为重要的保健品原料,玛咖在云南部分地区(香格里拉、丽江、会泽、昭通鲁甸)引种栽培成功,为云南省高寒山区农民带来良好的经济效益。但在大规模生产和加工过程中,存在玛咖质量参差不齐、优良品种缺乏等问题,进而制约玛咖产业的发展 [19]。因此,对玛咖的质量评价尤为重要。

不同产地玛咖受温度、光照、海拔等因素的影响,品质不一。为研究不同产地玛咖样品的差异性,本实验采用傅里叶变换红外光谱法采集不同产地玛咖样品的光谱信息,利用MATLAB R2010a分析软件,分别采用间隔偏最小二乘(interval partial least squares,iPLS)法 [20-22]、遗传算法(genetic algorithm,GA) [23]和蛙跳算法(shuffled frog leaping algorithm,SFLA) [24-25]对光谱信息 进行提取,建立间隔偏最小二乘判别分析(interval partial leastsquares discriminant analysis,iPLS-DA)、GA-PLS-DA和SFLA-PLS-DA分类模型,应用于玛咖不同产地的快速鉴别分析,为不同产地玛咖样品的鉴别提供一种新的方法。

1 材料与方法

1.1 材料

2014年采集15 个不同产地种植的药食兼用植物玛咖139 份,均为黄玛咖,其中秘鲁地区阴干干果样品购于云南源萃生物科技有限公司。其余样品均通过传统种植后采收,经云南省农业科学院药用植物研究所金航研究员鉴定为玛咖(Lepidium meyenii Walp.),样品来源见表1。

表1 实验材料来源和数量
Table 1 Source and number of experimental materials

产地份数产地份数产地份数香格里拉1 #10昭通6 #7丽江11 #10香格里拉2 #10东川7 #8会泽12 #7香格里拉3 #10东川8 #8轿子雪山13 #10香格里拉4 #10会泽9 #9大山包14 #10昭通5 #10丽江10 #10秘鲁15 #10

1.2 仪器与设备

傅里叶变换红外光谱仪 美国PE公司;DFT-100型中药粉碎机 浙江温岭市林大机械有限公司;80 目不锈钢筛盘 北中西泰安公司;SIMCA-P +11.0软件瑞典Umetrics公司;MATLAB R2010a(The Math Works, Natick, USA)分析软件。

1.3 方法

1.3.1 样品制备

供试样品采集后用自来水洗净根茎部位,再用蒸馏水冲洗3 次,将其切成薄片,置于干净的白纸上在常温条件下阴干。用中药粉碎机粉碎,过200 目筛,存放于自封袋中,备用。

1.3.2 红外光谱采集

采集红外光谱时,室温保持在25 ℃。溴化钾(KBr)在实验前置入105 ℃烘箱内烘烤4 h,烘干后放在干燥器中冷却。取一定质量的玛咖粉末与溴化钾按质量比1∶49的比例混合,放置在研钵中研磨至混合均匀,将混合均匀的粉末压片成厚度均匀且透明度较高的薄片,然后将薄片置于样本槽中测量透射光谱。测试条件:扫描次数:16 次,分辨率:4 cm -1,扫描范围:4 000~400 cm -1。样品平行测定3 次,取平均光谱。光谱数据保存为SPC格式并采用SIMCA-P +11.0软件转换为CSV格式文档。随机选择98 份样品作为训练集,其余41 份样品作为验证集。采用TQ 8.6软件对光谱进行优化处理,消除基线漂移和噪音,结果见图1、2。

图2 玛咖二阶红外光谱
Fig.2 Second derivative IR spectra of maca

2 结果与分析

2.1 玛咖粉末中红外透射光谱特征

因光谱波段650~400 cm -1和4 000~3 650 cm -1存在明显噪声,只对3 650.59~651.82 cm -1光谱进行分析。采用多元散射校正(multiplicative scatter correction,MSC),二阶导数光谱结合Norris(波长∶间隔分段数=11∶3)平滑对光谱数据进行预处理(图2)。由图1和2可知,3 500~3 000 cm -1间有一个宽峰,这与O—H的伸缩振动有关;2 800 cm -1附近的峰与饱和C—H的对称反对称伸缩振动有关;1 800~1 500 cm -1与C=H及C=C的伸缩振动有关;1 400~1 200 cm -1的光谱与C—H伸缩振动、O—H变形振动有关;1 035~970 cm -1的波段与CH 2OH的振动有关,900 cm -1附近的谱峰与C—H的变形振动有关。不同产地的玛咖样品从原始光谱及 二阶导数光谱均难以鉴别,需对光谱数据进一步分析。

2.2 红外光谱信息初步筛选

将不同产地样品类型分别赋值:香格里拉1 #“1”,香格里拉2 #“2”,香格里拉3 #“3”至轿子雪山13 #“13”,大山包14 #“14”,秘鲁15 #“15”。利用TQ 8.6软件主成分-马氏距离(principal component analysismahalanobis distance,PCA-MD)初步建立分类模型,并对主成分数进行选择,结果见表2。结果表明,主成分数为8时,提取的光谱信息较为充分,提取的总光谱贡献率为95.525 0%,选择3 650.59~651.82 cm -1光谱波段提取贡献率为95.697 9%,且随主成分数的增加,光谱信息数据量无明显变化。因此,选择主成分数为8较为适宜。

表2 主成分数选择
Table 2 Selection of the number of principal components

主成分数全光谱贡献率/%分析光谱区贡献率/% 1 38.846 738.706 5 2 67.971 467.801 5 3 78.186 978.276 5 4 84.492 484.535 5 5 88.879 988.980 5 6 91.687 391.831 7 7 94.099 594.265 1 8 95.525 095.697 9 9 96.467 096.668 1 1097.322 097.444 2

2.3 iPLS优化光谱建模分析

采用iPLS法对3 650.59~651.82 cm -1光谱进行波段筛选,选择主成分数为8,间隔10 个波数将3 650.59~651.82 cm -1波数范围等分成10 个小波段,波长段分别为157、156、156、156、177、135、155、155、156、153 个波长点,对光谱数据与产地分类指标进行判别分析,结果见图3。

图3 iPLS法优化波段
Fig.3 Optimization of spectral bands by iPLS

由图3可知,选择光谱信息较为丰富的1 855.1~651.822、3 054.69~2 756.78 cm -1和3 650.59~3 353.6 cm -1三段光谱建立iPLS-DA分类模型,计算模型的R 2、预测均方根误差(root mean square error of prediction,RMSEP)和校正均方根误差(root mean square of calibration,RMSEC) [26],结果分别为0.958 4、0.785 8和1.164 2,建立的判别模型和验证效果分别见图4和表3。

图4 iPLS-DA法建立分类模型
Fig.4 3D plot of classification model built by iPLS-DA

由图4可知,昭通6 #、丽江10 #、丽江11 #、轿子雪山13 #、大包山14 #和秘鲁15 #等产地能清晰鉴别,但仍有部分地区难以鉴别。由表3可知,采用iPLS筛选光谱波段后,建模样本集由原光谱1 556 个数据点降低至936 个数据点,建立分类模型的R 2由原始光谱建模的0.904 8提升至0.958 4,RMSEC和RMSEP分别于原始光谱建模的1.577 6、3.462 9降至0.785 8、1.164 2。验证结果显示,41 个验证样本分类正确率与原始光谱建模的分类准确率相同,均为87.80%。表明所筛选的光谱波段具有一定的代表性,且采用iPLS筛选光谱后,建模效果有所提高。

2.4 GA优化光谱建模分析

基于iPLS优化的光谱波段1 855.19~651.822、3 054.69~2 756.78 cm -1和3 650.59~3 353.6 cm -1,采用GA进一步优化光谱波段建立分类模型,选择936 个光谱变量,以每个变量作为1 个子区间。GA的参数设置为:种群大小30,最大繁殖代数50,交叉概率为0.5,变异概率为0.01,通过100次循环优化,在GA进化过程中,当最佳个数适应度函数R/(1+RMSEP)不再增加时,就可以得出最优化染色体组合。

图5 GA选择的波段
Fig.5 Selection of spectral band by GA

图6 GA选择的光谱变量数
Fig.6 Selection of the number of spectral band by GA

经GA运算后的光谱变量选择结果如图5、6所示,其中图5表示光谱变量选择的频率及其对应的光谱变量数,图6显示利用变异系数值筛选出频率大于5 次(5对应的直线)和4 次(4对应的直线)以上的光谱变量的个数,分别为62 个和29 个变量。由图7和表3可知,采用GA优化光谱变量,建模效果有一定提升。当主因子数为8时,采用筛选的62 个和29 个变量建立的分类模型R 2、RMSEC和RMSCP分别为0.961 3、0.971 2,0.597 3、0.491 8,0.885 0、0.728 7。由表3可知,基于iPLS筛选的光谱波段,采用GA进一步筛选光谱信息,分别筛选选择的频率大于4和5的光谱变量建立分类模型,筛选的光谱波段分别减少至62 个和29 个变量。建立的分类模型的R 2分别提升至0.961 3和0.971 2,RMSEC和RMSEP分别降低至0.597 3、0.491 8和0.885 0、0.728 7;验证结果显示,41 个验证样本集的分类识别正确率分别提升至95.12%和97.56%,表明采用GA在iPLS筛选的光谱基础上进一步优化光谱波段,建立的GA-PLS-DA模型分类效果较好,适用于红外光谱对不同产地玛咖样品的分类分析。

图7 基于 GA选取62 个数据点(A)和29 个数据点(B)的PLS-DA分类模型
Fig.7 3D plot of PLS-DA classification model built based on 62 data points (A) and 29 data points (B) using GA

表3 基于iPLS、GA、SFLA建立PLS-DA分析模型的玛咖分类结果
Table 3 Results of PLS-DA models for discrimination of maca samples of different geographical origins by iPLS, GA and SFLA methods

注:AC.真实分类;CC. 预测分类;Y pre.预测值;Y dev.预测偏差;UI.无归属;DE.分类错误。

SFLA-PLS-DA(27 个数据点)CCY preY devCCY preY devCCY preY devCCY preY devCCY preY devCCY preY dev1-4 #110.650.24510.650.24510.800.14311.000.00210.740.18610.810.132 1-6 #110.600.28110.600.28111.000.00010.990.011UI0.150.60111.070.050 1-7 #110.710.20710.710.207DE0.460.32511.000.00011.000.00010.720.200 2-2 #221.990.00521.990.00521.940.04422.000.00022.000.00022.000.001 2-6 #222.000.00222.000.00221. 960.03121.960.02621.720.19422.010.010 2-7 #222.010.00422.010.00422.000.00022.070.04722.020.01322.050.038 3-1 #332.810.13732.810.13732.790.14932.990.00732.580.29733.020.016 3-4 #333.000.00033.000.00033.000.00233.000.00033.000.00032.940.04 3-6 #333.000.00133.000.00133.000.00033.000.00233.030.02533.200.1348 4-2 #4DE3.340.466DE3.340.46644.260.18044.000.00143.910.063DE3.400.423 4-7 #443.950.03243.950.03243.720.19943.980.01543.680.22944.040.029 4-8 #444.000.00344.000.00343.940.04244.000.00044.000.00044.180.130 5-1 #555.110.07755.110.07755.010.01154.440.39954.980.01854.700.213 5-5 #555.050.03355.050.03355.090.06455.000.00255.000.00154.530.336 5-10 #555.030.02355.030.02355.380.26854.890.081DE4.440.39455.150.104 6-2 #666.000.00066.000.000UI5.000.70766.010.00466.000.00066.000.000 6-4 #666.070.05166.070.05166.000.00066.020.01866.010.00566.100.071 7-4 #777.010.00877.010.00877.410.28976.730.18876.920.05476.550.321 7-5 #777.000.00077.000.00076.990.00576.810.13576.400.42576.940.039 7-8 #776.940.04476.940.04476.980.01176.850.10976.960.02676.930.047 8-4 #887.650.24587.650.24587.900.06887.810.13387.880.08788.000.000 8-7 #8UI7.170.588UI7.170.58888.500.350DE7.300.49587.790.14688.380.271 9-2 #998.980.01198.980.01198.750.17999.380.26999.000.00298.940.042 9-7 #999.000.00099.000.00099.000.00099.000.00099.000.00099.000.001 10-2 #10109.840.114109.840.1141010.000.000109.990.0081010.000.0001010.000.000 10-9 #10109.960.026109.960.0261010.000.0001010.000.000109.990.0061010.000.000 11-1 #111110.620.2661110.620.2661110.990.0041111.000.0011110.790.1491111.300.215 11-3 #111110.990.0101110.990.0101110.990.0051110.990.005DE10.410.4151111.350.245 11-4 #111111.000.0011111.000.0011111.000.0001111.030.0251111.010.0041111.040.026 11-6 #111110.650.2451110.650.2451110.910.0611110.480.3691110.660.2371111.180.130 12-1 #12UI11.200.565UI11.200.5651212.280.1951212.250.1761212.000.0021212.000.000 12-4 #121212.120.0841212.120.0841212.000.0011211.620.2681211.410.4151211.790.149 12-6 #12DE11.380.437DE11.380.4371212.000.0021212.280.1981212.090.0651211.910.061 13-1 #131312.990.0091312.990.0091312.780.1591313.000.0001313.000.0021313.320.226 13-6 #131313.000.0001313.000.0001313.000.0001313.000.0001313.000.0001312.970.022 14-2 #141414.000.0001414.000.0001414.000.0001414.000.0001414.000.0001413.990.010 14-5 #141414.000.0011414.000.0011414.280.1981414.130.0881414.000.0001413.730.188 14-8 #141413.720.1951413.720.1951414.300.2101413.870.0891414.000.0011414.220.157 15-3 #15UI14.050.670UI14.050.6701515.050.0331515.010.0081515.360.2541514.980.017 15-6 #151514.740.1841514.740.1841515.100.0691514.470.3771515.050.0321515.000.000 15-8 #151515.000.0001515.000.0001515.000.0021514.960.0251515.200.1451515.000.001正确率/%87.8087.8095.1297.5692.6897.56 R 20.904 80.958 40.961 30.971 20.965 40.978 7 RMSEC1.577 60.785 80.597 30.491 80.648 60.601 5 RMSEP3.462 91.164 20.885 00.728 70.961 00.891 2编号AC全光谱(1 556 个数据点)iPLS-DA(936 个数据点)GA-PLS-DA(62 个数据点)GA-PLS-DA(29 个数据点)SFLA-PLS-DA(77 个数据点)

2.5 SFLA优化光谱建模分析

基于iPLS优化的光谱波段1 855.19~651.822、3 054.69~2 756.78 cm -1和3 650.59~3 353.6 cm -1,采用SFLA进一步优化光谱波段建立分类模型。选择936 个光谱变量,SFLA的参数设置为:混合迭代次数为N=10 000,初始变量样本数N 1=10,族内更新次数为A=8,采用2 个变量间的回归系数法进行评估,结果见图8。

图8 SFLA选择的波段
Fig.8 Selection of spectral band by SFLA

由图8可知,采用选择概率大于0.15%(0.15对应的直线)和0.1%(0.1对应的直线)以上的光谱变量的个数(分别为77 个和27 个)建立PLS-DA分类模型,并预测验证样本集。结果见图9和表3。由图9和表3可知,采用SFLA优化光谱变量,建模效果也有一定提升。当主因子数为8时,采用筛选的77 个和27 个变量建立的分类模型R 2、RMSEC和RMSCP分别为0.965 4、0.978 7,0.648 6、0.601 5,0.961 0、0.891 2。由表3可知,基于iPLS筛选的光谱波段基础上,采用SFLA进一步筛选光谱信息,分别筛选概率大于0.1和0.15的光谱变量建立分类模型,筛选的光谱波段分别减少至77 个和27 个变量。建立的分类模型的R 2分别提升至0.965 4和0.978 7,RMSEC和RMSEP分别降低至0.648 6、0.601 5和0.961 0、0.891 2;验证结果显示,41 个验证样本集的分类识别正确率分别提升至92.68%和97.56%,表明采用SFLA在iPLS筛选的光谱基础上进一步优化光谱波段,建立的SFLA-PLS-DA模型分类效果较好,适用于红外光谱对不同产地玛咖样品的分类分析。

图9 基于SFLA选取77 个数据点(A)和27 个数据点(B)的PLS-DA分类模型
Fig.9 3D plot of PLS-DA classification model built based on 77 data points (A) and 27 data points (B) using SFLA

3 结 论

通过采集不同产地玛咖样品的红外光谱,采用TQ 8.6分析软件对光谱进行优化,剔除光谱噪声明显的650~400 cm -1和4 000~3 650 cm -1波段后,对3 650.59~651.82 cm -1范围光谱进行分析。采用多元散射校正,二阶导数光谱结合Norris(Segment length∶Gap between segments=11∶3)平滑对光谱数据进行预处理,确定最优主成分数为8。在此基础上,利用Matlab 2.0分析软件,通过iPLS法筛选出光谱信息较为丰富的1 855.19~651.822、3 054.69~2 756.78 cm -1和3 650.59~3 353.6 cm -1光谱波段建立iPLS-DA分类模型,计算模型的R 2、RMSEC和RMSEP分别为0.958 4、0.785 8和1.164 2。通过41 个样品进行验证,结果显示,验证正确率和原光谱建立的分类模型效果一致,均为87.80%。

为进一步优化光谱信息,分别采用GA和SFLA对iPLS优化出的光谱波段(936 个数据点)进行优化,建立PLS-DA分类模型。结果显示,采用GA筛选频率大于4和5的光谱信息,分别为62 个和29 个光谱数据点;利用SFLA筛选概率大于0.1和0.15的光谱信息,分别为77 个和27 个光谱数据点。通过对上述不同数据点建立PLS-DA分类模型,结果显示R 2 (62 个数据点)、RMSEC (62 个数据点)和RMSEP (62 个数据点)分别为0.961 3、0.597 3和0.885 0,R 2 (29 个数据点)、RMSEC (29 个数据点)和RMSEP (29 个数据点)分别为0.971 2、0.481 8和0.728 7,R 2、RMSEC和RMSEP (77 个数据点)(77 个数据点)(77 个数据点)分别为0.965 4、0.648 6和0.961 0,R 2 (27 个数据点)、RMSEC (27 个数据点)和RMSEP (27 个数据点)分别为0.978 7、0.601 5和0.891 2。验证结果显示,采用GA-PLS-DA (62 个数据点)和GA-PLS-DA (29 个数据点)建立的分类模型识别正确率分别为95.12%和97.56%,采用SFLA-PLS-DA (77 个数据点)和SFLA-PLS-DA (27 个数据点)建立的分类模型识别正确率分别为92.68%和97.56%。其中采用GA-PLS-DA (29 个数据点)和SFLA-PLS-DA (27 个数据点)建立分类模型的预测精度较好,所筛选的光谱数据点均集中在748.245~651.822、1 546.63~1 027.87 cm -1和3 496.31~2 856.06 cm -1三个波段,这些波段与O—H、N—H伸缩振动,芳环C—H键的伸缩及面外弯曲振动,饱和C—H键的对称反对称伸缩振动,C=H及C=C的伸缩振动,O—H面外弯曲及变形振动等有关,这可能与不同产地玛咖样品中生物碱、酰胺、烯和醇等物质种类和量比有关。

采用红外光谱技术,通过剔除光谱噪声明显的波段,对iPLS优化的光谱信息,分别采用GA和SFLA进一步优化,结合PLS-DA建立其分类模型,用于预测验证集样品。通过比较不同光谱数据点建立的分类模型,结果显示采用GA-PLS-DA (29 个数据点)和SFLA-PLS-DA (27 个数据点)建立的分类模型有效降低冗余光谱信息,同时能较好地提高模型的预测精度。这两种方法的建立可为玛咖红外光谱产地鉴别提供一种新的思路,所筛选的光谱变量能为不同产地玛咖内在化学成分(组分)差异性分析提供基础依据。

参考文献:

[1] 余龙江, 孙友平, 程华, 等. 玛咖在中国独荇菜属中的定位[J]. 西北植物学报, 2004, 24(10): 1901-1905.

[2] LEŁN J. The “Maca” (Lepidium meyenii), a little known food plant of Peru[J]. Economic Botany, 1964, 18(2): 122-127. DOI:10.1007/ BF02862707.

[3] 胡天祥. 南美高原植物玛咖的研究进展[J]. 中医临床研究, 2011, 3(19): 116-117.

[4] 杨晶明, 王竹, 杨月欣. 玛咖(Maca)干品营养成分分析与比较[J]. 中国食品卫生杂志, 2007, 19(3): 201-205.

[5] LEE M S, SHIN B C, YANG E J, et al. Maca (Lepidium meyenii) for treatment of menopausal symptoms: a systematic review[J]. Maturitas, 2011, 70(3): 227-233. DOI:10.1016/j.maturitas.2011.07.017.

[6] GAN J, FENG Y, ZHANG H, et al. Analysis on composition and content of sterols in three color types of Maca, Lepidium meyenii[J]. Forest Research, 2013, 1: 24.

[7] CUI B L, ZHENG B L, HE K, et al. Imidazole alkaloids from Lepidium meyenii[J]. Journal of Natural Products, 2003, 66(8): 1101-1103.

[8] LI G, AMMERMANN U, QUIROS C F. Glucosinolate contents in maca (Lepidium peruvianum Chacon) seeds, sprouts, mature plants and several derived commercial products[J]. Economic Botany, 2001, 55(2): 255-262. DOI:10.1007/BF02864563.

[9] PIACENTE S, CARBONE V, PLAZA A, et al. Investigation of the tuber constituents of maca (Lepidium meyenii Walp.)[J]. Journal of Agricultural and Food Chemistry, 2002, 50(20): 5621-5625. DOI:10.1021/jf020280x.

[10] 李磊, 周昇昇. 玛咖的食品营养与安全评价及开发前景[J]. 食品工业科技, 2012, 33(5): 376-379.

[11] CICERO A F, BANDIERI E, ARIETTI R. Lepidium meyenii Walp. improves sexual behaviour in male rats independently from its action on spontaneous locomotor activity[J]. Journal of Ethnopharm Acology, 2001, 75: 225-229. DOI:10.1016/ S0378-8741(01)00195-7.

[12] GONZALES G F, NIETO J, RUBIO J, et al. Effect of Black maca (Lepidium meyenii) on one spermatogenic cycle in rats[J]. Andrologia, 2006, 3 8(5): 166-172. DOI:10.1111/j.1439-0272.2006.00733.x.

[13] LEMB˚ D M, GASCO M, GONZALES G F. Fertility and estrogenic activity of Turraeanthus africanus in combination with Lepidium meyenii (Black maca) in female mice[J]. European Journal of Integrative Medicine, 2012, 4(3): e345-e351. DOI:10.1016/ j.eujim.2012.03.001.

[14] 余龙江, 张永忠, 金文闻, 等. 玛咖醇提取物对小鼠的抗衰老作用[J].中草药, 2006, 37(1): 81-83.

[15] 余龙江, 金文闻. 玛咖(Lepidium meyenii.)干粉的营养成分及抗疲劳作用研究[J]. 食品科学, 2004, 25(2): 164-166. DOI:10.3321/ j.issn:1002-6630.2004.02.038.

[16] KEUM Y S, JEONG W S, KONG A N. Chemopreventive functions of isothiocyanates[J]. Drug News Perspect, 2005, 18(7): 445-451. DOI:10.1358/dnp.2005.18.7.939350.

[17] ZHA S H, ZHAO Q S, CHEN J J, et al. Extraction, purification and antioxidant activities of the polysaccharides from maca (Lepidium meyenii)[J]. Carbohydrate Polymers, 2014, 111: 584-587. DOI:10.1016/j.carbpol.2013.07.088.

[18] MITHEN R F, DEKKER M, VERKERK R, et al. The nutritional significance, biosynthesis and bioavailability of glucosinolates in human foods[J]. Journal of the Science of Food and Agriculture, 2000, 80(7): 967-984. DOI:10.1002/(SICI)1097-0010(20000515)80:7.

[19] 胡强, 康平德, 杨少华, 等. 云南玛咖种子产业化发展的现状, 优势与对策[J]. 种子, 2013, 32(1): 59-62.

[20] LEARDI R, NORGAARD L. Sequential application of backward interval partial least squares and genetic algorithms for the selection of relevant spectral regions[J]. Journal of Chemometrics, 2004, 18(11): 486-497. DOI:10.1002/cem.893.

[21] 邹小波, 朱曾, 赵杰文. 基于间隔偏最小二乘法的农产品近红外光谱谱区选择方法[J]. 现代科学仪器, 2007(1): 86-88.

[22] 王立琦, 孔庆明, 李贵滨, 等. 基于 iPLS的油脂过氧化值近红外光谱特征波段选择[J]. 食品科学, 2011, 32(9): 97-100.

[23] 褚小立, 袁洪福, 王艳斌, 等. 遗传算法用于偏最小二乘方法建模中的变量筛选[J]. 分析化学, 2001, 29(4): 437-442. DOI:10.3321/ j.issn:0253-3820.2001.04.018.

[24] 宋晓华, 杨尚东, 刘达. 基于蛙跳算法的改进支持向量机预测方法及应用[J]. 中南大学学报(自然科学版), 2011, 42(9): 2738-2740.

[25] LI Hongdong, XU Qingsong, LIANG Yizeng. Random frog: an efficient reversible jump Markov chain Monte Carlo-like approach for variable selection with applications to gene selection and disease classification[J]. Analytica Chimica Acta, 2012, 740: 20-26. DOI:10.1016/j.aca.2012.06.031.

[26] 赵艳丽, 张霁, 袁天军, 等. 近红外光谱快速鉴别不同产地药用植物重楼的方法研究[J]. 光谱学与光谱分析, 2014, 34(7): 1831-1835.

Classification of Different Origins of Maca Based on Infrared Spectroscopy in Combination with Statistical Analysis

WANG Yuanzhong, ZHAO Yanli, ZHANG Ji, JIN Hang *
(Institute of Me dicinal Plants, Yunnan Academy of Agricultural Sciences, Kunming 650200, China)

Abstract:Based on Fourier transform infrared spectroscopy (FTIR), identification of the origin of 139 samples of maca collected from Yunnan and Peru was conducted. The infrared spectra were preprocessed by multiple scattering correction combined with second derivative and Norris smoothing. Through eliminating the noise spectral bands, the suitable number of principal components was chose as eight. Based on the optimal number of principal components, by using interval partial least squares (iPLS), the spectra in the range of 3 650.59–651.82 cm –1was processed by optimization analysis. An iPLS-DA classification model was built by screen ing the spectra of 98 samples in the ranges of 1 855.19–651.822, 3 054.69–2 756.78 and 3 650.59–3 353.6 cm –1. The R 2, RMSEC and RMSEP of the model were 0.958 4, 0.785 8 and 1.164 2, respectively. The verification with 41 samples indicated that the validation accuracy was consistent with that of the classification model built using the original spectra, which was 87.80%. To further improve the accuracy of the classification model on the basis of iPLS screening of spectral bands, the spectral information was optimized by genetic algorithm (GA) and shuffled frog leaping algorithm (SFLA), respectively. The results showed that, through GA screening the frequency of spectral information which was greater than 4 and 5, the filtered spectral data points were 62 and 29, respectively. Through SFLA screening the probability of spectral information which was greater than 0.1 and 0.15, the filtered spectral data points were 77 and 27, respectively. The validation results showed that the recognition efficiency of the classification model built by GA-PLS-DA(62 data points) and GA-PLS-DA (29 data points) were 95.12% and 97.56%, respectively. The recognition efficiency of the classification model built by SFLA-PLS-DA (77 data points) and SFLA-PLS-DA (27 data points) were 92.68% and 97.56%. By comparing the above methods, we could find that the classification models built by iPLS-DA, GA-PLS-DA and SFLAPLS-DA all had good prediction performance, of which the models built by GA-PLS-DA (29 data points) and SFLA-PLSDA (27 data points) could more accurately identify the different origins of maca. The methods could provide a new way for identification of the origin of maca with IR. The screening of the spectral variables could provide the basis for the difference analysis of the chemical constitutes (components) in different origins of maca.

Key words:maca (Lepidium meyenii Walp.); infrared spectroscopy; interval partial least squares; genetic algorithm; shuffled frog leaping algorithm

DOI:10.7506/spkx1002-6630-201604030

中图分类号:O657.3

文献标志码:A

文章编号:1002-6630(2016)04-0169-07

引文格式:

王元忠, 赵艳丽, 张霁, 等. 红外光谱结合统计分析对不同产地玛咖的鉴别分类[J]. 食品科学, 2016, 37(4): 169-175.

DOI:10.7506/spkx1002-6630-201604030. http://www.spkx.net.cn

WANG Yuanzhong, ZHAO Yanli, ZHANG Ji, et al. Classification of different origins of maca based on infrared spectroscopy in combination with statistical analysis[J]. Food Science, 2016, 37(4): 169-175. (in Chinese with English abstract) DOI:10.7506/spkx1002-6630-201604030. http://www.spkx.net.cn

收稿日期:2015-02-28

基金项目:国家自然科学基金地区科学基金项目(31460538;81260608);云南省自然科学基金项目(2013FD066;2013FZ150)

作者简介:王元忠(1981—),男,助理研究员,硕士,主要从事药用植物资源研究。E-mail:yzwang1981@126.com

*通信作者:金航(1964—),男,研究员,学士,主要从事药用植物资源研究。E-mail:jinhang2009@126.com