饮用水中挥发性有机物色谱保留时间的神经网络研究

堵锡华,王 超

(徐州工程学院化学化工学院,江苏 徐州 221018)

摘 要:研究饮用水中挥发性有机物的色谱保留时间与分子结构之间的定量结构-保留相关关系,基于分子结构和邻接矩阵,计算了56 个挥发性有机物的分子连接性指数、形状指数、电性拓扑状态指数和电性距离矢量,建立挥发性有机物的保留时间与0X、1X、2X、3X、K1、E43和M91指数的定量结构-保留相关性(quantitative structure-retention relationship,QSRR)模型。将这7 种结构参数作为BP(back propagation)人工神经网络法的输入变量,采用7∶4∶1的神经网络结构,建立了令人满意的QSRR预测模型,模型的总相关系数r为0.999 1,利用本模型计算得到色谱保留时间的预测值与相关实验值相对平均误差2.17%,吻合度较为理想。结果表明,饮用水中挥发性有机物的色谱保留时间与7 种结构参数之间具有良好的非线性关系,本研究对快速评价水质对生态环境的影响具有参考价值。

关键词:色谱保留时间;挥发性有机物;人工神经网络;分子结构参数;定量结构-保留相关

水是环境中化学物质迁移、循环的重要介质,随着工业废水、生活污水的排放,大量的化学污染物进入水体,这些水污染对工农业生产造成了重大的影响,特别是对饮用水及饮料生产造成了大的危害。挥发性有机物是水体中重要的污染物,它包括烯烃、芳烃、卤代烃等化合物,这些挥发性化合物性质稳定、不易分解,而且有强致癌、致畸、致突变性及致生殖系统和神经系统毒性[1-3],所以评价水质质量的一项特征指标即是饮用水中的挥发性有机物,因此有效并快速鉴别水中痕量挥发性有机物的分析方法和手段成为一项重要工作,目前快速检测生活饮用水中挥发性有机物的方法主要采用吹扫捕集-气相色谱-质谱联用方法[4-6],还有膜萃取分离技术/微捕集与色谱仪联用技术方法也逐渐成为一种对水中挥发性有机物分析测试的新型手段[7]。另外还有采用偏最小二乘法回归建立定量结构-保留相关性(quantitative structure-retention relationship,QSRR)模型的方法对饮用水中挥发性有机物进行分析研究有少量的报道[8],在该方法基础上,进一步结合人工神经网络方法对饮用水中挥发性有机物进行研究,较少见有报道[9]

人工神经网络是一个多学科交叉的前沿学科,它主要以模拟人的大脑,对相关信息进行处理,在食品科学[10]、环境化学[11]、建筑学[12]、农业科学[13]、气象学[14]、色谱学[15-16]等诸多领域得到广泛应用。在前期[17-19]工作基础上,根据文献[8]所列的56 个饮用水中挥发性有机物的色谱保留数据,采用MATLAB软件,按照文献[20-21]方法编写计算应用程序,计算得到了分子连接性指数、分子形状指数、电性拓扑状态指数以及电性距离矢量4类分子结构参数,利用MINITAB 14软件的最佳变量子集回归方法,从中筛选了7 种分子结构参数作为神经网络的输入神经元,将这些挥发性有机物的气相色谱保留时间(tR)作为输出神经元,建立了神经网络QSRR模型,所得结果显示,饮用水中挥发性有机物的分子结构参数与其气相色谱保留值之间具有高度相关的非线性关系,利用该模型计算得到的色谱保留时间预测值与文献实验值吻合度较好,本研究可为解决对饮用水中挥发性有机污染物仪器检测中存在的样品需要量大、耗费有机溶剂且带来另外的污染、操作复杂、灵敏度低等问题提供一定的理论帮助,为水中挥发性有机物成分分析提供了参考,而且该法具有准确度高、快速、操作简单、无污染的一些优点,故对提高生态水质质量的社会环境问题具有现实意义。

1 参数计算及最佳变量选择

根据文献[22-24]提出的几种分子的结构参数——分子连接性指数、分子形状指数、电性拓扑状态指数,以及刘树深[25]、张亚辉[26]等提出的电性距离矢量的计算方法,首先采用Chemoffice 2005中的Chem3D 9.0应用画图软件,勾画文献[8]中列出的56 种水中挥发性有机物的分子结构,在MATLAB软件中用自编程序,计算得到了4类分子结构参数作为描述符,采用最佳变量子集回归方法,针对挥发性有机物色谱保留时间回归统计分析,进行结构指数的最优变量筛选,结果见表1。

表1 tR与参数的最佳变量子集回归结果
Table 1 Results ofnX, Kn, In, Mnand tRwith optimal subset regression

表中R、R2Adj、F、S、FIT依次为相关系数、调整的判定系数、Fischer检验值、标准误差、Kubinyi函数,FIT的计算公式[27]为:

式(1)中:n为有机化合物分子的样本个数;b为模型采用的变量数;R2为模型的决定系数。FIT值越大,说明建构的模型越稳定,预测能力也就越高。

从表1可以看出,从4类分子结构参数筛选取7 个参数时,所得模型调整的判定系数值最大、标准误差值最小,将56 个水中挥发性有机物分子及其相关结构参数如表2所示。

表2 挥发性有机物的结构参数
Table 2 Structural parameters of volatile organics

续表2

2 模型的建构

2.1 多元回归模型的建构

文献[8]中列出的56 种水中挥发性有机物的色谱保留时间,其数据来源于姚祺等[28]通过同一次实验获取,该实验采用7890/5975气相色谱-质谱联用仪进行检测,利用文献[8]所列的保留时间数据,与优化筛选出的7 种分子结构参数0X、1X、2X、3X、K1、E43和M91进行多元回归分析,得到七元回归方程为:

利用式(2)对水中挥发性有机物的色谱保留时间进行预测,所得预测值(表2中的预测值1)与实验值之间基本吻合。

2.2 模型稳健性与预测能力的检验

为检验模型的稳健性、预测能力大小,这里应用MINITAB应用软件中的留一交叉验证法,对多元回归模型(2)进行分析检验,得到交叉验证相关系数为0.945,远大于0.5,说明建立的模型具有较好的预测能力。一般模型的越接近于1,模型的稳定性就越好,预测能力也越强[29],这里所建模型的达到0.945,说明稳定性和预测能力均较强。

评判模型是否具有离域的“异常数据”,雷达图法是比较典型、直观和形象的图形评价方法,可对各种评价对象进行定性评价,通过勾画56 个分子的Jackknifed调整的判定系数的雷达图(图1),可进一步评价判断模型的稳定性。这里以0.950为圆心,0.002为间距,56 个分子的值全部落在0.950~0.962之间,波动性不大,说明所建模型不存在异常数据。当模型的-值小于0.3时,一般认为模型不存在过拟合现象,这里模型的Jackknifed(0.957)与交互检验相关系数(0.945)差值为0.012,值小于0.3,说明本模型既没有过拟合也没有离域值存在。

图1 Jackknifed判定系数R2Adj的雷达图
Fig. 1 Radar map of determination coef fi cient R2Adj

2.3 神经网络模型的建构

为更好地提高预测色谱保留时间的准确度,采用神经网络法进一步进行研究。根据表1筛选出的0X、1X、2X、3X、K1、E43和M91共7 个参数,将这7 个参数作为神经网络的输入神经元,将56 种挥发性化合物色谱保留时间作为神经网络的输出神经元,按照Andrea和许禄[30]等学者的建议规则:

式(3)中:n为样本个数;M为网络总权重。

M的计算公式如下:

式(4)中:I、H、Q分别为神经网络中输入层、隐含层及输出层的神经单元数。这里的输入神经元I为7(即筛选出的7 个分子结构参数);输出神经元Q为1(即挥发性有机物的色谱保留时间);故根据式(3)和式(4)进行计算,当H取3或4时,可符合规则条件;经反复测试,当H取4时,所得结果最优,故本神经网络结构采用7∶4∶1的结构方式。

为防止过拟合,将全部样本数据分为3 组:训练集(每5 个数据为一组,取其中的第1、3、5个数据)、测试集(第2个数据)、验证集(第4个数据),由此得到了BP(back propagation)神经网络预测模型的总相关系数r为0.999 1,训练集相关系数r1为0.999 3、测试集相关系数r2为0.998 7、验证集相关系数r3为0.999 1,利用新建构的神经网络模型,计算得到水中挥发性有机物的色谱保留时间预测值2见表2,该预测值与实验值吻合度比较理想,两者的相对平均误差仅为2.17%,远小于利用多元回归方法模型的预测误差9.01%,说明神经网络法建立模型的相关性明显优于多元回归分析方法,而且本法结果明显优于文献。预测值1、预测值2与实验值的关系图见图2,神经网络法预测的色谱保留时间,与实验值的吻合度更好。神经网络模型的权重和偏置见表3。

图2 保留时间预测值及其实验值的关系图
Fig. 2 Relationship between predicted and calculated values of tR

表3 BP-人工神经网络模型的权重和偏置
Table 3 Weights and bias of BP-ANN model

这里所得的预测值为根据模型理论计算所得,模型是否具有更好的普适性,还需要通过实验测定其他分子的色谱保留时间进行检验,这需要下一步开展更多的研究工作进行完善。

3 讨 论

根据表1的最优变量子集回归可以看出,选用分子连接性指数中的0X、1X、2X和3X、分子形状指数中的K1、电性拓扑状态指数中的E43和电性距离矢量的M91共7 个变量,与色谱保留时间相关性最优,这些变量中,分子连接性指数中的0X、1X、2X和3X分别代表0~3阶路径指数、分子形状指数中的K1代表1阶形状特征参数、电性拓扑状态指数中的E43代表氯原子基团的参数值、电性距离矢量中的M91代表的是第13类原子(—F、—Cl、—Br、—I)之间的相互作用,这7 个变量所代表的基团对方程贡献最大,这说明在分子的空间结构中,原子之间的连接形式、连接的基团、相邻原子之间的相互作用对色谱保留时间均能产生影响,其中以空间连接的形式或连接何种基团对分子的贡献最大。从表2可以看出,随着挥发性有机物分子中碳原子数目的增加或吸电子基团的存在,分子的体积逐渐增大,分子原子之间的色散作用会逐渐增强,相应的色谱保留时间会逐渐增大[31]。由于单一类的结构参数不能完全反映分子中原子之间复杂的相关影响关系,故将蕴含了空间拓扑结构和电性结构信息的4类结构参数有机融合,在一定程度上揭示分子基团之间的相互作用,充分反映水中挥发性有机物色谱保留时间的变化规律,指数与色谱保留时间之间呈现了良好的非线性关系,利用优化筛选的7个分子结构参数建立的神经网络模型,对色谱保留时间作出预测的相对平均误差达到2.17%,结果较为理想,而且通过检验稳定性,得到交叉验证相关系数达到0.945,远大于0.5,说明模型具有好的稳定性和预测能力。通过对全部56个水中挥发性有机物分子的色谱保留时间进行预测,只有对二氯乙烷和反式-1,1-二氯乙烯2 个分子的预测结果相对误差偏大,这可能是与连接在相邻2 个碳原子上的氯原子对空间结构的影响较大、或反式结构的色谱保留时间相对偏小有关。

4 结 论

水中挥发性有机物分子的7 种分子结构参数0X、1X、2X、3X、K1、E43、M91与其色谱保留时间之间,能建立良好的神经网络QSRR数学模型,所得模型的总相关系数r与训练集r1、测试集r2、验证集r3的相关系数较为吻合,不存在异常的离域值,经留一法交叉检验,模型具有良好的稳健性、较强的预测能力(= 0.945);神经网络法比多元回归分析具有更好的预测准确度、更强的纠错能力,能很好地反映蕴含影响色谱保留时间的结构信息,同时也反映出4 类结构参数与其色谱保留时间之间具有良好的非线性关系。

参考文献:

[1] 封跃鹏, 房丽萍, 邱赫男, 等. 便携式气相色谱质谱测定水中挥发性有机物再现性和准确度研究[J]. 中国环境监测, 2013, 29(6): 117-122. DOI:10.3969/j.issn.1002-6002.2013.06.023.

[2] NG S J, SIMS N F, TAY E X Y, et al. Removal of volatile organic compounds (VOCs) from water using mixtures of olive oil, lecithin,and vitamin E as phase transfer agents[J]. Journal of Water Process Engineering, 2017, 18: 58-64. DOI:10.1016/j.jwpe.2017.05.012.

[3] CHEN Z B, REICHE N, VYMAZAL J, et al. Treatment of water contaminated by volatile organic compounds in hydroponic root mats[J]. Ecological Engineering, 2017, 98: 339-345.DOI:10.1016/j.ecoleng.2016.08.012.

[4] 许秀艳, 朱擎, 谭丽, 等. 水中挥发性有机物的分析方法综评[J]. 环境科学, 2011, 32(11): 3606-3612. DOI:10.13227/j.hjkx.2011.12.027.

[5] 马先锋, 刘慕凡, 施敏芳, 等. 吹扫捕集-气相色谱/质谱法分析汉江有机污染物[J]. 分析科学学报, 2011, 27(4): 536-538.

[6] UETA I, MITSUMORI T, SUZUKI Y, et al. Determination of very volatile organic compounds in water samples by purge and trap analysis with a needle-type extraction device[J]. Journal of Chromatography A,2015, 1397: 27-31. DOI:10.1016/j.chroma.2015.04.016.

[7] 赵迪, 沈铮, 闫晓辉, 等. 多孔膜萃取/微捕集方法及在线测定水中挥发性有机物[J]. 分析化学, 2013, 41(8): 1153-1158. DOI:10.3724/SP.J.1096.2013.21228.

[8] 廖立敏, 李建凤, 雷光东. 饮用水中挥发性有机物结构与色谱保留时间的关系[J]. 环境化学, 2017, 36(4): 710-715. DOI:10.7524/j.is sn.0254-6108.2017.04.2016081002.

[9] 何琴, 张永青, 黄保军, 等. 人工神经网络用于地下水挥发性有机物定量结构-色谱保留模型的研究[J]. 湖北农业科学, 2016, 55(13):3456-3458. DOI:10.14088/j.cnki.issn0439-8114.2016.13.047.

[10] 张虹艳, 丁武. 基于fisher线性判别和BP神经网络的电子鼻羊奶贮藏时间预测[J]. 中国食品学报, 2012, 12(6): 166-173. DOI:10.3969/j.issn.1009-7848.2012.06.025.

[11] HATTAB N, MOTELICA-HEINO M. Application of an inverse neural network model for the identification of optimal amendment to reduce copper toxicity in phytoremediated contaminated soils[J].Journal of Geochemical Exploration, 2014, 136: 14-23. DOI:10.1016/j.gexplo.2013.09.002.

[12] 蒋建平, 章杨松, 阎长虹, 等. BP神经网络在地基土压缩指数预测中的应用[J]. 中南大学学报(自然科学版), 2010, 41(2): 722-727.

[13] 刘宇佳, 贺丽苹, 张泳, 等. 近红外光谱-人工神经网络的模型优化用于银耳产地识别研究[J]. 食品工业科技, 2016, 37(3): 303-311.DOI:10.13386/j.issn1002-0306.2016.03.055.

[14] 艾洪福. 基于BP人工神经网络的雾霾天气预测研究[J]. 计算机仿真, 2015, 32(1): 402-405. DOI:10.3969/j.issn.1006-9348.2015.01.085.

[15] 马波. 人工神经网络及其在色谱中的应用[J]. 化学研究与应用,2000, 12(4): 375-378. DOI:10.3969/j.issn.1004-1656.2000.04.005.

[16] 堵锡华. 神经网络法研究圆叶葡萄挥发性成分保留指数[J]. 酿酒科技, 2015(7): 14-20. DOI:10.13746/j.njkj.2015077.

[17] DU X H, ZHUANG W C, SHI X Q, et al. Research on thermodynamic properties of polybrominated diphenylamine by neural network[J].Chinese Journal of Chemical Physics, 2015, 28(1): 59-64.DOI:10.1063/1674-0068/28/cjcp1406109.

[18] 堵锡华. 用新的路径定位指数和神经网络研究多溴联苯醚理化性质[J]. 化工学报, 2014, 65(4): 1169-1178. DOI:10.3969/j.issn.0438-1157.2014.04.003.

[19] 堵锡华, 陈艳. 薄荷挥发性成分的定量结构-性质相关性[J]. 食品科学, 2013, 34(6): 192-194. DOI:10.7506/spkx1002-6630-201306042.

[20] 胡黔楠, 梁逸曾, 王亚丽, 等. 直观队列命名法的基本原理及其在矩阵与拓扑指数计算中的应用[J]. 计算机与应用化学, 2003, 20(4):386-390. DOI:10.3969/j.issn.1001-4160.2003.04.020.

[21] 张婷, 梁逸曾, 赵晨曦, 等. 基于分子结构预测气相色谱程序升温保留指数[J]. 分析化学, 2006, 34(11): 1607-1610. DOI:10.3321/j.issn:0253-3820.2006.11.021.

[22] KIER L B, HALL L H. Molecular connectivity in chemistry and drug resesrch[M]. New York: Academic Press, 1976.

[23] KIER L B , HALL L H. An electrotopological-state index for atoms in molecules[J]. Pharmaceutical Research, 1990, 7(8): 801-807.DOI:10.1023/A:1015952613760.

[24] HALL L H, KIER L B. Electrotopological state indices for atom types: a novel combination of electronic, topological, and valence state information[J]. Journal of Chemical Information and Computer Science, 1995, 35(6): 1039-1045. DOI:10.1021/ci00028a014.

[25] 刘树深, 刘堰, 李志良, 等. 一个新的分子电性距离矢量(MEDV)[J]. 化学学报, 2000, 58(11): 1353-1357. DOI:10.3321/j.issn:0567-7351.2000.11.010.

[26] 张亚辉, 刘征涛, 刘树深, 等. MEDV描述子预测取代芳烃类化合物的藻毒性[J]. 环境科学研究, 2009, 22(7): 823-827. DOI:10.13198/j.res.2009.07.73.zhangyh.011.

[27] SAÍZ-URRA L, GONZÁLEZ M P, TEIJEIRA M. 2D-autocorrelation descriptors for predicting cytotoxicity of naphthoquinone ester derivatives against oral human epidermoid carcinoma[J]. Bioorganic &Medicinal Chemistry, 2007, 15(10): 3565-3571. DOI:10.1016/j.bmc.2007.02.032.

[28] 姚祺, 沈培明. 水中57 种VOCs的快速GCMS分析[J]. 净水技术,2016, 35(增刊1): 83-88; 112. DOI:10.15890/j.cnki.jsjs.2016.s1.019.

[29] 刘海春, 卢帅, 冉挺, 等. 基于分子对接和QSAR方法预测B-Raf II型抑制剂活性[J]. 物理化学学报, 2015, 31(11): 2191-2206.DOI:10.3866/PKU.WHXB201510134.

[30] 许禄, 邵学广. 化学计量学方法[M]. 北京: 科学出版社, 2004: 287.

[31] 堵锡华. 香梨酒香气成分保留时间的定量构效关系研究[J]. 食品科学, 2011, 32(2): 218-221.

Predicting Retention Times of Volatile Organic Compounds in Drinking Water by Neural Network

DU Xihua, WANG Chao
(School of Chemistry and Chemical Engineering, Xuzhou Institute of Technology, Xuzhou 221018, China)

Abstract:In order to study the quantitative structure-retention relationship (QSRR) between the chromatographic retention times and molecular structures of volatile organic compounds in drinking water, the molecular connectivity index, shape index, electrotopological state index and electrical distance vector of 56 volatile organic compounds were calculated based on their molecular structures and conjugation matrix. Further, the QSRRs between the retention times (tR) and seven structural parameters (0X,1X,2X,3X, K1, E43and M91) of these volatile organic compounds were developed. Using the structural parameters as the input variables of artificial neural network, satisfying QSRR models whose network structure was 7:4:1 were constructed by the back-propagation neural network (BNN) method. The total correlation coefficient rTwas 0.999 1. The average relative error between the experimental and the predicted values (tR) was 2.17%, indicating good agreement. These results showed that there was a good non-linear relationship between the retention times and the seven structural parameters. This research would be helpful to quickly test the impact of water quality on the environment.

Keywords:chromatographic retention time; volatile organic compounds; artificial neural network; molecular structure parameter; quantitative structure-retention relationship

DU Xihua, WANG Chao. Predicting retention times of volatile organic compounds in drinking water by neural network[J].Food Science, 2018, 39(20): 315-319. (in Chinese with English abstract) DOI:10.7506/spkx1002-6630-201820045.http://www.spkx.net.cn

引文格式:堵锡华, 王超. 饮用水中挥发性有机物色谱保留时间的神经网络研究[J]. 食品科学, 2018, 39(20): 315-319. DOI:10.7506/spkx1002-6630-201820045. http://www.spkx.net.cn

文章编号:1002-6630(2018)20-0315-05

文献标志码:A

中图分类号:TS275

DOI:10.7506/spkx1002-6630-201820045

第一作者简介:堵锡华(1963—),男,教授,本科,研究方向为食品构效关系。E-mail:12dxh@sina.com

基金项目:国家自然科学基金面上项目(21472071)

收稿日期:2017-08-11