联系人简介: 修 洋, 男, 博士, 助理研究员, 主要从事中药化学方面的研究. E-mail: ys830805@sina.com;刘淑莹, 女, 博士, 教授, 博士生导师, 主要从事有机质谱方面的研究. E-mail: syliu@ciac.ac.cn
利用高效液相色谱-质谱联用(HPLC-MS)技术结合多元统计分析方法, 区分中国人参主产区5个不同产地的45个人参样本, 筛选出差异性皂苷类标志物. 根据人参总皂苷在反相C18色谱柱中的洗脱顺序, 结合串联质谱分析和标准品比对, 在提取的人参总皂苷中鉴定出15种原人参三醇型、 24种原人参二醇型和2种齐墩果酸型共41种皂苷. 对人参总皂苷的HPLC-MS全扫描数据进行了多元统计分析. 正交偏最小二乘-判别分析(OPLS-DA)结果表明, 所建立的分析模型具有良好的数据描述能力和预测能力. 所有人参样本能够根据产地被区分, 并筛选得到同时区分5个产地的差异性皂苷类组分18种; 能够区分任意2个产地人参样本的差异性组分主要为在人参中含量较高的人参皂苷Rb1, Rg1, Re, Rc, Rd, Ro和m-Rb1等. 分层聚类分析(HCA)结果显示, 黑龙江和吉林两省的样本能够独自聚类, 但是绥化市的样本更接近于吉林省. 初步推断原因为绥化市地理位置较接近吉林省, 两地人参生长环境相似并可能存在种质资源交换.
High performance liquid chromatography-mass spectrometry combined with multi-variate statistical analysis was employed to discriminate 45 ginseng samples harvested from 5 different main cultivation areas in Northeast China and to identify the differential ginsenoside markers. A total of 41 ginsenosides, which included 15 protopanaxatriol type, 24 protopanaxadiol type and 2 oleanolic type ginsenosides, were identified based on the elution order of total ginsenosides in the reverse-phase C18 column coupled with the tandem MS analysis and comparison with authentic standard. Multivariate statistical analysis was further used to extract the information of HPLC-MS data sets. Orthogonal partial least squares-discriminate analysis revealed that the established analysis model had high goodness of fit and predictability. All the 45 ginseng samples were discriminated according to their origins. And 18 ginsenosides were identified as the differential markers, which contri-buted most to the simultaneous discrimination of the 5 ginseng origins. In addition, the differential ginsenoside markers which could distinguish any two origins were mainly those of high content in wild ginseng, such as Rb1, Rg1, Re, Rc, Rd, Ro, and m-Rb1. In the results of hierarchical clustering analysis, the ginseng samples of Heilongjiang and Jilin Province gathered separately except for the samples from Suihua city, which showed similarity to those of Jilin Province. This discrepancy may be attributed to the geographical location. Suihua city is relatively closer to Jilin Province and hence results in the similar growth environment of ginseng and the facility to exchange germplasm resources.
人参(Panax ginseng C. A. Meyer)为五加科人参属多年生草本植物, 在我国被用作药物和保健食品已有上千年的历史[1, 2]. 现代医学研究表明, 人参具有增强免疫力、 调节内分泌系统及预防癌症等药理活性[3, 4]. 目前, 全世界主要的人参产区位于中国东北、 韩国和俄罗斯远东地区, 这些地区种植的人参几乎供应了全球人参市场. 人参产品主要由多组分的人参提取物加工而成, 其质量依赖于原料人参的品质和加工方法. 人参的品质受生长环境的影响显著, 不同种植地区的经纬度、 土壤、 气候、 水源和生长年限等因素均会导致人参的化学成分差异[5, 6, 7]. 因此, 区分不同产地和年限的人参有利于对人参产品的质量控制和对假冒产品的识别. 大量研究致力于开发识别人参产地和年限的方法, 包括形态和解剖分析、 光谱比对、 分子识别及含量分析等[8, 9, 10, 11, 12]. 这些方法都有一定的局限性: 人参的形态和解剖特征随样本变化, 评价指标在一定程度上依赖于主观判断; 光谱分析所提供的精度有限; 分子识别技术需要复杂的操作程序; 定量分析方法通常只关注有限数量的特征化合物.
人参皂苷具有多种生物活性和药理活性, 是人参中的主要活性物质, 也是评价人参及其产品质量的重要指标[13, 14]. 人参皂苷的结构具有多样性和相似性[15, 16], 因此通过人参皂苷识别和区分不同产地的人参仍然面临巨大的挑战. 多元统计分析技术为这一问题提供了有效的解决途径, 并已经被用于代谢组学、 脂质组学及基因组学等包含多变量、 大数据的分析研究中[17, 18, 19]. 目前, 基于高效液相色谱-质谱(HPLC-MS)的多元统计分析技术已被用于人参和西洋参[20, 21, 22]、 中国人参和韩国人参[23, 24]、 园参、 林下参和野山参[20, 23, 25]以及不同生长年限人参的区分研究. 这些研究结果获得了人参的品种、 生长年限[7, 26]和种植方式等因素对人参化学成分变化趋势的影响. 然而, 对于中国东北主产区内不同产地人参的区分研究相对较少. 一方面是因为难以大量采集相同生长环境内的人参样本, 另一方面是因为主产区内人参生长环境和种植方式的相似性导致样本间差异较小, 难以被区分. 前文[27]报道了利用高效液相色谱-三重四极杆质谱建立同时精确定量分析14种常见人参皂苷的方法, 并结合多元统计分析技术, 研究了生长年限对人参主产区内4个产地的样本中人参皂苷含量的影响. 定量分析虽然可以直观地表达不同样本中含量的差异, 但是有限的标准品数量限制了对人参皂苷随产地和年限变化规律的分析, 有可能丢失可以区分不同产地人参样本的关键性化合物. 本文针对不同经纬度的5个人参主产区种植的3~5年人参样本进行研究, 利用HPLC-MS分析人参总皂苷提取物, 结合多元统计分析技术区分不同产地人参样本, 并筛选和鉴定了特征组分.
45个人参样本分别采集于黑龙江省绥化市(SH)、 逊克县(XK)、 虎林市(HL)和吉林省长白县(CB)、 汪清县(WQ)(详见支持信息表S1), 采集时间为2015年7~9月, 生长年限为3~5年. 人参皂苷标准品: Notoginsenoside(NG)-R1, Re, Rg1, 20(S)-Rf, 20(S)-NG-R2, Rb1, 20(S)-Rg2, 20(S)-Rh1, Rc, Ro, Rb2, Rb3和Rd(纯度> 98%, 上海源叶生物科技有限公司); 甲醇和乙腈(色谱纯, 美国Tedia公司); 甲酸(色谱纯, 美国Thermo Fisher公司); 甲醇、 乙醚和正丁醇(分析纯, 北京化工厂); 实验用水由Milli-Q超纯水系统(美国Millipore公司)制备.
Dionex Ultimate 3000型超高效液相色谱仪(配有在线真空脱气机、 四元泵、 自动进样器和柱温箱)、 TSQ Endura三重四极杆质谱仪(配有电喷雾离子源)和Thermo Syncronis C18色谱柱(100 mm× 2.1 mm, 1.7 μ m)均购于美国Thermo Fisher公司; 0.22 μ m石英纤维滤膜(英国Whatman公司).
1.2.1 样品的制备 人参经洗涤、 干燥至恒重后粉碎, 过40目分样筛, 于4 ℃干燥环境下保存. 取1 g人参粉和50 mL乙醚, 加入索氏提取器中于40 ℃回流2 h, 去除脂溶性成分; 弃去乙醚, 用50 mL甲醇回流提取2 h, 将提取液于40 ℃旋转蒸发至干后, 溶解于10 mL水中, 用30 mL水饱和正丁醇溶液萃取3次, 去除糖等强极性成分; 将合并的萃取液于40 ℃旋转蒸发至干, 溶解于甲醇并定容至10 mL; 过0.22 μ m石英纤维滤膜后, 进行HPLC-MS分析.
1.2.2 HPLC-MS条件 色谱条件: 流动相A为0.1%(体积分数)甲酸-水溶液, 流动相B为乙腈. 梯度洗脱: 0~5 min, 25%~30%B; 5~8 min, 30%~32%B; 8~9 min, 32%~36%B; 9~16 min, 36%~37%B; 16~18 min, 37%~70%B; 18~20 min, 70%~95%B. 流速0.25 mL/min; 进样体积1 μ L; 柱温箱温度为35 ℃.
质谱条件: 电喷雾离子源(ESI)采用负离子模式扫描; 鞘气、 辅助气和吹扫气压力或流速分别为38 kPa, 11 L/min和1 L/min; 雾化器和离子传输管温度分别为296和329 ℃; 喷雾电压-2500 V. 全扫描模式扫描范围m/z 200~2000, 扫描速率1000 Da/s. 利用碰撞诱导解离进行串联质谱(MS2)分析, 用于获得标志物的结构信息, 碰撞气体为高纯氩气, 子离子扫描模式扫描范围m/z 200~1500.
1.2.3 数据处理及标志物鉴定 利用Xcalibur软件(Version 2.2 SP1.48, 美国Thermo Fisher公司)采集HPLC-MS原始数据, 然后通过SIEVE软件(Version 2.1, 美国Thermo Fisher公司)进行峰匹配、 峰对齐及峰面积归一化处理, 离子质荷比窗口为500× 10-6, 保留时间窗口为2.5 min. 获得含有样品名称、 保留时间及其对应的质荷比、 峰强度的数据表. 在去掉同位素峰和缺失值高于80%的离子峰后得到664× 45个质谱峰强度数据, 导入SIMCA-p软件(Version 11.5, 瑞典Umetrics公司), 经Pareto转换进行主成分分析(PCA)、 分层聚类分析(HCA)和正交偏最小二乘-判别分析(OPLS-DA). 利用SPSS软件(Version 19.0, 美国IBM公司)的单因素方差分析(ANOVA)检验标志物在单因素水平上的显著性差异(P< 0.05). 对满足筛选条件的标志物结合MS2信息进行结构鉴定.
通过在HPLC流动相中加入微量的甲酸作为有机改性剂破坏准分子离子的非共价相互作用, 人参皂苷在负离子模式的ESI源中通常具有良好的离子化效率[28]. 与正离子模式中碱金属加合的人参皂苷准分子离子相比, 负离子模式中形成的[M-H]-和[M+HCOO]-的内能更低, 质谱图更简单清晰, 且同时存在2种负离子可以用于确定人参皂苷的相对分子质量和分子式[29]. 因此, 采用负离子模式分析所有人参皂苷样品. 在碰撞诱导解离实验中, 人参皂苷发生糖苷键断裂, 连续脱除糖基取代基, 直到生成去质子化的人参皂苷元离子[Aglycone-H]-. 原人参二醇型、 三醇型和齐墩果酸型人参皂苷的特征皂苷元离子分别为m/z 459.5, 475.5和455.5[23].
中性丢失能够直接提供糖基取代基的信息, 例如m/z 162的中性丢失对应于葡萄糖基, m/z 146对应于鼠李糖基, m/z 132对应于阿拉伯糖基或者木糖基. 通过分析标准品的保留时间及一级和二级质谱图, 不仅可以得到人参皂苷标准品的色谱行为和结构信息, 还可以通过与文献比对进一步鉴定其它没有标准品的组分.
将5个产地共45个人参样本的皂苷类提取物连续随机进样HPLC-MS分析, 3年生样本的基峰强度色谱图如图1所示. 所有样本中共鉴定出41种人参皂苷, 其中13种组分通过与标准品比对保留时间、 质荷比和串联质谱图准确鉴定, 28种组分通过与文献[23, 24, 30]数据进行比对鉴定. 各组分名称与质谱数据列于表1, 包括原人参三醇型皂苷15种、 二醇型24种和齐墩果酸型2种.
![]() | Fig.1 Base peak intensity chromatography of samples WQ1(a), CB1(b), SH1(c), XK1(d), and HL1(e) analyzed by HPLC-MS The chemical information of the 41 peaks are shown in Table 1. |
![]() | Table 1 Chemical information of ginsenosides in the 45 ginseng samples identified by HPLC-MS |
从图1可以看出, 人参皂苷提取物的成分较多, HPLC-MS谱图较复杂, 很难通过谱图直接区分不同产地的样本, 也说明不同产地人参中的皂苷类成分具有一定的相似性. 多元统计分析技术可以有效识别不同组别之间的特征差异. PCA是一种无监督的多元统计分析技术, 可在损失较少数据的前提下利用少量的主成分解释大量变量之间的相关性, 进而有效地把多维原始数据降维[31]. 将处理后的包含有45个人参样本的保留时间及其对应的质荷比和质谱峰强度的数据表导入SIMCA-p软件中进行PCA分析, 考察数据的整体分布情况. PCA分析得分图[图2(A)]显示, 在95%的置信区间内, 45个样本的质谱数据无异常值, 除了CB和WQ 2组中的部分样本不能被区分以外, 其它3组样本均可以根据产地被明显区分, 表明HPLC-MS数据中存在与产地相关的变量. 通过Hotelling T2检验进一步验证了45个样本的数据中无异常值[图2(B)].
进一步利用处理后的HPLC-MS数据建立OPLS-DA模型, 研究了不同产地人参中皂苷类成分的差异性并筛选出特征标志物. 有监督的OPLS-DA是一种标准的高维数据分析方法, 通过建立预测集和响应集的线性关系对样本进行分类, 进而提取样本间的特征性差异信息[31]. 进行OPLS-DA分析时, 由于预测变量的数量通常远远大于样本的数量, 容易导致建立的模型发生过拟合并且高估其预测能力, 因此需要利用交叉验证判断OPLS-DA模型效果. 验证结果中的R2代表模型的拟合度, Q2代表模型的预测能力. R2越接近于1, 表明模型描述的数据越完整; Q2越接近于1, 表明模型的预测能力越高[32].
将处理过的HPLC-MS数据导入SIMCA-p软件中建立OPLS-DA模型, 结果显示建立模型的R2和Q2分别为0.971和0.846, 表明模型可以描述大部分的HPLC-MS数据, 并且具有良好的预测能力. 进一步利用置换检验评价了模型的有效性. 200次置换检验结果如图3(A)所示, 所有置换检验的R2和Q2均小于所建立模型的原始值, 并且Q2的回归线在y轴上的截距为负值, 表明所建立的模型没有过拟合, 并且具有良好的拟合度和预测能力[32]. OPLS-DA得分图[图3(B)]显示, 所有人参样本均可以很好地根据产地区分, 表明人参中皂苷类成分在同一产地的样本中有一定的相似性, 而在所研究的5个产地样本之间存在差异. 45个人参样本的生长年限为3~5年, 与PCA分析结果一样, OPLS-DA模型的得分图中未显示出年限对于样本分组的影响, 说明生长年限比产地对于分组的贡献小. 其中, 在PCA中未被区分的CB和WQ 2个产地的样本在OPLS-DA中可以被明显区分. 值得注意的是, 为了减少人参提取物中其它成分对统计分析结果的影响, 在提取样品时加入了脱脂和除糖的步骤. 提取过程中受热可能导致酸性的丙二酰基人参皂苷含量降低和相应的中性皂苷含量升高, 进而可能影响多元统计分析结果. 然而, PCA和OPLS-DA分析结果显示, 尽管人参提取物中的部分皂苷含量与生晒参相比可能发生了变化, 但是将这种前处理方法得到的人参提取物用于HPLC-MS和多元统计分析可以很好地区分这5个产地的人参.
通过计算质谱数据中各变量对OPLS-DA模型的贡献得到载荷图, 如图4所示. 为了研究对区分5组样本贡献最大的标志物, 以VIP(Variable Importance in the Projection)值和变量在载荷图中与原点的距离作为筛选差异性标志物的标准, 共找到27个变量. ANOVA结果显示, 这些变量至少在2组之间差异显著. 通过分析保留时间、 m/z和串联质谱数据, 鉴定27个变量为17种人参皂苷和1种未知成份(见表2).
![]() | Fig.4 Loading plot of OPLS-DA model(A) and the magnified view of variables that contribute most to the model(B) |
![]() | Table 2 Identification of differential components from ginseng samples from 5 different origins |
虽然, 27个变量在至少2组之间差异显著, 但是没有变量可以在任意2组之间差异显著. 因此, 进一步通过2组间的OPLS-DA分析结果结合S-Plot筛选任意2组间的差异性标志物. 以HL和XK的样本为例, 得分图和S-Plot结果如图5(A)和(B)所示. 2组样本可以在得分图中被明显区分, 并且HL样本可以根据生长年限被区分, 说明不同生长年限样本之间存在差异. 在图3(B)中, 所有样本均不能根据生长年限区分, 是因为产地对分组的贡献大于生长年限的贡献. 当只分析HL和XK 2个产地的样本时, 生长年限对分组的贡献变得更为明显. 图5(B)中S-Plot两端的变量对建立模型的影响较为显著, 并且与差异性标志物高度相关[20, 24], 由此筛选得到可以区分这2组人参样本的5个变量1, 2, 3, 7和9, 对应于人参皂苷Rg1, Rb1, Ro, Rc和Rd. 利用相同方法筛选5组样本中任意2组间的差异性标志物, 结果如表3所示. 可见, 主要的差异性标志物均为在人参中含量较高的主要人参皂苷, 如Rb1, Rg1, Re, Rc, Rd, Ro和m-Rb1等.
![]() | Table 3 Differential components in ginseng samples from any two of the five origins |
HCA是一种根据样本数据的相似性找到相对均匀分类的多元统计分析方法[26]. 分析结果如图6所示, 45个样本在第2层聚为4类. 黑龙江省XK, HL和SH的样本分别聚为第Ⅰ , Ⅱ 和Ⅲ 类. 吉林省WQ和CB的样本聚为第Ⅳ 类, 表明吉林省样本之间的相似性较高. 在第1层分析中, SH的样本(第Ⅲ 类)和2个吉林省的样本(第Ⅳ 类)聚为1类, 并未与同样为黑龙江省的XK和HL聚类. 从地理位置上看, XK和HL位于黑龙江省东北部, 而SH位于中西部, 更靠近吉林省. 相近的地理位置有利于绥化市与吉林省交换人参种质资源, 并具有相似的人参种植环境, 最终使其与WQ和CB人参样本的皂苷类成分有一定的相似性.
综上所述, 本文基于对已有人参样本中提取的皂苷类成分的HPLC-MS分析, 结合标准品比对、 串联质谱分析及人参皂苷的极性差异识别了41种人参皂苷. 利用多元统计分析技术和人参皂苷提取物的HPLC-MS全扫描数据, 建立了可以区分绥化市、 逊克县、 虎林市、 长白县和汪清县5个产地人参的模型, 并筛选出各产地之间的差异性特征组分. HPLC-MS结合多元统计分析的方法并不局限于人参样本的分析, 还可以用于其它植物种植产地的区分和差异性特征组分的筛选. 通过建立大量样本并结合其它特征成分, 如人参寡糖、 多糖及挥发油等的HPLC-MS数据可以进一步提高样本区分的准确性, 并有可能建立区分中国东北人参主产区内更多人参样本的数据库, 实现人参产地的准确溯源.
支持信息见http://www.cjcu.jlu.edu.cn/CN/10.7503/cjcu20180452.
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|
[27] |
|
[28] |
|
[29] |
|
[30] |
|
[31] |
|
[32] |
|