小叶女贞(Ligustrum quihoui Carr.)是木犀科女贞属的小灌木,是一种常见的园林绿化植物,其叶薄革质,花白色,香,无梗,叶可入药,具清热解毒、治烫伤、外伤等功效。小叶女贞叶中的主要化学成分为黄酮类、苯乙醇苷类、三萜类等[1-8]。目前对小叶女贞的化学成分、栽培育种等方面已有较多研究[9-10],但对其功能基因发现和注释、物质合成相关途径分析、分子标记开发等转录组学方面研究的尚未见报道。
本研究利用Illumina/Solexa Hiseq 2000测序平台构建小叶女贞叶片转录组数据库,获得叶片转录组的整体表达特征,并进行功能注释、分类、代谢途径分析和简单重复序列(simple sequence repeat,SSR)位点查找等研究,为进一步开展小叶女贞的分子标记开发和重要次级代谢产物的生物合成奠定基础,同时为小叶女贞的基因工程育种、品种改良等提供技术支持和理论依据。
实验材料采自湖南中医药大学含浦校区内,经湖南中医药大学彭菲教授鉴定为小叶女贞(Ligustrum quihoui Carr.)。采集时间为 2016年 6月,选择生长健壮无病害的植株,采摘嫩叶片,将叶片表面灰尘拭净后,放入-80 ℃冰箱保存备用。
采用植物RNA提取试剂盒(TANGEN)提取小叶女贞嫩叶片的总RNA,使用琼脂糖凝胶电泳和浓度检测仪对提取的总RNA进行质量检测,质检合格后,用带有Oligo(dT)的磁珠富集mRNA并将其打断成短序列,以mRNA为模板用六碱基随机引物依次合成第1条cDNA链和第2条cDNA链。cDNA链经试剂盒纯化并加无菌水洗脱之后做末端修复、加poly(A)并连接测序接头,然后用琼脂糖凝胶电泳选择适当片段进行PCR扩增,建立好测序文库,送至华大基因用Illumina/Solexa Hiseq 2000测序平台进行测序。
本研究采用Filter fq软件对原始reads进行过滤得到clean reads,将所得clean reads通过Trinity软件进行组装和同源聚类拼接得到单基因簇(Unigene)[11-12]。
在 e值<0.000 01的条件下,通过 blastx将Unigene序列比对到蛋白数据库Nr(Non-redundant protein database,非冗余蛋白数据库),Swiss-Prot(SwissProt protein database,蛋白质序列数据库),得到与给定 Unigene具有最高序列相似性且功能已知的蛋白,从而实现Unigene的功能注释。根据功能注释结果,使用Blast2GO软件比对基因本体论数据库(gene ontology,GO)得到Unigene的GO条目[13],然后用WEGO软件对所有的Unigene进行 GO功能分类统计[14]。利用 blastx把 Unigene比对到KEGG数据库进行功能注释,然后根据比对结果查询与次级代谢产物合成通路相关的Unigene。
利用MISA软件在所有Unigene中搜索SSR位点,参数设置如下:总重复序列≥20 bp,二核苷酸重复次数≥6,三核苷酸、四核苷酸、五核苷酸和六核苷酸重复次数≥4[15]。
采用Illumina Hiseq 2000测序平台,对小叶女贞叶片mRNA逆转录构建的cDNA文库进行了测序,共获得32 713 472个clean reads,且本次测序总的 cDNA碱基数约为 4 907 020 800 bp(4.90 Gb),平均长度为150 bp。Q20及GC含量百分比依次为96.25%和43.83%。结果表明,转录组测序数据基本呈正态分布,质量合格,为后续的组装提供了较好的原始数据。
利用Trinity软件对reads进行拼接组装,获得212 205个重叠群(contig),平均长 333 bp,总长70 641 727 bp,N50为 508 bp,其中<200 bp的重叠群数量占58.07%,200~3 000 bp以及≥3 000 bp各占 41.35%和 0.58%。所得重叠群再次组装共获得 157 450条 Unigene,平均长 734 bp,总长115 496 072 bp(115.49 Mb),N50为 1 510 bp,其中<200 bp、200~3 000 bp、≥3 000 bp的各占 27.12%,69.92%,2.96%,具体长度分布见图1。
图1 Unigene的长度分布图
Fig. 1 Length distribution of Unigene
将所获得的 Unigene与公共数据库 Nr和Swiss-Prot、KEGG 和 COG(cluster of orthologous groups)进行比对,并利用blastn将Unigene比对核酸数据库 Nt(evalue<0.000 01),结果显示共有84 086条Unigene获得了基因注释,占Unigene总数的53.40%。在相似序列匹配的较高的近缘物种中,猴面花所占比例最高,为33.39%,随后依次是葡萄(12.19%)、土豆(11.85%)、番茄(6.42%)和其他物种(36.16%),这些物种都为进一步研究小叶女贞提供了参考价值。
2.3.1 GO和COG功能分类 为进一步揭示小叶女贞叶片中 Unigene的功能分类,组装产生的157 450条Unigene与在GO和COG数据库进行比对。结果表明,在 GO分类中,共有 17 756条Unigene被注释,其中42 136条Unigene归入生物学过程类别,26 749条Unigene归入细胞组分类别以及22 201条Unigene归入分子功能类别,见图2。在这3个类别中,生物学过程类别包括22个功能组,细胞组分类别则包括17个功能组,分子功能类别包括15个功能组(图2)。参与生物学过程的主要是代谢过程中(10 173条);参与细胞组分过程的主要是细胞和细胞成分(均为6 057条);参与分子功能的主要是催化活性(10 178条)。在COG分类中,共有40 960条Unigene被注释到25个类别,见图3,Unigene涉及的功能类别较为全面,涉及了大多数的生命活动。其中Unigene条数最多的5个类别依次是一般功能预测类(7 350条);复制、重组与修复类(4 296条);转录类(4 039条);信号转导机制类(3 282条);蛋白质翻译后修饰、折叠和分子伴侣类(2 910条),而细胞外结构则是最小的类,仅包含22条Unigene。通过以上COG分析,可以看到在小叶女贞叶片中,Unigene涉及的功能类别主要是基因表达、蛋白质合成等相关方面,正好符合叶片作为一种营养器官,利用以上功能活动为自身积累营养物质这一基本功能。
2.3.2 KEGG代谢途径分析 根据KEGG数据库进一步得到Unigene的代谢通路注释。结果显示小叶女贞叶片的Unigene主要参与了21类代谢途径,见图 4,每条途径中又包括下一级具体的代谢过程,其中涉及主要的次级代谢产物苯丙素类合成途径 860条,红景天苷就是其产物之一,本实验室也对小叶女贞植物体代谢产物提取和红景天苷转化条件优化做了相关研究,证实了该途径存在的可靠性[8]。黄酮类合成途径含有 216条Unigene,萜类合成途径含有806条Unigene。参与以上这些代谢途径的Unigene的发现,为日后进一步验证它们的功能,并利用它们在体外生物合成相关的药用活性物质奠定了基础。
图2 小叶女贞叶片Unigene的GO分类
Fig. 2 GO classification of Unigene of Ligustrum quihoui Carr. leaf
图3 小叶女贞叶片Unigene的COG分类
Fig. 3 COG classification of Unigene of Ligustrum quihoui Carr. leaf
本研究利用 SSR分析软件,从 15 782条Unigene中共搜索到17 593个SSR位点。搜索到的SSR位点类型丰富,单核苷酸至六核苷酸类型均有,结果见表1。其中,二核苷酸重复所占比例最高,达到了43.95%;四核苷酸重复、五核苷酸重复和六核苷酸重复均较低,仅为2.37%,2.96%和2.84%。在检测到的SSR中,共有20个基序类别,其中出现频率最高的6类基序为:AG/GT(3 856个)、AT/AT(183 个)、AC/GT(125 个)、AAT/ATT(940个)、AAG/CTT(736 个)、ATC/ATG(501 个)。上述SSR分析,有助于开展小叶女贞及其同属物种的基因差异、分子标记开发等研究。
图4 小叶女贞叶片Unigene的KEGG分类
Fig. 4 KEGG classification of Unigene of Ligustrum quihoui Carr. leaf
目前,转录组学广泛应用于药用植物次级代谢产物研究中,利用高通量测序结合生物信息学软件以此挖掘次生代谢相关基因,从而为体外生物合成中药药用活性成分,甚至是创造性地研发新型药物奠定坚实的基础[16-17]。近年来,国内外已经开展了人参、铁皮石斛、丹参等多种药用植物的转录组研究,转录组研究已经成为挖掘功能基因的重要手段之一[18]。
不同生长季节植物的基因表达谱差异极大,每年 6月是小叶女贞新叶刚刚成熟的时期,叶片中多种基因表达旺盛,本实验室前期研究表明,此时期小叶女贞叶片可有效转化并积累红景天苷[8],故选取此时期的小叶女贞叶片进行转录组测序和功能分析。测序数据采用Trinity软件进行拼接组装得到157 450条Unigene,其中有73 364条Unigene未被注释,原因可能是片段太小很难在已知数据库里寻找同源性序列,也可能是未被注释的新基因[19]。另外,拼接组装的 Unigene经过数据库比对得到的N50值为1 510 bp,基本涵盖了全部转录组信息。说明本次序列组装的质量控制合格,基本满足转录组分析的要求,获得如此大的序列信息量,也表明高通量测序技术是批量发现小叶女贞功能基因的有效手段,同时,这也为研究中进行以序列为基础的相关转录组分析提供了可靠保障。
通过进一步进行基因功能预测,在GO数据库中共有17 756条Unigene可被分别注释到细胞组分、分子功能和生物学过程3大类别中,将Unigene与COG数据库进行比对,可获得25个功能类别,其中大部分 Unigene与叶片中物质的合成与转运相关。小叶女贞叶中主要含有黄酮类、苯乙醇苷类、三萜类的化学成分,在KEGG数据库中通过搜索比对,Unigene可定位到21类代谢途径中,其中涉及到黄酮类合成途径的 216条,萜类合成途径的Unigene 806条,与苯乙醇苷类相关的苯丙素类合成途径的860条。
表1 小叶女贞Unigene中的SSR位点数量与分布
Tab. 1 The number and distribution of SSR in Unigene of Ligustrum quihoui Carr. leaf
重复类型重复次数4 5 6 7 8 9 10 >10 SSR数 百分比/%一核苷酸 0 0 0 0 0 0 0 4 652 4 652 25.17二核苷酸 0 0 2 102 1 511 1 079 1 180 1 057 435 7 364 43.95三核苷酸 0 2 241 981 745 67 0 0 0 4 034 22.71四核苷酸 0 291 44 0 0 0 0 0 335 2.37五核苷酸 566 53 0 0 0 0 0 0 619 2.96六核苷酸 589 0 0 0 0 0 0 0 589 2.84总数 1 155 2 585 3 127 2 256 1 146 1 180 1 057 5 087 17 593
SSR是真核生物基因组非编码区中的一段简单重复序列,较为保守,常用于DNA指纹图谱的构建和物种鉴别[20]。SSR序列也被称为短串联重复序列(short tandemrepeat,STR)[21]和微卫星序列(microsatellites)[22],通常由2~6个重复的核苷酸构成。本研究利用SSR软件分析得到17 593个SSR位点,这些位点通过软件设计SSR引物,然后利用SSR引物进行扩增检测,从中筛选出扩增稳定、条带清晰、多态性好的引物,为进一步开发小叶女贞的SSR标记奠定基础[23]。
本研究利用Illumina/Solexa Hiseq 2000测序平台首次对小叶女贞叶片进行了转录组测序研究,获得了大量的转录组数据。对这些数据从拼接组装、功能注释、代谢途径和 SSR位点查询 4个方面进行分析研究,使得在转录水平对小叶女贞叶片有了比较详实的认识,同时也为今后开发利用小叶女贞药用次生代谢产物和分子标记物,以及为小叶女贞基因组的测序组装提供了具有参考价值的基础数据。
[1] SONG Z Y. Studies on chemical constituents and activities of fruit of Ligustrum quihoui Carr [D]. Harbin: Harbin Institute of Technology, 2013.
[2] LV S Q. Isolation and screening of active ingredient from Ligustrum sinens [D]. Fuzhou: Fujian Agriculture and Forest University, 2012.
[3] NI J C, LV S Q, DING Xl. Antibacterial, cytotoxic and antioxidant activity of leave extract from Ligustrum quihoui Carr [J]. Wuyi Sci J(武夷科学), 2012(28): 128-132.
[4] JIN H, MA C X. Analysis of the essential oil from folwer of Ligustrum quihoui Carr [J]. J Anal Aci(分析科学学报), 2011,27(6): 814-816.
[5] LI X M, CAI Z P. Studies on chemical constituents of Ligustrum quihoni Carr [J]. J Guangdong Coll Pharm(广东药学院学报), 1998(2): 93-94.
[6] LI C F, FANG M Y , LI C Q. Analysis of the essential oil from Ligustrum quihoui Carr by SPME-GC-MS [J]. Nat Prod Res Dev(天然产物研究与开发), 2007, 19(3): 443-446.
[7] ZHOU J M, OUYANG M A. Research advancement on the chemical constituents of Ligustrum [J]. Nat Prod Res Dev(天然产物研究与开发), 2003, 15(1): 77-86.
[8] 谭朝阳, 于静, 徐德宏, 等. 前体喷施对小叶女贞叶中红景天苷含量累积的影响[J]. 中药材, 2016, 39(1): 67-69.
[9] YU J D, WANG Y, LI X. Effects of different irrigation conditions on evapo–transpiration characteristics and growth of Ligustrum quihoui Carr [J]. Bull Soil Water Conserv(水土保持通报), 2012, 32(3): 51-55.
[10] 王凯, 韩远煜. 小叶女贞造型树的造型、养护及应用[J]. 现代园艺, 2011(9): 23-24.
[11] PICARDI E, MIGNONE F, PESOLE G. EasyCluster: a fast and efficient gene-oriented clustering tool for large-scale transcriptome data [J]. BMC Bioinformatics, 2009, 10(6): S10.doi: 10.1186/1471-2105-10-S6-S10.
[12] BEVILACQUA V, PETROLEONARDO N, GIANNINO E.EasyCluster2: an improved tool for clustering and assembling long transcriptome reads [J]. BMC Bioinformatics, 2014,15(15): 1-10.
[13] CHEN C, HUANG H, WU C H. Protein bioinformatics databases and resources [M]. Methods in Molecular Biology.Humana press, 2017, 1558: 3-39.
[14] COLLINS L J, BIGSS P J, VlOVELCKEL C. An approach to transcriptome analysis of non-model organisms using short-read sequences [J]. Genome Inform, 2008(21): 3-14.
[15] WANG H, JIANG J, CHEN S L. Next-generation sequencing of the chrysanthemum nankingense (asteraceae) transcriptome permits large-scale unigene assembly and SSR marker discovery [J]. PloS one, 2013, 8(4): e62293.
[16] WANG Y L, HUANG L Q, YUAN Y. Research advances on analysis of medicinal plants transcriptome [J]. China J Chin Mater Med(中国中药杂志), 2015, 40(11): 2055-2061.
[17] WU Q, SUN C, CHEN S L. Application of transcriptomics in the studies of medicinal plants [J]. World Sci Technol/Mod Tradit Chin Med Mater Med(世界科学技术-中医药现代化),2010, 12(3): 457-462.
[18] WU X R, YAN Y, LIU X L. Analysis of the transcriptome of swertia mileensis based on high-throughput sequencing [J].Chin J Mod Appl Pharm(中国现代应用药学), 2018, 35(3):363-369.
[19] 李滢, 孙超, 罗红梅, 等. 基于高通量测序454 GS FLX的丹参转录组学研究[J]. 药学学报, 2010, 45(4): 524-529.
[20] ZHOU J H, YUAN Y, HUANG L Q. Application of SSR markers in establishment of molecular identity for traditional Chinese medicinal materials [J]. Mod Chin Med(中国现代中药), 2016, 18(10): 1233-1236.
[21] VOGT P. Potential genetic functions of tandem repeated DNA sequence blocks in the human genome are based on a highly conserved “chromatin folding code” [J]. Human Genetics,1990, 84(4): 301-336.
[22] LITT M, LUTY J A. A hypervariable microsatellite revealed by in vitro amplification of a dinucleotide repeat within the cardiac muscle actin gene [J]. Human Genetics, 1989, 44(3):397.
[23] ZHOU J H, YUAN Y, HUANG L Q. Application of SSR markers in establishment of molecular identity for traditional chinese medicinal materials [J]. Mod Chin Med(中国现代中药), 2016, 18(10): 1233-1236.
Transcriptome Analysis on Leaf of Ligustrum Quihoui Carr.