费星宇, 赵 泓, 杜 洋, 段梦琪, 王晨晨, 张 彬, 刘 雪, 李大勇, 许立新*
(1.北京林业大学草业与草原学院, 北京 100083; 2.北京市农林科学院蔬菜研究所, 北京 100083; 3.山东师范大学生命科学学院, 山东 济南 250014)
菊苣(CichoriumintybusL.),又称欧洲菊苣,是菊科(Asteraceae)菊苣属(Cichorium)多年生草本植物。菊苣起源于欧洲地中海地区,从古罗马和古希腊时期开始人工培育[1],广泛分布在全球的温带和热带地区[2],多见于阳光充足的环境。菊苣在我国 20 世纪 70 年代末引入种植,其适应能力极强,耐寒抗旱,较抗病,极少发生病害与虫害[3]。菊苣是世界优质经济作物和高产青鲜饲用牧草之一,具有广阔的发展前景。菊苣可以作为食用叶菜类蔬菜[4],也可以作为药用植物[5]。一方面,菊苣根部可作为咖啡的替代品[6];另一方面,菊苣可以防治高血糖、高血脂[7],具有药用价值。此外菊苣还可作为动物饲养用料使用[8-9],具有矿物质含量高、营养价值高、饲口性好、易消化、生产率高和刈割后再生能力强等优良特性[10-11]。菊苣品质优良,可以提高饲喂牲畜的肉质品质,从而可以有效节省饲料成本,使得饲养户的经济效益得到进一步提高。牛锋等[12]研究表明,在肉牛的日粮中加入菊苣,肉牛的平均日增重相比对照组增加了 26.32%,育肥效果得到了明显的改善;王玉麒等[13]研究表明,在肉羊的日粮中加入菊苣,肉羊的肉产质量也会得到明显的改善。因此,菊苣作为我国极具推广发展的节粮型饲料牧草之一,其生理和分子生物学研究也将成为牧草领域研究热点。然而,作为非模式植物,菊苣没有其他模式植物已经完备的基因组数据,阻碍了菊苣分子机理探索和基因资源进一步开发[14-15],菊苣基因组测序和基因功能研究亟需开展。
在基因组测序前对物种的基因组大小进行测定能够为基因组测序深度提供数据支持。基因组大小,又称C值,是生物体单倍体基因组的DNA总量。大小一般用质量进行衡量,一般以皮克(pg)为常用单位,随着测序技术的发展,目前也常用核苷酸碱基对(Base pair,bp)的数量表示,1 pg DNA约等于 978 Mb(million base pair)。近年来已有近 1万多种植物的C值收录于植物基因组大小数据库(https://cvalues.science.kew.org/)。流式细胞术(flow cytometry,FCM)和基因组调查(genome survey)作为测定基因组大小的主流方法在植物中被广泛使用。流式细胞术通过发挥荧光染料定性定量与DNA双链碳架结构相结合的特性进行测定,它具有快速分析、多个检测参数、客观的结果等优势[16]。同时,随着测序技术的发展成熟,进行基因组测序费用已经大大降低,一般的实验室都能承受,基于二代测序技术的基因组调查为获得可靠的基因组大小提供有力的技术支持[17]。
本研究对菊苣的牧草品种将军(General,K042)进行染色体计数和基因组大小估算研究,并利用二代测序进行全基因组调查测序和重新组装研究,初步分析K042 基因组大小和杂合率等特性,以期为进一步揭示K042 将军菊苣的高精度全基因组序列,推动其分子生物学研究和分子标记研究[18-19]奠定基础。
1 材料与方法1.1 植物材料及生长条件
菊苣(CichoriumintybusL.)优质牧草品种将军(General,本实验室编号为K042),购自黄家百绿公司。流式细胞术对照样品生菜(LactucasativaL.) 品系选用L85,L85由国家蔬菜工程技术研究中心提供。所有植物材料均在国家蔬菜工程技术研究中心温室栽培。首先选取大小均匀、颗粒饱满的种子摆放于蒸馏水润湿的双层滤纸的培养皿中培养 4 d,后续将生长良好的幼苗移栽于口径为 30 cm的盆中(珍珠岩∶草炭灰∶蛭石=1∶4∶1)培养30 d进行取样。培养条件:光周期为 16 h/8 h (日/夜),昼夜温度分别为 25℃和 20℃,湿度为 60%。
1.2 DNA提取和PCR扩增
取K042 的幼嫩叶片组织 1 g,CTAB法粗提DNA[20]。利用特异性扩增引物进行ITS的PCR扩增:P1-F(5′-AGAAGTCGTAACAAGGTTTCCGTAGG-3′)和P4-R(5′-TCCTCCGCTTAT TGATATGC-3′)。PCR反应体系 50 μL:2×Phanta Mix 25 μL(南京诺唯赞生物科技股份有限公司),DNA模板 2 μL,上下游引物各 2.5 μL,DMSO 2 μL,ddH2O 16 μL。PCR扩增程序如下:预变性 95℃/5 min,变性 95℃/30 s,退火 57℃/30 s,72℃/1 min 30 s,35个循环,72℃延伸 10 min。PCR产物采用DNA凝胶回收试剂盒FastPure®Gel DNA Extaction Mini Kit (南京诺唯赞生物科技股份有限公司)回收纯化。回收产物与1 μL pEASY-Blunt Zero Cloning载体(北京全式金生物技术股份有限公司)进行连接。然后加入 50 μL大肠杆菌 E. coli DH5α 感受态细胞(北京华越洋生物科技有限公司)中进行转化,以上具体操作参考说明书。培养皿中共获得 200 余个单克隆,随机选取 6个单菌落,经菌液培养和PCR检测后测序(北京睿博兴科生物技术有限公司)。
1.3 系统进化分析
以测序获得的K042 的ITS序列为检索对象,利用NCBI(http://blast.ncbi.nlm.nih.gov)中的GenBank数据库,查询下载已发表的其他 4种菊科植物的ITS序列:生菜(Lactucasativa,AJ633337)、向日葵(Helianthusannuus,AF047927)、蒲公英(Taraxacummongolicum,EU057986)和苍耳(Xanthiumsibiricum,AF210915),其中蒲公英和苍耳为外类群。将收集到的序列信息导入ClustalW软件,得到以上 5种菊科植物的序列比对信息。利用MEGA 6软件[21]自带Neighbor Joining算法,程序循环重复 1 000 次,完成系统发育进化树的构建。
1.4 染色体计数
K042 的种子在约 25℃的培养皿中萌发3~5 d,剪取幼苗根尖约 0.5 cm。根尖用预处理液(0.05% 秋水仙素)处理2小时,在 4℃下用新鲜的卡诺固定液固定24 个小时后至 75% 乙醇溶液中。制备载玻片时,根尖在蒸馏水中浸泡约 20 min后放入 2% 的混合酶(纤维素酶∶果胶酶=4∶1)中,温度设定为37℃,反应消化约 60~90 min。根尖经过混合酶消化后,转移到蒸馏水中浸泡约 20 min,为压片做准备。压片前,根尖放在载玻片上,加 1滴固定液后用镊子敲碎根尖,然后加 1滴苏木精染液及DAPI,最后滴 1滴固定液,载玻片使用液氮进行冻结,完成固定后取下盖玻片。载玻片用 96% 乙醇溶液脱水,室温条件下进行风干,使用镜检法计数染色体数目。观察统计 40 个细胞数目,要求 85% 以上的细胞保持稳定一致的染色体数,即为K042 的染色体数目。所有图像均使用Zeiss Imager M2进行观察,Zen2软件100倍物镜下拍照[22]。
1.5 流式细胞术分析
所有试样(每份样品鲜重 20 mg)置于 0.8 ml LB01分离缓冲液中,迅速切碎叶片,冰上放置 10 min,用孔径为 30 μm的金属过滤网过滤,获得细胞核悬浮液。然后在过滤后的悬液中加入RNase I(40 μg·mL-1),最后用预冷的染色液-碘化丙啶(PI)(40 μg·mL-1)荧光标记悬浮液中叶片细胞的核DNA,冰上闭光染色 30 min。实验中以已知确定基因组大小的生菜(Lactucasativa)品系L85作为内标。使用流式细胞检测仪(BD FACSCalibur system,BD Biosciences)进行检测,测定混合悬液中PI的荧光发射强度。采用ModFit3.0 软件(Verity software House)分析数据,通过公式(1)计算基因组大小。
(1)
1.6 Illumina测序文库构建与基因组测序
Illumina(San Diego,CA)测序时,采用Covaris超声波破碎仪,将样本中的DNA打碎成 350 bp的小片段,然后将片段化的DNA两端加上接头,建立DNA测序文库,后续测序在北京诺禾致源科技公司二代测序平台Illumina HiSeq PE150 平台上完成。
1.7 根据K-mer分析的K042 基因组结构、杂合率和重复率估计
采用软件jellyfish(V2.2.7,http://www.cbcb.umd.edu/software/jellyfish)来估算K042 的基因组大小、基因组中的重复序列等。使用程序jellyfish_query_ hash[23]对获得的数据进行统计,并通过图像进行数据分析。在K-mer分析中设置k=17。使用Microsoft Excel 2017绘制K-mer分布图像,初步估计K042的基因组特性。通过计算纯合峰深度为 1.8 倍后面的K-mer个数所占的百分比,获得杂合率这一特性参数。利用标准泊松计算结果,计算实际数据和泊松分布结果的面积差值,获得重复率这一特征参数。通过公式(2)、(3)估算基因组大小,(4)计算杂合率。
Cbase=Ck-mer×L/(L-K+1)
(2)
(3)
(4)
1.8 初步的基因组组装
利用Soapdenovo 2[24]在Illumina平台进行K042 基因组的组装,根据重叠信息把测序得到的短读段(reads)组装成重叠群(contigs),然后对得到的contigs进行排序与定向,将contigs组装成scaffolds。基因组在装配后,可以通过contig N50 长度来检测组装的连续性,该值越大说明组装效果越好。
1.9 GC含量分析
在过滤后的高质量序列上以 2Kb为窗口大小,每个窗口中x表示GC含量,y表示测序深度,根据其GC分布以及覆盖深度信息绘制散点图。利用Bowtie2[25]检测GC含量分布情况。
2 结果与分析2.1 将军菊苣(K042) 的物种鉴定
为确定本研究供试材料将军(编号为K042)是否为菊苣的真实样品,首先对材料开展了形态学研究和分子生物学鉴别。经过温室和大田的种植观察证实,K042 是多年生草本,其茎枝全部为绿色,有条棱,株高约 40~100 cm。通过系统观察K042 的形态,发现其形态特性与《中国植物志》(第 80(1)卷)的有关记述相同[2]。
图1 菊苣品种将军(K042)的形态Fig.1 Morphology of a chicory (Cichorium intybus General (K042))注:比例尺= 5 cm;Note:Bar=5 cm
对K042 的ITS序列分析表明,6个ITS序列并不完全一致。K042 完整的ITS区域,全长 640~641 bp,分为非编码间隔区ITS1(163 bp)、ITS2(223~224 bp)和 5.8S rDNA(163 bp),K042 的ITS序列与已报道相同的菊苣(编号:AJ746388.1)ITS序列显示出较高的一致性,表明该材料K042 是菊苣。此外,使用MEGA7.0 软件对K042 及另外 4种菊科植物的ITS序列进行比对并构建系统发育树(图2)。菊苣及其近缘物种分子进化树分析显示,K042 和其他物种之间均存在一定程度的差异,跟生菜的亲缘关系较近。
图2 菊苣及其近缘物种的ITS序列的分子进化树Fig.2 The molecular evolutionary tree inferred from ITS sequences of Cichorium intybus K042 and its related species注:使用邻-接方法进行分类;分支上面的数字是代表bootstrap值Note:Neighbour-Joining method is used for analysis;The number above the branch is the bootstrap value
2.2 K042染色体计数
通过观察K042染色体中期分裂期,实验结果显示,K042的体细胞染色体数目稳定,是18条(2n=18)(图3),即K042的基因组由9对染色体构成。
图3 K042的根尖细胞染色体中期分裂图(2n=18)Fig.3 The chromosome metaphase diagram of somatic cell of K042 (2n=18)注:此处为具有代表性的分裂相;比例尺= 100 μmNote:The representative image is shown here;Bar=100 μm
2.3 流式细胞术估计基因组大小
本研究选取生菜(Lactucasativa)(2.80 pg·C-1,2 738.00 Mb)(http://cvalues.science.kew.org/)作为内参,进行流式细胞实验用以估算K042的基因组大小。根据流式细胞术的结果显示,P1和P2分别为将军菊苣DNA的G1期和G2期,P3为生菜DNA的G1期。初步估算K042的基因组大小约为 1 170.00 Mb(图4)。
图4 用流式细胞术测定K042 菊苣的基因组大小Fig.4 Estimation of the genome size of Cichorium intybus K042 using flow cytometry注:以生菜品系L85为内标Note:Lettuce (Lactuca sativa)line L85 was used as internal standards
2.4 Illumina测序及数据过滤
Illumina HiSeq PE150 平台测序获得的 51.14 GB原始数据经过pk_qc.v2及redup.v2软件的过滤筛选,过滤掉低质量的读段、切除低质量的碱基(Q-score低于 20)及人工序列污染(接头和PCR引物),得到约 51.05 Gb的干净片段(Clean reads),用于后续数据分析。
2.5 K-mer分析估计基因组大小
前期通过流式细胞仪实验测定之后,本研究后续对基因组大小进行更详细的K-mer分析。估算K-mer值不仅可以估计基因组大小,还可以检测基因组的杂合度,杂合度越高的物种基因组组装难度越大。本研究K-mer取 17 进行数据分析。估算结果表明,K042 基因组大小约为 1 424.00 Mb,同时得到K042 基因组的平均有效测序深度约为 25×(表1)。利用Genomescope[26]估算基因组杂合率为 1.12%,重复序列约为 73.56%(图5)。由此推断,菊苣基因组杂合度高,且重复序列丰度也为较高水平,属于高复杂基因组。
图5 菊苣K042基因组大小的17K-mer分析Fig.5 17 K-mer analysis of the genome size of Cichorium intybus K042注:x轴为K-mer深度/×,y轴为对应深度的K-mer个数Note:The x-axis represents the sequencing depth/× and the y-axis is the proportion that represents the frequency of a specific depth
表1 菊苣基因组序列中的K-mer数据Table 1 K-mer data of Cichorium intybus genomic sequences
2.6 初步的基因组组装和GC含量分析
在本研究中,测序数据用SOAPDENOVO2软件[24]组装了一个大小为 823.36 Mb的菊苣基因组,其中包括 1.03 kb的重叠群(Contigs)。进一步对菊苣基因组序列进行污染检测(图6),结果表明,GC分布图发生了明显的分离现象,图中黑色部分为点密度较大的区域,为该图最大密度区,图中没有明显的横向区块分布,重心在 25 的位置,对应右边的contig覆盖分布。图中上方显示的是GC含量分布,36%的位置为主峰的位置,且黑色的散点也分布在GC含量 36% 附近,图中的GC含量和计算得出的基因组GC含量基本一致。GC含量分析表明,新装配的菊苣基因组受到较小的外源污染。
图6 K042的GC深度分布Fig.6 GC depth distribution of Cichorium intybus K042注:x表示GC含量,y表示测序深度;黑色的部分代表该散点图中点的密度比较大的部分Note:The x-axis shows the GC-content of each fragment and the y-axis is the sequencing depth of each fragment;Darker blue means region with higher density
表2 K042基因组序列组装统计Table 2 Statistics of assembled Cichorium intybus K042 draft genome sequences
3 讨论
利用分子生物学数据特别是DNA核苷酸序列,结合生物信息学分析方法,为物种的鉴定提供有力证据。内部转录间隔子(Internal transcribed spacer,ITS)是植物属内种间分类鉴定的首选[27-28]。ITS序列用于种间分类鉴定的优势为大小合适,用来扩展ITS的引物通用性强,扩增成功率高,便于高通量测序与分析,而且是在GenBank等数据库中存在较多的DNA片段序列。本研究通过PCR扩增K042 的ITS序列,比对序列确认了K042 为真实的菊苣材料。
染色体是一个物种的遗传物质的载体[29],在植物生长发育过程中具有较高的稳定性。因此,染色体数目是确定一个生物基因组完整性的依据之一,并且对接下来的基因组重新组装至关重要。通过染色体计数结果分析表明此次测定的K042 的染色体数目为 18 条(2n=18),为二倍体,未发现染色体倍性水平的变化,且染色体大小不一。葛荣朝等[30-31]通过对普那菊苣的染色体进行核型分析研究表明,普那菊苣的染色体核型组成为:2n=2x=18=18 m。本实验结果与葛荣朝等[30]的研究结果一致。
确定K042 的基本信息后,估计K042 基因组大小,我们采取了流式细胞术和二代测序技术这两种方式,通过两种方法的结合,分析和研究菊苣基因组大小和特征,从而提高了实验的准确度和可靠性。K042 基因组大小的估计结果可以作为基因组测序等相关实验的数据基础。流式细胞技术实际研究中不同的样品、荧光染料试剂、裂解液、样品内标和处理流程等[32]因素,以及流式细胞仪自身[33],均会对最终基因组大小的测算结果产生影响。本研究实验中采取了经验法和统计检验法模型,并对结果加以校正,尽可能消除实验中各种因素的影响,提高了实验效率和准确性,对流式细胞技术进行了改进,使测量结果更接近于实际情况,运用两种方法估计K042 基因组大小,得到K042 基因组初步估算大小为1 170.00 Mb,大小修正为1 424.00 Mb。已知公布的菊科植物中,最小的基因组为紫菀族(Asteraceae)为 335.00 Mb[34],最大的基因组为春黄菊族(Anthemideae)为 138.88 Gb[35],菊苣的基因组大小符合菊科植物的基因组特征。在K042 基因组分析中,流式细胞技术的实验结果略小于K-mer分析结果。两种方法估算的结果不同在前人报道中均有体现,如甘薯属的马鞍藤[36],车前属的车前和大车前[37]等。
根据K-mer分布情况,估算K042 杂合率为1.12%,这一实验结果表明菊苣杂合率较高。植物基因组杂合率受繁殖方式的影响,异花授粉植物杂合率高于自花授粉植物[38],菊苣是异花授粉以及高度不亲和的植物[39],因而实验结果与特点一致。依据基因组的基本结构和初步组装结果,菊苣基因组比较复杂,该物种属于高度重复、高杂合的复杂基因组,初步组装结果与预估结果之间存在差异,且组装结果为一堆碎片,组装结果不理想,这也反应了二代高通量测序技术的限制。因此,推荐三代长读测序技术(如Pac Bio Sequel)和染色质区域捕获(Chromosome conformation capture,Hi-C)技术相结合用来提升第三代高通量测序基因组组装结果,完成菊苣基因组的精细组装[40]。本研究为今后绘制菊苣基因组精细图谱提供了依据,也为后续开展研究菊苣蛋白组、转录组以及代谢组等研究[41-42]奠定基础。
4 结论
本研究通过研究K042的基因组大小以及基因组调查测序发现,K042跟生菜的亲缘关系较近,细胞内染色体数目为 18 条(2n = 18)。流式细胞技术结果显示,K042 基因组大小预估为 1 170.00 Mb。通过二代测序和K-mer分析结果显示,K042 基因组大小修正为 1 424.00 Mb,同时还得出菊苣的杂合率大约为1.12%,重复序列约占73.56%,有效测序深度约为25×。本实验从头组装了823.36 Mb的菊苣基因组草图,序列重叠群N50 长约 1.03 kb。