咨询热线:400-065-6886   天昊基因

中文 / English

主页 > 技术支持 > 科研进展 >
 
白桦叶绿体基因组测序及其基因组织方式、RNA编辑、系统发育比较分析
  
 

研究背景
        白桦是中国北方常见的树种,具有很高的经济和药用价值。研究者多年致力于白桦基因组研究。叶绿体的完整基因组序列(cpDNA)作为主要细胞器基因组,对于研究物种的差异、RNA编辑和系统发育都非常重要。在本研究中,研究者对白桦的完整叶绿体基因组序列进行了测序和分析。
 
研究方法
植物材料和测序
        使用CTAB法从嫩叶中提取总基因组DNA。构建paired-end (insert sizes = 200 bp, 500 bp 和800 bp) 以及mate-pair (insert sizes = 2 kbp, 5 kbp和10 kbp)文库,利用illumina HiSeq 2000进行随机测序。
 
数据过滤和cpDNA序列提取
        使用NGSQC Toolkit (cut-off read length for HQ = 70%, cut-off quality score = 20, trim reads from 5’=3, trim reads from 3’=7)过滤原始reads。使用FastQC检查clean reads质量。为了鉴定cp序列,所有clean reads,包括来自细胞核和细胞器的序列,被映射到2670种植物的完整cpDNA序列,这些序列使用BWA工具从NCBI细胞器基因组资源数据库(www.ncbi.nlm.nih.gov/genome/organelle/)下载。最后从SAM文件中提取cp序列,并获得三个paired-end reads文件。
 
基因组组装和注释
        对于de novo cp基因组组装,使用缺省参数的Edena组装程序,将所有成对末端序列组装成contigs。接下来,使用SSPACE将相邻的具有成对末端或成对配对支撑的contigs合并成scaffolds。然后,利用另外两种参考壳斗科植物——Betula nana (KX703002.1)和Ostrya rehderiana (KT454094.1)的cp基因组序列,组装出一个带有间隙的cp序列。此后利用GapCloser用来补充大部分缺口,Sanger测序被用来填补剩余缺口。使用BWA进一步检查完整的cp基因组序列。
 
        除了tRNA基因,使用tRNAscan-SE 2.0进行验证,白桦cp基因组序列使用在线叶绿体基因组注释、可视化、分析和GenBank提交工具(CpGAVAS)进行注释。首先,AnnotateGenome被用来获得GFF3格式的原始注释结果。其次,研究者使用AnnotateGene、Apollo Genome Annotation和Curation Tool,根据CpGAVAS的参考数据库和tRNAscan-SE进行tRNA基因注释,进行手动纠正。最后,使用OrganellarGenomeDRAW生成修正的cp圈图。
 
密码子使用和替代起始密码子统计
        确定所有蛋白质编码基因的密码子使用情况(RNA序列未经编辑)。为了检查同义密码子使用的偏差,同时避免氨基酸组成的影响,使用MEGA 7软件计算相对同义密码子使用情况。
 
        对三个cp基因( rps19psbCndhD )用白桦cp基因组中的非ATG起始密码子进行注释,根据被子植物系统发育组( APG ) IV系统从30种模式植物和代表性植物物种中选择了这些基因。然后,这三个基因中第一个10 bp的序列logo使用weblogo 3应用程序创建,研究者还可视化了这些位点的RNA-Seq图谱,并将它们与序列logo进行对。
 
基因组比较
        利用mVISTA程序比较白桦和其他四个密切相关物种的完整cp基因组序列,这四个物种分别是B. pendula (LT855378.1)、B. nana (KX703002.1)、Corylus chinensis (KX814336.2)和Juglans sigillata (KX424843.1)。使用Needleman-Wunsch算法的改进方法EMBOSS Stretcher进行全局比对,用于比对这些cp基因组序列。
 
IR扩展和收缩分析
        根据壳斗科分类系统,选择了Betula platyphyllaJuglans regia (MF167463.1)、Morella rubra (KY476637.1) 和 Castanea mollissima (KY951992.1)四种植物分别代表桦木科、胡桃科、杨梅科和壳斗科。
 
SSR分析
       通过将单核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸的最小重复次数分别设置为10、5、4、3、3和3,使用Perl脚本MISA (微卫星识别工具)检测简单序列重复。同时,CandiSSR被用于鉴定多态性SSRs ( PolySSRs ),并为三个桦木物种自动设计引物对。
 
RNA编辑位点的识别
        利用3片叶子样本的RNA-Seq实验来识别RNA编辑事件。从成熟树叶中提取总RNA,构建文库进行测序。使用HISAT2软件与白桦cp基因组进行比对。SAMtools、beddTools和ChloroSeq被用来调用和分析精确的RNA编辑位点。因为SNPs或错配可能会干扰结果,研究者还使用Bowdtie 2软件将一组用于组装白桦cp基因组的PE100 bp长度reads映射回cp基因组序列,然后检查SNPs。最后,使用Primer Premier 6.0软件设计了几对引物,进行目标序列 PCR,利用Sanger测序证实了目标代表性编辑位点。
 
系统发育分析和特征进化
        利用21种壳斗科植物的全部cp基因组序列构建系统进化树,以确认密切相关的白桦物种之间的遗传关系。在进化树中,烟草被用作外部群体。使用MAFFT比对核苷酸序列。手动检查和调整所有比对结果。MEGA-CC用来寻找最佳替代模型,建立最大似然( ML )系统进化树。使用具有500次重复的自举重采样来评估分支支持情况。
 
研究结果
        白桦的完整cp基因组长度为160518 bp,包括一对26056 bp的反向重复序列( IRs ),它将89397 bp的大单拷贝( LSC )区域和19009 bp的小单拷贝( SSC )区域分开。注释结果包含129个基因,包括84个蛋白质编码基因、37个tRNA基因和8个rRNA基因。使用替代起始密码子的基因有3个。比较基因组学显示,壳斗菜属物种cp基因组的序列相对保守,但仍有一些高变异区可用作分子标记。白桦的IR扩增事件导致了更大的cp基因组和rps19假基因的形成。简单序列重复( SSR )分析表明,白桦cp基因组中有105个SSR。RNA编辑位点识别表明cp基因组中至少发生了80次RNA编辑事件。大多数替换是C到U,而一小部分不是。特别是rRNA上的三个编辑位点被转化为两个以上从未报道过的碱基。对于同义转换,其中大多数增加了密码子的相对同义密码子使用( RSCU )值。系统发育分析表明,白桦树B. platyphyllaB. pendula的进化关系比B. nana更密切。
 
 
部分研究图表结果
 
图1、白桦叶绿体基因组图谱。如箭头所示,圆圈内的基因被顺时针转录,圆圈外的基因被逆时针转录。灰色内圈对应于GC含量。属于不同功能组的基因以不同的颜色显示
 
表1、白桦叶绿体基因组基因列表
 
 
 
图2、三个基因的序列logo和RNA-Seq图谱。a:该物种三个基因中10 bp的序列logo图。b:白桦三个基因中10 bp的RNA-Seq比对结果
 
图3、以白桦为参照,利用mVISTA程序对壳斗科植物的5个叶绿体基因组进行序列比对结果。比对上方的灰色箭头表示基因的转录方向。基因组区域被颜色编码为外显子和保守的非编码序列( CNS )。本图使用了50%同一性的分界线。Y轴表示50 %到100 %之间的同一性百分比
 
图4、四个壳斗科植物基因组中LSC、SSC和IR区域边界的比较。ψ表示假基因
 
表2、RNA编辑位点和氨基酸变化列表(部分)
 
 
图5、通过Sanger测序验证从RNA-Seq推断的编辑位点
 
 
研究结论
        在这项研究中,研究者不仅获得并注释了白桦的完整cp基因组序列,还鉴定了新的RNA编辑位点,并预测了壳斗科植物物种之间的系统发育关系。这些发现将促进这一重要物种的基因组、基因工程和系统发育研究。

关于天昊
        天昊生物具有丰富的动植物叶绿体、线粒体细胞器基因组和DNA条形码检测项目经验,为客户高效发表SCI文章提供技术保障,我们期待成为您细胞器基因组测序和DNA条形码检测的优质服务合作伙伴,欢迎联系我们具体咨询!邮箱:techsupport@geneskies.com 电话:400-065-6886



上海天昊生物科技有限公司 版权所有 沪ICP备17008908号
地址:上海市浦东新区康桥路787号9号楼 邮箱:techsupport@geneskies.com 电话:400-065-6886