欢迎访问文稿网!

基因组微卫星特征分析

范文之家 分享 时间: 加入收藏 我要投稿 点赞

基因组微卫星特征分析

    

    虽然微卫星标记技术建立的时间不长,但已经在包括人类到细菌的基因组研究中得到广泛应用,并取得了许多重要成果。由于它具有多态性高、共显性、容易用PCR检测和结果稳定可靠等特点,同时,由于微卫星DNA在生物基因组中具有丰富的长度多态性信息,在群体间和群体内变异大,杂合性高、种类多、分布广以及重组率低、容易筛选等优点,因而在甲壳动物蟹类的物种遗传多样性研究中也得到日益广泛的应用。蟹类的种类很多,目前仅在小部分蟹类中有微卫星分离的报道(Gopurenko et al,2002;Yap et al,2002),微卫星标记在蟹类遗传学研究中的应用还处于初级阶段。

    本研究所用的三疣梭子蟹2005年10月中旬采集自黄海海州湾。提取三疣梭子蟹基因组DNA,用Sau3AI酶切后,经低融点琼脂糖凝胶电泳回收500~1500 bp的片段,与PUC19质粒连接后,将重组DNA转化到大肠杆菌DH5α中,从而建立三疣梭子蟹部分基因组文库。

    根据重复类型、重复数目(repeat number)、重复拷贝数(repeat copy number)和重复拷贝类别对序列进行分类。通过软件Tandem Repeats Finder(Version 3.21)对拼装后的克隆序列进行分析,查找微卫星序列。Tandem Repeats Finder 的查找参数如下:alignment parameters(match,mismatch,indel)5(2,7,7),minimum Alignmentscore to Report Repeat550,Maximum Periodsize51000。利用本实验室编写的Excel宏程序对Tandem Repeats Finder的初步分析结果进行细化和汇总分析(表11)。

    通过对此基因组文库DNA克隆随机测序,共获得了4164个DNA 随机克隆源序列。利用SeqmanⅡ(DNASTAR5.0)软件,除去PUC19质粒中的载体序列和克隆DNA序列两段出现杂峰的污染序列后装配输出。其中拼接序列时,如果两个克隆重合部分的序列为重复序列,则分别按单个克隆处理,即只有重合部分的序列不是重复序列时,才把这些克隆序列拼接成一个序列来处理。最终得到的709个DNA克隆,每个序列的长度从500~1.5.0 bp不等,代表着622409个碱基的基因组总长度。

    2.3.1 微卫星序列的总类、数目和相应的百分比

    通过软件分析,从622409个碱基长度的序列中共找到了827个重复序列,微卫星重复序列(1-6 bp重复)为697个,占重复序列总数目的比例为84.28%;小卫星重复序列为130个,占重复序列总数目的比例为15.72%。平均每10万碱基所具有的微卫星重复序列数目约为112个。统计微卫星重复类型,以两碱基重复数目最多为445个,占微卫星序列总数目的63.84 %;其次是三碱基152个,占21.81%;再次分别是单碱基45个,占6.46%;四碱基31个,占4.45%;五碱基14个,占2.01%;六碱基10个,占1.43%(图8)。

    

图8 不同重复类型的微卫星序列数目及其百分比

    在同类型的重复序列中,各重复拷贝类别占的比例也各不相同。在46个单碱基重复类型中,重复拷贝类别全部为A型,没有发现核心序列为C型的重复拷贝类别。两碱基中,AG重复拷贝类别最多,为214个,占两碱基总重复序列数目的48.09%;其次是AC和AT,各为187.42.02 %)和43(9.66%)个。只发现1个核心序列为GC的重复拷贝类别,即(GC)14,占两碱基总重复序列数目的0.23%。该序列已经在GenBank注册,注册号为EU113241。三碱基重复中,共发现8种重复拷贝类别,它们分别是ACT(42个)、AGG(35个)、AAT(28个)、ACC(21个)、AAG(9个)、ATC(7个)、AAC(7个)和AGC(3个),其中,以ACT最多,其次是AGG和AAT(表11)。

表11 1~3碱基重复类型中重复拷贝类别及其在所属重复类型中的百分比

    

    在四碱基重复类型中,AGAC重复拷贝类别最多,共14个(重复拷贝数范围是7.3~102.5,平均拷贝数是28.35);其次是AGAT,共4个(重复拷贝数范围是8.3~43,平均拷贝数是22.52)。其他的分别是:AAAT,共3个(重复拷贝数范围是6.3~25.8,平均拷贝数是16.13);ACTG,共3个(重复拷贝数范围是12.3~43.5,平均拷贝数是30.87);CACT共2个(重复拷贝数范围是17.8~21.5,平均拷贝数是19.65);ACTA共1个(重复拷贝数是52.8);ATGA共1个(重复拷贝数是24.5);CCTT共1个(重复拷贝数是13.8);CTCC共1个(重复拷贝数是10.0);CAGG共1个(重复拷贝数是8.8)。

    在五碱基重复类型中,AACCT重复拷贝类别最多,共6个(重复拷贝数范围是8.4 ~ 62.6,平均拷贝数是22.27);其次是TAACA,共2个(重复拷贝数范围是7~9.6,平均拷贝数是8.3)和AGGTG,共2个(重复拷贝数范围是7.8~10.8,平均拷贝数是9.3)。其他的分别是:CCTTG,共1个(重复拷贝数是48.2);CACCA,共1个(重复拷贝数是14.2);AAATT,共1个(重复拷贝数是6.2);TCCAC,共1个(重复拷贝数是5.6)。

    在六碱基重复类型中,AGGGGA重复拷贝类别最多,共3个(重复拷贝数范围是5~8.5,平均拷贝数是6.40)。其他的分别是:CTCTCC共2个(重复拷贝数范围是6.7~33.7,平均拷贝数是20.2);TCTTCC共2个(重复拷贝数范围是5.2~11.3,平均拷贝数是8.25);TCCTCG共1个(重复拷贝数是10.8);AAAAGA共1个(重复拷贝数是6.5);TACTGC共1个(重复拷贝数是5.3)。

    2.3.2 6种重复类型中各种重复拷贝数的分布

    三疣梭子蟹基因组微卫星的不同重复拷贝类别的重复拷贝数的变化范围较大,从5~280 都有分布,但其主要分布在12~70之间,占全部拷贝数范围的82.64%。与拷贝数的分布趋势相对应,微卫星序列长度主要分布在24~72个碱基的长度范围内。单碱基重复拷贝数主要分布在28~40和68~76两范围之间,两者共36个,占单碱基重复类型45个的80.00%(图9);两碱基主要分布在12~36之间,共285个,占两碱基重复类型445个的64.04%(图10);三碱基主要分布在8~24之间,共88个,占三碱基重复类型152个的57. 90 %(图11);四碱基主要分布在7~26之间,共23个,占四碱基重复类型31个的74.19 %(图12);五碱基主要分布在5~12之间,共10个,占五碱基重复类型14个的71.43%(图13);六碱基主要分布在4~12之间,共9个,占六碱基重复类型10个的90.00 %(图14)。

    

图9 单碱基重复类型中不同的重复拷贝数所对应的重复位点数

    

图10 二碱基重复类型中不同的重复拷贝数所对应的重复位点数

    

图11 三碱基重复类型中不同的重复拷贝数所对应的重复位点数

    

图12 四碱基重复类型中不同的重复拷贝数所对应的重复位点数

    

图13 五碱基重复类型中不同的重复拷贝数所对应的重复位点数

    

图14 六碱基重复类型中不同的重复拷贝数所对应的重复位点数

    在三疣梭子蟹基因组单碱基重复类型中,46个单碱基重复类型中,重复拷贝类别全部为A型,没有发现核心序列为C型的重复拷贝类别。A重复拷贝类别最多,这与中国对虾(高焕等,2004)和其他物种中研究的结果相一致。两碱基重复类型中,以AG重复拷贝类别最为丰富,这与中国对虾的AT、红鳍东方鲀(T. rubripes)的AC(余红卫等,2005)重复拷贝最多不同,与有胚植物和真菌类生物也不同(Katti et al,2001;Thth Gspri et al,2000)。三碱基重复类型中,共发现8种重复拷贝类别,其中以ACT最多,其次是AGG和AAT。中国对虾以AAT最多,其次是AAG和ATC(高焕等,2004)。四碱基重复类型中,AAAY(AAAT、AAAG、AAAC)重复拷贝类别在灵长类和啮齿类中最丰富(Thth Gspri et al,2000)。在中国对虾中,AGAT重复拷贝类别最丰富,AAAY重复拷贝类别的数量总体上也很多(高焕等,2004)。在河豚基因组中,AGAT重复拷贝类别最丰富,接下来是ACAG、AGGT、ACCT,AAAY的数量总体上不是很丰富(崔建洲等,2006)。在三疣梭子蟹四碱基重复类型中,AGAC重复拷贝类别最多,共14个。其次是AGAT,共4个。AAAT,共3个,总体数量不是很丰富。五碱基重复类型的种类和数量都比较少。在河豚基因组中五碱基重复类型的微卫星数量比较少,AGAGG的分布最为丰富,占到五碱基重复总数的46.3%(崔建洲等,2006)。在本研究五碱基重复类型中,AACCT重复拷贝类别最多,共6个;其次是TAACA和AGGTG各2个。六碱基重复类型中发现了6种重复拷贝类别,其中AGGGGA重复拷贝类别最多,共3个,但各种重复拷贝类别的拷贝数都很少。在其他生物中对此研究的也较少,而且重复拷贝类别也不完全相同(王国良等,2005)。由此可见,不同生物中各种重复类型中的重复拷贝类别和其重复数目是不同的。

    Xu等(1999)研究斑节对虾(P.monodon)基因组中两碱基重复类型时得到的初步结果是(CT)n(即AG)最多,其次才是(AT)n。高焕等(2004)在对中国对虾的研究中发现AT重复拷贝类别的频率最高,占两碱基重复总数的42.44%,其次是AC,占两碱基重复数的34.42 %。崔建洲等(2006)在对河豚的微卫星序列研究中发现两碱基重复类型中,以AC重复拷贝类别最为丰富,接下来是AG和AT。由表12可知,在本研究中AG重复拷贝类别的频率最高,占两碱基重复总数的48.09%,其次是AC,占两碱基重复数的42.02 %。AG重复拷贝类别含量高的特性与斑节对虾一致。

    GC两碱基的重复拷贝类别在所有已经研究过的生物基因组中的含量都很少。到目前为止,在中国对虾基因组的研究中,除了徐鹏(2001)等发现了一个(GCG)3的重复(Genbank登录号:AF295791)外,还未发现完全由GC重复拷贝类别组成的重复序列的存在。在本研究中只发现1个核心序列为GC的重复拷贝类别,占两碱基总重复序列数目的0.23%(注册号为EU113241)。Schorderet等(1992)研究了6种脊椎动物基因组后,对此的解释是:由于基因组DNA中的CpG的甲基化,使之成为一个突变的热点,因为甲基化的胞苷酸C很容易经过脱氨基作用转变成胸腺嘧啶T,而少量的GC又是维持DNA热力学稳定性所必须的。这样的结果是GC重复减少,同时突变后的序列TG(即AC类型)相应增加,这可以一定程度上解释人类基因组中AC重复最多的现象。三疣梭子蟹基因组中GC含量如此稀少,笔者认为可能与此有关,因为与之相对应的突变类型AC重复的量仅次于AG重复。

221381
领取福利

微信扫码领取福利

微信扫码分享