人類遺傳分析中的新技術(shù)
人類遺傳學(xué)的發(fā)展得益于過去十年中脫氧核糖核酸(DNA)分析技術(shù)的巨大進(jìn)步。由于數(shù)據(jù)采集速率的大大加快,人們針對龐大的數(shù)據(jù)量發(fā)展了半自動(dòng)化的方法用于原始數(shù)據(jù)采集、基因型分析和DNA直接測序。本文將介紹幾種與實(shí)驗(yàn)設(shè)計(jì)和分析相關(guān)的最新進(jìn)展,這些方法在家族遺傳性致病基因的發(fā)現(xiàn)方面有著重要的應(yīng)用前景。
1 方法概述
1.1 微衛(wèi)星基因分型
微衛(wèi)星標(biāo)記,又叫短串聯(lián)重復(fù)序列(STRs),由連續(xù)的單一序列重復(fù)單元(如CACACA...或者GATAGATAGATA...)構(gòu)成[1]。人類基因組包含成千上萬的該種核苷酸二倍、三倍和四倍重復(fù)序列[2]。圍繞單一序列設(shè)計(jì)的聚合酶鏈反應(yīng)(PCR)引物可以準(zhǔn)確地?cái)U(kuò)增特異性微衛(wèi)星序列。許多這樣的位點(diǎn)都具有多態(tài)性,用于分隔具有眾多重復(fù)長度的等位基因。這些PCR擴(kuò)增產(chǎn)物可以用作對應(yīng)染色體片段的遺傳標(biāo)記,使之能夠按照家族進(jìn)行分類。微衛(wèi)星的長度通常在幾個(gè)減數(shù)分裂期內(nèi)保持不變,從而可以作為某些家族性疾病連鎖分析的有效工具[3]。
目前微衛(wèi)星的使用還面臨著一些技術(shù)難題[4]。反復(fù)使用的PCR酶易于使合成的產(chǎn)物不保真,導(dǎo)致產(chǎn)生一系列比全長略小的序列,通常這些序列與原序列僅相差一個(gè)重復(fù)單位[5]。除此之外,更為嚴(yán)重的是這些酶可能在產(chǎn)物3′端添加一個(gè)額外的非模板核苷酸。如果額外增加的核苷酸發(fā)生了突變就會(huì)導(dǎo)致峰分裂現(xiàn)象的出現(xiàn),從而產(chǎn)生沒有實(shí)際應(yīng)用價(jià)值的雙核苷酸標(biāo)記物(dinucleotide markers)。減少變異的一種方法是在一條PCR擴(kuò)增引物5′端添加一個(gè)獨(dú)特的序列標(biāo)簽。進(jìn)行熒光基因分析時(shí),這些帶有標(biāo)簽的引物會(huì)作為非標(biāo)記引物來使用(經(jīng)常但不總是作為反向引物)。盡管這種序列標(biāo)簽的具體反應(yīng)機(jī)理未明,但仍有幾個(gè)標(biāo)簽已見報(bào)道[6,7]。
作者已經(jīng)用特異添加腺苷酸的PCR和普通的標(biāo)準(zhǔn)PCR實(shí)驗(yàn)證實(shí)了這種序列標(biāo)簽的有效性。如圖1a和b所示,兩種不同雙核苷酸標(biāo)記物的差異在于:當(dāng)使用默認(rèn)設(shè)計(jì)的引物時(shí),其對所用PCR試劑盒的敏感性不同?墒牵绻谖礃(biāo)記引物中加入5′標(biāo)簽則可以減少兩種標(biāo)記物的變異,從而減少每一種標(biāo)記物出現(xiàn)問題的幾率。這提示我們:作為一種常規(guī)的防范手段,應(yīng)當(dāng)在所有常規(guī)的微衛(wèi)星標(biāo)記中加入這種標(biāo)簽。
1.2 SNP 基因分型
單核苷酸多態(tài)性(SNPs)和微衛(wèi)星一樣可用于遺傳圖譜的繪制。由于基因經(jīng)常連鎖在一起遺傳,而連鎖的基因并非完全隨機(jī)地組成單體型,因此SNPs的內(nèi)在信息量比微衛(wèi)星攜帶的信息量要少些。然而協(xié)同分析的眾多SNPs所攜帶的信息則類似或多于微衛(wèi)星。作為人類基因組單體型圖 (HapMap)計(jì)劃的一部分,對幾百萬個(gè)SNPs進(jìn)行了基因分型,并提供了幾種不同人種的等位基因頻率[8]。目前,用于SNP的高密度高通量芯片已經(jīng)產(chǎn)業(yè)化,可用于傳統(tǒng)家族性單基因紊亂的基因缺陷的遺傳圖譜繪制。
為了比較高通量SNP芯片和微衛(wèi)星標(biāo)記對家族性遺傳圖譜的有效性,作者利用大量不帶D型隱性尼曼-皮克病的新斯科舍阿卡迪亞家族成員驗(yàn)證一個(gè)已知的遺傳連鎖[9,10]。通過原位克隆鑒定得知潛在的致病基因是NPC1(OMIM#257220)[11],從而在新斯科舍家族患病個(gè)體中證實(shí)了NCPI存在著純合子突變[12]。作者又利用Xba 50K芯片(Affymetrix公司,圣克拉拉,加拿大)對兩位患病的遠(yuǎn)房親屬和一位該家族未患病親屬進(jìn)行基因分型(見圖2)。如表1所示,兩位患者 18號染色體上相同的等位基因中,具有共享純合性的SNPs的最大拉伸長度約為7.7M堿基對,其中包括圍繞NPC1的位于19.4M堿基對處的71個(gè)連續(xù)的SNPs。未患病親屬樣本2244中有30個(gè)標(biāo)記與患病者不一致,某些是雜合子而另一些是其他SNP等位基因的純合子(該數(shù)據(jù)未顯示)。由此可見 SNP芯片可以省時(shí)、省力、省錢地成功復(fù)制整個(gè)家族樣品的連鎖圖譜。
由于跨復(fù)合染色體的連續(xù)SNPs在絕對長度和數(shù)量上存在微小差異,所以作者用Xba和Hind芯片測定全部116 000個(gè)標(biāo)記位點(diǎn)的分布。間隙長度的分配呈雙模態(tài)分布,約在400和22 000堿基對處出現(xiàn)兩個(gè)峰。除著絲粒外,2~3M堿基對長度之間存在3個(gè)間隙, 而1~2M堿基對長度之間還存在33個(gè)間隙。有些間隙處于末端著絲粒處,有些則位于基因相對稀少的區(qū)域,而其他的間隙可能由于信息SNPs附近缺少合適的抑制位點(diǎn)而處于基因密集區(qū)。 1~3M堿基對范圍內(nèi)的間隙數(shù)量提示我們應(yīng)當(dāng)充分注意對高密度連鎖不平衡實(shí)驗(yàn)結(jié)果的解釋。目前,最新出現(xiàn)的超高通量500K SNP板正變得越來越有用,對于某些實(shí)驗(yàn)設(shè)計(jì)而言,與一般的芯片相比其具有更大的優(yōu)越性。
1.3 突變檢測
基因發(fā)現(xiàn)實(shí)驗(yàn)的最終步驟是突變檢測。盡管像變性高效液相色譜(dHPLC)等間接物理化學(xué)檢測方法可以用于突變檢測,但是DNA測序仍然是序列變異(也就是突變)檢測的最權(quán)威的標(biāo)準(zhǔn)。手工檢查大量序列信息不僅效率低下,而且由于人為誤差容易遺失突變信息。幾種半自動(dòng)化方法已經(jīng)被發(fā)展用于滿足分子遺傳分析逐漸增長的需要 [13-17]。
作者對用于序列變異檢測的突變檢測軟件(MutSurv,SoftGenetics公司,州立學(xué)院,巴拿馬)進(jìn)行了評估。利用幾個(gè)含有已知單堿基改變、插入和缺失變異的樣本驗(yàn)證了該軟件的有效性。該軟件對樣品標(biāo)記進(jìn)行排列和比較以提供參考或得到內(nèi)在的一致序列標(biāo)記和執(zhí)行檢測運(yùn)算法則,并通過質(zhì)量得分、不同色譜圖和繪圖輸出等方式報(bào)告潛在突變/多態(tài)性。如果向其提供包括外顯子和內(nèi)含子位點(diǎn)在內(nèi)的開放閱讀框和已知變異,則可利用該軟件輸出和得到染色體組信息。
利用MutSurv軟件對被測樣品中所有已被鑒定的變異進(jìn)行測定的結(jié)果在圖3a和b中給出。在單核苷酸變異的情況下,軟件能標(biāo)出突變并方便地闡述該突變對潛在基因編碼蛋白可能的影響。MutSurv軟件在幾種情況下都能鑒定出dbSNP數(shù)據(jù)庫中標(biāo)注的已知SNPs。通過對軟件中沿外顯子繪制的平面圖與UCSC(加利福尼亞大學(xué),Santa Cruz公司)基因組瀏覽器界面進(jìn)行比較,可以非常容易地鑒定出已知的SNPs。在有插入和缺失的情況下,該軟件不僅能夠自動(dòng)檢測幾個(gè)不同的突變,而且能對結(jié)果進(jìn)行去卷積,從而準(zhǔn)確地描述出插入和缺失的確切序列(見圖3c),得到的結(jié)果可通過手工檢查進(jìn)行最終驗(yàn)證。
MutSurv軟件標(biāo)出了有問題的序列特別是閱讀框末端附近這些序列中的幾個(gè)假陽性結(jié)果。軟件的新版本允許對末端進(jìn)行剪切,從而減少假陽性的發(fā)生。盡管某些擴(kuò)增子在正反兩相上獲得的序列可能存在問題,不過正反兩種方向進(jìn)行的突變檢測仍然可以縮小低質(zhì)量序列中假陽性的影響范圍。
1.4 新的遺傳計(jì)劃
作者最近致力于從事總體范圍內(nèi)的基因探索,努力查明并從分子水平描述加拿大東部省份許多單基因人類紊亂病的特征(見圖4)。這些工作采用本文描述的技術(shù)極大地提高了工作效率。將來可能也需要對這些技術(shù)進(jìn)行一些改進(jìn),包括制備更高通量的SNP芯片;降低SNP芯片和 DNA測序的成本;以及減少個(gè)別先證者(指不依賴于家庭中其他成員而被獨(dú)立檢出的病例)整個(gè)基因組或整個(gè)外顯子測序所需的最終成本。
2 方法應(yīng)用
2.1 樣品采集
利用標(biāo)準(zhǔn)方法從全血或者唾液中提取DNA。歷史上除了抽血取樣外還有口腔取樣和采用血液污跡的方法,不過后兩種方法很不穩(wěn)定而且 DNA產(chǎn)量低下。利用The Oragene saliva kit (DNA Genotek公司,渥太華,安大略湖,加拿大)對樣品進(jìn)行測試。收集6個(gè)不同個(gè)體的樣品,基因組DNA的產(chǎn)量為每人20~320μg不等(2 mL唾液樣品)。通過凝膠電泳可知未消化的多是高分子質(zhì)量的DNA?赡苡捎谔腔蛑|(zhì)成分的殘留導(dǎo)致某些樣品存在輕度渾濁,A260/A280值為1.4~1.6(經(jīng)A320校對)。通過對該方法進(jìn)行微小改進(jìn),包括用70%酒精沖洗,就可以提高 A260/A280值。這樣只需10 ng樣品進(jìn)行PCR反應(yīng)就可以很好地用于微衛(wèi)星基因分型和DNA測序。盡管作者沒有對全基因組擴(kuò)增產(chǎn)生的DNA長期儲存和使用進(jìn)行系統(tǒng)地評估,但應(yīng)注意,已有廠家用Qiagen(巴倫西亞,加拿大)試劑盒對DNA進(jìn)行重新純化后用Affymetrix高密度SNP芯片證明了該方法的有效性。
所使用的全部樣品均未違反相關(guān)的倫理制度,并征得了患者本人的同意。
2.2 微衛(wèi)星基因分型
微衛(wèi)星標(biāo)記所需的引物可從GDB數(shù)據(jù)庫獲得。常規(guī)熒光微衛(wèi)星標(biāo)記由原始基因組序列使用Tandem Repeat Finder [18](與UCSC基因組瀏覽器結(jié)合[19,20])、Repeat Masker[21,22]和Primer 3[23]軟件發(fā)展而來。每個(gè)得到的擴(kuò)增子都帶有一個(gè)標(biāo)記熒光的正向引物和成對的未標(biāo)記反向引物,該反向引物5′末端帶或不帶5′-GTTTCTT-3′ 序列標(biāo)簽都可以。對兩種不同的PCR循環(huán)條件進(jìn)行實(shí)驗(yàn)。普通的標(biāo)準(zhǔn)條件為:95 ℃(3 min)(循環(huán)1次);95 ℃(1 min),55~60 ℃(1 min),72℃(1 min)(循環(huán)30次);72 ℃(2 min)(循環(huán)1次)。特異添加腺苷酸的PCR反應(yīng)條件為:95 ℃(5 min)(循環(huán)1次);94 ℃(15 s),55℃(15 s),72 ℃(30 s)(循環(huán)10次);89 ℃(15 s),55 ℃(15 s),72 ℃(30 s)(循環(huán)20次);72 ℃(30 min)(循環(huán)1次)[7]。擴(kuò)增后用ABI 377在6%聚丙烯酰胺上進(jìn)行電泳分析;再用ABI GenScan軟件得到相應(yīng)譜圖(ABI 377和Gen-Scan購自應(yīng)用生物系統(tǒng)公司,福斯特市,加拿大)。然后通過GeneMarker軟件(SoftGenetics公司)對基因型譜圖進(jìn)行分析。基因型名稱以文本形式輸出并用PedCheck軟件[24]進(jìn)行遺傳驗(yàn)證。
2.3 SNP基因分型
加拿大多倫多大學(xué)兒童醫(yī)院的微陣列研究室通過Xba 50K SNP芯片對基因型進(jìn)行收集。利用Affymetrix軟件得到基因型的名稱并以電子表格的形式從研究室輸出。有58 960 個(gè)SNPs被收集,其中58 494個(gè)在人基因組中的位點(diǎn)是唯一的。純合子SNP等位基因的長度可以通過對不同國家的數(shù)據(jù)庫進(jìn)行直接查詢而得到,并對其物理位置或連鎖純合的狀態(tài)一致性 (identical by state, IBS) 標(biāo)記數(shù)量進(jìn)行儲存。結(jié)果中每個(gè)染色體著絲粒間隔的缺失序列和標(biāo)記信息已被人工刪除。
轉(zhuǎn)速計(jì)| 水份計(jì)| 分析儀| 溶氧計(jì)| 電導(dǎo)度計(jì)| PH計(jì)| 酸堿計(jì)| 糖度計(jì)| 鹽度計(jì)| 酸堿度計(jì)| 電導(dǎo)計(jì)| 水分測定儀| 濁度計(jì)| 色度計(jì)| 粘度計(jì)| 滴定儀| 密度計(jì)| 熱流計(jì)| 濃度計(jì)|
2.4 突變檢測
熒光DNA測序的掃描文件通過在ABI 377上進(jìn)行電泳而獲得。將該文件輸入到Mutation Suveyor軟件中以對序列變異進(jìn)行分析。廠家的數(shù)據(jù)庫地址或者國立生物技術(shù)信息中心(NCBI)可以提供基因組外顯子/內(nèi)含子和蛋白質(zhì)編碼信息。合成的野生型參照序列(wild-type reference sequence)掃描文件也可通過該軟件由相同的基因組序列產(chǎn)生。
,