人遺傳分析中的新技術
摘要: 作者介紹了幾種與實驗設計和分析相關的最新進展,這些方法在家族遺傳性致病基因的發(fā)現(xiàn)方面有著重要的應用前景。
人類遺傳學的發(fā)展得益于過去十年中脫氧核糖核酸(DNA)分析技術的巨大進步。由于數(shù)據(jù)采集速率的大大加快,人們針對龐大的數(shù)據(jù)量發(fā)展了半自動化的方法用于原始數(shù)據(jù)采集、基因型分析和DNA直接測序。本文將介紹幾種與實驗設計和分析相關的最新進展,這些方法在家族遺傳性致病基因的發(fā)現(xiàn)方面有著重要的應用前景。
1 方法概述
1.1 微衛(wèi)星基因分型
微衛(wèi)星標記,又叫短串聯(lián)重復序列(STRs),由連續(xù)的單一序列重復單元(如CACACA...或者GATAGATAGATA...)構成[1]。人類基因組包含成千上萬的該種核苷酸二倍、三倍和四倍重復序列[2]。圍繞單一序列設計的聚合酶鏈反應(PCR)引物可以準確地擴增特異性微衛(wèi)星序列。許多這樣的位點都具有多態(tài)性,用于分隔具有眾多重復長度的等位基因。這些PCR擴增產(chǎn)物可以用作對應染色體片段的遺傳標記,使之能夠按照家族進行分類。微衛(wèi)星的長度通常在幾個減數(shù)分裂期內(nèi)保持不變,從而可以作為某些家族性疾病連鎖分析的有效工具[3]。
目前微衛(wèi)星的使用還面臨著一些技術難題[4]。反復使用的PCR酶易于使合成的產(chǎn)物不保真,導致產(chǎn)生一系列比全長略小的序列,通常這些序列與原序列僅相差一個重復單位[5]。除此之外,更為嚴重的是這些酶可能在產(chǎn)物3′端添加一個額外的非模板核苷酸。如果額外增加的核苷酸發(fā)生了突變就會導致峰分裂現(xiàn)象的出現(xiàn),從而產(chǎn)生沒有實際應用價值的雙核苷酸標記物(dinucleotide markers)。減少變異的一種方法是在一條PCR擴增引物5′端添加一個獨特的序列標簽。進行熒光基因分析時,這些帶有標簽的引物會作為非標記引物來使用(經(jīng)常但不總是作為反向引物)。盡管這種序列標簽的具體反應機理未明,但仍有幾個標簽已見報道[6,7]。
作者已經(jīng)用特異添加腺苷酸的PCR和普通的標準PCR實驗證實了這種序列標簽的有效性。如圖1a和b所示,兩種不同雙核苷酸標記物的差異在于:當使用默認設計的引物時,其對所用PCR試劑盒的敏感性不同?墒牵绻谖礃擞浺镏屑尤5′標簽則可以減少兩種標記物的變異,從而減少每一種標記物出現(xiàn)問題的幾率。這提示我們:作為一種常規(guī)的防范手段,應當在所有常規(guī)的微衛(wèi)星標記中加入這種標簽。
1.2 SNP 基因分型
單核苷酸多態(tài)性(SNPs)和微衛(wèi)星一樣可用于遺傳圖譜的繪制。由于基因經(jīng)常連鎖在一起遺傳,而連鎖的基因并非完全隨機地組成單體型,因此SNPs的內(nèi)在信息量比微衛(wèi)星攜帶的信息量要少些。然而協(xié)同分析的眾多SNPs所攜帶的信息則類似或多于微衛(wèi)星。作為人類基因組單體型圖 (HapMap)計劃的一部分,對幾百萬個SNPs進行了基因分型,并提供了幾種不同人種的等位基因頻率[8]。目前,用于SNP的高密度高通量芯片已經(jīng)產(chǎn)業(yè)化,可用于傳統(tǒng)家族性單基因紊亂的基因缺陷的遺傳圖譜繪制。
為了比較高通量SNP芯片和微衛(wèi)星標記對家族性遺傳圖譜的有效性,作者利用大量不帶D型隱性尼曼-皮克病的新斯科舍阿卡迪亞家族成員驗證一個已知的遺傳連鎖[9,10]。通過原位克隆鑒定得知潛在的致病基因是NPC1(OMIM#257220)[11],從而在新斯科舍家族患病個體中證實了NCPI存在著純合子突變[12]。作者又利用Xba 50K芯片(Affymetrix公司,圣克拉拉,加拿大)對兩位患病的遠房親屬和一位該家族未患病親屬進行基因分型(見圖2)。如表1所示,兩位患者 18號染色體上相同的等位基因中,具有共享純合性的SNPs的最大拉伸長度約為7.7M堿基對,其中包括圍繞NPC1的位于19.4M堿基對處的71個連續(xù)的SNPs。未患病親屬樣本2244中有30個標記與患病者不一致,某些是雜合子而另一些是其他SNP等位基因的純合子(該數(shù)據(jù)未顯示)。由此可見 SNP芯片可以省時、省力、省錢地成功復制整個家族樣品的連鎖圖譜。
由于跨復合染色體的連續(xù)SNPs在絕對長度和數(shù)量上存在微小差異,所以作者用Xba和Hind芯片測定全部116 000個標記位點的分布。間隙長度的分配呈雙模態(tài)分布,約在400和22 000堿基對處出現(xiàn)兩個峰。除著絲粒外,2~3M堿基對長度之間存在3個間隙, 而1~2M堿基對長度之間還存在33個間隙。有些間隙處于末端著絲粒處,有些則位于基因相對稀少的區(qū)域,而其他的間隙可能由于信息SNPs附近缺少合適的抑制位點而處于基因密集區(qū)。 1~3M堿基對范圍內(nèi)的間隙數(shù)量提示我們應當充分注意對高密度連鎖不平衡實驗結果的解釋。目前,最新出現(xiàn)的超高通量500K SNP板正變得越來越有用,對于某些實驗設計而言,與一般的芯片相比其具有更大的優(yōu)越性。電表 | 壓線鉗 | 溫度記錄儀 | 紅外線測溫儀 | 滴定儀 | 臭氧檢測儀 | 采樣儀 | 電壓計 | 噪音計 | 光度計 | 溫度探頭 | 硬度計 | 水份計 | 紅外線溫度計 | 壓力表 | 濁度計
1.3 突變檢測
基因發(fā)現(xiàn)實驗的最終步驟是突變檢測。盡管像變性高效液相色譜(dHPLC)等間接物理化學檢測方法可以用于突變檢測,但是DNA測序仍然是序列變異(也就是突變)檢測的最權威的標準。手工檢查大量序列信息不僅效率低下,而且由于人為誤差容易遺失突變信息。幾種半自動化方法已經(jīng)被發(fā)展用于滿足分子遺傳分析逐漸增長的需要 [13-17]。
作者對用于序列變異檢測的突變檢測軟件(MutSurv,SoftGenetics公司,州立學院,巴拿馬)進行了評估。利用幾個含有已知單堿基改變、插入和缺失變異的樣本驗證了該軟件的有效性。該軟件對樣品標記進行排列和比較以提供參考或得到內(nèi)在的一致序列標記和執(zhí)行檢測運算法則,并通過質(zhì)量得分、不同色譜圖和繪圖輸出等方式報告潛在突變/多態(tài)性。如果向其提供包括外顯子和內(nèi)含子位點在內(nèi)的開放閱讀框和已知變異,則可利用該軟件輸出和得到染色體組信息。
利用MutSurv軟件對被測樣品中所有已被鑒定的變異進行測定的結果在圖3a和b中給出。在單核苷酸變異的情況下,軟件能標出突變并方便地闡述該突變對潛在基因編碼蛋白可能的影響。MutSurv軟件在幾種情況下都能鑒定出dbSNP數(shù)據(jù)庫中標注的已知SNPs。通過對軟件中沿外顯子繪制的平面圖與UCSC(加利福尼亞大學,Santa Cruz公司)基因組瀏覽器界面進行比較,可以非常容易地鑒定出已知的SNPs。在有插入和缺失的情況下,該軟件不僅能夠自動檢測幾個不同的突變,而且能對結果進行去卷積,從而準確地描述出插入和缺失的確切序列(見圖3c),得到的結果可通過手工檢查進行最終驗證。
MutSurv軟件標出了有問題的序列特別是閱讀框末端附近這些序列中的幾個假陽性結果。軟件的新版本允許對末端進行剪切,從而減少假陽性的發(fā)生。盡管某些擴增子在正反兩相上獲得的序列可能存在問題,不過正反兩種方向進行的突變檢測仍然可以縮小低質(zhì)量序列中假陽性的影響范圍。
1.4 新的遺傳計劃
作者最近致力于從事總體范圍內(nèi)的基因探索,努力查明并從分子水平描述加拿大東部省份許多單基因人類紊亂病的特征(見圖4)。這些工作采用本文描述的技術極大地提高了工作效率。將來可能也需要對這些技術進行一些改進,包括制備更高通量的SNP芯片;降低SNP芯片和 DNA測序的成本;以及減少個別先證者(指不依賴于家庭中其他成員而被獨立檢出的病例)整個基因組或整個外顯子測序所需的最終成本。
2 方法應用
2.1 樣品采集
利用標準方法從全血或者唾液中提取DNA。歷史上除了抽血取樣外還有口腔取樣和采用血液污跡的方法,不過后兩種方法很不穩(wěn)定而且 DNA產(chǎn)量低下。利用The Oragene saliva kit (DNA Genotek公司,渥太華,安大略湖,加拿大)對樣品進行測試。收集6個不同個體的樣品,基因組DNA的產(chǎn)量為每人20~320μg不等(2 mL唾液樣品)。通過凝膠電泳可知未消化的多是高分子質(zhì)量的DNA。可能由于糖或脂質(zhì)成分的殘留導致某些樣品存在輕度渾濁,A260/A280值為1.4~1.6(經(jīng)A320校對)。通過對該方法進行微小改進,包括用70%酒精沖洗,就可以提高 A260/A280值。這樣只需10 ng樣品進行PCR反應就可以很好地用于微衛(wèi)星基因分型和DNA測序。盡管作者沒有對全基因組擴增產(chǎn)生的DNA長期儲存和使用進行系統(tǒng)地評估,但應注意,已有廠家用Qiagen(巴倫西亞,加拿大)試劑盒對DNA進行重新純化后用Affymetrix高密度SNP芯片證明了該方法的有效性。
所使用的全部樣品均未違反相關的倫理制度,并征得了患者本人的同意。
2.2 微衛(wèi)星基因分型
微衛(wèi)星標記所需的引物可從GDB數(shù)據(jù)庫獲得。常規(guī)熒光微衛(wèi)星標記由原始基因組序列使用Tandem Repeat Finder [18](與UCSC基因組瀏覽器結合[19,20])、Repeat Masker[21,22]和Primer 3[23]軟件發(fā)展而來。每個得到的擴增子都帶有一個標記熒光的正向引物和成對的未標記反向引物,該反向引物5′末端帶或不帶5′-GTTTCTT-3′ 序列標簽都可以。對兩種不同的PCR循環(huán)條件進行實驗。普通的標準條件為:95 ℃(3 min)(循環(huán)1次);95 ℃(1 min),55~60 ℃(1 min),72℃(1 min)(循環(huán)30次);72 ℃(2 min)(循環(huán)1次)。特異添加腺苷酸的PCR反應條件為:95 ℃(5 min)(循環(huán)1次);94 ℃(15 s),55℃(15 s),72 ℃(30 s)(循環(huán)10次);89 ℃(15 s),55 ℃(15 s),72 ℃(30 s)(循環(huán)20次);72 ℃(30 min)(循環(huán)1次)[7]。擴增后用ABI 377在6%聚丙烯酰胺上進行電泳分析;再用ABI GenScan軟件得到相應譜圖(ABI 377和Gen-Scan購自應用生物系統(tǒng)公司,福斯特市,加拿大)。然后通過GeneMarker軟件(SoftGenetics公司)對基因型譜圖進行分析;蛐兔Q以文本形式輸出并用PedCheck軟件[24]進行遺傳驗證。
2.3 SNP基因分型
加拿大多倫多大學兒童醫(yī)院的微陣列研究室通過Xba 50K SNP芯片對基因型進行收集。利用Affymetrix軟件得到基因型的名稱并以電子表格的形式從研究室輸出。有58 960 個SNPs被收集,其中58 494個在人基因組中的位點是唯一的。純合子SNP等位基因的長度可以通過對不同國家的數(shù)據(jù)庫進行直接查詢而得到,并對其物理位置或連鎖純合的狀態(tài)一致性 (identical by state, IBS) 標記數(shù)量進行儲存。結果中每個染色體著絲粒間隔的缺失序列和標記信息已被人工刪除。
2.4 突變檢測
熒光DNA測序的掃描文件通過在ABI 377上進行電泳而獲得。將該文件輸入到Mutation Suveyor軟件中以對序列變異進行分析。廠家的數(shù)據(jù)庫地址或者國立生物技術信息中心(NCBI)可以提供基因組外顯子/內(nèi)含子和蛋白質(zhì)編碼信息。合成的野生型參照序列(wild-type reference sequence)掃描文件也可通過該軟件由相同的基因組序列產(chǎn)生。