基本介紹
1. SAGE的原理和實驗路線。
1.1 SAGE的原理 SAGE的主要依據(jù)有兩個。
第一,一個9~10堿基的短核苷酸序列標(biāo)簽包含有足夠的信息,足以特異性地確定某一種轉(zhuǎn)錄本。例如,一個9堿基的序列能有四的9次方,即262144種不同的排列組合,而人類基因組估計僅能編碼80000種轉(zhuǎn)錄本,所以理論上每一個9堿基標(biāo)簽?zāi)軌虼硪环N轉(zhuǎn)錄本的特征序列。
第二,如果將短片段標(biāo)簽相互連接、集中形成長的DNA分子,則對該克隆進(jìn)行測序?qū)⒌玫酱罅窟B續(xù)的單個標(biāo)簽,并能以連續(xù)的數(shù)據(jù)形式輸入計算機(jī)中進(jìn)行處理,這樣就可以對數(shù)以千計的mRNA轉(zhuǎn)錄本進(jìn)行分析。
第三,各轉(zhuǎn)錄本的表達(dá)水平可以用特定標(biāo)簽被測得的次數(shù)定量。
1.2 SAGE的實驗路線。
如圖1所示:
(1) 以biotinylated oligo(dT)為引物反轉(zhuǎn)錄合成cDNA,以一種限制性內(nèi)切酶(錨定酶 Anchoring Enzyme, AE)酶切。錨定酶要求至少在每一種轉(zhuǎn)錄物上有一個酶切位點,一般4堿基限制性內(nèi)切酶能達(dá)到這種要求,因為大多數(shù)mRNA要長于256堿基(44)。通過鏈霉抗生物素蛋白珠收集cDNA3′端部分。對每一個mRNA只收集其polyA尾與最近的酶切位點之間的片段。
(2) 將cDNA等分為A和B兩部分,分別連接接頭A或接頭B。每一種接頭都含有標(biāo)簽酶(Tagging Enzyme TE)酶切位點序列(標(biāo)簽酶是一種Ⅱ類限制酶,它能在距識別位點約20堿基的位置切割DNA雙鏈)。接頭的結(jié)構(gòu)為引物A/B序列+標(biāo)簽酶識別位點+錨定酶識別位點。
(3) 用標(biāo)簽酶酶切產(chǎn)生連有接頭的短cDNA片段(約9~10堿基),混合并連接兩個cDNA池的短cDNA片段,構(gòu)成雙標(biāo)簽后,以引物A和B擴(kuò)增。
(4) 用錨定酶切割擴(kuò)增產(chǎn)物,抽提雙標(biāo)簽(Ditga)片段并克隆、測序。一般每一個克隆最少有10個標(biāo)簽序列,克隆的標(biāo)簽數(shù)處于10~50之間。
(5) 對標(biāo)簽數(shù)據(jù)進(jìn)行處理。在所測序列中的每個標(biāo)簽間以錨定酶序列間隔,如圖1中錨定酶采用Nia Ⅲ限制性內(nèi)切酶,則以CATG/GTAC序列確定標(biāo)簽的起始位置和方向。圖1 基因表達(dá)系列分析(SAGE)示意 錨定酶(AE)和標(biāo)簽酶(TE)是NiaⅢ、FokI X和O分別表示不同標(biāo)簽的核苷酸順序 由于雙標(biāo)簽體的長度基本相同,不會導(dǎo)致擴(kuò)增的偏態(tài)性,同時數(shù)量和種類極大的轉(zhuǎn)錄物使同一種標(biāo)簽連接成雙標(biāo)簽體的可能性極小,這保證了克隆中的每一個標(biāo)簽代表一種轉(zhuǎn)錄物在當(dāng)前細(xì)胞狀態(tài)下的一個單位的轉(zhuǎn)錄產(chǎn)物,因此通過計算機(jī)軟件的分析能夠得到上千種基因表達(dá)產(chǎn)物的標(biāo)簽序列以及豐裕度。
雖然SAGE技術(shù)能夠盡可能全面地收集生物組織的基因表達(dá)信息,但也不能完全保證涵蓋所有的低豐度的mRNA。另外標(biāo)簽體的連接可能因接頭的干擾造成克隆所包含的標(biāo)簽體過少和克隆序列末端不能高效地連入載體。Powell利用磁性生物素珠特異吸附引物,避免了接頭的干擾(Powell 1998)。
2. SAGE的優(yōu)點和應(yīng)用
SAGE是一項快捷、有效的基因表達(dá)研究技術(shù),任何具備PCR和手動測序器具的實驗室都能使用這項技術(shù),結(jié)合自動測序技術(shù)能夠在3個小時內(nèi)完成1000個轉(zhuǎn)錄物的分析。另外使用不同的錨定酶(識別5~20堿基的Ⅱ類核酸內(nèi)切酶),使這項技術(shù)更具靈活性。
首先SAGE可應(yīng)用于人類基因組研究。1995年 Velculescu 等選擇Bsm F I和Nia Ⅲ分別作為標(biāo)簽酶和錨定酶,使用計算機(jī)對9堿基標(biāo)簽數(shù)據(jù)進(jìn)行分析并對GenBank檢索。在分析的1000個標(biāo)簽中,95%以上的標(biāo)簽?zāi)軌虼砦ㄒ坏霓D(zhuǎn)錄物。轉(zhuǎn)錄水平依標(biāo)簽出現(xiàn)頻率分為4類:① 超過三次 共380個,占45.2%;② 出現(xiàn)三次 共45個,占5.4%;③ 出現(xiàn)兩次 共351個,占7.6%;④ 僅出現(xiàn)過一次 共840個,占41.8%。所以SAGE能夠快速、全范圍提取生物體基因表達(dá)信息,對已知基因進(jìn)行量化分析。SAGE也能應(yīng)用于尋找新基因。雖然SAGE的標(biāo)簽僅包括9個堿基,但加上錨定酶的位點序列(4個堿基)共可確認(rèn)13堿基序列。如果一個標(biāo)簽檢索已知序列時沒有同源序列,13堿基片段就可作為探針篩選cDNA文庫得到cDNA克隆。
其次,SAGE可用于定量比較不同狀態(tài)下的組織細(xì)胞的特異基因表達(dá)。Stephen L等(1997)利用SAGE技術(shù)比較小鼠胚囊纖維細(xì)胞基因表達(dá)。小鼠胚囊纖維細(xì)胞能產(chǎn)生對溫度敏感的P53腫瘤抑制蛋白,就可通過SAGE分析,比較兩種不同溫度下基因表達(dá)的差異。從約15 000個分析的基因中,發(fā)現(xiàn)有14個基因的表達(dá)依賴于P53蛋白,有3個基因的表達(dá)與P53蛋白的失活顯著相關(guān)。Zhang等(1997)比較正常細(xì)胞和腫瘤細(xì)胞基因表達(dá)的300000個轉(zhuǎn)錄物發(fā)現(xiàn):在分析的4500種轉(zhuǎn)錄物中,至少有500種在兩種細(xì)胞組織中的表達(dá)有顯著差異。
第三,由于SAGE能夠同時最大限度的收集一種基因組的基因表達(dá)信息,轉(zhuǎn)錄物的分析數(shù)據(jù)可用來構(gòu)建染色體表達(dá)圖譜(Chromosomal expression map)。Victor等分析了酵母基因組的基因表達(dá),從60633個轉(zhuǎn)錄物中發(fā)現(xiàn)了4655個基因(表達(dá)水平分布在0.3~2.0/細(xì)胞),其中1981個基因已被確認(rèn)了功能,2684個還未被報道過。利用基因的表達(dá)信息與基因組圖譜融合繪制的染色體表達(dá)圖譜,使基因表達(dá)與物理結(jié)構(gòu)連系起來,更利于基因表達(dá)模式的研究。(Velculescu,1997) SAGE是基因表達(dá)定性和定量研究的一種有效工具,非常適合于比較不同發(fā)育狀態(tài)或疾病狀態(tài)的生物基因表達(dá)。
另外SAGE能夠接近完整地獲得基因組表達(dá)信息,能夠直接讀出任何一種類型細(xì)胞或組織的基因表達(dá)信息。SAGE技術(shù)的應(yīng)用將大大加快基因組研究的進(jìn)展,但必須和其它技術(shù)相互融合、互為補(bǔ)充,才能最大可能地進(jìn)行基因組基因表達(dá)的全面研究。