使用 DNA 序列的對映來回答生物學問題

許多生物學問題可以轉化為 DNA 測序問題。例如,如果你想知道基因的表達水平,你可以:將其 mRNA 複製到互補的 DNA 分子中,對每個產生的 DNA 分子進行測序,將這些序列對映回參考基因組,然後使用重疊的比對計數該基因作為其表達的代表(參見 RNA-seq )。其他示例包括:確定基因組3D 結構 ,定位組蛋白標記 ,以及對映 RNA-DNA 相互作用 。可以在此處找到通過巧妙的 DNA 測序方法解決的不是最新的生物學問題列表。

通常情況下,溼實驗室的科學家(穿著白大褂和護目鏡的人)將設計並進行實驗以獲得測序的 DNA 樣本。然後,生物資訊學家(使用計算機和喝咖啡的人)將這些序列 - 編碼為 FASTQ 檔案 - 並將它們對映到參考基因組,將結果儲存為 BAM 檔案

回到我們的基因表達示例,這就是生物資訊學家如何從 FASTQ 檔案(使用 Linux 系統)生成 BAM 檔案:

STAR --genomeDir path/to/reference/genome --outSAMtype BAM --readFilesIn my_reads.fastq

其中 STAR 是剪接耐受的對準器(對於可能存在於 mRNA 上的外顯子 - 內含子連線是必需的)。

PS:獲得對映結果後,創意部分開始。在這裡,生物資訊學家設計了統計測試,以檢查資料是否顯示出生物學上有意義的模式或由噪聲產生的虛假訊號。