BED Format

BED(Browser Extensible Data)格式是由 UCSC Genome Browser 所設計的一種文字型區間檔案格式,廣泛應用於基因體學研究中,用於描述基因組上的特定區間(intervals),如基因位置、外顯子、突變區域或功能標記。其特點是結構簡單、可讀性高,並能被多種分析工具(如 BEDtoolsIGV)直接使用。


一、BED 與 BAM/SAM 的比較

格式
格式類型
可讀性
儲存效率
常見用途

SAM

純文字格式

較低

序列對齊檔案檢視與除錯

BAM

二進位格式

低(需工具讀取)

序列對齊結果儲存與分析

BED

純文字格式

基因組區間描述與操作


二、BED 檔案結構

BED 檔案最基本由 三個欄位(BED3) 組成:

  1. chrom:染色體名稱(如 chr1chrX

  2. chromStart:起始位置(0-based,包含)

  3. chromEnd:結束位置(不包含)

範例:

chr1    1000    5000
chr2    2000    6000

此外,BED 格式最多可以擴展至 12 個欄位(BED12),常見欄位包括:

  • name:區間名稱(如基因名稱)

  • score:分數(0–1000,用於顯示強度或權重)

  • strand:正負股(+-

  • thickStart/thickEnd:加粗顯示區間(常用於標示 CDS)

  • itemRgb:顏色設定

  • blockCount、blockSizes、blockStarts:描述外顯子區段


三、常見應用工具

  • BEDtools:區間交集、合併、覆蓋率計算、隨機抽樣

  • UCSC Genome Browser:可直接讀取 BED 作為 track 顯示

  • IGV:可視化基因組區間註解


四、BED 的優勢與注意事項

優勢:

  • 簡單直觀,容易建立與修改

  • 純文字格式,與多數工具高度相容

  • 適合快速描述與運算基因組區間

注意事項:

  • chromStart0-based,而 chromEnd1-based(不包含),需特別留意

  • 一般不包含表頭(header)

  • 若資料量大,建議壓縮(.bed.gz)並建立索引(如 tabix


BED 是基因體學研究中最常用的區間檔案格式之一,其靈活性與高相容性,使其成為基因組註解、變異標記與區間操作的標準選擇。

Last updated