BED Format
BED(Browser Extensible Data)格式是由 UCSC Genome Browser 所設計的一種文字型區間檔案格式,廣泛應用於基因體學研究中,用於描述基因組上的特定區間(intervals),如基因位置、外顯子、突變區域或功能標記。其特點是結構簡單、可讀性高,並能被多種分析工具(如 BEDtools、IGV)直接使用。
一、BED 與 BAM/SAM 的比較
SAM
純文字格式
高
較低
序列對齊檔案檢視與除錯
BAM
二進位格式
低(需工具讀取)
高
序列對齊結果儲存與分析
BED
純文字格式
高
高
基因組區間描述與操作
二、BED 檔案結構
BED 檔案最基本由 三個欄位(BED3) 組成:
chrom:染色體名稱(如
chr1、chrX)chromStart:起始位置(0-based,包含)
chromEnd:結束位置(不包含)
範例:
chr1 1000 5000
chr2 2000 6000此外,BED 格式最多可以擴展至 12 個欄位(BED12),常見欄位包括:
name:區間名稱(如基因名稱)
score:分數(0–1000,用於顯示強度或權重)
strand:正負股(
+或-)thickStart/thickEnd:加粗顯示區間(常用於標示 CDS)
itemRgb:顏色設定
blockCount、blockSizes、blockStarts:描述外顯子區段
三、常見應用工具
BEDtools:區間交集、合併、覆蓋率計算、隨機抽樣
UCSC Genome Browser:可直接讀取 BED 作為 track 顯示
IGV:可視化基因組區間註解
四、BED 的優勢與注意事項
優勢:
簡單直觀,容易建立與修改
純文字格式,與多數工具高度相容
適合快速描述與運算基因組區間
注意事項:
chromStart為 0-based,而chromEnd為 1-based(不包含),需特別留意一般不包含表頭(header)
若資料量大,建議壓縮(
.bed.gz)並建立索引(如tabix)
BED 是基因體學研究中最常用的區間檔案格式之一,其靈活性與高相容性,使其成為基因組註解、變異標記與區間操作的標準選擇。
Last updated