1.Data_format.md
在次世代定序(Next-Generation Sequencing, NGS)分析中,原始資料與分析結果會以多種檔案格式儲存,各自對應不同階段與應用需求。以下介紹數種常見格式與其基本結構。
一、FASTQ 格式
用途:儲存定序儀產出的原始序列與品質資訊
結構:每筆reads由四行組成
@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATTTTGGGTTTAAAGGGTGCCCGATAG + !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
第一行:以
@
開頭,後面為reads ID第二行:核酸序列(A/T/C/G/N)
第三行:以
+
開頭,可重複 ID 或留空第四行:品質分數(Phred score),以 ASCII 字元表示
二、FASTA 格式
用途:儲存核酸或胺基酸序列(不含品質資訊)
結構:每筆序列包含兩行以上
>sequence_1 ATGCGTACGTAGCTAGCTAGCTAGCTAGCTA
第一行:以
>
開頭,後面為序列 ID 或描述第二行起:為序列內容,可為多行
三、SAM / BAM 格式
用途:儲存與參考基因組對齊後的序列資訊
差異:
SAM:文字格式,易於閱讀但檔案較大
BAM:SAM 的二進位壓縮格式,適合儲存與處理
內容欄位:讀段 ID、對齊位置、CIGAR 字串、MAPQ、序列等
四、VCF(Variant Call Format)格式
用途:記錄變異資訊(如 SNP、Indel 等)
常見欄位:
染色體(CHROM)、位置(POS)
參考鹼基(REF)、變異鹼基(ALT)
品質分數(QUAL)、過濾標記(FILTER)、註解欄位(INFO)
應用:可搭配 ANNOVAR、VEP 等工具進行功能註解與臨床意義分析
五、GTF / GFF 格式
用途:儲存基因註解資料,例如基因、外顯子、轉錄本等結構資訊
差異:
GTF:格式嚴謹,常見於 Ensembl 資料庫
GFF:結構較彈性,支援更多註解欄位
應用:常見於 RNA-Seq 分析、基因結構視覺化、轉錄本組裝等流程
六、格式比較表
FASTQ
原始序列與品質資訊
每筆序列佔四行,包含 Phred 品質分數
FASTA
序列資料儲存
不含品質資訊,適用於參考基因組或蛋白質序列
SAM / BAM
對齊資訊儲存
BAM 為壓縮格式,適合儲存與後續分析
VCF
變異記錄
可註解並包含基因型資訊,常用於臨床與研究
GTF / GFF
基因註解資訊
常用於 RNA-Seq 與基因結構相關分析
Last updated