1.Data_format.md

在次世代定序(Next-Generation Sequencing, NGS)分析中,原始資料與分析結果會以多種檔案格式儲存,各自對應不同階段與應用需求。以下介紹數種常見格式與其基本結構。


一、FASTQ 格式

  • 用途:儲存定序儀產出的原始序列與品質資訊

  • 結構:每筆reads由四行組成

    @SEQ_ID
    GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATTTTGGGTTTAAAGGGTGCCCGATAG
    +
    !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
    • 第一行:以 @ 開頭,後面為reads ID

    • 第二行:核酸序列(A/T/C/G/N)

    • 第三行:以 + 開頭,可重複 ID 或留空

    • 第四行:品質分數(Phred score),以 ASCII 字元表示


二、FASTA 格式

  • 用途:儲存核酸或胺基酸序列(不含品質資訊)

  • 結構:每筆序列包含兩行以上

    >sequence_1
    ATGCGTACGTAGCTAGCTAGCTAGCTAGCTA
    • 第一行:以 > 開頭,後面為序列 ID 或描述

    • 第二行起:為序列內容,可為多行


三、SAM / BAM 格式

  • 用途:儲存與參考基因組對齊後的序列資訊

  • 差異

    • SAM:文字格式,易於閱讀但檔案較大

    • BAM:SAM 的二進位壓縮格式,適合儲存與處理

  • 內容欄位:讀段 ID、對齊位置、CIGAR 字串、MAPQ、序列等


四、VCF(Variant Call Format)格式

  • 用途:記錄變異資訊(如 SNP、Indel 等)

  • 常見欄位

    • 染色體(CHROM)、位置(POS)

    • 參考鹼基(REF)、變異鹼基(ALT)

    • 品質分數(QUAL)、過濾標記(FILTER)、註解欄位(INFO)

  • 應用:可搭配 ANNOVAR、VEP 等工具進行功能註解與臨床意義分析


五、GTF / GFF 格式

  • 用途:儲存基因註解資料,例如基因、外顯子、轉錄本等結構資訊

  • 差異

    • GTF:格式嚴謹,常見於 Ensembl 資料庫

    • GFF:結構較彈性,支援更多註解欄位

  • 應用:常見於 RNA-Seq 分析、基因結構視覺化、轉錄本組裝等流程


六、格式比較表

格式
用途
特色與備註

FASTQ

原始序列與品質資訊

每筆序列佔四行,包含 Phred 品質分數

FASTA

序列資料儲存

不含品質資訊,適用於參考基因組或蛋白質序列

SAM / BAM

對齊資訊儲存

BAM 為壓縮格式,適合儲存與後續分析

VCF

變異記錄

可註解並包含基因型資訊,常用於臨床與研究

GTF / GFF

基因註解資訊

常用於 RNA-Seq 與基因結構相關分析

Last updated