2.Fasta.md

FASTA 是一種用於儲存核酸或蛋白質序列的純文字格式,廣泛應用於生物資訊分析中,適合用來儲存參考基因組、蛋白質序列、轉錄本等。


一、FASTA 結構說明

FASTA 格式由多筆記錄組成,每筆記錄包含兩個基本部分:

  1. 標頭行(Header line)

    • > 字元開頭

    • 接續為序列識別碼(ID)與選擇性註解

    • 範例:

      >chr1 Homo sapiens chromosome 1
  2. 序列內容(Sequence lines)

    • 可跨多行呈現,每行通常限制在 60~80 個字元內

    • 僅包含字母(A/T/C/G/U/N 對於核酸;20 種標準胺基酸對於蛋白質)

    • 範例:

      ATGCGTACGTAGCTAGCTAGCTAGCTAGCTA
      GTAGCTAGCTGACTGACTGATCGTACTGATC

二、常見用途

  • 參考基因組檔案(如 human_g1k_v37.fasta)

  • 蛋白質資料庫(如 UniProt、NR)

  • 轉錄體組裝結果(如 Trinity.fasta)

  • 特定基因序列輸入於比對工具(如 BLAST、BWA)


三、FASTA 命名規範

雖無嚴格標準,但為利下游工具識別,建議:

  • 標頭行只含英文與底線,避免空格與特殊符號

  • 使用一致命名方式,例如:

    >geneA_transcript1
    >contig_00001
    >protein_XYZ

四、FASTA 與其他格式區別

格式
是否含品質分數
是否可儲存對齊結果
是否支援多筆序列
常見用途

FASTA

序列儲存與查詢

FASTQ

原始讀段儲存與品質評估

SAM/BAM

否(每列一筆對齊)

對齊結果記錄


FASTA 格式簡單易讀,是生物資訊資料交換中最基礎的格式之一,建議掌握其結構並善用於序列比對、註解、資料儲存等場景。

Last updated