2.Fasta.md
FASTA 是一種用於儲存核酸或蛋白質序列的純文字格式,廣泛應用於生物資訊分析中,適合用來儲存參考基因組、蛋白質序列、轉錄本等。
一、FASTA 結構說明
FASTA 格式由多筆記錄組成,每筆記錄包含兩個基本部分:
標頭行(Header line):
以
>
字元開頭接續為序列識別碼(ID)與選擇性註解
範例:
>chr1 Homo sapiens chromosome 1
序列內容(Sequence lines):
可跨多行呈現,每行通常限制在 60~80 個字元內
僅包含字母(A/T/C/G/U/N 對於核酸;20 種標準胺基酸對於蛋白質)
範例:
ATGCGTACGTAGCTAGCTAGCTAGCTAGCTA GTAGCTAGCTGACTGACTGATCGTACTGATC
二、常見用途
參考基因組檔案(如 human_g1k_v37.fasta)
蛋白質資料庫(如 UniProt、NR)
轉錄體組裝結果(如 Trinity.fasta)
特定基因序列輸入於比對工具(如 BLAST、BWA)
三、FASTA 命名規範
雖無嚴格標準,但為利下游工具識別,建議:
標頭行只含英文與底線,避免空格與特殊符號
使用一致命名方式,例如:
>geneA_transcript1 >contig_00001 >protein_XYZ
四、FASTA 與其他格式區別
格式
是否含品質分數
是否可儲存對齊結果
是否支援多筆序列
常見用途
FASTA
否
否
是
序列儲存與查詢
FASTQ
是
否
是
原始讀段儲存與品質評估
SAM/BAM
否
是
否(每列一筆對齊)
對齊結果記錄
FASTA 格式簡單易讀,是生物資訊資料交換中最基礎的格式之一,建議掌握其結構並善用於序列比對、註解、資料儲存等場景。
Last updated