3.Fastq.md
FASTQ 格式是次世代定序(NGS)中最常見的原始輸出格式之一,用於儲存每筆定序讀段(read)的核酸序列及其對應的品質分數。此格式結合了 FASTA 格式的序列資訊與品質值資訊,便於後續分析。
一、FASTQ 結構說明
每筆讀段使用四行表示,其格式如下:
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATTTTGGGTTTAAAGGGTGCCCGATAG
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
四行分別意義:
第一行:以
@
開頭,後接讀段識別碼(ID),可包含來源樣本、流道(lane)、定序方向等資訊。第二行:實際的核酸序列,由 A/T/C/G/N 組成。
第三行:分隔符號,以
+
開頭,後方可重複第一行的 ID,也可留空。第四行:品質分數(Phred Quality Score),每個字元代表對應序列中該位置的品質分數,以 ASCII 字元編碼。
二、Phred 品質分數(Phred Quality Score)
品質分數用來表示定序儀對該鹼基辨識的信心水準。公式如下:
Q = -10 * log10(P)
其中:
Q 為 Phred 分數
P 為該鹼基被錯誤辨識的機率
範例:
10
1 in 10
+
20
1 in 100
5
30
1 in 1000
?
40
1 in 10000
I
註:Illumina 平台常使用 Phred+33 編碼(ASCII 33~73)。
三、ASCII 編碼與 Phred 分數對照表(Phred+33)
!
33
0
"
34
1
#
35
2
$
36
3
%
37
4
&
38
5
'
39
6
(
40
7
)
41
8
*
42
9
+
43
10
,
44
11
-
45
12
.
46
13
/
47
14
0
48
15
1
49
16
2
50
17
3
51
18
4
52
19
5
53
20
6
54
21
7
55
22
8
56
23
9
57
24
:
58
25
;
59
26
<
60
27
=
61
28
>
62
29
?
63
30
@
64
31
A
65
32
B
66
33
C
67
34
D
68
35
E
69
36
F
70
37
G
71
38
H
72
39
I
73
40
四、FASTQ 變體與壓縮格式
變體:根據不同平台或歷史版本,可能出現 Phred+64 編碼(較舊)與 Phred+33 編碼(現行標準)
壓縮格式:大部分 FASTQ 檔案會使用 gzip 壓縮,副檔名為
.fastq.gz
五、應用與注意事項
應用:
原始序列品質評估(使用 FastQC)
資料剪裁與過濾(使用 Trimmomatic、Cutadapt)
後續比對與定量分析的輸入格式
注意事項:
FASTQ 檔案通常體積龐大,建議壓縮儲存
不同平台輸出格式可能略有差異,分析前需確認編碼方式
品質分數分析是確保資料準確性的第一步
FASTQ 檔案是 NGS 分析流程的起點,透過正確解讀與處理這些資料,可有效提升後續比對與變異分析的準確度。
Last updated