3.Fastq.md

FASTQ 格式是次世代定序(NGS)中最常見的原始輸出格式之一,用於儲存每筆定序讀段(read)的核酸序列及其對應的品質分數。此格式結合了 FASTA 格式的序列資訊與品質值資訊,便於後續分析。


一、FASTQ 結構說明

每筆讀段使用四行表示,其格式如下:

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATTTTGGGTTTAAAGGGTGCCCGATAG
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

四行分別意義:

  1. 第一行:以 @ 開頭,後接讀段識別碼(ID),可包含來源樣本、流道(lane)、定序方向等資訊。

  2. 第二行:實際的核酸序列,由 A/T/C/G/N 組成。

  3. 第三行:分隔符號,以 + 開頭,後方可重複第一行的 ID,也可留空。

  4. 第四行:品質分數(Phred Quality Score),每個字元代表對應序列中該位置的品質分數,以 ASCII 字元編碼。


二、Phred 品質分數(Phred Quality Score)

品質分數用來表示定序儀對該鹼基辨識的信心水準。公式如下:

Q = -10 * log10(P)

其中:

  • Q 為 Phred 分數

  • P 為該鹼基被錯誤辨識的機率

範例:

Phred Q 值
錯誤機率(P)
ASCII 字元(Phred+33 編碼)

10

1 in 10

+

20

1 in 100

5

30

1 in 1000

?

40

1 in 10000

I

註:Illumina 平台常使用 Phred+33 編碼(ASCII 33~73)。


三、ASCII 編碼與 Phred 分數對照表(Phred+33)

ASCII 字元
ASCII 編碼值
對應 Phred 分數

!

33

0

"

34

1

#

35

2

$

36

3

%

37

4

&

38

5

'

39

6

(

40

7

)

41

8

*

42

9

+

43

10

,

44

11

-

45

12

.

46

13

/

47

14

0

48

15

1

49

16

2

50

17

3

51

18

4

52

19

5

53

20

6

54

21

7

55

22

8

56

23

9

57

24

:

58

25

;

59

26

<

60

27

=

61

28

>

62

29

?

63

30

@

64

31

A

65

32

B

66

33

C

67

34

D

68

35

E

69

36

F

70

37

G

71

38

H

72

39

I

73

40


四、FASTQ 變體與壓縮格式

  • 變體:根據不同平台或歷史版本,可能出現 Phred+64 編碼(較舊)與 Phred+33 編碼(現行標準)

  • 壓縮格式:大部分 FASTQ 檔案會使用 gzip 壓縮,副檔名為 .fastq.gz


五、應用與注意事項

應用:

  • 原始序列品質評估(使用 FastQC)

  • 資料剪裁與過濾(使用 Trimmomatic、Cutadapt)

  • 後續比對與定量分析的輸入格式

注意事項:

  • FASTQ 檔案通常體積龐大,建議壓縮儲存

  • 不同平台輸出格式可能略有差異,分析前需確認編碼方式

  • 品質分數分析是確保資料準確性的第一步


FASTQ 檔案是 NGS 分析流程的起點,透過正確解讀與處理這些資料,可有效提升後續比對與變異分析的準確度。

Last updated