Arquivos FASTQ

Os arquivos FASTQ são a base da análise de sequenciamento de nova geração. Compreender como interpretar essas pontuações e quando aplicar o corte (trimming) é essencial para garantir análises subsequentes precisas em genômica e bioinformática.

Tamara Frontanilla, PhD
10 min read

O que é um FASTQ?

Um arquivo FASTQ armazena leituras de DNA/RNA e sua qualidade por base. Sempre existe pelo menos um arquivo FASTQ. Se o experimento foi paired-end, haverá dois arquivos (R1 e R2). Se foi single-end, haverá apenas um (R1).

Cada leitura ocupa 4 linhas:

  1. ID da leitura
  2. Sequência (A/C/G/T/N)
  3. Separador (+)
  4. Qualidade: uma string de caracteres ASCII, um por base, que codifica o score Phred (confiança do base-calling)

**Arquivos FASTQ quase sempre são entregues comprimidos como .fastq.gz.

EXEMPLO

@A00469:123:HGF2KDSXX:1:1101:10003:12345 1:N:0:ACGTAC
ACGTTCTGATGACCTTAGCA
+
IIHFGEFIIHDF>?=;:987
  • Linha 1: Identificador (instrumento, corrida, coordenadas, etc.). O 1 antes de :N: indica R1 (se fosse 2, seria R2).
  • Linha 2: Sequência (20 bases neste exemplo).
  • Linha 3: Separador (+).
  • Linha 4: Qualidade por base, com o mesmo comprimento da sequência (20 caracteres).

Como interpretar a qualidade por base?

Ela está relacionada à probabilidade de erro P da seguinte forma:

O score de qualidade Phred Q é definido como:

Q = -10 · log10(P) ⇒ P = 10-Q/10

  • Q10 → taxa de erro de 1/10 (90% de confiança)
  • Q20 → 1/100 (99%)
  • Q30 → 1/1000 (99,9%)
  • Q40 → 1/10.000 (99,99%)

Exemplo de interpretação passo a passo

ACGTTCTGATGACCTTAGCA
IIHFGEFIIHDF>?=;:987
PosBaseCaractereASCIIQ (Phred)P(erro) aprox.Interpretação
1AI73400.0001 (0.01%)Extremamente confiável
2CI73400.0001Extremamente confiável
3GH72390.00013Muito confiável
4TF70370.0002Muito confiável
5TG71380.00016Muito confiável
6CE69360.00025Muito confiável
7TF70370.0002Muito confiável
8GI73400.0001Extremamente confiável
9AI73400.0001Extremamente confiável
10TH72390.00013Muito confiável
11GD68350.00032Confiável
12AF70370.0002Muito confiável
13C>62290.0013 (0.13%)Aceitável
14C?63300.001 (0.1%)Aceitável
15T=61280.0016 (0.16%)Moderada
16T;59260.0025 (0.25%)Moderada
17A:5825Moderada–baixaModerada–baixa
18G957240.004 (0.4%)Baixa–moderada
19C856230.005 (0.5%)Baixa
20A755220.0063 (0.63%)Baixa

Interpretação global

  • Início da leitura (posições 1–10): scores muito altos (Q37–40), praticamente sem erros.
  • Região intermediária (11–14): qualidade reduz um pouco (Q29–35), ainda aceitável.
  • Final da leitura (15–20): queda considerável na qualidade (Q22–28), com taxa de erro esperada de 0,1–0,6% — exatamente onde sequenciadores Illumina costumam apresentar problemas.

Pontuações de qualidade por base: alta qualidade no início, diminuindo ao longo da leitura.
Pontuações de qualidade por base: alta qualidade no início, diminuindo ao longo da leitura.

Esse padrão é comum: alta qualidade no início e queda no final. Por isso, o trimming dos últimos nucleotídeos é frequentemente realizado.

RESUMO

  • FASTQ = dados brutos (bases + qualidade por base).
  • Sempre existe pelo menos um arquivo FASTQ.
  • Se o experimento foi paired-end, ambas as extremidades foram sequenciadas, resultando em dois arquivos (R1 e R2).
  • Se foi single-end, haverá apenas um arquivo (R1).