Archivos FASTQ

Los archivos FASTQ son la base del análisis de secuenciación de nueva generación. Comprender cómo interpretar estas puntuaciones y cuándo aplicar el recorte (trimming) es esencial para garantizar análisis posteriores precisos en genómica y bioinformática.

Tamara Frontanilla, PhD
10 min read

¿Qué es un FASTQ?

Un archivo FASTQ almacena lecturas de ADN/ARN y su calidad por base. Siempre existe al menos un archivo FASTQ. Si el experimento fue paired-end, habrá dos archivos (R1 y R2). Si fue single-end, habrá solo uno (R1).

Cada lectura ocupa 4 líneas:

  1. ID de la lectura
  2. Secuencia (A/C/G/T/N)
  3. Separador (+)
  4. Calidad: una cadena de caracteres ASCII, uno por base, que codifica el puntaje Phred (confianza del base-calling)

**Los archivos FASTQ casi siempre se entregan comprimidos como .fastq.gz.

EJEMPLO

@A00469:123:HGF2KDSXX:1:1101:10003:12345 1:N:0:ACGTAC
ACGTTCTGATGACCTTAGCA
+
IIHFGEFIIHDF>?=;:987
  • Línea 1: Identificador (instrumento, corrida, coordenadas, etc.). El 1 antes de :N: indica R1 (si fuera 2, sería R2).
  • Línea 2: Secuencia (20 bases en este ejemplo).
  • Línea 3: Separador (+).
  • Línea 4: Calidad por base, del mismo largo que la secuencia (20 caracteres).

¿Cómo interpretar la calidad por base?

Está relacionada con la probabilidad de error P de la siguiente manera:

El puntaje de calidad Phred Q se define como:

Q = -10 · log10(P) ⇒ P = 10-Q/10

  • Q10 → tasa de error de 1/10 (90% de confianza)
  • Q20 → 1/100 (99%)
  • Q30 → 1/1000 (99.9%)
  • Q40 → 1/10.000 (99.99%)

Ejemplo de interpretación paso a paso

ACGTTCTGATGACCTTAGCA
IIHFGEFIIHDF>?=;:987
PosBaseCarácterASCIIQ (Phred)P(error) aprox.)Interpretación
1AI73400.0001 (0.01%)Extremadamente confiable
2CI73400.0001Extremadamente confiable
3GH72390.00013Muy confiable
4TF70370.0002Muy confiable
5TG71380.00016Muy confiable
6CE69360.00025Muy confiable
7TF70370.0002Muy confiable
8GI73400.0001Extremadamente confiable
9AI73400.0001Extremadamente confiable
10TH72390.00013Muy confiable
11GD68350.00032Confiable
12AF70370.0002Muy confiable
13C>62290.0013 (0.13%)Aceptable
14C?63300.001 (0.1%)Aceptable
15T=61280.0016 (0.16%)Moderada
16T;59260.0025 (0.25%)Moderada
17A:5825Moderada–bajaModerada–baja
18G957240.004 (0.4%)Baja–moderada
19C856230.005 (0.5%)Baja
20A755220.0063 (0.63%)Baja

Interpretación global

  • Inicio de la lectura (posiciones 1–10): puntajes muy altos (Q37–40), prácticamente sin errores.
  • Región media (11–14): la calidad disminuye levemente (Q29–35), aún aceptable.
  • Final de la lectura (15–20): la calidad baja considerablemente (Q22–28), con una tasa de error esperada de 0.1–0.6%: esta es la región donde los secuenciadores Illumina típicamente presentan problemas.

Puntuaciones de calidad por base: alta calidad al inicio, disminuyendo hacia el final de la lectura.
Puntuaciones de calidad por base: alta calidad al inicio, disminuyendo hacia el final de la lectura.

Este patrón es común: alta calidad al inicio, caída al final. Por eso a menudo se realiza trimming de los últimos nucleótidos.

EN RESUMEN

  • FASTQ = datos brutos (bases + calidad por base).
  • Siempre existe al menos un archivo FASTQ.
  • Si el experimento fue paired-end, se secuenciaron ambas hebras, resultando en dos archivos (R1 y R2).
  • Si fue single-end, habrá solo un archivo (R1).