Para muchos investigadores que ingresan al campo de la bioinformática y la genómica, uno de los primeros desafíos es comprender los formatos de archivos. Cuál es la diferencia entre FASTA, FASTQ, SAM, BAM y CRAM? Qué contienen y cómo se trabaja con ellos?

Esta confusión es normal al comienzo.

Las tecnologías de secuenciación generan volúmenes masivos de datos, y existen distintos formatos para almacenar, organizar, comprimir y compartir esta información de manera eficiente. Aprender qué representan estos formatos es uno de los primeros pasos para volverse fluido en bioinformática.

En este artículo ofreceremos una visión conceptual de los formatos de archivos de secuenciación más comunes. El objetivo no es cubrir cada detalle técnico, sino ayudar a los principiantes a construir un mapa mental de cómo los datos de secuenciación se mueven a lo largo de un pipeline de análisis. En artículos posteriores exploraremos cada formato con mayor profundidad.

El pipeline de datos de secuenciación

Un flujo de trabajo simplificado de secuenciación se puede describir de la siguiente manera:

Los genomas de referencia se almacenan en archivos FASTA
Las máquinas de secuenciación generan reads, que se almacenan en archivos FASTQ
Los reads se alinean contra un genoma de referencia, produciendo archivos SAM, BAM o CRAM
A partir de estos alineamientos se pueden identificar variantes genéticas, que se almacenan en archivos VCF

Cada formato representa una etapa diferente de interpretación de los mismos datos biológicos.

Los principales formatos de archivos de secuenciación

FASTA

Los archivos FASTA almacenan secuencias de referencia como genomas, genes o contigs.

Contienen únicamente la secuencia en sí, sin información de calidad.

Ejemplo:

chr1
ATGCTTAGCTAGCTAGCTAGCTAGCTAG

Usos típicos:

Genomas de referencia
Bases de datos de genes
Contigs ensamblados

Se puede pensar en FASTA como el mapa del genoma.

FASTQ

Los archivos FASTQ almacenan reads de secuenciación crudos junto con los puntajes de calidad de cada base.

Este suele ser el punto de partida de la mayoría de los análisis de secuenciación.

Ejemplo de estructura:

@read_001
ACGTTCTGATGACCTTAGCA
+
IIHFGEFIIHDF>?=;:987

Cada lectura tiene cuatro líneas:

Línea	Contenido
1	identificador del read
2	secuencia de nucleótidos
3	separador (+)
4	puntajes de calidad

Los puntajes de calidad estiman la probabilidad de errores en la secuenciación.

Se puede pensar en FASTQ como la materia prima de los datos.

SAM

Los archivos SAM (Sequence Alignment Map) almacenan cómo los reads se alinean a un genoma de referencia.

Contienen información detallada como:

Coordenadas genómicas
Calidad de mapeo
Mismatches
Inserciones y deleciones

Ejemplo (simplificado):

read_001 0 chr1 10583 60 50M * 0 0 ACGTTCTGATGACCTTAGCA *

Los archivos SAM son texto legible, pero pueden volverse extremadamente grandes.

BAM

BAM es simplemente la versión binaria y comprimida de SAM.

Almacena la misma información, pero:

Ocupa mucho menos espacio en disco
Puede ser procesado más rápido por el software

Por esta razón, BAM es el formato de trabajo estándar en la mayoría de los pipelines genómicos.

CRAM

CRAM es un formato de compresión aún más eficiente.

En lugar de almacenar secuencias completas, los archivos CRAM almacenan las diferencias respecto a un genoma de referencia, lo que permite una compresión adicional.

Ventajas:

Tamaño de archivo mucho menor
Mejor para almacenamiento a largo plazo
Permite mantener grandes volúmenes de datos de forma compacta

Esto hace que CRAM sea ideal para archivar grandes conjuntos de datos de secuenciación.

Comparación de formatos de alineamiento

SAM, BAM y CRAM almacenan reads alineados, pero difieren en cómo los codifican.

Formato	Tipo	Tamaño	Uso
SAM	Texto	Muy grande	Depuración / inspección
BAM	Binario	Más pequeño	Análisis estándar
CRAM	Comprimido respecto a referencia	El más pequeño	Almacenamiento a largo plazo

VCF

Los archivos VCF (Variant Call Format) almacenan variantes genéticas detectadas a partir de datos de secuenciación.

En lugar de contener los reads completos, los archivos VCF registran diferencias respecto al genoma de referencia, como:

Variantes de nucleótido único (SNVs)
Inserciones y deleciones (indels)
Variantes estructurales

Ejemplo:

chr1 879317 . G A 50 PASS .

Por lo tanto, los archivos VCF representan un nivel más alto de interpretación, ya que resumen cómo una muestra difiere del genoma de referencia.

Usos típicos:

Descubrimiento de variantes
Genética de poblaciones
Genómica clínica
Genómica forense

Se puede pensar en VCF como un catálogo de diferencias genómicas.

Por qué mis muestras terminan en “.gz”?

Muchos archivos de secuenciación descargados aparecen con nombres como:

sample1_R1.fastq.gz sample1_R2.fastq.gz

La extensión “.gz” no indica un formato de archivo diferente. Simplemente significa que el archivo ha sido comprimido usando gzip, una herramienta estándar de compresión en sistemas Unix/Linux.

Por qué comprimir?

Reducir el tamaño del archivo
Acelerar descargas y transferencias
Ahorrar espacio de almacenamiento

Consideraciones finales

Comprender los formatos de archivos de secuenciación no es solo una cuestión técnica.

Influye directamente en cómo trabajamos con datos genómicos.

El formato utilizado puede afectar:

La eficiencia de almacenamiento
La interpretación de los resultados
La reproducibilidad de los análisis

Esto se vuelve especialmente importante al estudiar Short Tandem Repeats (STRs), donde la forma en que los datos de secuenciación se almacenan y procesan puede influir en cómo se interpretan las regiones repetitivas.

Para quienes comienzan, los formatos de secuenciación pueden parecer intimidantes al principio.

Pero una vez que se entiende la lógica que los conecta, navegar por conjuntos de datos genómicos se vuelve mucho más sencillo.

Seguir aprendiendo

Si deseas profundizar en estos formatos, STRhub incluye artículos adicionales que analizan en detalle cada uno de los formatos de archivos de secuenciación.