Comprendiendo los formatos de archivos de secuenciación: una guía introductoria
Comprendiendo los formatos de almacenamiento de datos de secuenciación en bioinformática
Para muchos investigadores que ingresan al campo de la bioinformática y la genómica, uno de los primeros desafíos es comprender los formatos de archivos. Cuál es la diferencia entre FASTA, FASTQ, SAM, BAM y CRAM? Qué contienen y cómo se trabaja con ellos?
Esta confusión es normal al comienzo.
Las tecnologías de secuenciación generan volúmenes masivos de datos, y existen distintos formatos para almacenar, organizar, comprimir y compartir esta información de manera eficiente. Aprender qué representan estos formatos es uno de los primeros pasos para volverse fluido en bioinformática.
En este artículo ofreceremos una visión conceptual de los formatos de archivos de secuenciación más comunes. El objetivo no es cubrir cada detalle técnico, sino ayudar a los principiantes a construir un mapa mental de cómo los datos de secuenciación se mueven a lo largo de un pipeline de análisis. En artículos posteriores exploraremos cada formato con mayor profundidad.
El pipeline de datos de secuenciación

Un flujo de trabajo simplificado de secuenciación se puede describir de la siguiente manera:
- Los genomas de referencia se almacenan en archivos FASTA
- Las máquinas de secuenciación generan reads, que se almacenan en archivos FASTQ
- Los reads se alinean contra un genoma de referencia, produciendo archivos SAM, BAM o CRAM
- A partir de estos alineamientos se pueden identificar variantes genéticas, que se almacenan en archivos VCF
Cada formato representa una etapa diferente de interpretación de los mismos datos biológicos.
Los principales formatos de archivos de secuenciación
FASTA
Los archivos FASTA almacenan secuencias de referencia como genomas, genes o contigs.
Contienen únicamente la secuencia en sí, sin información de calidad.
Ejemplo:
chr1
ATGCTTAGCTAGCTAGCTAGCTAGCTAG
Usos típicos:
- Genomas de referencia
- Bases de datos de genes
- Contigs ensamblados
Se puede pensar en FASTA como el mapa del genoma.
FASTQ
Los archivos FASTQ almacenan reads de secuenciación crudos junto con los puntajes de calidad de cada base.
Este suele ser el punto de partida de la mayoría de los análisis de secuenciación.
Ejemplo de estructura:
@read_001
ACGTTCTGATGACCTTAGCA
+
IIHFGEFIIHDF>?=;:987
Cada lectura tiene cuatro líneas:
| Línea | Contenido |
|---|---|
| 1 | identificador del read |
| 2 | secuencia de nucleótidos |
| 3 | separador (+) |
| 4 | puntajes de calidad |
Los puntajes de calidad estiman la probabilidad de errores en la secuenciación.
Se puede pensar en FASTQ como la materia prima de los datos.
SAM
Los archivos SAM (Sequence Alignment Map) almacenan cómo los reads se alinean a un genoma de referencia.
Contienen información detallada como:
- Coordenadas genómicas
- Calidad de mapeo
- Mismatches
- Inserciones y deleciones
Ejemplo (simplificado):
read_001 0 chr1 10583 60 50M * 0 0 ACGTTCTGATGACCTTAGCA *
Los archivos SAM son texto legible, pero pueden volverse extremadamente grandes.
BAM
BAM es simplemente la versión binaria y comprimida de SAM.
Almacena la misma información, pero:
- Ocupa mucho menos espacio en disco
- Puede ser procesado más rápido por el software
Por esta razón, BAM es el formato de trabajo estándar en la mayoría de los pipelines genómicos.
CRAM
CRAM es un formato de compresión aún más eficiente.
En lugar de almacenar secuencias completas, los archivos CRAM almacenan las diferencias respecto a un genoma de referencia, lo que permite una compresión adicional.
Ventajas:
- Tamaño de archivo mucho menor
- Mejor para almacenamiento a largo plazo
- Permite mantener grandes volúmenes de datos de forma compacta
Esto hace que CRAM sea ideal para archivar grandes conjuntos de datos de secuenciación.
Comparación de formatos de alineamiento
SAM, BAM y CRAM almacenan reads alineados, pero difieren en cómo los codifican.
| Formato | Tipo | Tamaño | Uso |
|---|---|---|---|
| SAM | Texto | Muy grande | Depuración / inspección |
| BAM | Binario | Más pequeño | Análisis estándar |
| CRAM | Comprimido respecto a referencia | El más pequeño | Almacenamiento a largo plazo |
VCF
Los archivos VCF (Variant Call Format) almacenan variantes genéticas detectadas a partir de datos de secuenciación.
En lugar de contener los reads completos, los archivos VCF registran diferencias respecto al genoma de referencia, como:
- Variantes de nucleótido único (SNVs)
- Inserciones y deleciones (indels)
- Variantes estructurales
Ejemplo:
chr1 879317 . G A 50 PASS .
Por lo tanto, los archivos VCF representan un nivel más alto de interpretación, ya que resumen cómo una muestra difiere del genoma de referencia.
Usos típicos:
- Descubrimiento de variantes
- Genética de poblaciones
- Genómica clínica
- Genómica forense
Se puede pensar en VCF como un catálogo de diferencias genómicas.
Por qué mis muestras terminan en “.gz”?
Muchos archivos de secuenciación descargados aparecen con nombres como:
sample1_R1.fastq.gz sample1_R2.fastq.gz
La extensión “.gz” no indica un formato de archivo diferente. Simplemente significa que el archivo ha sido comprimido usando gzip, una herramienta estándar de compresión en sistemas Unix/Linux.
Por qué comprimir?
- Reducir el tamaño del archivo
- Acelerar descargas y transferencias
- Ahorrar espacio de almacenamiento
Consideraciones finales
Comprender los formatos de archivos de secuenciación no es solo una cuestión técnica.
Influye directamente en cómo trabajamos con datos genómicos.
El formato utilizado puede afectar:
- La eficiencia de almacenamiento
- La interpretación de los resultados
- La reproducibilidad de los análisis
Esto se vuelve especialmente importante al estudiar Short Tandem Repeats (STRs), donde la forma en que los datos de secuenciación se almacenan y procesan puede influir en cómo se interpretan las regiones repetitivas.
Para quienes comienzan, los formatos de secuenciación pueden parecer intimidantes al principio.
Pero una vez que se entiende la lógica que los conecta, navegar por conjuntos de datos genómicos se vuelve mucho más sencillo.
Seguir aprendiendo
Si deseas profundizar en estos formatos, STRhub incluye artículos adicionales que analizan en detalle cada uno de los formatos de archivos de secuenciación.