Para muitos pesquisadores que entram no campo da bioinformática e da genômica, um dos primeiros desafios é entender os formatos de arquivos. Qual é a diferença entre FASTA, FASTQ, SAM, BAM e CRAM? O que eles contêm e como se trabalha com eles?

Essa confusão é normal no início.

As tecnologias de sequenciamento geram volumes massivos de dados, e diferentes formatos existem para armazenar, organizar, comprimir e compartilhar essas informações de forma eficiente. Aprender o que esses formatos representam é um dos primeiros passos para se tornar fluente em bioinformática.

Neste artigo, apresentaremos uma visão conceitual dos formatos de arquivos de sequenciamento mais comuns. O objetivo não é cobrir todos os detalhes técnicos, mas ajudar iniciantes a construir um mapa mental de como os dados de sequenciamento se movem ao longo de um pipeline de análise. Artigos posteriores explorarão cada formato em maior profundidade.

O pipeline de dados de sequenciamento

Um fluxo simplificado de sequenciamento pode ser descrito da seguinte forma:

Genomas de referência são armazenados em arquivos FASTA
Máquinas de sequenciamento geram reads, que são armazenados em arquivos FASTQ
Os reads são alinhados a um genoma de referência, produzindo arquivos SAM, BAM ou CRAM
Variantes genéticas podem então ser identificadas a partir desses alinhamentos e armazenadas em arquivos VCF

Cada formato representa uma etapa diferente de interpretação dos mesmos dados biológicos.

Os principais formatos de arquivos de sequenciamento

FASTA

Arquivos FASTA armazenam sequências de referência, como genomas, genes ou contigs.

Eles contêm apenas a sequência em si, sem informações de qualidade.

Exemplo:

chr1
ATGCTTAGCTAGCTAGCTAGCTAGCTAG

Usos típicos:

Genomas de referência
Bancos de dados de genes
Contigs montados

Podemos pensar no FASTA como o mapa do genoma.

FASTQ

Arquivos FASTQ armazenam reads brutos de sequenciamento juntamente com os escores de qualidade de cada base.

Este geralmente é o ponto de partida da maioria das análises de sequenciamento.

Estrutura de exemplo:

@read_001
ACGTTCTGATGACCTTAGCA
+
IIHFGEFIIHDF>?=;:987

Cada read possui quatro linhas:

Linha	Conteúdo
1	identificador do read
2	sequência de nucleotídeos
3	separador (+)
4	escores de qualidade

Os escores de qualidade estimam a probabilidade de erros no sequenciamento.

Podemos pensar no FASTQ como a matéria-prima dos dados.

SAM

Arquivos SAM (Sequence Alignment Map) armazenam como os reads se alinham a um genoma de referência.

Eles contêm informações detalhadas como:

Coordenadas genômicas
Qualidade de mapeamento
Mismatches
Inserções e deleções

Exemplo (simplificado):

read_001 0 chr1 10583 60 50M * 0 0 ACGTTCTGATGACCTTAGCA *

Arquivos SAM são texto legível por humanos, mas podem se tornar extremamente grandes.

BAM

BAM é simplesmente a versão binária e comprimida do SAM.

Ele armazena a mesma informação, mas:

Ocupa muito menos espaço em disco
Pode ser processado mais rapidamente por softwares

Por isso, BAM é o formato de trabalho padrão na maioria dos pipelines genômicos.

CRAM

CRAM é um formato ainda mais eficiente de compressão.

Em vez de armazenar sequências completas, arquivos CRAM armazenam diferenças em relação a um genoma de referência, permitindo maior compressão.

Vantagens:

Tamanho de arquivo muito menor
Melhor para armazenamento de longo prazo
CRAM: um arquivo compacto para manter grandes volumes de dados organizados

Isso torna o CRAM ideal para arquivar grandes conjuntos de dados de sequenciamento.

Comparando formatos de alinhamento

SAM, BAM e CRAM armazenam reads alinhados, mas diferem na forma como os codificam.

Formato	Tipo	Tamanho	Uso
SAM	Texto	Muito grande	Debug / inspeção
BAM	Binário	Menor	Análise padrão
CRAM	Comprimido por referência	Menor ainda	Armazenamento de longo prazo

VCF

Arquivos VCF (Variant Call Format) armazenam variantes genéticas detectadas a partir de dados de sequenciamento.

Em vez de conter reads completos, arquivos VCF registram diferenças em relação ao genoma de referência, como:

Variantes de nucleotídeo único (SNVs)
Inserções e deleções (indels)
Variantes estruturais

Exemplo:

chr1 879317 . G A 50 PASS .

Arquivos VCF, portanto, representam um nível mais alto de interpretação, resumindo como uma amostra difere do genoma de referência.

Usos típicos incluem:

Descoberta de variantes
Genética de populações
Genômica clínica
Genômica forense

Podemos pensar no VCF como um catálogo de diferenças genômicas.

Porque muitas amostras acabam com “.gz”?

Muitos arquivos de sequenciamento baixados aparecem com nomes como:

sample1_R1.fastq.gz sample1_R2.fastq.gz

A extensão “.gz” não indica um formato de arquivo diferente. Ela apenas significa que o arquivo foi comprimido usando gzip, uma ferramenta padrão de compressão em sistemas Unix/Linux.

Por que comprimir?

Reduzir o tamanho do arquivo
Acelerar downloads e transferências
Economizar espaço de armazenamento

Considerações finais

Compreender os formatos de arquivos de sequenciamento não é apenas uma questão técnica.

Isso afeta diretamente como trabalhamos com dados genômicos.

O formato utilizado pode influenciar:

Eficiência de armazenamento
Interpretação dos resultados
Reprodutibilidade das análises

Isso se torna especialmente importante ao estudar Short Tandem Repeats (STRs), onde a forma como os dados de sequenciamento são armazenados e processados pode afetar a interpretação de regiões repetitivas.

Para iniciantes, os formatos de sequenciamento podem parecer intimidadores no começo.

Mas, uma vez que se entende a lógica que os conecta, navegar por conjuntos de dados genômicos se torna muito mais simples.

Continue aprendendo

Para explorar esses formatos mais a fundo, o STRhub inclui artigos adicionais que analisam em detalhe cada um dos formatos de arquivos de sequenciamento.