Entendendo os formatos de arquivos de sequenciamento: um guia introdutório
Entendendo os formatos de armazenamento de dados de sequenciamento em bioinformática
Para muitos pesquisadores que entram no campo da bioinformática e da genômica, um dos primeiros desafios é entender os formatos de arquivos. Qual é a diferença entre FASTA, FASTQ, SAM, BAM e CRAM? O que eles contêm e como se trabalha com eles?
Essa confusão é normal no início.
As tecnologias de sequenciamento geram volumes massivos de dados, e diferentes formatos existem para armazenar, organizar, comprimir e compartilhar essas informações de forma eficiente. Aprender o que esses formatos representam é um dos primeiros passos para se tornar fluente em bioinformática.
Neste artigo, apresentaremos uma visão conceitual dos formatos de arquivos de sequenciamento mais comuns. O objetivo não é cobrir todos os detalhes técnicos, mas ajudar iniciantes a construir um mapa mental de como os dados de sequenciamento se movem ao longo de um pipeline de análise. Artigos posteriores explorarão cada formato em maior profundidade.
O pipeline de dados de sequenciamento

Um fluxo simplificado de sequenciamento pode ser descrito da seguinte forma:
- Genomas de referência são armazenados em arquivos FASTA
- Máquinas de sequenciamento geram reads, que são armazenados em arquivos FASTQ
- Os reads são alinhados a um genoma de referência, produzindo arquivos SAM, BAM ou CRAM
- Variantes genéticas podem então ser identificadas a partir desses alinhamentos e armazenadas em arquivos VCF
Cada formato representa uma etapa diferente de interpretação dos mesmos dados biológicos.
Os principais formatos de arquivos de sequenciamento
FASTA
Arquivos FASTA armazenam sequências de referência, como genomas, genes ou contigs.
Eles contêm apenas a sequência em si, sem informações de qualidade.
Exemplo:
chr1
ATGCTTAGCTAGCTAGCTAGCTAGCTAG
Usos típicos:
- Genomas de referência
- Bancos de dados de genes
- Contigs montados
Podemos pensar no FASTA como o mapa do genoma.
FASTQ
Arquivos FASTQ armazenam reads brutos de sequenciamento juntamente com os escores de qualidade de cada base.
Este geralmente é o ponto de partida da maioria das análises de sequenciamento.
Estrutura de exemplo:
@read_001
ACGTTCTGATGACCTTAGCA
+
IIHFGEFIIHDF>?=;:987
Cada read possui quatro linhas:
| Linha | Conteúdo |
|---|---|
| 1 | identificador do read |
| 2 | sequência de nucleotídeos |
| 3 | separador (+) |
| 4 | escores de qualidade |
Os escores de qualidade estimam a probabilidade de erros no sequenciamento.
Podemos pensar no FASTQ como a matéria-prima dos dados.
SAM
Arquivos SAM (Sequence Alignment Map) armazenam como os reads se alinham a um genoma de referência.
Eles contêm informações detalhadas como:
- Coordenadas genômicas
- Qualidade de mapeamento
- Mismatches
- Inserções e deleções
Exemplo (simplificado):
read_001 0 chr1 10583 60 50M * 0 0 ACGTTCTGATGACCTTAGCA *
Arquivos SAM são texto legível por humanos, mas podem se tornar extremamente grandes.
BAM
BAM é simplesmente a versão binária e comprimida do SAM.
Ele armazena a mesma informação, mas:
- Ocupa muito menos espaço em disco
- Pode ser processado mais rapidamente por softwares
Por isso, BAM é o formato de trabalho padrão na maioria dos pipelines genômicos.
CRAM
CRAM é um formato ainda mais eficiente de compressão.
Em vez de armazenar sequências completas, arquivos CRAM armazenam diferenças em relação a um genoma de referência, permitindo maior compressão.
Vantagens:
- Tamanho de arquivo muito menor
- Melhor para armazenamento de longo prazo
- CRAM: um arquivo compacto para manter grandes volumes de dados organizados
Isso torna o CRAM ideal para arquivar grandes conjuntos de dados de sequenciamento.
Comparando formatos de alinhamento
SAM, BAM e CRAM armazenam reads alinhados, mas diferem na forma como os codificam.
| Formato | Tipo | Tamanho | Uso |
|---|---|---|---|
| SAM | Texto | Muito grande | Debug / inspeção |
| BAM | Binário | Menor | Análise padrão |
| CRAM | Comprimido por referência | Menor ainda | Armazenamento de longo prazo |
VCF
Arquivos VCF (Variant Call Format) armazenam variantes genéticas detectadas a partir de dados de sequenciamento.
Em vez de conter reads completos, arquivos VCF registram diferenças em relação ao genoma de referência, como:
- Variantes de nucleotídeo único (SNVs)
- Inserções e deleções (indels)
- Variantes estruturais
Exemplo:
chr1 879317 . G A 50 PASS .
Arquivos VCF, portanto, representam um nível mais alto de interpretação, resumindo como uma amostra difere do genoma de referência.
Usos típicos incluem:
- Descoberta de variantes
- Genética de populações
- Genômica clínica
- Genômica forense
Podemos pensar no VCF como um catálogo de diferenças genômicas.
Porque muitas amostras acabam com “.gz”?
Muitos arquivos de sequenciamento baixados aparecem com nomes como:
sample1_R1.fastq.gz sample1_R2.fastq.gz
A extensão “.gz” não indica um formato de arquivo diferente. Ela apenas significa que o arquivo foi comprimido usando gzip, uma ferramenta padrão de compressão em sistemas Unix/Linux.
Por que comprimir?
- Reduzir o tamanho do arquivo
- Acelerar downloads e transferências
- Economizar espaço de armazenamento
Considerações finais
Compreender os formatos de arquivos de sequenciamento não é apenas uma questão técnica.
Isso afeta diretamente como trabalhamos com dados genômicos.
O formato utilizado pode influenciar:
- Eficiência de armazenamento
- Interpretação dos resultados
- Reprodutibilidade das análises
Isso se torna especialmente importante ao estudar Short Tandem Repeats (STRs), onde a forma como os dados de sequenciamento são armazenados e processados pode afetar a interpretação de regiões repetitivas.
Para iniciantes, os formatos de sequenciamento podem parecer intimidadores no começo.
Mas, uma vez que se entende a lógica que os conecta, navegar por conjuntos de dados genômicos se torna muito mais simples.
Continue aprendendo
Para explorar esses formatos mais a fundo, o STRhub inclui artigos adicionais que analisam em detalhe cada um dos formatos de arquivos de sequenciamento.