Entendendo os formatos de arquivos de sequenciamento: um guia introdutório

Entendendo os formatos de armazenamento de dados de sequenciamento em bioinformática

Tamara Frontanilla, PhD
7 min read

Para muitos pesquisadores que entram no campo da bioinformática e da genômica, um dos primeiros desafios é entender os formatos de arquivos. Qual é a diferença entre FASTA, FASTQ, SAM, BAM e CRAM? O que eles contêm e como se trabalha com eles?

Essa confusão é normal no início.

As tecnologias de sequenciamento geram volumes massivos de dados, e diferentes formatos existem para armazenar, organizar, comprimir e compartilhar essas informações de forma eficiente. Aprender o que esses formatos representam é um dos primeiros passos para se tornar fluente em bioinformática.

Neste artigo, apresentaremos uma visão conceitual dos formatos de arquivos de sequenciamento mais comuns. O objetivo não é cobrir todos os detalhes técnicos, mas ajudar iniciantes a construir um mapa mental de como os dados de sequenciamento se movem ao longo de um pipeline de análise. Artigos posteriores explorarão cada formato em maior profundidade.

O pipeline de dados de sequenciamento

Formato de arquivos

Um fluxo simplificado de sequenciamento pode ser descrito da seguinte forma:

  1. Genomas de referência são armazenados em arquivos FASTA
  2. Máquinas de sequenciamento geram reads, que são armazenados em arquivos FASTQ
  3. Os reads são alinhados a um genoma de referência, produzindo arquivos SAM, BAM ou CRAM
  4. Variantes genéticas podem então ser identificadas a partir desses alinhamentos e armazenadas em arquivos VCF

Cada formato representa uma etapa diferente de interpretação dos mesmos dados biológicos.

Os principais formatos de arquivos de sequenciamento

FASTA

Arquivos FASTA armazenam sequências de referência, como genomas, genes ou contigs.

Eles contêm apenas a sequência em si, sem informações de qualidade.

Exemplo:

chr1
ATGCTTAGCTAGCTAGCTAGCTAGCTAG

Usos típicos:

  • Genomas de referência
  • Bancos de dados de genes
  • Contigs montados

Podemos pensar no FASTA como o mapa do genoma.

FASTQ

Arquivos FASTQ armazenam reads brutos de sequenciamento juntamente com os escores de qualidade de cada base.

Este geralmente é o ponto de partida da maioria das análises de sequenciamento.

Estrutura de exemplo:

@read_001
ACGTTCTGATGACCTTAGCA
+
IIHFGEFIIHDF>?=;:987

Cada read possui quatro linhas:

LinhaConteúdo
1identificador do read
2sequência de nucleotídeos
3separador (+)
4escores de qualidade

Os escores de qualidade estimam a probabilidade de erros no sequenciamento.

Podemos pensar no FASTQ como a matéria-prima dos dados.

SAM

Arquivos SAM (Sequence Alignment Map) armazenam como os reads se alinham a um genoma de referência.

Eles contêm informações detalhadas como:

  • Coordenadas genômicas
  • Qualidade de mapeamento
  • Mismatches
  • Inserções e deleções

Exemplo (simplificado):

read_001 0 chr1 10583 60 50M * 0 0 ACGTTCTGATGACCTTAGCA *

Arquivos SAM são texto legível por humanos, mas podem se tornar extremamente grandes.

BAM

BAM é simplesmente a versão binária e comprimida do SAM.

Ele armazena a mesma informação, mas:

  • Ocupa muito menos espaço em disco
  • Pode ser processado mais rapidamente por softwares

Por isso, BAM é o formato de trabalho padrão na maioria dos pipelines genômicos.

CRAM

CRAM é um formato ainda mais eficiente de compressão.

Em vez de armazenar sequências completas, arquivos CRAM armazenam diferenças em relação a um genoma de referência, permitindo maior compressão.

Vantagens:

  • Tamanho de arquivo muito menor
  • Melhor para armazenamento de longo prazo
  • CRAM: um arquivo compacto para manter grandes volumes de dados organizados

Isso torna o CRAM ideal para arquivar grandes conjuntos de dados de sequenciamento.

Comparando formatos de alinhamento

SAM, BAM e CRAM armazenam reads alinhados, mas diferem na forma como os codificam.

FormatoTipoTamanhoUso
SAMTextoMuito grandeDebug / inspeção
BAMBinárioMenorAnálise padrão
CRAMComprimido por referênciaMenor aindaArmazenamento de longo prazo

VCF

Arquivos VCF (Variant Call Format) armazenam variantes genéticas detectadas a partir de dados de sequenciamento.

Em vez de conter reads completos, arquivos VCF registram diferenças em relação ao genoma de referência, como:

  • Variantes de nucleotídeo único (SNVs)
  • Inserções e deleções (indels)
  • Variantes estruturais

Exemplo:

chr1 879317 . G A 50 PASS .

Arquivos VCF, portanto, representam um nível mais alto de interpretação, resumindo como uma amostra difere do genoma de referência.

Usos típicos incluem:

  • Descoberta de variantes
  • Genética de populações
  • Genômica clínica
  • Genômica forense

Podemos pensar no VCF como um catálogo de diferenças genômicas.

Porque muitas amostras acabam com “.gz”?

Muitos arquivos de sequenciamento baixados aparecem com nomes como:

sample1_R1.fastq.gz sample1_R2.fastq.gz

A extensão “.gz” não indica um formato de arquivo diferente. Ela apenas significa que o arquivo foi comprimido usando gzip, uma ferramenta padrão de compressão em sistemas Unix/Linux.

Por que comprimir?

  • Reduzir o tamanho do arquivo
  • Acelerar downloads e transferências
  • Economizar espaço de armazenamento

Considerações finais

Compreender os formatos de arquivos de sequenciamento não é apenas uma questão técnica.

Isso afeta diretamente como trabalhamos com dados genômicos.

O formato utilizado pode influenciar:

  • Eficiência de armazenamento
  • Interpretação dos resultados
  • Reprodutibilidade das análises

Isso se torna especialmente importante ao estudar Short Tandem Repeats (STRs), onde a forma como os dados de sequenciamento são armazenados e processados pode afetar a interpretação de regiões repetitivas.

Para iniciantes, os formatos de sequenciamento podem parecer intimidadores no começo.

Mas, uma vez que se entende a lógica que os conecta, navegar por conjuntos de dados genômicos se torna muito mais simples.

Continue aprendendo

Para explorar esses formatos mais a fundo, o STRhub inclui artigos adicionais que analisam em detalhe cada um dos formatos de arquivos de sequenciamento.