fbpx

Muchos métodos NGS requieren saber dónde se encuentran los genes o exones conocidos en el genoma para cuantificar el número de lecturas que se alinean con diferentes características del genoma, como exones, intrones, sitios de inicio de la transcripción, etc. Estos análisis requieren datos de referencia que contengan información específica sobre coordenadas genómicas de varias “características” genómicas, como archivos de anotación de genes (en GTF, GFF, etc.).

Para descargar datos de referencia, hay algunas fuentes diferentes disponibles:

  • Bases de datos biológicas generales: Ensembl, NCBI y UCSC
  • Bases de datos biológicas específicas de organismos: Wormbase, Flybase, etc. (a menudo se actualizan con más frecuencia, por lo que pueden ser más completas)
  • Colecciones de datos de referencia: iGenomes de Illumina, una ubicación para acceder a los datos de referencia del genoma de Ensembl, UCSC y NCBI
  • Acceso local: bases de datos compartidas en el clúster FAS-RC o el clúster O2 de HMS-RC con acceso a datos de referencia del genoma de Ensembl, UCSC y NCBI

Bases de datos biológicas generales

Las bases de datos biológicas para datos de expresión génica almacenan conjuntos de genomas y proporcionan anotaciones sobre dónde se encuentran los genes, las transcripciones y otras características genómicas en el genoma. Las bases de datos de genomas incorporan estos genomas y generan las anotaciones de genes. Ensembl, NCBI y UCSC utilizan los mismos ensamblajes o compilaciones de genoma proporcionados por el Consorcio de referencia del genoma (GRC):

  • GRCh38 = hg38; GRCh37 = hg19

El GRC proporciona con frecuencia parches o revisiones menores del genoma, que no cambian las coordenadas del genoma. Cada base de datos pone los parches a disposición de los usuarios en diferentes intervalos. 

Cada base de datos biológica determina de forma independiente las anotaciones de genes; por lo tanto, las anotaciones de genes entre estas bases de datos pueden diferir, aunque el ensamblaje del genoma sea el mismo. Las convenciones de nomenclatura también son diferentes (chr1=1) entre las bases de datos.

TIP: Usar siempre la misma base de datos biológica para todos los datos de referencia.

Ensembl 

Ensembl permite el acceso a genomas anotados para especies de vertebrados. Para todos los demás organismos, hay bases de datos Ensembl adicionales disponibles a través de Ensembl Genomes; sin embargo, no incluyen virus.

  • Ensambles/construcciones del genoma (genomas de referencia)
    • Nuevas compilaciones del genoma cada cierto tiempo o más dependiendo de la especie.
    • Los ensamblajes del genoma se actualizan cada dos años para incluir parches, o con menos frecuencia según la especie.
  • Anotaciones de genes
    • Se crean o actualizan usando bases de datos ENA, UniProtKB, NCBI RefSeq, RFAM, miRBase y tRNAscan-SE)
    • La anotación automática se realiza para todas las especies utilizando proteínas y transcripciones identificadas
    • La curación manual por parte del grupo HAVANA se realiza para especies de humanos, ratones, peces cebra y ratas, lo que proporciona una mayor confianza en las anotaciones de transcripción.
    • Importa directamente anotaciones de FlyBase, WormBase y SGD

Colecciones de datos de referencia: iGenomes

iGenomes de Illumina ha facilitado el proceso de descarga de datos de referencia. En el sitio web de iGenomes, los datos de referencia de Ensembl, UCSC y NCBI para varias compilaciones de genomas se pueden descargar. La descarga contiene los archivos correspondientes del genoma de referencia (FASTA) y la anotación de genes (GTF/GFF).

Bases de datos específicas de organismos

Las bases de datos específicas de organismos a menudo actualizan los parches del genoma y las anotaciones de los genes con mayor frecuencia. Estas bases de datos ofrecen genomas de otras especies que pueden no estar presentes en las bases de datos generales.

WormBase

Se dedica al estudio de C. elegans y otros nematodos, además de helmintos. 

¿Quieres aprender a programar?

Revisa nuestros cursos disponibles:

Expresión diferencial con RNA-Seq

Introducción a R

Ensamblado y anotación de genomas bacterianos

Microbioma 16S

Introducción a la bioinformática y NGS