Ómicas: la ciencia que revela lo que el ADN no dice

Cada célula humana contiene una copia completa del genoma, pero varía enormemente en morfología, composición y longevidad. El Human Cell Atlas define al menos 300 tipos celulares distintos y la morfología celular y la actividad metabólica pueden variar con el tiempo y la orientación espacial incluso entre células del mismo tipo.

Aunque todas las células comparten el mismo ADN, la expresión génica depende de factores epigenéticos como la metilación y acetilación, así como de señales ambientales. Medir únicamente la expresión de genes no refleja de manera precisa la abundancia de proteínas, sus modificaciones postraduccionales ni la presencia de metabolitos o lípidos activos. Por ello, los investigadores utilizan múltiples enfoques ómicos, seleccionados según el objetivo del estudio, el volumen de la muestra y las limitaciones técnicas.

Genómica

El Proyecto Genoma Humano (HGP) fue un hito científico que permitió secuenciar por primera vez el genoma completo. Lanzado en 1990 y completado en 2003, el HGP sigue siendo una de las mayores colaboraciones científicas internacionales jamás emprendidas, abarcando seis naciones a un costo de 2.7 mil millones de dólares. Sin embargo, su finalización no significó que el genoma humano estuviera completamente “descifrado”, y la anotación genómica sigue siendo un esfuerzo continuo. Este proyecto impulsó el desarrollo de tecnologías de secuenciación y software, estableciendo la referencia moderna en bioinformática.

Las tecnologías de secuenciación suelen agruparse en tecnologías de primera generación, segunda o siguiente generación, y tercera generación, que varían enormemente en términos de longitud de lectura, costo, precisión y dificultad de análisis.

Primera generación (Sanger): Terminación de cadena y lectura de fragmentos clonados.
Segunda generación (NGS): Secuenciación masivamente paralela por síntesis, con múltiples lecturas cortas.
Tercera generación (lectura larga): Métodos PacBio y Nanopore completaron regiones repetitivas no accesibles con lecturas cortas.

Repositorios Públicos de Datos Genómicos

El beneficio más trascendental del Proyecto Genoma Humano es que los hallazgos se hicieron públicos y pueden ser accedidos libremente por cualquier persona en cualquier parte del mundo. Este es un logro notable y establece un precedente importante para democratizar el acceso a los datos biológicos.

Bases de Datos de Secuencias de ADN

La mayor parte de los datos genómicos en el dominio público son administrados por la International Nucleotide Sequence Database Collaboration (INSDC), que incluye GenBank, la European Molecular Biology Laboratory (EMBL) Nucleotide Sequence Database y el DNA Data Bank of Japan (DDBJ). Los datos de secuencia están cuidadosamente anotados y referenciados de manera cruzada y pueden ser consultados y exportados de múltiples formas. El Genome Browser de la Universidad de California, Santa Cruz (UCSC) también proporciona herramientas útiles para la visualización del genoma con control detallado sobre la inclusión y el formato de las pistas (tracks).

Bases de Datos de Variantes de ADN

El genoma de referencia humano es una secuencia haploide que no representa el genoma de ninguna persona en particular, sino que sirve como un sistema de coordenadas y punto de referencia. Varios proyectos han intentado evaluar el rango de variación entre individuos dentro y entre poblaciones, incluyendo el Human HapMap Project, el 1000 Genomes Project, el UK Biobank, y All of US. La información obtenida de estas bases de datos se utiliza ampliamente en estudios de asociación de genoma completo para identificar variantes asociadas con riesgo de enfermedad, respuesta a tratamiento, medicina personalizada, etc. Herramientas como Mutect2, SnpEff y bases de datos como ClinVar facilitan la identificación y análisis de variantes germinales y somáticas.

Transcriptómica

La transcriptómica es el estudio del conjunto completo de transcripciones de ARN dentro de una célula o población de células. La transcriptómica ofrece una visión directa de qué genes se expresan activamente. Incluye mRNA, miRNA, lncRNA y otros ARN no codificantes.

Un objetivo principal de la transcriptómica es comparar la expresión génica bajo diferentes condiciones. Herramientas populares con reconocimiento de empalme (splice-aware), como STAR, Tophat2 y HISAT2, mapean las lecturas directamente a la secuencia de referencia basándose en las anotaciones del genoma y pueden utilizarse para detectar transcritos novedosos.

Herramientas populares de análisis de expresión diferencial, como Limma-voom, DEseq2 y edgeR, comparan los niveles de expresión al muestrear cada transcrito y calcular un valor p y un cambio de pliegue (fold-change). Sin embargo, la RNA-Seq es una medida relativa, lo que dificulta la comparación de niveles de expresión entre experimentos.

Además, la RNA-Seq ofrece información sobre splicing alternativo mediante herramientas como rMATS y DEXSeq. Más allá de informar genes sobreexpresados o subexpresados, muchos estudios realizan algún tipo de análisis de vías metabólicas o funcionales utilizando herramientas como GSEA, DAVID o Panther para identificar rutas sobrerrepresentadas o términos de ontología génica. Los datos de vías pueden visualizarse con KEGG Mapper y Cytoscape.

Se han establecido varios repositorios públicos para almacenar datos de RNA-Seq, y plataformas como Gene Expression Omnibus (GEO) y ArrayExpress aceptan datos experimentales para facilitar el análisis de expresión génica diferencial.

Proteómica

Si bien la transcriptómica es esencial para dilucidar las vías regulatorias, es engañoso suponer que los niveles de expresión génica reflejan con precisión los niveles reales de proteínas. En mamíferos, solo alrededor del 30–40% de la variación en los niveles proteicos se asocia con los niveles correspondientes de ARNm, lo que resalta la importancia de la regulación postranscripcional y postraduccional.

El objetivo de la proteómica es identificar y cuantificar las proteínas presentes en una muestra, así como determinar su estructura, función e interacciones. Las proteínas son identificadas y cuantificadas comparando los picos de los espectros con una base de datos de espectros teóricos mediante programas como MaxQuant, MSstats y PRIDE (Proteomics Identification Database).

Al igual que con los datos de expresión génica, los datos de abundancia diferencial de proteínas pueden analizarse con herramientas de análisis de vías y funcionales como KEGG, DAVID y Reactome. Las redes de interacción proteína–proteína pueden analizarse utilizando STRING.

Repositorios públicos de datos proteómicos

La Proteomics Standards Initiative establece estándares comunitarios para la gestión de datos de proteómica, incluyendo el intercambio de información de espectrometría de masas y de interacciones proteína–proteína. UniProt es la principal base de datos pública de secuencias de proteínas y contiene tanto secuencias anotadas automáticamente sin revisar en UniProtKB/TrEMBL, como datos de proteínas curados por expertos y verificados experimentalmente en UniProtKB/Swiss-Prot.

Otra base de datos fundamental es el Human Protein Atlas, dedicada a mapear todas las proteínas humanas por órgano, tejido y tipo celular.

Predicción de la estructura proteica

La estructura tridimensional de una proteína es también de importancia crítica, y a menudo solo se resuelve tras arduos esfuerzos de cristalización que pueden prolongarse durante meses o años. Las estructuras proteicas resueltas se almacenan en el RCSB Protein Data Bank (PDB).

Aunque las estructuras de proteínas novedosas pueden predecirse mediante modelado por homología usando herramientas como SWISS-MODEL, la precisión suele ser baja. La predicción estructural de proteínas fue durante mucho tiempo un desafío abierto, incluso con herramientas de vanguardia, pero esto cambió de manera radical con la introducción de la herramienta avanzada de aprendizaje automático AlphaFold. Actualmente, se han depositado en la AlphaFold Protein Structure Database estructuras predichas para más de 214 millones de proteínas.

Modificaciones postraduccionales

El análisis de los datos proteómicos incluye una capa adicional de complejidad debido a que existen más de 650 formas conocidas de modificaciones postraduccionales, entre ellas la fosforilación, glicosilación, ubiquitinación, metilación, acetilación y SUMOilación. Se estima que hasta dos tercios de todas las proteínas sufren fosforilación; la fosfoproteómica constituye una rama fundamental de la proteómica que puede proporcionar información adicional sobre la función proteica.

Epigenómica

Muchos estudios de bioinformática comparan los niveles de expresión génica en muestras bajo diferentes condiciones utilizando secuenciación de ARN o transcriptómica, pero también se pueden obtener conocimientos fundamentales examinando las modificaciones epigenéticas, tales como la metilación del ADN o de histonas o la acetilación de histonas, que influyen en la medida en que un gen es accesible a la maquinaria de transcripción dentro de la muestra objetivo.

Técnicas como bisulfito-seq, MeDIP-seq, ATAC-seq, DNase-seq y ChIP-seq permiten caracterizar estas modificaciones. Las herramientas para el análisis bioinformático incluyen Bismark y MethylKit para secuenciación por bisulfito, MACS para datos de ChIP-seq, y HMMRATAC y Signac para estudios de accesibilidad de la cromatina.

El proyecto internacional ENCODE proporciona un catálogo de elementos funcionales del genoma que complementa estos estudios. El UCSC Genome Browser incluye varias pistas de ENCODE, incluyendo sitios de unión de factores de transcripción, hipersensibilidad a la DNasa y marcas de histonas que pueden ayudar en la interpretación de los datos de expresión génica.

Glicoinformática

Más de la mitad de las proteínas se glicosilan mediante glicanos N- o O-enlazados, afectando plegamiento, interacciones y respuesta inmune. La glicómica es el estudio de la diversidad de estructuras de glicanos, mientras que la glicoinformática es una rama de la bioinformática dedicada al almacenamiento, visualización y análisis de datos de glicanos.

Las estructuras de glicanos se determinan mediante la liberación, marcaje y separación de las cadenas de glicanos, seguidos de espectrometría de masas o espectroscopía de resonancia magnética nuclear, y posteriormente comparando los espectros con bases de datos de glicanos conocidas, como GlyTouCan y UniCarbKB. Existen diversas bases de datos y herramientas que buscan integrar la información sobre glicanos, entre ellas GlycoPOST, el GlyCosmos Portal, GlyGen y Glycomics@Expasy.

Metabolómica y Lipidómica

La metabolómica analiza metabolitos celulares —como azúcares, aminoácidos, nucleótidos y ácidos grasos— que reflejan directamente el estado fisiológico. La identificación implica el uso de espectrometría de masas o resonancia magnética nuclear, seguida de la comparación de los picos obtenidos con espectros conocidos y su anotación utilizando bases de datos como la Human Metabolome Database (HMDB) y la Small Molecule Pathway Database (SMPDB).

Los datos experimentales también se encuentran disponibles en bases de datos como MetabolomeXchange y MetaboLights. Para el análisis diferencial en metabolómica, son ampliamente utilizados programas como MetaboAnalyst y MetaboDiff.

La lipidómica, rama de la metabolómica, estudia lípidos que cumplen roles estructurales, energéticos y de señalización (por ejemplo, prostaglandinas y hormonas esteroides). Debido a su diversidad, el análisis requiere enfoques distintos para lípidos polares y no polares, empleando métodos como Bligh y Dyer, cromatografía líquida o capa fina, y espectrometría de masas.

Herramientas y bases de datos incluyen Lipostar, Mzmine, LipidBlast, MS-DIAL, LipidSearch y LipidMaps.

Conclusión

El estudio de la biología humana ya no se limita únicamente a la secuencia del ADN. La integración de múltiples disciplinas ómicas —genómica, transcriptómica, proteómica, epigenómica, metabolómica y glicómica— ofrece una visión mucho más completa de la compleja maquinaria celular. Estos enfoques permiten entender cómo los genes se regulan, cómo se expresan y cómo se traducen en funciones biológicas concretas, incorporando también el papel de proteínas, metabolitos y modificaciones químicas.

Gracias a repositorios públicos y al desarrollo de herramientas bioinformáticas, el conocimiento generado es accesible globalmente, acelerando avances en medicina personalizada, diagnóstico temprano y desarrollo de terapias innovadoras. En este panorama, cada capa de información es una pieza de un rompecabezas que nos acerca a comprender la biología humana en toda su diversidad y complejidad.

Este artículo fue traducido, adaptado y republicado, bajo una licencia de Creative Commons Attribution 4.0 International, de Hayes CN, Nakahara H, Ono A, Tsuge M, Oka S. From Omics to Multi-Omics: A Review of Advantages and Tradeoffs. Genes. 2024; 15(12):1551. https://doi.org/10.3390/genes15121551

Sobre el autor

Dr. Jhonatan Romo

Profesor universitario e investigador en el área de ciencias biológicas. Doctor en Genética, con experiencia en biología molecular y celular, genética y divulgación científica basada en evidencia. Autor del blog Ciencia y Filosofía, dedicado a la comunicación rigurosa del conocimiento científico.