El Premio de Investigación Médica Básica Lasker de este año fue otorgado a Demis Hassabis y John Jumper por sus contribuciones a la creación del sistema de inteligencia artificial AlphaFold que predice la estructura tridimensional de las proteínas basándose en la secuencia de primer orden de aminoácidos.
Sus resultados resuelven un problema que ha desconcertado a la comunidad científica durante mucho tiempo y abren la puerta a la aceleración de la investigación en el campo biomédico. Las proteínas desempeñan un papel fundamental en el desarrollo de enfermedades: en la enfermedad de Alzheimer, se pliegan y se agrupan; en el cáncer, su función reguladora se pierde; en los trastornos metabólicos congénitos, son disfuncionales; en la fibrosis quística, se alojan en el espacio celular incorrecto. Estos son solo algunos de los numerosos mecanismos que causan enfermedades. Los modelos detallados de la estructura de las proteínas pueden proporcionar configuraciones atómicas, impulsar el diseño o la selección de moléculas de alta afinidad y acelerar el descubrimiento de fármacos.
Las estructuras de las proteínas se determinan generalmente mediante cristalografía de rayos X, resonancia magnética nuclear y microscopía crioelectrónica. Estos métodos son costosos y requieren mucho tiempo. Esto da como resultado que las bases de datos de estructuras de proteínas 3D existentes solo contengan alrededor de 200,000 datos estructurales, mientras que la tecnología de secuenciación de ADN ha producido más de 8 millones de secuencias de proteínas. En la década de 1960, Anfinsen et al. descubrieron que la secuencia 1D de aminoácidos puede plegarse espontánea y repetidamente en una conformación tridimensional funcional (Figura 1A), y que las "chaperonas" moleculares pueden acelerar y facilitar este proceso. Estas observaciones conducen a un desafío de 60 años en biología molecular: predecir la estructura 3D de las proteínas a partir de la secuencia 1D de aminoácidos. Con el éxito del Proyecto Genoma Humano, nuestra capacidad para obtener secuencias de aminoácidos 1D ha mejorado enormemente, y este desafío se ha vuelto aún más urgente.
Predecir las estructuras de las proteínas es difícil por varias razones. En primer lugar, todas las posibles posiciones tridimensionales de cada átomo en cada aminoácido requieren una exploración exhaustiva. En segundo lugar, las proteínas aprovechan al máximo la complementariedad en su estructura química para configurar eficientemente los átomos. Dado que las proteínas suelen tener cientos de "donadores" de enlaces de hidrógeno (generalmente oxígeno) que deberían estar cerca del "aceptor" de enlaces de hidrógeno (generalmente nitrógeno unido a hidrógeno), puede ser muy difícil encontrar conformaciones donde casi todos los donadores estén cerca del aceptor. En tercer lugar, existen ejemplos limitados para el entrenamiento de métodos experimentales, por lo que es necesario comprender las posibles interacciones tridimensionales entre aminoácidos a partir de secuencias unidimensionales utilizando información sobre la evolución de las proteínas relevantes.
La física se utilizó por primera vez para modelar la interacción de los átomos en la búsqueda de la mejor conformación, y se desarrolló un método para predecir la estructura de las proteínas. Karplus, Levitt y Warshel fueron galardonados con el Premio Nobel de Química de 2013 por su trabajo en la simulación computacional de proteínas. Sin embargo, los métodos basados en la física son computacionalmente costosos y requieren un procesamiento aproximado, por lo que no se pueden predecir estructuras tridimensionales precisas. Otro enfoque "basado en el conocimiento" es utilizar bases de datos de estructuras y secuencias conocidas para entrenar modelos a través de inteligencia artificial y aprendizaje automático (IA-ML). Hassabis y Jumper aplican elementos tanto de la física como de la IA-ML, pero la innovación y el salto en el rendimiento del enfoque provienen principalmente de la IA-ML. Los dos investigadores combinaron creativamente grandes bases de datos públicas con recursos informáticos de grado industrial para crear AlphaFold.
¿Cómo sabemos que han "resuelto" el rompecabezas de la predicción estructural? En 1994, se estableció el concurso de Evaluación Crítica de la Predicción de Estructuras (CASP), que se reúne cada dos años para seguir el progreso de la predicción estructural. Los investigadores compartirán la secuencia 1D de la proteína cuya estructura han resuelto recientemente, pero cuyos resultados aún no se han publicado. El predictor predice la estructura tridimensional utilizando esta secuencia 1D, y el evaluador juzga de forma independiente la calidad de los resultados predichos comparándolos con la estructura tridimensional proporcionada por el experimentalista (proporcionada solo al evaluador). CASP realiza verdaderas revisiones ciegas y registra saltos periódicos de rendimiento asociados con la innovación metodológica. En la 14.ª Conferencia CASP en 2020, los resultados de predicción de AlphaFold mostraron tal salto en el rendimiento que los organizadores anunciaron que el problema de la predicción de la estructura tridimensional se había resuelto: la precisión de la mayoría de las predicciones era cercana a la de las mediciones experimentales.
La importancia más amplia radica en que el trabajo de Hassabis y Jumper demuestra de forma convincente cómo la IA-ML podría transformar la ciencia. Su investigación muestra que la IA-ML puede construir hipótesis científicas complejas a partir de múltiples fuentes de datos, que los mecanismos de atención (similares a los de ChatGPT) pueden descubrir dependencias y correlaciones clave en las fuentes de datos, y que la IA-ML puede autoevaluar la calidad de sus resultados. En esencia, la IA-ML hace ciencia.
Hora de publicación: 23 de septiembre de 2023




