Compartir conocimientos químicos entre humanos y máquinas
- 29 de agosto de 2023
- Publicado por: Juan Manuel
- Categoría: novedades
Un equipo de investigadores desarrolla una herramienta de IA que traduce estructuras químicas a códigos legibles por máquinas
Investigadores de la Universidad de Jena, la Universidad de Ciencias Aplicadas de Westfalia y la Universidad de Química y Tecnología de Praga han desarrollado una plataforma que utiliza redes neuronales artificiales para traducir fórmulas estructurales químicas a un formato legible por máquina. Con esta plataforma, han creado una herramienta con la que esta información procedente de publicaciones científicas puede introducirse automáticamente en bases de datos. Hasta ahora, esto tenía que hacerse literalmente a mano y llevaba mucho tiempo. En el número actual de la revista especializada “Nature Communications”, el equipo dirigido por los profesores Christoph Steinbeck y Achim Zielesny presenta la última versión de su herramienta, DECIMER.ai, que los investigadores pueden utilizar en todo el mundo.
El equipo dirigido por el Prof. Dr. Christoph Steinbeck (dcha.) y el Prof. Dr. Achim Zielesny ha desarrollado la herramienta de IA DECIMER.ai,
que los investigadores pueden utilizar en todo el mundo.
Anne Günther/Uni Jena
Las fórmulas estructurales muestran cómo están construidos los compuestos químicos, es decir, de qué átomos constan, cómo están dispuestos espacialmente y cómo están conectados. Los químicos pueden deducir de una fórmula estructural, entre otras cosas, qué moléculas pueden reaccionar entre sí y cuáles no, cómo pueden sintetizarse compuestos complejos o qué sustancias naturales podrían tener un efecto terapéutico porque encajan con moléculas diana en las células.
Desarrollada en el siglo XIX, la representación de las moléculas como fórmulas estructurales ha superado la prueba del tiempo y sigue utilizándose en todos los manuales de química. Pero lo que hace que el mundo químico sea intuitivamente comprensible para los humanos no es más que una colección de píxeles en blanco y negro para el software. “Para que la información de las fórmulas estructurales se pueda utilizar en bases de datos en las que se puedan hacer búsquedas automáticas, hay que traducirlas a un código legible por máquinas”, explica Christoph Steinbeck, catedrático de Química Analítica, Quimioinformática y Quimiometría de la Universidad de Jena.
Una imagen se convierte en un código
Y eso es precisamente lo que puede hacerse utilizando la herramienta de Inteligencia Artificial “DECIMER”, desarrollada por el equipo dirigido por el profesor Steinbeck y su colega el profesor Achim Zielesny, de la Universidad de Ciencias Aplicadas de Westfalia. DECIMER son las siglas de “Deep Learning for Chemical Image Recognition” (aprendizaje profundo para el reconocimiento químico de imágenes). Se trata de una plataforma de código abierto que está a disposición de todo el mundo en Internet y puede utilizarse en un navegador web estándar. Los artículos científicos que contienen fórmulas estructurales químicas pueden cargarse allí simplemente arrastrando y soltando, y la herramienta de IA se pondrá a trabajar inmediatamente.
“Primero se buscan imágenes en todo el documento”, explica Steinbeck. A continuación, el algoritmo identifica la información contenida en la imagen y la clasifica según se trate de una fórmula estructural química o de cualquier otra imagen. Por último, las fórmulas estructurales reconocidas se traducen al código de la estructura química o se muestran en un editor de estructuras, para poder seguir procesándolas. “Este paso es el núcleo del proyecto y el verdadero logro”, añade Steinbeck.
De este modo, la fórmula estructural química de la molécula de cafeína se convierte en el código de estructura CN1C=NC2=C1C(=O)N(C(=O)N2C)C legible por máquina. Este código puede cargarse directamente en una base de datos y vincularse a más información sobre la molécula.
Para desarrollar DECIMER, los investigadores utilizaron métodos modernos de IA que acaban de afianzarse y que también se emplean, por ejemplo, en los Grandes Modelos Lingüísticos (como ChatGPT) que tanto están dando que hablar en la actualidad. Para entrenar su herramienta de IA, el equipo generó fórmulas estructurales a partir de las bases de datos legibles por máquina existentes y las utilizó como datos de entrenamiento: unos 450 millones de fórmulas estructurales hasta la fecha. Además de los investigadores, las empresas ya están utilizando la herramienta de IA, por ejemplo para transferir fórmulas estructurales de especificaciones de patentes a bases de datos.
Steinbeck y Zielesny tuvieron la idea de desarrollar una herramienta de IA para descodificar imágenes químicas hace unos años. Los dos químicos se interesaron por el desarrollo de métodos de IA en relación con el milenario juego de mesa asiático Go. En 2016, junto con millones de personas de todo el mundo, presenciaron el espectacular torneo entre el mejor jugador de Go del momento, el surcoreano Lee Sedol, y el programa informático “AlphaGo”, que la máquina ganó por 4 a 1.
“Fue un rayo caído del cielo que nos mostró lo poderosa que puede llegar a ser la IA”, recuerda Steinbeck. Hasta entonces, se consideraba prácticamente impensable que un algoritmo pudiera rivalizar con la creatividad y la intuición humanas en este juego. “Cuando, un poco más tarde, una herramienta de IA desarrolló una fuerza de juego casi sobrehumana al no ser entrenada laboriosamente a través de innumerables sesiones de partidas humanas -como todavía ocurría con AlphaGo-, sino simplemente mediante el proceso de que el sistema jugara contra sí mismo una y otra vez, y optimizara su estilo de juego a medida que lo hacía, nos dimos cuenta de que estos nuevos métodos también podían resolver otros problemas muy complejos con suficientes datos de entrenamiento. Queríamos utilizarlo en nuestro campo de investigación”.
Hacer que la información científica sea utilizable de forma sostenible
Con DECIMER, Steinbeck y su equipo esperan ser capaces en algún momento de leer mecánicamente toda la literatura química que les interese, desde los años 50, y traducirla a bases de datos abiertas. Al fin y al cabo, una de las principales preocupaciones de Steinbeck, también coordinador de la Infraestructura Nacional de Datos de Investigación Química de Alemania, es asegurar de forma sostenible los conocimientos existentes y ponerlos a disposición de la comunidad científica mundial.