Inteligencia Artificial para entender funciones del cerebro

Estudio muestra que el aprendizaje por refuerzo de Inteligencia Artificial (IA) también se aplica al cerebro.

Investigadores de IA utilizan al cerebro humano como inspiración para la recreación de arquitecturas de redes neuronales artificiales para la simulación de conexiones neuronales.

Sin embargo, DeepMind, investigadora de Google, publicó un estudio evidenciando un avance en el uso de IA para comprensión de características inexplicables del cerebro humano. En el estudio se aplicaron conceptos de aprendizaje automático al experimento neurocientífico. Se encontraron similitudes entre el sistema biológico de dopamina del cerebro y algoritmos de aprendizaje por refuerzo de IA.

El estudio indica que el aprendizaje por refuerzo intenta imitar el sistema de recompensa de dopamina dentro del cerebro. Este aprendizaje comprende el entrenamiento de algoritmos a través de un sistema de recompensa y castigo, busca maximizar la recompensa y minimizar la penalización. Esta técnica permite al cerebro utilizar la probabilidad de recompensas futuras en lugar de centrarse en acciones que resultan en recompensas inmediatas.

Un avance importante en la resolución del estudio conforme a la predicción de recompensas fue el algoritmo de aprendizaje de diferencia temporal (TD). Este aprendizaje utiliza un truco matemático que en lugar de tratar de calcular una recompensa futura total intenta predecir la combinación de recompensa inmediata y su propia predicción de recompensa en un tiempo más adelante.

Luego, con la nueva información, la nueva predicción se compara con lo que se esperaba que fuera. Si son diferentes, el algoritmo calcula lo diferentes que son y usa esta “diferencia temporal” para ajustar la predicción anterior hacia la nueva predicción. Al esforzarse siempre por acercar estos números en cada momento en el tiempo, haciendo coincidir las expectativas con la realidad, toda la cadena de predicción se vuelve gradualmente más precisa.

Probabilidades y predicciones

Se planteó la siguiente hipótesis: el cerebro representa posibles recompensas futuras no como una sola media, sino como una distribución de probabilidad, representando múltiples resultados futuros simultáneamente y en paralelo. Los investigadores entrenaron a ratones en pruebas de probabilidad variable y en diferentes tareas de magnitud variable. Presentaron olores como estímulos, agua como recompensas y soplos de aire como penalizaciones.

Neurotransmisores
Neurotransmisores como dopamina / Foto:Enzo Life Sciences

Las predicciones del modelo de TD distribucional reflejaron de cerca las respuestas de las células de dopamina del cerebro a las siete magnitudes de recompensa diferentes. Diferentes células de dopamina mostraron diferentes amplificaciones. Las neuronas dopaminérgicas fueron calibradas para diferentes niveles de optimismo o pesimismo, y operaron juntas como un todo de una manera similar al aprendizaje de refuerzo distribuido.

Se encontró que las neuronas de dopamina en el cerebro están sintonizadas a diferentes niveles de pesimismo u optimismo. Presentaron el ejemplo que si fueran un coro, no todas estarían cantando la misma nota, sino armonizando, cada una con un registro vocal consistente.

En los sistemas de aprendizaje por refuerzo artificial, esta afinación diversa crea una señal de entrenamiento más rica que acelera en gran medida el aprendizaje en las redes neuronales y se especula que el cerebro podría usarlo por la misma razón.

El descubrimiento de la existencia de un aprendizaje por refuerzo distribucional en el cerebro valida que la investigación de aprendizaje por refuerzo en la Inteligencia Artificial está en el camino correcto. Asimismo, plantea nuevas preguntas para la neurociencia y nuevos conocimientos para entender la salud mental y la motivación.

Ivanna Zlatar
Ivanna Zlatar

Experience Designer

También te puede interesar