A fines de marzo investigadores de Microsoft anunciaron algo que no pensé escuchar en por lo menos 20 años: GPT-4 —el modelo de lenguaje más reciente de OpenAl— exhibe las primeras señales de una inteligencia artificial General.
Que las máquinas posean inteligencia ha sido visto con escepticismo desde el nacimiento de la inteligencia artificial. A la incansable búsqueda del ser humano por encontrar chispazos de inteligencia, poco le importa si está es artificial o si aprende imitando nuestro razonamiento.
LEE TAMBIÉN: Quiere reemplazar a los móviles: así es Humane, el dispositivo con IA que proyecta imágenes en la mano | VIDEO
Y mientras lanzamos preguntas sobre cualquier tema, el Internet ahora nos devuelve respuestas llenas de elocuencia y creatividad. ¿Pero qué tan inteligentes son estos algoritmos? Solo cuando entendemos los principios de su funcionamiento, es cuando comprendemos el impacto que tendrán en nuestras vidas en los siguientes años. La aparición de modelos que parecen cada vez más inteligentes —tales como Lambda, ChatGPT, y GPT-4— hace que sea urgente hablar no solo de sus sorprendentes habilidades, sino también de sus límites tecnológicos.
Ya en 1994, el consenso de un grupo de 52 psicólogos definía a la inteligencia como “una capacidad mental general que, entre otras cosas, involucra la habilidad de razonar, planear, resolver problemas, pensar de forma abstracta, comprender ideas complejas, y aprender rápidamente de sus experiencias”.
Tal definición hace énfasis en el amplio rango de habilidades que un sistema —natural o artificial— debe exhibir para dar señales de inteligencia. Y encontrar tales habilidades en una máquina parecía ser una ambición muy lejana hasta ahora.
¿Pero qué es la inteligencia artificial General?
Usualmente construimos inteligencias a muy específicas para recomendar una película o aprender a jugar Go con la intención de reducir la complejidad de estas tareas. En contraste, una IA General resuelve muchos tipos de problemas los cuales demandan capacidades como razonar, planear, aprender, y entender conceptos tan bien o incluso mejor que un ser humano.
Esto no significa que una IA General tenga que replicar cualquier cosa que un ser humano haría. De hecho, nosotros mismos no podemos realizar todas las habilidades que otras personas tienen.
GPT-4 parece ser una IA General por su capacidad para manipular el lenguaje en múltiples formas —en muchos casos sin haber sido entrenado para tal fin. Desde traducir, resumir, y responder preguntas, hasta generar canciones en muchos estilos, y buscar en internet cuando sea necesario.
MIRA: ¿No puedes usar ChatGPT? Las cuatro mejores alternativas al chatbot de OpenAI
Estas habilidades no son únicas, pues ChatGPT también las mostraba. La diferencia es que GPT-4 lo hace mejor (aunque no perfecto). Sin embargo, también existe una mirada crítica sobre la posibilidad de que en algunos casos estos modelos masivos puedan estar memorizando la información presente en sus datos de entrenamiento.
Las habilidades emergentes de GPT-4
Un modelo de lenguaje muestra una habilidad emergente cuando esta solo aparece en modelos con una enorme cantidad de parámetros. Habilidades emergentes como el razonamiento, sentido común, y la persuasión están desconcertando a los científicos, lingüistas, y filósofos.
Entrenar estos sistemas es un logro de ingeniería reciente que requiere una gran cantidad de cómputo y datos. Por ejemplo, se especula que GPT-4 es seis veces más grande que el ya gigante ChatGPT con más de un trillón de parámetros a los que entrenar.
Medir las capacidades inteligentes de un modelo matemático es una tarea difícil. OpenAI evalúa la flexibilidad de sus modelos haciendo que tomen exámenes diseñados para los seres humanos. Estos exámenes permiten certificarse en la vida real o medir habilidades en áreas muy diversas —leyes, biología, lenguaje, matemática, historia, programación— y las notas se comparan con las de otras personas que también forman parte del experimento.
Los resultados del experimento son notables. GPT-4 parece estar a la par de otros seres humanos en la mayoría de estos exámenes. Más interesante aún, este modelo está en el top-10 dentro de las personas que tomaron el examen de certificación BAR (90% en la figura), el cual es un requisito importante para ejercer la abogacía en Estados Unidos. Mientras estos resultados muestran la habilidad sin precedentes de GPT-4 para entender información, también corroboran la dificultad que este tiene para resolver otros problemas que requieren razonamiento matemático y computacional —al menos hasta que GPT-5 aparezca.
Utilizando el lenguaje para manipular imágenes
Un modelo de lenguaje que sólo aprende en base a texto adquiere un significado incompleto del mundo real. Entrenar GPT-4 con textos e imágenes es llevar el juego de la imitación al siguiente nivel. Esto significa exponer el modelo a las conexiones que existen con los objetos y acciones del mundo real que están presentes en las imágenes. Entender la relación entre píxeles y palabras es un paso importante para que la IA pueda en un futuro entender procesos como nuestro lenguaje corporal o el efecto que tienen las leyes físicas sobre nosotros.
Sígame en el siguiente ejemplo. Se le pide a GPT-4 que genere código que dibuja un unicornio, como se muestra en la siguiente imagen. Mientras que GPT-4 hace un mejor trabajo que ChatGPT, es cuando le damos la instrucción de remover y luego agregar de vuelta el cuerno del unicornio que nos damos cuenta de la habilidad del modelo para entender instrucciones que manipulan las propiedades de los objetos. Versiones recientes de GPT-4, que aún no están abiertas al público, mejoran incluso más esta capacidad de entender texto e imágenes.
¿Por qué funciona tan bien?
Entender un lenguaje va más allá de memorizar palabras y reglas gramaticales. De acuerdo a la teoría del rol semántico, los seres humanos asignamos significado a las palabras mediante la asociación frecuente de conceptos. Algo que recuerda mucho a la capacidad de los modelos de lenguaje para calcular relaciones estadísticas entre palabras en millones de documentos.
GPT-4 funciona tan bien porque descubre relaciones entre conceptos dentro de una cantidad asombrosa de información de forma automática. Internamente este modelo es una red neuronal artificial que representa los datos como enormes matrices de números. Cada número es un parámetro y su valor representa el nivel de activación entre neuronas. La sucesiva multiplicación de estas matrices transforman la información hasta obtener una representación interna que le permite predecir la siguiente palabra en una oración.
LEE TAMBIÉN: La inteligencia artificial y el Big Data pueden reducir hasta un 20% del consumo de energía eléctrica
¿Pero acaso el cerebro humano predice la siguiente palabra para entender el lenguaje? Una investigación publicada en Nature arroja luz sobre este interesante fenómeno. El experimento consiste en medir la actividad cerebral de nueve participantes que escuchan un podcast de 30 minutos. Según los autores, es posible entrenar un modelo de IA usando las señales neuronales del cerebro que pueda anticipar la siguiente palabra del podcast cientos de milisegundos antes.
Esta evidencia sugiere una hipótesis fascinante, que tanto el cerebro humano como un modelo de lenguaje comparten el principio computacional de predecir la siguiente palabra, siempre que se considere las palabras recientes como contexto. Más aún, la correlación entre las activaciones neuronales del cerebro y la representación interna del modelo corroboran un enlace entre ambos sistemas inteligentes.
Entonces, la representación de las palabras y su predicción en una oración parecen ser piezas fundamentales (aunque no completas) para que el significado de las palabras y las estructuras lingüísticas emerjan desde los datos en el cerebro humano y en un modelo computacional.
Una IA que muestra razonamiento
El telón de Aquiles de los modelos de lenguaje es que carecen de un mecanismo que les permita desconfiar de sus propias predicciones. Esto a menudo sucede ante preguntas ambiguas o cuando el modelo no dispone de suficiente información. Este problema conduce a alucinar respuestas que dan lugar a comportamientos inesperados.
De hecho, el mismo mecanismo que permite a un modelo autocompletar una oración, es también responsable de que este no pueda planear varios pasos hacia adelante. Enfocarse en decisiones a corto plazo parece limitar su capacidad de razonar sobre los pasos intermedios que son necesarios para resolver un problema. Los seres humanos solemos seguir esta estrategia al tomar decisiones, pues volvemos hacia atrás en nuestro proceso mental, verificando hechos y corrigiendo resultados anteriores.
Por este motivo el reciente descubrimiento de que modelos de lenguaje pueden reflexionar sobre su propio razonamiento no deja indiferente a nadie. Esta habilidad emergente de GPT-4 y de modelos recientes es posible debido a que han sido entrenados para seguir instrucciones, a manera de demostraciones de cómo deberían comportarse. Dicho aprendizaje permite alinear el modelo a un conjunto de valores esperados y también le enseña cómo descomponer una respuesta en un conjunto de pasos y cálculos intermedios.
MIRA: Google le ha otorgado a su chatbot Bard la habilidad de programar, una de las más solicitadas
Por eso cuando GPT-4 reconoce que alucina y recibe demostraciones de los pasos correctos para llegar a una solución, una técnica denominada Chain-of-Thought, demuestra una mejora dramática en resolver problemas aritméticos, de sentido común, y razonamiento simbólico. Lo más interesante de esta nueva habilidad es que no requiere reentrenar del modelo, el cual es un proceso realmente costoso en tiempo y dinero.
Tomemos el siguiente ejemplo de cómo incorporar demostraciones a manera de un prompt.
“Hey GPT-4, tengo 9 huevos, 1 libro, 1 laptop, una botella, y un clavo. Por favor, dime cómo apilarlos uno encima del otro de modo que no se caigan.”
El modelo devuelve una respuesta equivocada, sugiriendo que los huevos y el clavo se coloquen sobre la botella en posición vertical. Una solución quizás posible, aunque insegura.
Pero cuando aumentamos la pregunta con ejemplos racionales a tomar en cuenta, sucede algo interesante. GPT-4 otorga una respuesta llena de sentido común y que incluso puede ser útil en la vida real.
Humano: Hey GPT-4, tengo 9 huevos, 1 libro, 1 laptop, una botella, y un clavo. Por favor, dime cómo apilarlos uno encima del otro de modo que no se caigan.
Explicación:
1. la posición vertical de la botella no genera una base firme para ningún objeto
2. Los huevos pueden formar una base horizontal si están alineados horizontalmente
GPT-4:
•A continuación, te propongo una forma de apilar estos objetos de manera segura y estable:
• Primero, coloca los 9 huevos en el suelo en una disposición de 3x3 (tres filas y tres columnas) para formar una base horizontal. Asegúrate de que estén alineados y juntos para proporcionar un soporte adecuado.
•Luego, coloca el libro encima de los huevos, asegurándote de que cubra todos los huevos y distribuya el peso de manera uniforme sobre ellos. Esto proporcionará una superficie plana y sólida para colocar los siguientes objetos.
• A continuación, coloca la laptop encima del libro, cerrada y en posición horizontal. Asegúrate de que esté centrada en el libro para mantener el equilibrio.
• Ahora, coloca la botella en posición horizontal encima de la laptop. Asegúrate de que esté en el centro y paralela a los bordes de la laptop para evitar que ruede.
• Por último, coloca el clavo encima de la botella, en su parte plana. Puedes colocarlo en cualquier dirección, siempre que esté estable y no se caiga.
Importancia para Latinoamérica
GPT-4 representa el primer paso en un largo camino de algoritmos cada vez más inteligentes. Por eso, la forma correcta de medir su potencial no es solo considerando sus habilidades, sino también su tendencia para realizar tareas cada vez más difíciles.
Y mientras vemos con admiración estas tendencias, es importante preguntarnos desde qué distancia queremos hacerlo. Es cierto que la IA puede aprender sesgo desde los datos y aumentar la desinformación, pero poco se dice que el mecanismo más efectivo para reducirlo es la diversidad entre los ingenieros y científicos que la desarrollan.
Algoritmos como GPT-4 se alimentan de reglas escritas por seres humanos, las cuales alinean su aprendizaje por refuerzo hacía respuestas con sentido común. Si los países latinoamericanos se enfocan en desarrollar generaciones de científicos e ingenieros en inteligencia artificial, es más probable que los siguientes modelos reflejen de forma más exacta los valores y la diversidad cultural que nos hacen sentir tan orgullosos.
Esta diferencia hará que estos modelos pasen de entender lenguajes a entender las sociedades que las hablan, incrementando la probabilidad de construir algoritmos que colectivamente necesitamos. Más talento de IA en Latinoamérica es fundamental para que nuestros gobiernos tomen mejores decisiones cuando temas como la disminución de empleos por la automatización sean urgentes en el futuro.
No es tarde para que nuestros países entren a la carrera de crear una economía alrededor de la IA —incluyendo el talento, la infraestructura, y la política de datos que esto requiere. Hablamos de invertir en desarrollar una tecnología puede crear nuevos mercados, generar empleos, y sentar las bases del cambio económico que buscamos por varias generaciones. Requerirá que nuestras autoridades, y nosotros mismos, elevemos la vista hacia el futuro, intentando anticipar las olas de esta nueva revolución industrial.