Quizás alguna de estas situaciones se te haga conocida. Te acaban de enviar un audio de WhatsApp; pero, aunque sientes mucha curiosidad por escucharlo, no puedes hacerlo porque estás en medio de una reunión de trabajo. O, por otro lado, tu mejor amigo –o amiga– te está contando algo, y te envía un mensaje de voz largo que realmente te da flojera escuchar. Si te sientes identificado con alguno de estos casos, probablemente te interesará saber que existe un bot impulsado por inteligencia artificial (IA) que puede transcribir o resumir los audios que te envían por la popular aplicación de mensajería sin necesidad de leerlos.
MIRA: IBM sobre la inteligencia artificial: “Nos tenemos que acostumbrar a que vamos a lidiar ya no solo con humanos”
Se trata de EVA, un bot creado por Curador –startup de desarrolladores peruanos– que funciona gracias a su conexión con GPT-4, la última versión del lenguaje de OpenAI, la misma que da vida a la popular inteligencia artificial ChatGPT. Según sus creadores, EVA es una mediadora entre los humanos y las inteligencias artificiales. Su propósito es concebir la mejor experiencia de comunicación entre los humanos y la IA, algo que Christian Pasquel, CTO de Curador, llama “la experiencia AI” y que refiere al contacto masivo entre humanos y una inteligencia no humana suficientemente avanzada, que en este caso es GPT.
“No es la primera vez que ocurre en la historia, ya sucedió antes con las redes sociales. Nosotros pensamos que si las personas ya se comunican entre ellas con plataformas como WhatsApp o Instagram, ¿para qué hacer una nueva aplicación para comunicarse con las inteligencias artificiales si se pueden comunicar con ellas como lo harían con amistades o familiares?”, comenta a El Comercio Pasquel.
La ociosidad como fuente de inspiración
Suele pasar que los nuevos inventos nacen de hechos anecdóticos que no son necesariamente deliberados. En el caso de EVA, ella vio la luz gracias a la flojera. “Nace de la ociosidad, porque la ociosidad es la madre de toda invención”, señala a este Diario el CTO de Curador, quien a su vez que explica que las tecnologías que él desarrolla son, principalmente, para resolver algún problema en su vida.
¿A raíz de qué problema nació EVA? Pasquel narra que un día de tantos, agotado de escuchar los largos audios que le enviaba Santiago Tapia, CEO y cofundador de Curador, en las extensas conversaciones que tenían ambos, se le ocurrió desarrollar una herramienta que le resumiera los mensajes de voz de su compañero.
MIRA: Estas son las herramientas con inteligencia artificial que puedes usar gratis y muy pocos conocen
“Le envié los resúmenes que obtuve a Santiago casi como ‘burlándome’, pero a él se le ocurrió que quedaría perfecto como un producto, ‘porque la gente manda audios a manera de pensar en voz alta y ahí se desperdicia tiempo’”, cuenta. “Eso pasó un jueves, y para el domingo yo ya tenía una primera versión de Eva en producción. Entonces hicimos el anuncio, y el martes ya abrí el servidor al público”, añade.
¿Cómo funciona Eva?
No es un sistema complejo. Recibe el audio vía WhatsApp en los servidores del startup, luego se conecta con OpenAI para transcribirlo y, tras ello, envía la información a GPT-4 para procesarla. No obstante, el trabajo de EVA no solo consiste en conectar las tecnologías, sino también curarlas haciendo lo que se llama ‘prompt engineering’, que es “como domar a la inteligencia artificial para que haga lo que quieres”.
Como resultado, el bot no solo puede transcribir y resumir los audios, sino que también se le puede hacer preguntas puntuales sobre estos.
El prompt es la instrucción que le envías a las inteligencias artificiales de lo que quieres que haga. Por ejemplo, en los modelos que generan imágenes el prompt es algo como decirle "quiero un gato con patas largas, dibújalo en la superficie de Marte, que lleve un sombrero y que, detrás, esté un volcán explotando". De esta manera si vas a generar código, hay un tipo de prompt; si quieres generar poemas, hay otro tipo de prompt, etc. Aunque el prompt empieza desde algo como lenguaje humano –diciéndole lo que quieres–, también puedes utilizar ciertas técnicas para que lo vuelvas más específico. Mientras más específico seas con las instrucciones que le das a la máquina, vas a lograr mejores resultados. El pulir esos prompts para que la máquina haga exactamente lo que tú quieres es lo que se llama 'prompt engineering', se podría considerar una evolución a la manera cómo se escribe actualmente un código.
Y con curar me refiero a que la IA entienda y ejecute exactamente lo que el humano quiere, pues a veces las instrucciones pueden resultar ambiguas. Entonces curar es, básicamente, crear todo este conjunto de promts. Por ejemplo, los promts que se necesitan para que EVA procese audios y que los resuma o que responda preguntas, son unos prompts específicos que son curados. Por lo tanto, estamos ante una forma de encontrar la mejor manera de comunicarse con la máquina.
Para probarlo, le enviamos un audio del podcast de El Comercio sobre las cinco principales noticias del día (13 de abril). El resultado fue el siguiente:
Al pedirle que transcribiera el material, obtuvimos un texto bastante fiel al contenido original.
Cuando le pedimos un resumen, nos lo abrevió así.
Finalmente probamos hacerle dos preguntas: “¿Qué congresistas están cerca de ser despedidos?” y “¿Cuál fue el resultado del partido de Universitario de deportes?”. EVA nos dio la información exacta.
Seguridad de los datos
MIRA: OpenAI invierte en empresa de robótica y juntos crearían el primer humanoide controlado por ChatGPT
De acuerdo a Pasquel, en esta etapa de prueba en la que está EVA, casi no se almacena información. “Cuando se transcribe un audio, se almacena de forma encriptada solamente durante el tiempo que dura la conversación con EVA para poder agilizar el cómputo, luego de lo cual se elimina de los servidores.Tampoco guardamos nombres de los usuarios ni sus IP. Sí se almacena el idioma en el que se está hablando y los números telefónicos, aunque –como ya dije– solo durante la conversación”.
El servidor donde opera EVA tiene comunicación únicamente con Meta –casa matriz de WhatsApp– y con OpenAI, que es el proveedor de la inteligencia artificia GPT-4. Según sus creadores, la idea que tienen es la de ser siempre transparentes con los usuarios y su data, así como darles el control sobre lo que se puede hacer con ella: “Estamos trabajando en herramientas que permitan a los usuarios hacer este tipo de configuraciones”, comenta el CTO de Curador.
EVA se encuentra en versión beta, la 0,2, aunque la versión 0,3 ya está en siendo testeada. Y debido a la buena acogida que ha tenido, la idea es que cada semana se lance una actualización. Cualquier persona puede probar el bot, solo hay que acceder a su sitio web, puedes hacerlo desde este enlace.
De momento, el bot funciona con mensajes de un máximo de 5 minutos de duración, no obstante, ya se está trabajando para ampliar el tiempo hasta 30 minutos.
Para Curador este es solo un primer paso, ya que son múltiples los usos que se le podría dar a esta herramienta. Por ejemplo, actualmente se trabaja en una versión de EVA que organiza las ideas que se le envían por audio para que las resuma en un documento compartido. También se están haciendo pruebas para que detecte el estrés en un mensaje de voz y, de esa manera, sepa si quien la envía necesita apoyo. Entre otras posibles aplicaciones destacan las funciones para ayudar discapacitados o también como medio de autenticación. De hecho, para realizar esta nota, Christian Pasquel respondió nuestras inquietudes por audios de WhatsApp que fueron, posteriormente, desgrabadas por EVA.