X (antigua Twitter) ha compartido sus avances con las capacidades multimodales de su modelo de Inteligencia Artificial (IA) generativa Grok, que puede procesar imágenes y contenido visual, para responder preguntas relacionadas con dicho contenido.
La plataforma liderada por Elon Musk presentó su chatbot en noviembre del pasado año, que fue lanzado en versión de prueba para los suscriptores de Premium+, con capacidades para ofrecer respuestas a los usuarios en tiempo real. Esta herramienta está impulsado por el modelo de lenguaje del mismo nombre, del que a finales de marzo anunció la versión Grok-1.5, que incluye mejoras en su capacidad de rendimiento y en tareas relacionadas con la codificación y las matemáticas.
MIRA: El hombre que convirtió a su padre fallecido en un chatbot para “conservar su esencia”
Recientemente, X presentó una nueva actualización de su modelo con Grok-1.5V, que añadió capacidades multimodales. Es decir, que puede procesar información visual, como documentos, cuadros, diagramas, capturas de pantalla, gráficos y fotografías.
Ahora, la compañía de IA de Elon Musk, xAI, ha compartido los avances de Grok para procesar información visual y ha confirmado que el chatbot es capaz de analizar y tratar imágenes, así como responder preguntas relacionadas, con la implementación de Grok-1.5V.
Así se recoge en la actualización de los documentos de un kit de desarrollo de software (SDK), en el que se muestra una prueba de la IA multimodal, que ya está disponible para los desarrolladores.
En concerto, las líneas de código Python especifican cómo se puede utilizar la biblioteca del SDK de xAI para que el chatbot genere una respuesta basada tanto en texto como en imágenes. Así, en el ejemplo compartido, el código detalla que la IA recibe la imagen y la lee para analizarla. Tras ello, el chatbot recibe la pregunta “¿Qué es esto?” y utiliza el SDK de xAI para resolvers.
MIRA: Expertos alertan: los sistemas de IA actuales ya son capaces de engañar a los humanos
Tal y como mostró recientemente X en una publicación del blog de xAI, gracias a las capacidades multimodales, Grok puede escribir código a partir de una imagen de un diagrama, recibir una un meme y ofrecer una explicación, analizar una imagen de una etiqueta con valores nutricionales y calcular las calorías del alimento al que pertenece o, incluso, crear un cuento a partir de un dibujo.
Con todo ello, X continúa avanzando en las capacidades de IA de su chatbot, por lo que las capacidades multimodales del chatbot Grok llegarán a los usuarios de forma general en un futuro.
Contenido sugerido
Contenido GEC