El no poder comunicarse con otra persona porque esta no habla la lengua de señas, es un obstáculo para las personas sordas. Y es que en una sociedad ideal esta podría ser dictada en colegios, universidades e incluso en los centros laborales para así erradicar esa diferencia; sin embargo, esa no es la realidad. Afortunadamente, la tecnología le ha permitido a una nueva generación de creadores poder desarrollar inventos y funcionalidades que acorten esta brecha de comunicación.
MIRA: uDocz, la plataforma peruana de intercambio de notas de estudio que ha recibido US$2 mlls desde Silicon Valley
Guillermo Bastian, ingeniero industrial de la Universidad de Lima quien se desempeña como consultor tecnológico, es una de las personas que se valió de la tecnología, específicamente la inteligencia artificial, para crear una nueva alternativa para las personas sordas.
De acuerdo con la Federación Mundial del Sordo, hay más de 70 millones de personas sordas en el mundo. En el Perú, por otro lado, son 232.136 personas las que no pueden oír, según el INEI. El no poder mantener una conversación con una persona que no sabe la lengua de señas, no solo los aleja de la posibilidad de entablar nuevos vínculos, sino también de acceder a servicios básicos como hospitales y supermercados.
MIRA: Freakit, la nueva aplicación de citas que pretende ser el “Tinder de los otakus”
Frente a esta necesidad, Bastian creó The Smart Interpreter, un visor que, gracias a la inteligencia artificial, funciona como un intérprete entre la persona que escucha y la otra que no es capaz de oír. El visor puede convertir, automáticamente, la palabra hablada en un texto escrito y viceversa.
La creación de este visor hizo que el joven fuera nombrado como uno de los 35 Innovadores Menores de 35 Latinoamérica 2022 de MIT Technology Review, evento en el cual otros 4 peruanos también fueron reconocidos.
El Comercio conversó con Guillermo Bastian, quien nos contó un poco más acerca de su creación y la experiencia en este evento.
LEE TAMBIÉN: Imágenes creadas con IA: ¿cuánto tiempo le tomaría un trabajo así a un ilustrador profesional?
—¿Cuál es la historia detrás de la creación de The Smart Interpreter?
Yo trabajo como consultor de tecnología y conocí a una persona que era muy talentosa, tenía muchísimos grados de estudio, era muy inteligente. Pero al momento de que trabajamos juntos en alguna reunión, digamos alguna conversación en grupo, se le hacía un poco complicado seguir el tema, en realidad demostrar todo el talento que tenía, por más que era una persona muy inteligente.
Entonces desde ahí empecé a ver un poco la necesidad que había para que las personas sordas o con hipoacusia, puedan conectar con el mundo oyente en el trabajo o en la vida personal incluso. No solamente es trabajar y tener éxito laboral, sino también conectar con personas, hacer amigos, por ahí enamorarse de alguien. Entonces esa conexión como que faltaba, falta en la sociedad.
MIRA: Así es ART, el robot tortuga que es capaz de movilizarse por tierra y agua
—Teniendo en cuenta que el lenguaje de señas es bastante gestual, ¿cómo funciona exactamente el visor y qué tecnología usa?
Estas gafas tienen dos funciones principales, la primera es la de “escuchar”. El visor tiene unos micrófonos que captan la información cuando una persona habla. Este audio, con un modelo ‘speech to text’, se transforma a texto. De ahí, ese texto lo va a transformar mediante varios motores gramaticales a una secuencia de imágenes.
Entonces, lo que la gente le hable se verá en una pantalla a través de una secuencia de imágenes y diferentes señas que componen esa oración. Y un poco la segunda función que tiene es la de “hablar”. Los lentes tienen una cámara posicionada en la frente y un poco la idea es que uno mirando las señas que haces con las manos, puedan traducirse a voz. Y eso lo hace mediante técnicas de inteligencia artificial, deep learning, para aprender cómo relaciona las señas a las palabras.
MIRA: Este chatbot con IA te permite “conversar” con Elon Musk, Donald Trump y más
—¿Cuántas palabras ha aprendido el visor hasta ahora?
Ha aprendido alrededor de 70 palabras y justo necesita muchísima más data para reforzar y para ampliar el vocabulario.
—¿Cuánto tiempo tarda aproximadamente en hacer la interpretación de oraciones en una conversación?
Depende bastante de la oración, pero sí tarda unos segundos extra por dos razones. Uno, por la naturaleza del lenguaje de señas, y dos, porque la solución tiene que leer, interpretar, pasar a audio y reproducir. Entonces sí tiene unos segundos más que puede demorar.
MIRA: Este NO es Mark Zuckerberg, es un avatar hiperrealista que nos ha dejado perplejos
—Hay más de 300 lenguas de señas en el mundo, ¿cuál es el que se utiliza en el visor?
Utiliza la de Perú.
—¿Existe la posibilidad de, en un futuro, ampliar el visor a más lenguas de señas?
Sí, claro que sí. La herramienta es parametrizable y entrenable, tiene esas dos características. Parametrizable es que, como tú misma dijiste, el lenguaje de señas es muy gestual, entonces hay cosas que con los lentes no se van a poder ver, que es la forma en cómo pone la boca, la forma en cómo pone los ojos. Entonces por eso tiene ciertos parámetros que se debe saber cómo usar estas gafas, para decirle cuando se hagan en el orden correcto.
Y, por otra parte, es entrenable porque al usar inteligencia artificial, uno puede enseñarle los diferentes lenguajes. Entonces, la primera vez que uno le enseñe un lenguaje diferente, una lengua de señas distinta, puede ser un poco costoso enseñarle toda la lengua a la herramienta, pero una vez que ha aprendido la lengua de un país ya es escalable fácilmente porque ya es copiar y pegar ese modelo en las diferentes gafas.
MIRA: ¿Adiós Zoom? Prueban las primeras videollamadas holográficas por 5G en Europa
—Actualmente se encuentra en el segundo prototipo, ¿en cuánto tiempo podríamos ver el diseño final?
Mi idea es que por ahí en un año ya tenga un diseño final con muchísimas palabras que usan los sordos.
Ahí el tema es que una de las necesidades que me gustaría cubrir es que ya con la visibilidad que ha dado este premio, tener más contacto con universidades, por ejemplo, que me puedan ayudar a entrenar este dispositivo. Entrenar a una inteligencia artificial es un proceso bastante costoso, demanda tiempo y de varias personas. Creo que con el apoyo de una institución educativa podría hacerlo mucho más rápido.
—Precisamente eso te iba a preguntar, ¿hay alguna empresa que haya mostrado algún interés ya sea en la compra del algoritmo o tal vez empezar a trabajar a modo de alianza?
Por el momento todavía y mi idea es que ya a partir un poco con la visibilidad del premio pueda tener más fácil el contacto con las universidades u otra entidad.
MIRA: Las impactantes imágenes que crearon dos IA con la versión futurista de Lima del año 2050
—Ahora, ¿cómo fue la experiencia en MIT Technology Review? ¿Qué se siente ser parte de los cinco peruanos ganadores de este evento?
Bueno es emocionante la verdad porque aparte del trabajo que uno hace día a día, porque yo también trabajo como consultor en una empresa de tecnología, en mi día a día, en mi tiempo libre le dediqué muchas horas a este proyecto. Entonces para mí es bastante gratificante ser reconocido por todo el esfuerzo y las horas que he invertido de mi vida personal en un proyecto así.
Y sobre todo que es un proyecto que tiene una afinidad social, entonces es gratificante saber que puedo tener esta visibilidad y que puedo llegar a avanzar con este proyecto muchísimo más lejos. Entonces, la verdad, muy buena experiencia. Y la organización que ha tenido el evento, ha sido bastante ágil. Las preguntas que hemos hecho, bueno al menos yo, a los organizadores han sido siempre respondidas inmediatamente. Súper amables, súper organizados y muy emocionado. Y muy emocionado también por conocer a los otros ganadores, que seguramente son personas muy talentosas.
—Además de buscar esa alianza con universidades como comentaste, ¿hay algún otro paso que le espere a The Smart Interpreter?
Creo que un poco, a parte de las universidades, alianzas con asociaciones de sordos acá en Perú, que estoy seguro estarían encantados de iniciar pruebas ya más de usuario para variar la solución. Entonces creo que es un poco los siguientes pasos.
Por un lado está, como tú bien dijiste, el contacto con las universidades para entrenar, para ampliar la capacidad del producto, de la solución. Y por otro lado, ya cuando la solución llegue a un prototipo tres, seguramente el siguiente paso va a ser la asociación con estas asociaciones de sordos para variar la solución y para ya ir dándole forma de un producto comercial.
MIRA: Esta IA “imagina” a los personajes de videojuegos como si fuesen personas reales
—Estamos esperando entonces que el siguiente paso, en un futuro, sea la comercialización del visor...
Sí, pero ahora, un poco es la realidad de Perú. Lo ideal sería hacerlo con las universidades o el Estado porque, de lo que yo he averiguado, la gente sorda en Perú la tiene bastante complicada.
Entonces, este proyecto nunca fue con una finalidad económica porque los sordos la verdad tienen dificultad para tener educación y por ende tener ingresos como que puedan sustentar la compra de este tipo de productos. Entonces yo esperaría a hacer contactos como para lograr darles más accesibilidad a esa solución a los peruanos y peruanas que tienen sordera completa o hipoacusia.