Investigación e innovación tecnológica: la creación de agentes conversacionales

Las noticias sobre el desarrollo de nuevas tecnologías son parte de nuestra cotidianidad. Todo el tiempo podemos informarnos y sorprendernos sobre distintos avances y productos que aportan soluciones a diversos problemas y necesidades sociales. Detrás de esas innovaciones hay mucha investigación, meses de prueba y error y equipos que trabajan para optimizar estas herramientas y llevarlas al mercado.

El Laboratorio de Computación Gráfica de la FCFMyN, dirigido por el Mcs. Roberto Guerrero, es el escenario en el que se lleva a cabo el Proyecto de investigación denominado “La Realidad Extendida en la Comunicación de Información para el Metaverso”. En este espacio trabajan con Realidad Extendida, un concepto que incluye la Realidad Virtual, la Aumentada y la Mixta. Estas herramientas se han convertido en un recurso muy valioso para proveer de recursos a distintas tecnologías que requieren entregar a los usuarios, información de forma rápida y eficiente.

El famoso Metaverso que fue presentado con algarabía por empresas multinacionales, viene poniendo a prueba algunas aplicaciones y prometiendo el desarrollo de mundos virtuales paralelos que permitan el despliegue de tareas de diversa complejidad. Una de ellas, está relacionada a los agentes conversacionales. ¿Qué son y qué implican?

Guerrero, explica que son programas de computadora diseñados para simular conversaciones humanas. Estos agentes, a menudo llamados chatbots o asistentes virtuales, utilizan técnicas de inteligencia artificial, como el procesamiento del lenguaje natural para entender y responder a preguntas y solicitudes de los usuarios. Se emplean para brindar atención al cliente, en educación, entretenimiento y como asistentes personales, entre otras funciones.

Para que esos agentes conversacionales logren responder de manera natural y fluida, se trabaja en el diseño de códigos e interfaces que lo posibiliten. Hay experiencias con mejores resultados en las aplicaciones que solo implican sonido, pero ¿qué pasa con las que implican interactuar con un agente corporizado?

“Si tiene una representación física, que obviamente es una representación virtual, un avatar, un cuerpo, es un agente corporizado con el que el usuario puede conversar. El diseño y desarrollo de ese cuerpo, tiene que ver con poder aumentar o perfeccionar la transmisión de información.  ¿Por qué? Porque más allá de que estamos formados en la lectoescritura, para los seres humanos es mucho más fácil hablar y transmitir información verbal. El agente conversacional va a interpretar lo que el usuario dice, lo va a procesar y va a dar una respuesta verbal.

El agente conversacional procesa el sonido que emite el usuario para desglosarlo en palabras, para sacarle un contenido y la semántica. Busca hacer un “razonamiento” para encontrar una respuesta, lo convierte en oraciones, en frases verbales, incluso en el idioma que emplea el usuario y después lo vocaliza”, explica.

¿Cómo entra en juego la IA (Inteligencia Artificial) en estas aplicaciones? ¿Cuáles son las limitaciones que presenta para el entendimiento de ciertos modismos en el habla y cómo abordan esas dificultades?

No es fácil. Esta tecnología está naciendo, falta rato, pero se visualiza como algo con mucho potencial. Ha tenido un aceleramiento muy grande desde el 2020 gracias a ciertos aciertos y movimientos que lo han favorecido. La globalización es uno de esos factores. En el caso de la IA, el gran puntapié se dio cuando lo pusieron a prueba en forma gratuita para todo el mundo, con lo cual ahí se aprovechó la curiosidad de la gente; y ese uso está ayudando a desarrollar la herramienta. Estamos hablando de informática y esta se basa en matemática y por lo tanto poder hacer una deducción y un razonamiento que es intelectual, que es algo que es muy cerebral y no matemático, conlleva la búsqueda de conclusiones y deducciones de manera estadística. Entonces, realmente el agente no está razonando, está sacando estadísticas. Ahora, cuanto mayor es la población de información y de datos, la estadística va a ser también mejor.

La IA, no es algo nuevo. Surge como concepto en los años ‘60 como muchas cosas de la informática, lo que pasa es que nunca se pudo implementar porque la tecnología no lo permitía. Cuando aparece la computación, se habilita esta capacidad y cuando se abre al público, se incrementa el aporte de datos lo que permiten perfeccionar la estadística, la que comúnmente es interpretada como “razonamiento”.

El razonamiento humano no funciona a través de cálculos matemáticos, o cálculos probabilísticos. Es más bien, un compendio de factores y elementos que tienen que ver con la experiencia vivida, las relaciones, las emociones, los intereses que se combinan para elaborar un razonamiento y llegar a una conclusión, buena o mala, no importa, pero llegar a una conclusión. A la IA le falta todo eso, le falta el sentimiento, le falta la experiencia, le falta la vivencia. Simplemente saca una estadística, lo que obviamente para ciertas áreas está perfecto.

¿Qué complejidades entran en juego cuando ese agente conversacional debe tener una forma humana, o ser un cuerpo hablante?

“Los humanos estamos acostumbrados a hablar con alguien físicamente visible, no hablar con una pared. Lo importante en la comunicación y en la transmisión de información, es la cara, es el cuerpo, es algo físicamente visible. ¿Cuál es el problema acá? Necesitamos ver caras y cuerpos realistas. Durante la comunicación necesitamos ver gestos, el parpadeo de quien nos habla, identificar la concordancia de los labios con el sonido que se emite, los movimientos del cuerpo y hacer un personaje fotorrealista, requiere simular todo eso. Es muy complejo.

Ese agente, además de tener todas esas características humanas, debe interpretar el sonido, descomponerlo, interpretar la semántica, encontrar un “razonamiento” y dar una contestación. El desafío es hacer agentes conversacionales lo más fotorrealistas posible o desarrollar agentes que tengan un aspecto más cercano a una caricatura y que ofrezca una presencia, una inmersión, una emoción. Y, de hecho, eso lo hace Walt Disney desde hace muchísimos años.

Los dibujos animados generan emociones y son parte de las vivencias humanas. Podemos reconocer comportamientos y distintas personalidades en una caricatura; incluso éstas nos permiten hacer comparaciones con seres que realmente existen y encontramos en ellas similitudes a personas que conocemos o a nuestras propias mascotas, por ejemplo. En ello estamos trabajando”.

El equipo viene trabajando junto a colaboradores externos desde hace tiempo. ¿En qué, específicamente?

“En este laboratorio hemos trabajado en simulación. La informática en general se basa en las simulaciones. En algunas se requiere el diseño de espacios que sean muy específicos y muy veraces, pero hay otras donde simplemente lo que se necesita es probar el concepto. Después, físicamente, se puede observar si hay alguna diferencia o alguna discordancia, pero en principio se simula. Desde la computación gráfica trabajamos mucho con estas herramientas de simulación que permiten, ente muchas cosas, acelerar procesos. En la industria se utiliza mucho, no solo para acelerar tiempos sino también para optimizar costos y recursos.

Hemos trabajado con investigadores de España. Ellos tienen un convenio con la Red Nacional de los Ferrocarriles Españoles (RENFE) que maneja también la red de trenes de alta velocidad. Este organismo, permanentemente está haciendo el rediseño de sus trenes para acelerar la velocidad, disminuir los tiempos, planificar los cambios de motores, de formas, entre otras. Nosotros tenemos una cava en la que simulamos y diseñamos el interior del tren. Pensar y simular cómo debería ser la forma del tren desde el interior, la disposición de los asientos para una mejor circulación y para evitar problemas, por ejemplo, ante un accidente y probar modos de acelerar la evacuación. Eso se programa, se simula y en la cava se prueba y se interpreta qué tan bueno o tan malo es el prototipo que se diseñó para recién después construirlo”, concluye.

Los agentes conversacionales están demostrando ser herramientas poderosas y funcionales para muchas aplicaciones de la vida actual. La investigación científica en estos temas se torna fundamental para abordar los desafíos que aún persisten, como la privacidad de los datos y la creación de experiencias verdaderamente personalizadas.

*El equipo del Proyecto de Investigación de la FCFMyN “La Realidad Extendida en la Comunicación de Información para el Metaverso” que dirige Roberto Guerrero está integrado por los/as investigadores/as María Fabiana Piccoli, Jacqueline Fernández, Graciela Rodríguez, Luis Pasinetti y los becarios Emiliano Novelli y Yoselie Alvarado. Francisco Serán Arbeloa de la Universidad de Zaragoza, España y Silvia Castro, de la Universidad Nacional del Sur, son parte de los asesores externos del Proyecto.