Muchos datos, muchos retos: la investigación aplicada al manejo de grandes volúmenes de datos
¿Cómo procesar y analizar grandes cantidades de datos? ¿Cómo gestionar datos masivos aplicados a la investigación científica? ¿En qué campos disciplinares pueden aplicarse estos conocimientos y herramientas?
Fabiana Piccoli es docente hace 35 años y desde hace 30 que se dedica a la investigación. Junto a Marcela Printista dirigen el proyecto “Tecnologías avanzadas aplicadas al procesamiento de datos masivos” del que participa un grupo numeroso de investigadores/as de la FCFMyN. Todas las acciones de investigación que llevan adelante emplean métodos avanzados y de alto rendimiento que favorecen el análisis y entendimiento de la complejidad asociada a diferentes problemas actuales.
La tarea que llevan a cabo en las distintas líneas de investigación están asociadas al estudio de la difusión de enfermedades y noticias, a la computación de alto desempeño, a la recuperación de datos e información, al empleo de sistemas de inteligencia computacional, al modelado y simulación de sistemas a gran escala, entre otras. Todas ellas, trabajan con bases de datos de gran magnitud que presentan desafíos heterogéneos.
“Cuando se habla de datos masivos, no necesariamente se hace referencia a un determinado tipo de datos, éstos pueden ser de distinta naturaleza, desde datos estructurados hasta no estructurados como textos, audio, imagen y video. Por ejemplo, una información puede tener distintas estructuras y significar lo mismo, como pueden ser dos imágenes de una misma cosa. Esta característica dificulta las tareas básicas de identificación, clasificación y administración de los datos. Es necesario en consecuencia contar con una representación robusta que permita realizar las actividades en forma automática y arribar así a la resolución de problemas complejos”, explica.
Fabiana trabaja particularmente en la línea vinculada a la llamada computación de alto desempeño, desde la cual y de forma paralela, se articulan múltiples procesadores para resolver un problema específico; una especie de red interconectada que facilita los procesos y reduce los tiempos de trabajo.
“Actualmente estamos desarrollando una simulación sobre el crecimiento de un hongo que afecta las plantaciones de arroz y que puede arruinar toda una cosecha. La idea es tratar de ver qué condiciones favorecen que se desarrolle ese hongo. Estamos haciendo simulaciones para analizarlo. La simulación se puede aplicar a fenómenos que son demasiados complejos para ser tratados con métodos analíticos o con experimentos que tienen limitantes temporales y económicas. Esta acción surge de vinculaciones con el INTA de Entre Ríos y pensamos luego, escalarlo a otro tipo de cultivos como el algodón”, adelanta.
“Otra gran área de investigación dentro del Proyecto está asociada a la recuperación masiva de datos, lo que tiene aplicaciones en múltiples problemas reales como la seguridad de ingreso a lugares, la lectura de patentes en las rutas, el reconocimiento facial, entre muchísimas otras”, relata. La búsqueda de datos multimedia tiene una enorme complejidad porque implica que quien busca debe hacerlo con indicaciones claras y precisas, pero también, eso que se busca debe estar bien catalogado de modo de favorecer ese rastreo.
“Las respuestas se ven afectadas por la representación y almacenamiento de los datos. Por lo tanto, al presentar una consulta a un sistema de recuperación de información, se busca aquella que podría ser útil o relevante desde la base de datos. Esta línea se dedica principalmente al diseño y desarrollo de índices que sirvan de apoyo a diversos sistemas de recuperación de datos no estructurados”, amplía.
El grupo de investigación tiene una proyección amplia en todas las líneas de trabajo, algunas de las cuales se articulan con investigadores locales y de países como España y México.
Al equipo lo integran los/as docentes Alicia Castro, Verónica Gil Costa, Fernando Kasian, Olga Lopresti, Verónica Ludueña, Natalia Miranda, Gabriela Molfino, Nora reyes, Mariela Rodríguez, Patricia Roggero, Ruben Apolloni, Mercedes Barrionuevo y Cristian Tissera. El Proyecto es también un espacio para la formación de recursos humanos, donde becarios, estudiantes de grado y posgrado están realizando sus tesis. Actualmente, unos 20 se encuentran en ese proceso y unos 16 ya presentaron y defendieron sus tesis de maestría y doctorado.