Ciencia de Datos: INE desarrolla innovador sistema que acorta tiempo de procesamiento de encuestas
El método con estándares de la OIT permite, por ejemplo, que en la Encuesta Nacional de Empleo (ENE), la labor manual de clasificar las respuestas de los encuestados, que antes demoraba un mes pasara a solo 4 horas, con un importante ahorro de costos.
Un innovador sistema para clasificar de forma automática los textos de las encuestas fue desarrollado por un equipo del Instituto Nacional de Estadísticas (INE), lo que permite acortar significativamente los tiempos de trabajo y reducir los costos monetarios, a través de un Sistema de Clasificación y Codificación Automática de Textos, que posibilita, por ejemplo, que en la Encuesta Nacional de Empleo (ENE), la labor manual de clasificar los textos que antes demoraba un mes pasara a solo 4 cuatro horas con la automatización.
El modelo- que fue finalista en el concurso Funciona 2018 que impulsa el Servicio Civil- fue aplicado por primera vez con éxito en el Censo Abreviado de Población y Vivienda 2017.
La idea surgió del analista económico del INE, José Luis Aránguiz, quien tomó como ejemplo el funcionamiento de las nubes de palabras derivadas de Twitter. También participaron el desarrollo de este sistema, el economista Nicolás von Hausen y el antropólogo Nicolás Maturana. Esta primera aplicación fue potenciada y mejorada gracias a los desarrollos metodológicos de otros profesionales de la Institución, Julio Guerrero y Julián Cabezas.
Gracias a su uso en la Encuesta Nacional de Empleo (ENE), no solo redujo significativamente los tiempos en la clasificación y procesamiento de textos de las encuestas, sino también permite la adopción de nuevos clasificadores de manera más rápida como es el Clasificador Internacional Uniforme de Ocupaciones 2008 adaptado a Chile y que fue recientemente publicado por el INE.
En la ENE de manera continua se clasifican 75 mil casos aproximadamente al mes y 900 mil casos al año. Y que en el Censo 2017, se clasificaron 2 millones de glosas únicas referidas a la descripción de 8 millones de personas aproximadamente.
Big Data
Inserto en el Big Data, la Ciencia de Datos y la Inteligencia Artificial, el uso de este método permite proyectar a futuro un mejor manejo de los registros administrativos, que son cifras utilizadas para elaborar estadísticas como por ejemplo los nacimientos, defunciones y matrimonios inscritos en el Registro Civil, y que no provienen de encuestas.
El sistema ya ha despertado el interés en otros organismos y servicios públicos que lo han solicitado, como el Sence, Ministerio del Trabajo, e incluso sus potencialidades de clasificación de textos pueden superar el ámbito de las estadísticas, por ejemplo, con fines de recaudación fiscal, empresas, reclamos, satisfacción de usuarios, lectura y clasificación de fichas, partes, etc. También se trata de un sistema que puede ser "exportado" a otros países.
[caption id="attachment_684330" align="aligncenter" width="900"]
El equipo del INE que creó esta herramienta del ámbito del Big Data y la Inteligencia Artificial es integrado por los economistas Nicolás von Hausen, José Luis Aránguiz y el antropólogo, Nicolás Maturana. FOTO: INE[/caption]
Básicamente, el método que ocupa el software libre estadístico R, es leer textos de encuestas y los clasifica bajo estándares internacionales de la OIT o Naciones Unidas. Tal como explicaron sus autores, "se sustituye un proceso manual con un sistema de ciencia de datos" mediante un método estadístico del ámbito del aprendizaje de máquinas, sumado a análisis permanente de minería de textos, se reemplaza el proceso manual de la lectura de encuestas, automatizando el proceso y realizando su lectura en el computador, así como su clasificación".
Como ejemplo podemos imaginar un robot leyendo libros; en definitiva es aprendizaje de algo ya existente. A la máquina se le enseña lo que se ha hecho mediante codificación manual y la máquina asigna a cada palabra un número, por sector, o categoría del clasificador internacional respectivo, el cual permite una vez alcanzado el aprendizaje, predecir el código que corresponde a un texto determinado. Antes las encuestas llegaban con estas glosas escritas por un encuestador tras preguntarle al informante idóneo. Posteriormente llegaban los codificadores que tenían los manuales, que eran revisados y se les asignaba un código a mano.
Destaca la precisión del modelo en un rango de 95% aproximadamente; aplicable transversalmente en productos que contemplen algún grado de codificación. Además, mejora y optimiza los tiempos de procesamiento de los productos, acorta los tiempos de espera, mejora la clasificación, hace más eficaz el procesamiento, corrige los errores humanos y reduce costos, entre otros beneficios.
Comenta
Por favor, inicia sesión en La Tercera para acceder a los comentarios.