Cómo hacer que la inteligencia artificial sea menos sesgada

Los sistemas de inteligencia artificial pueden penalizar injustamente a ciertos segmentos de la población, especialmente a las mujeres y las minorías. Los investigadores y las empresas de tecnología están descubriendo cómo abordar eso.

Por

Michael Totty

3 NOVIEMBRE 2020

El mundo de la IA está haciendo un gran esfuerzo para erradicar los prejuicios en los sistemas, pero se enfrenta a algunos obstáculos importantes. KEITH A. WEBB E IMÁGENES DE ISTOCK

Twitter Facebook Whatsapp LinkedIn Email

A medida que la inteligencia artificial se extiende a más áreas de la vida pública y privada, una cosa se ha vuelto muy clara: puede ser tan parcial como nosotros.

Se ha demostrado que los sistemas de inteligencia artificial son menos precisos para identificar los rostros de las mujeres de piel oscura, para dar a las mujeres límites de tarjetas de crédito más bajos que sus maridos, y es más probable que predigan incorrectamente que los acusados negros cometerán delitos en el futuro que los blancos. Se han encontrado sesgos raciales y de género en anuncios de búsqueda de empleo, software para predecir riesgos para la salud y búsquedas de imágenes de directores ejecutivos.

¿Cómo podría ser esto? ¿Cómo podría el software diseñado para eliminar el sesgo de la toma de decisiones, para ser lo más objetivo posible, producir este tipo de resultados? Después de todo, el propósito de la inteligencia artificial es tomar millones de datos y, a partir de ellos, hacer predicciones lo más libres de errores posible.

Pero a medida que la IA se ha vuelto más omnipresente, a medida que las empresas y las agencias gubernamentales utilizan la IA para decidir quién obtiene préstamos, quién necesita más atención médica y cómo desplegar a los agentes de policía, y más, los investigadores han descubierto que centrarse solo en hacer las predicciones finales sin errores como sea posible, puede significar que sus errores no siempre se distribuyen por igual. En cambio, sus predicciones a menudo pueden reflejar y exagerar los efectos de la discriminación y los prejuicios pasados.

En otras palabras, cuanto más se enfocaba la IA en obtener solo el panorama general correcto, más propensa era a ser menos precisa cuando se trataba de ciertos segmentos de la población, en particular las mujeres y las minorías. Y el impacto de este sesgo puede ser devastador en sectores de la población, por ejemplo, negar préstamos a mujeres solventes con mucha más frecuencia que denegar préstamos a hombres solventes.

En respuesta, el mundo de la IA está haciendo un gran esfuerzo para erradicar este sesgo. Los investigadores académicos han ideado técnicas para identificar cuándo la IA hace juicios injustos, y los diseñadores de sistemas de IA están tratando de mejorar sus modelos para ofrecer resultados más equitativos. Las grandes empresas de tecnología han introducido herramientas para identificar y eliminar el sesgo como parte de sus ofertas de IA.

Sin embargo, a medida que la industria de la tecnología intenta hacer que la IA sea más justa, se enfrenta a algunos obstáculos importantes. Por un lado, hay poco acuerdo sobre cómo se ve exactamente la “justicia”. ¿Queremos un algoritmo que otorgue préstamos sin importar la raza o el género? ¿O uno que aprueba préstamos por igual para hombres y mujeres, o para blancos y negros? ¿O uno que adopte un enfoque diferente de la justicia?

Es más, hacer que la IA sea más justa a veces puede hacerla menos precisa. Los escépticos podrían argumentar que esto significa que las predicciones, aunque sesgadas, son las correctas. Pero, de hecho, el algoritmo ya está tomando decisiones equivocadas sobre los grupos desfavorecidos. Reducir esos errores, y el sesgo injusto, puede significar aceptar una cierta pérdida de precisión estadística general. Entonces el argumento termina siendo una cuestión de equilibrio.

En la IA, como en el resto de la vida, los resultados menos sesgados para un grupo pueden parecer menos justos para otro.

“La equidad algorítmica simplemente plantea muchas de estas cuestiones realmente espinosas y espinosas de la justicia y la equidad que, como sociedad, no hemos descubierto realmente cómo pensar”, dice Alice Xiang, directora de investigación de equidad, transparencia y rendición de cuentas de Partnership on IA, una organización sin fines de lucro que investiga y promueve los usos responsables de la inteligencia artificial.

A continuación, presentamos un análisis más detallado del trabajo que se está realizando para reducir el sesgo en la IA y por qué es tan difícil.

Identificar el sesgo

Antes de que el sesgo pueda erradicarse de los algoritmos de IA, primero hay que encontrarlo. IA Fairness 360 de International Business Machines Corp. y la herramienta What if... Google de Alphabet Inc. son algunos de los muchos paquetes de código abierto que las empresas, los investigadores y el público pueden utilizar para auditar sus modelos en busca de resultados sesgados.

Una de las ofertas más recientes es LinkedIn Fairness Toolkit, o LiFT, presentado en agosto por la unidad de red social profesional de Microsoft Corp. El software prueba los sesgos en los datos utilizados para entrenar la IA, el modelo y su rendimiento una vez implementado.

Arreglando los datos

Una vez que se identifica el sesgo, el siguiente paso es eliminarlo o reducirlo. Y el lugar para comenzar son los datos utilizados para desarrollar y entrenar el modelo de IA. “Este es el mayor culpable”, dice James Manyika, socio senior de McKinsey y presidente del McKinsey Global Institute.

Hay varias formas en que los problemas con los datos pueden introducir sesgos. Ciertos grupos pueden estar subrepresentados, por lo que las predicciones para ese grupo son menos precisas. Por ejemplo, para que un sistema de reconocimiento facial identifique un “rostro”, debe entrenarse con muchas fotos para saber qué buscar. Si los datos de entrenamiento contienen principalmente rostros de hombres blancos y pocos negros, es posible que una mujer negra que vuelva a ingresar al país no obtenga una coincidencia precisa en la base de datos de pasaportes, o un hombre negro podría coincidir incorrectamente con fotos en una base de datos criminal. Un sistema diseñado para distinguir las caras de los peatones para un vehículo autónomo podría ni siquiera “ver” una cara de piel oscura en absoluto.

Gender Shades, un estudio de 2018 de tres sistemas comerciales de reconocimiento facial, descubrió que era mucho más probable que no reconocieran los rostros de las mujeres de piel más oscura que de los hombres de piel más clara. Watson Visual Recognition de IBM tuvo el peor desempeño, con una tasa de error de casi el 35% para las mujeres de piel oscura en comparación con menos del 1% para los hombres de piel clara. Una razón fue que las bases de datos utilizadas para probar la precisión de los sistemas de reconocimiento facial no eran representativas; un punto de referencia común contenía más del 77% de rostros masculinos y casi el 84% de blancos, según el estudio, realizado por Joy Buolamwini, investigadora del MIT Media Lab, y Timnit Gebru, actualmente investigador senior de Google.

La mayoría de los investigadores están de acuerdo en que la mejor manera de abordar este problema es con conjuntos de entrenamiento más grandes y representativos. Apple Inc., por ejemplo, pudo desarrollar un sistema de reconocimiento facial más preciso para su Face ID, utilizado para desbloquear iPhones, en parte al entrenarlo en un conjunto de datos de más de dos mil millones de caras, afirmó una portavoz.

Poco después del artículo Gender Shades, IBM lanzó una versión actualizada de su sistema de reconocimiento visual utilizando conjuntos de datos más amplios para la capacitación y una capacidad mejorada para reconocer imágenes. El sistema actualizado redujo las tasas de error en un 50%, aunque todavía era mucho menos preciso para las mujeres de piel más oscura que para los hombres de piel clara.

Desde entonces, varias grandes empresas de tecnología han decidido que el reconocimiento facial conlleva demasiados riesgos de soportar, sin importar cuán baja sea la tasa de error. IBM expresó en junio que ya no tiene la intención de ofrecer software de reconocimiento facial de uso general. A la empresa le preocupaba el uso de la tecnología por parte de los gobiernos y la policía para la vigilancia masiva y la determinación de perfiles raciales.

“Incluso si hubiera menos prejuicios, [la tecnología] tiene ramificaciones, tiene un impacto en la vida de alguien”, señaló Ruchir Puri, científico jefe de IBM Research. “Para nosotros, eso es más importante que decir que la tecnología tiene una precisión del 95%”.

Reprocesamiento de algoritmos

Cuando no se puede acceder a los datos de entrenamiento o no se pueden cambiar, se pueden utilizar otras técnicas para cambiar los algoritmos de aprendizaje automático para que los resultados sean más justos.

Una forma en que el sesgo entra en los modelos de IA es que, en su búsqueda de precisión, los modelos pueden basar sus resultados en factores que pueden servir de manera efectiva como sustitutos de la raza o el género, incluso si no están etiquetados explícitamente en los datos de entrenamiento.

Es bien sabido, por ejemplo, que en la puntuación de crédito, los códigos postales pueden servir como un indicador de la raza. La IA, que utiliza millones de correlaciones para realizar sus predicciones, a menudo puede basar sus decisiones en todo tipo de relaciones ocultas en los datos. Si esas correlaciones conducen a una mejora de incluso un 0,1% en la precisión predictiva, entonces utilizará una raza inferida en sus predicciones de riesgo y no será “ciega a la raza”.

Debido a que las prácticas crediticias discriminatorias del pasado a menudo negaban injustamente préstamos a mujeres y minorías solventes, algunos prestamistas recurren a IA para ayudarlos a ampliar los préstamos a esos grupos sin aumentar significativamente el riesgo de incumplimiento. Pero primero hay que eliminar de los algoritmos los efectos del sesgo pasado.

Watson OpenScale de IBM, una herramienta para administrar sistemas de IA, utiliza una variedad de técnicas para que los prestamistas y otros corrijan sus modelos para que no produzcan resultados sesgados.

Uno de los primeros usuarios de OpenScale fue un prestamista que quería asegurarse de que su modelo de riesgo crediticio no negara injustamente los préstamos a las mujeres. El modelo se entrenó en 50 años de datos históricos de préstamos que, reflejando sesgos históricos, significaron que las mujeres tenían más probabilidades que los hombres de ser consideradas riesgos crediticios aunque no lo fueran.

Usando una técnica llamada modelado contrafactual, el banco podría cambiar el género asociado con las variables posiblemente sesgadas de “femenino” a “masculino” y dejar el resto sin cambios. Si eso cambia la predicción de “riesgo” a “sin riesgo”, el banco podría ajustar la importancia de las variables o simplemente ignorarlas para tomar una decisión de préstamo imparcial. En otras palabras, el banco podría cambiar la forma en que el modelo ve los datos sesgados, al igual que las gafas pueden corregir la miopía.

Si cambiar el género no cambia la predicción, la variable (ingresos insuficientes, quizás) es probablemente una medida justa del riesgo de préstamo, aunque también podría reflejar sesgos sociales más profundamente arraigados, como un salario más bajo para las mujeres.

“Está desviando el modelo al cambiar su perspectiva sobre los datos”, dice Seth Dobrin, vicepresidente de datos e IA y director de datos de IBM Cloud and Cognitive Software. "No estamos arreglando los datos subyacentes. Estamos afinando el modelo ".

Zest AI, una empresa con sede en Los Ángeles que proporciona software de inteligencia artificial para prestamistas, utiliza una técnica llamada desvanecimiento adversario para mitigar los sesgos de sus modelos crediticios. Compara un modelo entrenado con datos históricos de préstamos con un algoritmo entrenado para buscar sesgos, lo que obliga al modelo original a reducir o ajustar los factores que conducen a resultados sesgados.

Por ejemplo, las personas con antecedentes crediticios más cortos tienen estadísticamente más probabilidades de incumplir, pero el historial crediticio a menudo puede ser un indicador de la raza, lo que refleja injustamente las dificultades que históricamente han enfrentado los negros y los hispanos para obtener préstamos. Por lo tanto, sin un historial crediticio extenso, es más probable que a las personas de color se les nieguen préstamos, ya sea que lo paguen o no.

El enfoque estándar para tal factor podría ser eliminarlo del cálculo, pero eso puede dañar significativamente la precisión de la predicción.

El modelo de equidad de Zest no elimina el historial crediticio como factor; en su lugar, reducirá automáticamente su importancia en el modelo crediticio, compensándolo con los cientos de otros factores crediticios.

El resultado es un modelo de préstamos que tiene dos objetivos: realizar su mejor predicción del riesgo crediticio, pero con la restricción de que el resultado sea más justo entre los grupos raciales. “Se está pasando de un objetivo único a uno doble”, afirmó Sean Kamkar, director de ciencia de datos de Zest.

En el proceso, se sacrifica algo de precisión. En una prueba, un prestamista de automóviles vio un aumento del 4% en las aprobaciones de préstamos para los prestatarios negros, mientras que el modelo mostró una disminución del 0,2% en la precisión, en términos de probabilidad de reembolso. “Es asombroso lo barata que es esa compensación”, expresó Kamkar.

Con el tiempo, dicen los expertos en inteligencia artificial, los modelos se volverán más precisos sin los ajustes, a medida que los datos de nuevos préstamos exitosos a mujeres y minorías se incorporen en algoritmos futuros.

Ajuste de resultados

Cuando los datos o el modelo no se pueden corregir, hay formas de hacer predicciones menos sesgadas.

Los gerentes de contratación utilizan la herramienta Recruiter de LinkedIn para identificar a los posibles candidatos al trabajo buscando en millones de perfiles de LinkedIn. Los resultados de una búsqueda se puntúan y clasifican según las calificaciones de experiencia, ubicación y otros factores buscados.

Pero las clasificaciones pueden reflejar una discriminación racial y de género de larga data. Las mujeres están subrepresentadas en trabajos científicos, técnicos y de ingeniería y, como resultado, pueden aparecer muy abajo en las clasificaciones de una búsqueda de candidatos tradicional, por lo que un gerente de recursos humanos podría tener que desplazarse página tras página de resultados antes de ver a las primeras mujeres calificadas entre los candidatos.

En 2018, LinkedIn revisó la herramienta Recruiter para garantizar que los resultados de búsqueda en cada página reflejen la combinación de género de todo el grupo de candidatos calificados y no penalice a las mujeres por una baja representación en el campo. Por ejemplo, LinkedIn publicó una búsqueda de trabajo reciente para un ingeniero senior de software de inteligencia artificial que encontró más de 500 candidatos en los EE.UU. debido a que el 15% de ellos eran mujeres, cuatro mujeres aparecieron en la primera página de 25 resultados.

“Ver aparecer mujeres en las primeras páginas puede ser crucial para contratar talentos femeninos”, dice Megan Crane, la reclutadora técnica de LinkedIn que realiza la búsqueda. “Si estuvieran unas pocas páginas atrás sin esta IA para llevarlos a la parte superior, es posible que no los vea o que no vea tantos”.

Otras herramientas brindan a los usuarios la capacidad de organizar la salida de modelos de IA para satisfacer sus propias necesidades.

El motor de búsqueda de Pinterest Inc. se usa ampliamente para las personas que buscan ideas de estilo y belleza, pero hasta hace poco los usuarios se quejaban de que con frecuencia era difícil encontrar ideas de belleza para colores de piel específicos. La búsqueda de “sombra de ojos” puede requerir agregar otras palabras clave, como “piel oscura”, para ver imágenes que no solo representen blancos. “La gente no debería tener que esforzarse más agregando términos de búsqueda adicionales para sentirse representada”, dice Nadia Fawaz, líder técnico de Pinterest para IA inclusiva.

La mejora de los resultados de la búsqueda requirió etiquetar un conjunto más diverso de datos de imagen y entrenar al modelo para distinguir los tonos de piel en las imágenes. Luego, los ingenieros de software agregaron una función de búsqueda que permite a los usuarios refinar sus resultados por tonos de piel que van desde el beige claro al marrón oscuro.

Cuando los buscadores seleccionan uno de los 16 tonos de piel en cuatro paletas diferentes, los resultados se actualizan para mostrar solo rostros dentro del rango deseado.

Después de que se lanzó una versión mejorada este verano, dice Pinterest, el modelo tiene tres veces más probabilidades de identificar correctamente varios tonos de piel en los resultados de búsqueda.

Luchando con problemas generalizados

A pesar del progreso, algunos problemas de sesgo de IA se resisten a las correcciones tecnológicas.

Por ejemplo, así como los grupos pueden estar subrepresentados en los datos de entrenamiento, también pueden estar sobrerrepresentados. Esto, dicen los críticos, es un problema con muchos sistemas de inteligencia artificial de la justicia penal, como los programas de “vigilancia predictiva” que se utilizan para anticipar dónde podría ocurrir la actividad delictiva y prevenir el delito mediante el despliegue de recursos policiales para patrullar esas áreas.

Los negros están frecuentemente sobrerrepresentados en los datos de arrestos utilizados en estos programas, dicen los críticos, debido a prácticas policiales discriminatorias. Debido a que los negros tienen más probabilidades de ser arrestados que los blancos, eso puede reforzar los prejuicios existentes en la aplicación de la ley al aumentar las patrullas en vecindarios predominantemente negros, lo que lleva a más arrestos y ciclos de retroalimentación descontrolados.

“Si sus datos ya contienen ese tipo de sesgo humano, no deberíamos esperar que un algoritmo erradicara mágicamente ese sesgo en los modelos que construye”, señaló Michael Kearns, profesor de informática y ciencias de la información en la Universidad de Pensilvania y el coautor de “The Ethical Algorithm”.

(Es posible confiar en diferentes datos. PredPol Inc., un fabricante de sistemas de vigilancia policial predictiva en Santa Cruz, California, basa sus evaluaciones de riesgo en informes de víctimas de delitos, no en arrestos o delitos como redadas de drogas o pandillas. Los arrestos, dice Brian MacDonald, director ejecutivo de PredPol, son malos predictores de la actividad criminal real, y con ellos “siempre existe la posibilidad de sesgo, ya sea consciente o subconsciente”).

Luego está la falta de acuerdo sobre lo que es justo e imparcial. Para muchos, la justicia significa ignorar la raza o el género y tratar a todos por igual. Otros argumentan que se necesitan protecciones adicionales, como la acción afirmativa en las admisiones universitarias, para superar siglos de racismo y sexismo sistémicos.

En el mundo de la IA, los científicos han identificado muchas formas diferentes de definir y medir la equidad, y la IA no puede ser justa en todas ellas. Por ejemplo, un modelo de “grupo inconsciente” satisfaría a aquellos que creen que debería ser ciego a la raza o el género, mientras que un modelo de igualdad de oportunidades podría requerir tener en cuenta esas características para producir un resultado justo. Algunos cambios propuestos podrían ser legalmente cuestionables.

Mientras tanto, algunas personas se preguntan cuánto deberíamos confiar en la inteligencia artificial para tomar decisiones críticas en primer lugar. De hecho, muchas de las correcciones requieren tener un humano en el circuito para finalmente tomar una decisión sobre lo que es justo. Pinterest, por ejemplo, se basó en un grupo diverso de diseñadores para evaluar el rendimiento de su herramienta de búsqueda de tonos de piel.

Muchos tecnólogos siguen siendo optimistas de que la IA podría estar menos sesgada que sus creadores. Dicen que la IA, si se hace correctamente, puede reemplazar al juez racista o al gerente de contratación sexista, tratar a todos de manera equitativa y tomar decisiones que no discriminen injustamente.

“Incluso cuando la IA está afectando nuestras libertades civiles, el hecho es que en realidad es mejor que las personas”, dice Ayanna Howard, roboticista y presidenta de la Escuela de Computación Interactiva del Instituto de Tecnología de Georgia.

La IA “puede incluso mejorar y mejorar y ser menos sesgada”, afirmó. “Pero también tenemos que asegurarnos de tener la libertad de cuestionar también su producción si creemos que está mal”.

Más sobre:The Wall Street Journal IA inteligencia artificial