MIT elimina 80 millones de imágenes que entrenaban IA con términos racistas

La base de datos fue creada en el MIT en 2006 y contenía más de 53,000 sustantivos que servían para que una inteligencia artificial descargara imágenes de motores de búsqueda usando términos racistas y misóginos.

Una investigadora de la Universidad de Dublín y del centro de investigación Lero de la Fundación Ciencia Irlanda (SFI, por sus siglas en inglés), ayudaron a revelar el modo en que un banco de 80 millones de imágenes había contaminado sistemas de Inteligencia Artificial con mensajes racistas y misóginos.

Problemas con base de datos enferma

-Aunque el estudio de Abeba Birhane en colaboración con Vinay Uday Prabhu está en fase de revisión, sus hallazgos han demostrado que la base de datos conocida como “80 million Tiny Images” desarrollada en el MIT contenía miles de términos ofensivos.

Birhane señaló que vincular las imágenes a este tipo de insultos y lenguaje ofensivo infunde prejuicios y sesgos en los modelos de inteligencia artificial y aprendizaje automático. Esto ayuda a perpetuar los estereotipos y prejuicios, infligiendo un “daño incalculable” a aquellos que ya están al margen de la sociedad.

El MIT elimina un conjunto de datos de 80 millones de imágenes por contenido racista y ofensivo https://t.co/kI7i99Oozg
— Sergio Carrasco Mayans (@sergiocm) July 2, 2020

I'm surprised that @mit didn't think to check their dataset (with images scraped from Google Images). "Doing good science and keeping ethical standards is not mutually exclusive." -Vinay Prabhu and Abeba Birhane#ai #ethics https://t.co/nrb6mBEgl1
— Marinela Miclea (@MarinelaMiclea) July 1, 2020

“La falta de escrutinio ha jugado un rol en la creación de conjuntos de datos monstruosos y secretos sin mucha resistencia, provocando más preguntas como, por ejemplo, ¿qué otros conjuntos de datos secreto existen actualmente ocultos y protegidos bajo la apariencia de activos de propietarios?”, señaló Birhane.

Los autores del documento también descubrieron que las imágenes usadas para popularizar los conjuntos de datos eran “no consensuadas”, ya que algunas imágenes de niños y otras personas extraídas de Google y otros motores de búsqueda.

El sistema etiquetaba a mujeres como 'zorras' o 'perras', entre otros términos despectivos contra minorías étnicas

El sistema etiquetaba a mujeres como 'zorras' o 'perras', entre otros términos despectivos contra minorías étnicas

“Las instituciones, la academia y la industria acumulan millones de imágenes de personas sin consentimiento y, a menudo, con fines no declarados bajo el pretexto de la anonimización, una afirmación que es efímera y vacía", acusan Birhane y Prabhu en el paper.

Tras la publicación del estudio, los investigadores del MIT pidieron una disculpa y anunciaron que retirarán el conjunto de datos. También afirmaron que debido a que las imágenes tenían medidas tan pequeñas como 32x32 píxeles, podría ser difícil para las personas reconocer visualmente su contenido.

“Ya fue retirada de Internet y no será puesta en línea de nuevo”, explicaron Antonio Torralba, Rob Fergus y Bill Freeman. “Pedimos a la comunidad abstenerse de usarla en el futuro y que también elimine cualquier copia existente del conjunto de datos que pueda haberse descargado”.

Finalmente Birhane expresó que espera que este incidente permita a la gente ser más consciente del potencial daño causado por los conjuntos de datos considerados enfermos.

base de datos

Te puede interesar:Monitoreo de tránsito basado en IA podrá alertar a los servicios de emergencia de accidentes y crímenes

“Instaría a la comunidad de aprendizaje automático a que preste mucha atención al impacto directo e indirecto de nuestro trabajo en la sociedad, especialmente en los grupos vulnerables ”, agregó la autora.

Síguenos en Facebook y entérate de las noticias trend de la semana

>

Entradas populares

MIT elimina 80 millones de imágenes que entrenaban IA con términos racistas

Problemas con base de datos enferma

No hay comentarios.:

Publicar un comentario

Recientes

Populares

Comunidad

Tecnología

Ofertas y Promociones

Secciones

Entretenimiento

Mamacitas

Grupo Informativo

Formulario de contacto