La tecnología de reconocimiento facial es cada día mejor... gracias a que usan nuestras caras sin permiso

19 Julio 2019

FaceApp, la aplicación móvil protagonista del último viral de moda, consistente en subir nuestras fotos para obtener aproximaciones de cuál sería nuestro aspecto dentro de varias décadas (o siendo del sexo opuesto), está saltando a los titulares también por la amenaza que representa para nuestra privacidad.

Y es que esos términos de uso (que casi nunca leemos antes de usar una app nueva) básicamente dan permiso a la compañía propietaria de la app para dar todo tipo de usos comerciales a las imágenes que subimos. Y peor: para hacerlo a perpetuidad. Una fuente jugosa de ganancias, teniendo en cuenta que ha recopilado más de 150 millones de fotos desde su lanzamiento.

Entre los muchos y variados posibles usos de esas imágenes destaca, además del consabido uso publicitario, la posibilidad de usar nuestras fotos para entrenar algoritmos de reconocimiento facial: cuántas más imágenes de rostros proporcionemos a estos sistemas de IA, mejor 'comprenderán' cuáles son los patrones definitorios del rostro humano y cómo se mueve, cómo evoluciona con el tiempo, etc.

Esta misma información también puede servir con el fin de, por ejemplo, mejorar la generación de deepfakes. Pero ¿usa FaceApp nuestras imágenes con alguno de estos fines? No está claro, pero sus términos de uso parecen dejar la puerta abierta a ello:

"Podemos eliminar partes de datos que puedan identificaros y compartir datos anónimos con otras partes".

"También podemos combinar su información con otra información de manera que ya no esté asociada con usted y compartir esa información agregada".

Si eres de esos que han resistido la tentación de usar FaceApp, tampoco debes bajar la guardia: sigues sin poder estar seguro de que tu rostro no se esté usando como material de entrenamiento para IAs de reconocimiento facial.

Y es que docenas de bases de datos, recopiladas tanto por empresas como por investigadores académicos, albergan ahora mismo miles o millones de imágenes, no siempre cedidas con consentimiento del usuario. Y cada una de ellas proporciona material a varios proyectos diferentes de inteligencia artificial, en muchos casos por ser de acceso público.

¿Cuál es la fuente de todas esas imágenes? Redes sociales, apps y sitios web de almacenamiento y/o edición de fotos, webcams de emisión pública, servicios de citas online, etc....

Cuando el servicio es gratis... el producto eres tú

La polémica con FaceApp no es nueva: todos recordamos el reto viral del #10yearchallenge, puesto en marcha a comienzos de este mismo año. Kate O'Neill, editora de Wired, nos recordaba lo fácil que le estábamos poniendo a las grandes compañías de redes sociales, al usar dicha etiqueta, el uso de nuestro rostro para el entrenamiento de algoritmos de reconocimiento facial y de imágenes.

 

Hace tres años ya había pasado algo similar con el Project Oxford puesto en marcha por Microsoft, que ofrecía servicios online para encontrar 'gemelos fantasma' o calcular nuestra edad. Los términos de uso permitían a Microsoft y sus socios, básicamente, utilizar las imágenes que subíamos del modo en que éstas prefiriesen.

Los medios estadounidenses desvelaron recientemente que Ever, una app gratuita que ofrece espacio ilimitado para realizar copias de seguridad de nuestras fotos y vídeos, no se contentaba con las suscripciones de sus usuarios premium, y que llevaba desde 2013 monetizando por otras vías el material multimedia de millones de usuarios de cuentas gratuitas, sin conocimiento de éstos.

Ever creó así un "dataset privado de 13.000 millones de fotos y vídeos [...] en continua expansión" del que presumía en su página web, aunque sin vincularlo públicamente con la app móvil. Luego usó dicho dataset para proporcionar datos de entrenamiento a la tecnología de reconocimiento facial de la compañía, que luego vendía a las fuerzas de seguridad y a compañías privadas.

Cuando el asunto saltó a los medios, el CEO de Ever diciendo que este posible uso se menciona en la política de privacidad (que no en los términos de uso) de la app, si bien a continuación decidió "actualizar" dicho texto, con el fin de dejar más claro el uso que se daba a las fotos.

Incluso ahora, la referencia puede resultar demasiado vaga incluso para los pocos usuarios que se animen a revisarlo:

"Para permitirte organizar tus archivos y permitirte compartirlos con las personas adecuadas, Ever usa tecnologías de reconocimiento facial como parte de su servicio. Tus archivos pueden ser usados para mejorar y entrenar nuestros productos y tecnologías.

Algunas de esas tecnologías pueden ser usadas en otros de nuestros productos y servicios para clientes corporativos, incluyendo nuestras ofertas de reconocimiento facial para empresas".



El descontrol de los datasets: cuando ni siquiera subimos nuestra imagen a ninguna app

También recientemente se supo que Microsoft había borrado discretamente su base de datos MS Celeb, presentada en 2016 como el mayor dataset del mundo enfocado al reconocimiento facial: contenía más de 10 millones de fotos de aproximadamente 100.000 personas, recopiladas sin solicitar permiso a las personas que aparecían en las fotos por ser todas ellas 'personalidades públicas'... sólo que resultó que no todas lo eran.

Mientras estuvo en activo, varias grandes compañías (como Nvidia, Hitachi, IBM, Panosonic o los gigantes chinos Sensetime, Megvii y Alibaba) utilizaron el contenido de MS Celeb para sus propios proyectos de reconocimiento facial.

El escándalo desatado a raíz de esto permitió descubrir que otros dos grandes datasets (el 'Brainwash' de la Universidad de Stanford y el 'Duke MTMC' de la Universidad de Duke) habían sido borrados también en los últimos meses y por razones similares.

Y al menos el primero de ellos fue usado, como MS Celeb, por Megvii, un proveedor de IA del gobierno chino vinculado al proyecto de perfilado étnico de la etnia uigur. También hay referencias al uso del material de ambos datasets en numerosos 'papers' académicos publicados por instituciones de cuatro continentes.

Pero el activista que destapó estos tres casos recuerda que el daño está ya hecho, porque

"no puedes hacer que desaparezca un dataset, una vez que lo publicas y la gente se lo descarga, existe en los discos duros de todo el mundo [y] no hay manera de impedirles continuar publicándolo, o usarlo para sus propios fines".

Kim Zetter, una periodista estadounidense especializada en ciberseguridad fue una de las personas cuyo rostro pasó a formar parte, sin ella saberlo, del dataset de Microsoft:

"Todos nosotros somos sólo pienso para alimentar todos estos sistemas de vigilancia. La idea de que todo esto pudiera estar siendo compartido con gobiernos y ejércitos extranjeros resulta sencillamente atroz".

El ejemplo de Clarifai

Matt Zeiler, fundador y CEO de Clarifai, una startup de IA, ha declarado que su compañía elaboró un dataset de imágenes de rostros usando como fuente OkCupid, web a la que tuvo acceso gracias a que algunos de los fundadores de la misma eran inversores de Clarifai. Esas imágenes se usaron para desarrollar una plataforma capaz de identificar edad, sexo y raza de los rostros detectados.

Ése habría sido también el destino de las imágenes que Clarifai reuniese a través de su plataforma Insecam. Ésta, bautizada así en referencia a las 'cámaras inseguras' que emiten sus imágenes en abierto en Internet sin saberlo sus usuarios, se vio obligada a cerrar antes de que comenzara el proceso de recopilación de imágenes, gracias a las protestas de empleados de la propia compañía.

Zeiler también ha declarado que, posteriormente, firmó un acuerdo similar con "una gran empresa de redes sociales" (no detalló cual) para usar sus imágenes en sistemas de entrenamiento de reconocimiento facial; él afirma que los términos de uso de esa red social permiten esa clase de acuerdos.


Fuente :xataka



Entorno Virtual 2019