¿Los algoritmos revelan orientación sexual o simplemente exponen nuestros estereotipos?

por Blaise Agüera y Arcas, Alexander Todorov y Margaret Mitchell

Un estudio que afirma que la inteligencia artificial puede inferir la orientación sexual de las imágenes faciales causó un alboroto en los medios en el otoño de 2017. The Economist presentó este trabajo en la portada de su revista del 9 de septiembre; Por otro lado, dos importantes organizaciones LGBTQ, The Human Rights Campaign y GLAAD, lo etiquetaron inmediatamente como "ciencia basura". Michal Kosinski, quien fue coautor del estudio junto con su compañero investigador Yilun Wang, inicialmente expresó su sorpresa y calificó las críticas de reacciones "instintivas". Sin embargo, luego procedió a hacer afirmaciones aún más audaces: que tales algoritmos de IA pronto podrán medir la inteligencia, la orientación política y las inclinaciones criminales de las personas solo con sus imágenes faciales.

Las controvertidas afirmaciones de Kosinski no son nada nuevo. El año pasado, dos científicos informáticos de China publicaron en línea un artículo no revisado por pares en el que argumentaban que su algoritmo de inteligencia artificial clasifica correctamente a los "delincuentes" con una precisión de casi el 90% solo con una foto de identificación del gobierno. Las nuevas empresas de tecnología también comenzaron a surgir, alegando que pueden perfilar el carácter de las personas a partir de sus imágenes faciales. Estos desarrollos nos llevaron a los tres a colaborar a principios de año en un ensayo de Medium, Physiognomy’s New Clothes, para enfrentar las afirmaciones de que el reconocimiento facial de AI revela rasgos de carácter profundos. Describimos cómo la ciencia basura de la fisonomía tiene raíces que se remontan a la antigüedad, con practicantes en cada época resucitando creencias basadas en prejuicios utilizando la nueva metodología de la época. En el siglo XIX, esto incluía antropología y psicología; en el 20, análisis genético y estadístico; y en el 21, inteligencia artificial.

A fines de 2016, el artículo que motivaba nuestro ensayo de fisonomía parecía estar fuera de la corriente principal en tecnología y academia, pero como en otras áreas del discurso, lo que recientemente se sintió como una posición marginal ahora debe abordarse de frente. Kosinski es miembro de la facultad de la Escuela de Graduados de Negocios de Stanford, y este nuevo estudio ha sido aceptado para su publicación en el respetado Journal of Personality and Social Psychology. Gran parte del escrutinio resultante se ha centrado en la ética, suponiendo implícitamente que la ciencia es válida. Nos centraremos en la ciencia.

Los autores entrenaron y probaron su "detector de orientación sexual" usando 35,326 imágenes de perfiles públicos en un sitio web de citas en los Estados Unidos. Las imágenes compuestas de hombres y mujeres lesbianas, homosexuales y heterosexuales en la muestra revelan mucho sobre la información disponible para el algoritmo:

Claramente hay diferencias entre estas cuatro caras compuestas. Wang y Kosinski afirman que las diferencias clave están en la fisonomía, lo que significa que una orientación sexual tiende a ir junto con una estructura facial característica. Sin embargo, podemos ver de inmediato que algunas de estas diferencias son más superficiales. Por ejemplo, la mujer heterosexual "promedio" parece usar sombra de ojos, mientras que la lesbiana "promedio" no. Las gafas son claramente visibles en el hombre gay, y en menor medida en la lesbiana, mientras que parecen estar ausentes en los compuestos heterosexuales. ¿Podría darse el caso de que la capacidad del algoritmo para detectar la orientación tiene poco que ver con la estructura facial, sino que se debe más bien a los patrones de aseo, presentación y estilo de vida?

Realizamos una encuesta a 8,000 estadounidenses que usaban la plataforma de crowdsourcing Mechanical Turk de Amazon para ver si podíamos confirmar de manera independiente estos patrones, formulando 77 preguntas de sí / no, tales como “¿Usa sombra de ojos?”, “¿Usa gafas?” Y “¿Usa gafas? tienes barba? ”, así como preguntas sobre género y orientación sexual. Los resultados muestran que las lesbianas usan sombra de ojos mucho menos que las mujeres heterosexuales, los hombres y mujeres homosexuales usan gafas más, y los hombres jóvenes atraídos por el sexo opuesto son considerablemente más propensos a tener vello facial prominente que sus homosexuales o del mismo sexo. atrajo a sus compañeros.

Desglosar las respuestas según la edad del encuestado puede proporcionar una visión más rica y clara de los datos que cualquier estadística individual. En las siguientes figuras, mostramos la proporción de mujeres que responden “sí” a “¿Alguna vez usa maquillaje?” (Arriba) y “¿Usa sombra de ojos?” (Abajo), con un promedio de intervalos de edad de 6 años:

Las curvas azules representan mujeres estrictamente atraídas por el sexo opuesto (un conjunto casi idéntico a las que respondieron "sí" a "¿Eres heterosexual o heterosexual?"); la curva cian representa a las mujeres que responden “sí” a una o ambas de “¿Te atraen sexualmente las mujeres?” y “¿Te atraen románticamente las mujeres?”; y la curva roja representa a las mujeres que responden "sí" a "¿Eres homosexual, gay o lesbiana?". [1] Las regiones sombreadas alrededor de cada curva muestran intervalos de confianza del 68%. [2] Los patrones revelados aquí son intuitivos; No será una noticia de última hora para la mayoría que las mujeres heterosexuales tienden a usar más maquillaje y sombra de ojos que las mujeres atraídas por el mismo sexo y (aún más) las mujeres que se identifican con lesbianas. Por otro lado, estas curvas también nos muestran con qué frecuencia se violan estos estereotipos.

Que los hombres atraídos por el mismo sexo de la mayoría de las edades usen lentes significativamente más que los hombres atraídos exclusivamente por el sexo opuesto podría ser un poco menos obvio, pero esta tendencia es igualmente clara: [3]

Un defensor de la fisonomía podría verse tentado a adivinar que esto está relacionado de alguna manera con las diferencias en la agudeza visual entre estas poblaciones de hombres. Sin embargo, hacer la pregunta "¿Te gusta cómo te ves en las gafas?" Revela que esta es probablemente una opción más estilística:

Las mujeres atraídas por personas del mismo sexo también informan que usan más anteojos, así como que les gusta más cómo se ven en los anteojos, en un rango de edades:

También se puede ver cómo el sexo opuesto atrajo a las mujeres menores de 40 años que usan lentes de contacto significativamente más que las mujeres atraídas por el mismo sexo, a pesar de informar que tienen un defecto de visión aproximadamente al mismo ritmo, lo que ilustra aún más cómo la diferencia es impulsada por un preferencia estética: [4]

Un análisis similar muestra que los hombres jóvenes atraídos por personas del mismo sexo tienen muchas menos probabilidades de tener caras peludas que los hombres atraídos por el sexo opuesto ("vello facial grave" en nuestras parcelas se define como responder "sí" a tener una perilla, barba o bigote, pero "no" al rastrojo). En general, los hombres atraídos por el sexo opuesto en nuestra muestra tienen un 35% más de probabilidades de tener vello facial grave que los hombres atraídos por el mismo sexo, y para los hombres menores de 31 años (que están representados en exceso en los sitios web de citas), esto aumenta al 75%.

Wang y Kosinski especulan en su artículo que la debilidad de la barba y el bigote en su composición masculina gay podría estar relacionada con la subexposición prenatal a los andrógenos (hormonas masculinas), lo que resulta en un efecto de feminización, por lo tanto, un cabello facial más escaso. El hecho de que veamos una cohorte de hombres atraídos por personas del mismo sexo en sus 40 años que tienen tanto vello facial como hombres atraídos por el sexo opuesto sugiere una historia diferente, en la que las tendencias de moda y las normas culturales juegan un papel dominante en las elecciones sobre el vello facial entre los hombres, no difiere la exposición a las hormonas al inicio del desarrollo.

Esta foto de la página de Wikipedia sobre la cultura gay del

Los autores del artículo también señalan que el compuesto masculino heterosexual parece tener una piel más oscura que los otros tres compuestos. Nuestra encuesta confirma que los hombres atraídos por el sexo opuesto constantemente informan que tienen una cara bronceada (“Sí” a “¿Está bronceada su cara?”) Un poco más a menudo que los hombres atraídos por el mismo sexo:

Una vez más, Wang y Kosinski buscan una explicación hormonal y escriben: "Si bien el brillo de la imagen facial puede estar impulsado por muchos factores, la investigación previa descubrió que la testosterona estimula la estructura y la función de los melanocitos que conducen a una piel más oscura". Sin embargo, las respuestas a la pregunta “¿Trabajas al aire libre?” Sugieren una respuesta más simple:

En general, los hombres atraídos por el sexo opuesto tienen un 29% más de probabilidades de trabajar al aire libre, y entre los hombres menores de 31 años, esto aumenta al 39%. Investigaciones anteriores han encontrado que una mayor exposición a la luz solar conduce a una piel más oscura. [5]

Ninguno de estos resultados demuestra que no hay una base fisiológica para la orientación sexual; de hecho, una amplia evidencia nos muestra que la orientación es mucho más profunda que una elección o un "estilo de vida". En una crítica dirigida en parte a programas fraudulentos de "terapia de conversión", el cirujano general de los Estados Unidos, David Satcher, escribió en un informe de 2001: "La orientación sexual generalmente está determinada por la adolescencia, si no antes [...], y no hay evidencia científica válida de que la orientación sexual se puede cambiar ". Se deduce que si profundizamos lo suficiente en la fisiología humana y la neurociencia, eventualmente encontraremos correlatos confiables y tal vez incluso los orígenes de la orientación sexual. En nuestra encuesta también encontramos evidencia de correlatos de orientación externamente visibles que no son culturales: quizás lo más sorprendente es que las mujeres muy altas están sobrerrepresentadas entre las encuestadas que identifican a las lesbianas. [6] Sin embargo, aunque esto es interesante, está muy lejos de ser un buen predictor de la orientación sexual de las mujeres. El maquillaje y la sombra de ojos son mucho mejores.

La forma en que Wang y Kosinski miden la eficacia de su "AI gaydar" es equivalente a elegir una imagen de rostro heterosexual y homosexual o lesbiana, tanto de los datos "retenidos" durante el proceso de entrenamiento, como de preguntar con qué frecuencia el algoritmo adivina correctamente cuál es cual. El 50% de rendimiento no sería mejor que la probabilidad aleatoria Para las mujeres, adivinar que la más alta de las dos es la lesbiana logra solo un 51% de precisión, apenas por encima del azar. Esto se debe a que, a pesar de la sobrerrepresentación estadísticamente significativa de mujeres altas entre la población lesbiana, la gran mayoría de las lesbianas no son inusualmente altas.

Por el contrario, las medidas de desempeño en el documento, 81% para hombres gay y 71% para mujeres lesbianas, parecen impresionantes. [7] Sin embargo, considere que podemos lograr resultados comparables con modelos triviales basados ​​solo en un puñado de preguntas de encuesta sí / no sobre la presentación. Por ejemplo, para parejas de mujeres, una de las cuales es lesbiana, el siguiente algoritmo no exactamente sobrehumano es en promedio 63% exacto: si ninguna o ambas mujeres usan sombra de ojos, lanza una moneda; de lo contrario, adivina que la que usa sombra de ojos es heterosexual y la otra lesbiana. Agregando seis preguntas más de sí / no sobre la presentación (“¿Alguna vez usaste maquillaje?”, “¿Tienes cabello largo?”, “¿Tienes cabello corto?”, “¿Alguna vez usaste lápiz labial de color?”, “¿Tienes ¿Cómo te ves con gafas? ”y“ ¿Trabajas al aire libre? ”) ya que las señales adicionales aumentan el rendimiento al 70%. [8] Dado que hay muchos más detalles sobre la presentación disponibles en una imagen de rostro, el 71% de rendimiento ya no parece tan impresionante.

Varios estudios, incluido uno reciente en el Journal of Sex Research, han demostrado que el "gaydar" de los jueces humanos no es más confiable que un lanzamiento de moneda cuando el juicio se basa en imágenes tomadas en condiciones bien controladas (postura de la cabeza, iluminación, gafas, maquillaje, etc.). Es mejor que el azar si no se controlan estas variables, porque la presentación de una persona, especialmente si esa persona está fuera, implica la señalización social. Señalamos nuestra orientación y muchos otros tipos de estatus, presumiblemente para atraer el tipo de atención que queremos y para encajar con personas como nosotros. [9]

Wang y Kosinski argumentan en contra de esta interpretación con el argumento de que su algoritmo funciona en selfies de Facebook de hombres abiertamente homosexuales, así como en selfies de citas en sitios web. El problema, sin embargo, no es si las imágenes provienen de un sitio web de citas o Facebook, sino si se publican o se toman bajo condiciones estandarizadas. La mayoría de las personas se presentan en formas que han sido calibradas durante muchos años de consumo de medios, observando a otros, mirándose en el espejo y midiendo las reacciones sociales. En uno de los primeros estudios "gaydar" que utilizan las redes sociales, los participantes podían clasificar a los hombres homosexuales con un 58% de precisión; pero cuando los investigadores usaron imágenes de Facebook de hombres homosexuales y heterosexuales publicados por sus amigos (aún lejos de ser un control perfecto), la precisión se redujo al 52%.

Si los humanos pueden detectar sesgos sutiles en la calidad de la imagen, la expresión y la preparación, estos sesgos también pueden ser detectados por un algoritmo de IA. Si bien Wang y Kosinski reconocen el aseo y el estilo, creen que las principales diferencias entre sus imágenes compuestas se relacionan con la forma de la cara, argumentando que las caras de los hombres homosexuales son más "femeninas" (mandíbulas más estrechas, narices más largas, frentes más grandes) mientras que las caras de lesbianas son más " masculino ”(mandíbulas más grandes, narices más cortas, frentes más pequeñas). Al igual que con menos vello facial en hombres homosexuales y piel más oscura en hombres heterosexuales, sugieren que el mecanismo es la exposición hormonal atípica de género durante el desarrollo. Esto se hace eco de un modelo de homosexualidad del siglo XIX ampliamente desacreditado, la "inversión sexual".

Lo más probable es que los hombres heterosexuales tiendan a tomar selfies desde un poco más abajo, lo que tendrá el efecto aparente de agrandar el mentón, acortar la nariz, encoger la frente y atenuar la sonrisa (vea nuestras selfies a continuación). Este punto de vista enfatiza el dominio, o, quizás de manera más benigna, la expectativa de que el espectador será más corto. Por otro lado, como señala una fotógrafa de bodas en su blog, "cuando disparas desde arriba, tus ojos se ven más grandes, lo que generalmente es atractivo, especialmente para las mujeres". Esta puede ser una evaluación heteronormativa.

Cuando se fotografía una cara desde abajo, las fosas nasales son prominentes, mientras que los ángulos de disparo más altos desestiman y eventualmente los ocultan por completo. Mirando nuevamente las imágenes compuestas, podemos ver que el rostro masculino heterosexual tiene manchas oscuras más pronunciadas correspondientes a las fosas nasales que el macho gay, mientras que lo opuesto es cierto para los rostros femeninos. Esto es consistente con un patrón de hombres heterosexuales en promedio disparando desde abajo, mujeres heterosexuales desde arriba como sugiere el fotógrafo de bodas, y hombres homosexuales y mujeres lesbianas directamente en frente. Un patrón similar es evidente en las cejas: disparar desde arriba hace que se vean más en forma de V, pero su forma aparente se vuelve más plana y eventualmente en forma de careta (^) a medida que se baja la cámara. Disparar desde abajo también hace que las esquinas exteriores de los ojos parezcan más bajas. En resumen, los cambios en las posiciones promedio de los puntos de referencia faciales son consistentes con lo que esperaríamos ver desde diferentes ángulos de selfie.

La ambigüedad entre el ángulo de disparo y los tamaños físicos reales de los rasgos faciales es difícil de desenredar por completo de una imagen bidimensional, tanto para un espectador humano como para un algoritmo. Aunque los autores están utilizando tecnología de reconocimiento facial diseñada para tratar de cancelar todos los efectos de la postura de la cabeza, la iluminación, el aseo y otras variables no intrínsecas a la cara, podemos confirmar que esto no funciona perfectamente; Es por eso que varias imágenes distintas de una persona ayudan al agrupar fotos por tema en Google Photos, y por qué una persona puede aparecer inicialmente en más de un grupo.

Tom White, investigador de la Universidad Victoria en Nueva Zelanda, experimentó con el mismo motor de reconocimiento facial que usan Kosinski y Wang (VGG Face), y descubrió que su rendimiento varía sistemáticamente en función de variables como la sonrisa y la postura de la cabeza. Cuando entrena un clasificador basado en la salida de VGG Face para distinguir una expresión feliz de una neutral, obtiene la respuesta correcta el 92% del tiempo, lo cual es significativo, dado que el compuesto femenino heterosexual tiene una sonrisa mucho más pronunciada. Los cambios en la postura de la cabeza pueden ser detectables de manera aún más confiable; Para 576 imágenes de prueba, un clasificador puede seleccionar las que están orientadas hacia la derecha con una precisión del 100%.

En resumen, hemos demostrado cómo las diferencias obvias entre los rostros lésbicos o homosexuales en los selfies se relacionan con la preparación, la presentación y el estilo de vida, es decir, las diferencias en la cultura, no en la estructura facial. Estas diferencias incluyen:

  • Maquillaje
  • Sombra
  • Vello facial
  • Vasos
  • Ángulo de selfie
  • Cantidad de exposición al sol.

Hemos demostrado que solo un puñado de preguntas de sí / no sobre estas variables puede hacer un trabajo tan bueno para adivinar la orientación como la IA de reconocimiento facial supuestamente sofisticada. Además, la generación actual de reconocimiento facial sigue siendo sensible a la postura de la cabeza y la expresión facial. Por lo tanto, al menos en este punto, es difícil reconocer la noción de que esta IA es de alguna manera sobrehumana al "exponernos" en base a detalles sutiles pero inalterables de nuestra estructura facial.

Esto no niega las preocupaciones de privacidad que los autores y varios comentaristas han planteado, pero enfatiza que tales preocupaciones se relacionan menos con la IA per se que con la vigilancia masiva, lo cual es problemático independientemente de las tecnologías utilizadas (incluso cuando, como en los días de la Stasi en Alemania del Este, estos no eran más que archivos de papel y cintas de audio). Al igual que las computadoras o el motor de combustión interna, la IA es una tecnología de propósito general que se puede utilizar para automatizar una gran cantidad de tareas, incluidas aquellas que no deberían llevarse a cabo en primer lugar.

Tenemos la esperanza de la confluencia de nuevas y poderosas tecnologías de inteligencia artificial con las ciencias sociales, pero no porque creemos en revivir el programa de investigación del siglo XIX de inferir el carácter interno de las personas a partir de su apariencia externa. Más bien, creemos que la IA es una herramienta esencial para comprender los patrones en la cultura y el comportamiento humano. Puede exponer los estereotipos inherentes al lenguaje cotidiano. Puede revelar verdades incómodas, como en el trabajo de Google con el Instituto Geena Davis, donde nuestro clasificador de género facial estableció que los hombres son vistos y escuchados casi el doble de veces que las mujeres en las películas de Hollywood (¡sin embargo, las películas dirigidas por mujeres superan a otras en la taquilla! ) Hacer progreso social y responsabilizarnos es más difícil sin pruebas tan contundentes, incluso cuando solo confirma nuestras sospechas.

Sobre los autores

Dos de nosotros (Margaret Mitchell y Blaise Agüera y Arcas) somos científicos de investigación especializados en aprendizaje automático e IA en Google; Agüera y Arcas lidera un equipo que incluye aprendizaje profundo aplicado al reconocimiento de rostros y potencia la agrupación de rostros en Google Photos. Alex Todorov es profesor en el Departamento de Psicología de Princeton, donde dirige el laboratorio de percepción social. Es autor de Valor nominal: la influencia irresistible de las primeras impresiones.

Notas

[1] Esta redacción se basa en varias grandes encuestas nacionales, que pudimos utilizar para verificar nuestros números. Alrededor del 6% de los encuestados se identificaron como "homosexuales, gays o lesbianas" y el 85% como "heterosexuales". Alrededor del 4% (de todos los géneros) se sentían atraídos exclusivamente por personas del mismo sexo. De los hombres, el 10% se sentían atraídos sexualmente o románticamente por personas del mismo sexo, y de las mujeres, el 20%. Poco menos del 1% de los encuestados eran trans, y alrededor del 2% se identificaron con ambos o ninguno de los pronombres "ella" y "él". Estos números son ampliamente consistentes con otras encuestas, especialmente cuando se consideran en función de la edad. La población de Mechanical Turk se inclina algo más joven que la población general de los EE. UU., Y de acuerdo con otros estudios, nuestros datos muestran que las personas más jóvenes tienen muchas más probabilidades de identificarse de manera no heteronormativa.

[2] Estos son más amplios para las mujeres lesbianas y atraídas por el mismo sexo porque son poblaciones minoritarias, lo que resulta en un error de muestreo más grande. Lo mismo vale para las personas mayores en nuestra muestra.

[3] Para el resto de las parcelas, nos apegamos al sexo opuesto atraído y al mismo sexo atraído, ya que los recuentos son más altos y las barras de error, por lo tanto, más pequeñas; Estas categorías también están algo menos cargadas culturalmente, ya que se basan en preguntas sobre la atracción en lugar de la identidad. Al igual que con la sombra de ojos y el maquillaje, los efectos son similares y a menudo incluso mayores cuando se compara la identificación heterosexual con la identificación de personas lesbianas o homosexuales.

[4] Aunque no probamos esto explícitamente, las tasas ligeramente diferentes de cirugía de corrección con láser parecen una causa probable de la pequeña pero creciente disparidad entre las mujeres atraídas por el sexo opuesto y las atraídas por el mismo sexo que responden "sí" a las preguntas sobre defectos de la visión a medida que envejecen

[5] Este hallazgo puede provocar la siguiente pregunta: "¿Por qué más hombres atraídos por el sexo opuesto trabajan al aire libre?" Esto no se aborda en ninguna de las preguntas de nuestra encuesta, pero es de esperar que la otra evidencia presentada aquí desaliente una suposición esencialista como " los hombres heterosexuales están más al aire libre ”sin la evidencia de un estudio controlado que pueda respaldar el salto de la correlación a la causa. Dichas explicaciones son una forma de falacia lógica que a veces se llama una historia justa: "una explicación narrativa no verificable para una práctica cultural".

[6] De las 253 mujeres identificadas por lesbianas en la muestra, 5, o 2%, tenían más de seis pies, y 25, o 10%, tenían más de 5'9 ". De 3,333 mujeres heterosexuales (mujeres que respondieron "sí" a "¿Eres heterosexual o heterosexual?"), Solo 16, o 0.5%, tenían más de seis pies, y 152, o 5%, tenían más de 5'9 ".

[7] Señalan que estas cifras aumentan a 91% para hombres y 83% para mujeres si se consideran 5 imágenes.

[8] Estos resultados se basan en la técnica de aprendizaje automático más simple posible, un clasificador lineal. El clasificador se entrena en un 70% de los datos elegidos al azar, con el 30% restante de los datos disponibles para la prueba. Más de 500 repeticiones de este procedimiento, el error es 69.53% ± 2.98%. Con el mismo número de repeticiones y resistencia, basar la decisión solo en la altura da un error de 51.08% ± 3.27%, y basarla solo en la sombra de ojos produce 62.96% ± 2.39%.

[9] Un cuerpo de trabajo de larga data, p. The Presentation of Self in Everyday Life (1959) y Jones and Pittman's Toward a General Theory of Strategic Self-Presentation (1982), de Goffman, profundizan en por qué nos presentamos de la manera en que lo hacemos, tanto por razones instrumentales (estado, poder, atracción) y porque nuestra presentación informa y es informada por cómo concebimos nuestro ser social.