Deepfakes: falsificaciones de última generación

Inventar hechos, deformar la realidad, crear “datos alternativos”: las noticias falsas no son algo nuevo en Internet. Estas abundan en la Red, ya sean imágenes amañadas, novedades aparentes o información falsificada, de modo que separar la realidad de la ficción es cada vez más difícil. Ahora las falsificaciones han alcanzado un nuevo nivel y se llaman deepfakes.

Estos aparecieron por primera vez en Reddit en diciembre de 2017 cuando un usuario logró manipular vídeos pornográficos sobreponiendo los rostros de personajes prominentes con una veracidad abrumadora. La creación de vídeos “porno” con caras famosas vivió durante un tiempo un verdadero boom y aunque hoy tanto Reddit como otras plataformas como Twitter o Discord han prohibido la difusión de los vídeos manipulados, el avance de los deepfakes sigue siendo imparable. ¿Por qué tanto revuelo?

¿Qué son los deepfakes?

La creación de los llamados “fakes”, falsificaciones en inglés, requiere tener conocimientos a nivel experto e invertir horas de trabajo, sin obedecer necesariamente a un propósito oscuro. Intercambiar los rostros de distintos actores es algo habitual en Hollywood. La diferencia es que aquí participan especialistas en montaje y en animación por ordenador (CGI), mientras que los deepfakes son creación de un ordenador sin intervención humana.

Se llama a estos vídeos “deepfakes” porque parten del aprendizaje profundo (deep learning), una rama del aprendizaje automático. En los deepfakes, el intercambio de rostros u objetos depende de algoritmos que han de nutrirse del mayor número posible de datos visuales (imágenes y vídeos) para que el aprendizaje profundo sea efectivo. Cuanto más material gráfico se disponga de una persona, mejor debería ser el resultado.

Consejo

Al contener miles de fotogramas desde diferentes puntos de vista, cualquier vídeo puede convertirse en una excelente materia prima. Los vídeos, además, representan los rostros en posiciones mucho más naturales que las fotos, que normalmente solo muestran una cara sonriente desde una perspectiva frontal.

Con unas 300 imágenes del rostro de una determinada persona, a poder ser desde todas las perspectivas posibles, ya se dispone de suficiente material para obtener un resultado decente. En el código de los deepfakes hay un tipo de red neuronal artificial llamada autoencoder (autocodificador) a la que se entrena para comprimir y descomprimir datos. En la descompresión, el autoencoder intenta lograr un resultado lo más cercano posible al original. Para poder hacerlo, durante el proceso de compresión la red aprende a distinguir los datos relevantes de los que no lo son.

Si se provee al algoritmo de numerosas imágenes de perros, la red neuronal artificial aprende a concentrarse en el perro y a ignorar el resto, que suele denominarse ruido (noise), de tal modo que, con estos datos, el autoencoder puede crear un perro por sí mismo. Esta es también la mecánica en el intercambio facial de los vídeos deepfake: la red neuronal aprende el rostro de la persona y puede crearlo de forma autónoma, incluso si cambia de posición o hace un gesto, como abrir la boca, por ejemplo.

Para que el intercambio sea efectivo, el algoritmo ha de ser capaz de reconocer dos caras, la que aparece en el original y la que ha de sustituirla. Para poder hacerlo se utiliza una entrada (codificador) y dos salidas (decodificadores): el codificador o encoder analiza el material mientras que los dos decodificadores o decoder generan dos salidas diferentes, el rostro A y el rostro B.

La misión del algoritmo es en definitiva superponer el rostro B, que no aparece en el vídeo, sobre el rostro A, que sí lo hace. Esto pone de relieve la diferencia de los deepfakes respecto a los ya conocidos fakes, limitados a las imágenes, porque mientras aquí se recorta un rostro para, tras retocarlo o editarlo, añadirlo a otro archivo diferente, en los deepfakes no solo se copia material visual en una imagen diferente, sino que se crea material nuevo. De otra manera la mímica no podría ajustarse de forma tan natural a los gestos de la imagen original.

Esto explica algunos errores típicos de estos videos que suelen aparecer cuando las redes neuronales se topan con movimientos atípicos, alcanzando así sus propias limitaciones. Cuando no se dispone de suficientes imágenes desde la perspectiva adecuada, el fotograma adquiere un aspecto borroso debido a que el algoritmo intenta generar una imagen a partir del poco material de que dispone, lo que solo puede hacer a duras penas y prescindiendo de los detalles.

La historia de los deepfakes: de Reddit al mundo

Los deepfakes nacen en Reddit, página web conocida por ofrecer en sus foros secundarios, los llamados subreddits, alojamiento a los temas más curiosos. En diciembre de 2017 un redditor –como se conoce a los usuarios en el universo Reddit– con el nombre “deepfakes” creó un subreddit y lo utilizó para publicar vídeos pornográficos con personajes famosos. Para ello, el usuario creó el algoritmo cuya mecánica se ha descrito arriba, a su vez apoyado en tecnologías como la biblioteca open source Keras y TensorFlow de Google.

Alcanzando pronto los 15 000 seguidores, el canal fue precintado por Reddit y otras empresas como la plataforma de vídeo pornográfico Pornhub para prohibir la distribución de porno manipulado. ¿Puede esto impedir el avance de los deepfakes? Apenas, puesto que el código desarrollado para los deepfakes es open source y está disponible libremente, por ejemplo en GitHub, donde se alojan varios repositorios de desarrolladores que trabajan en los algoritmos. Incluso ha aparecido una aplicación, la FakeApp.

Con este programa, cualquier persona con un mínimo de habilidad puede jugar a cambiar caras. Los requisitos técnicos para crear deepfakes con la app se reducen a una tarjeta gráfica Nvidia con cierta potencia, donde se encuentra la unidad de procesamiento gráfico (GPU) que el programa utiliza para los cálculos. También es posible crear deepfakes con la CPU de un ordenador, pero se tarda mucho más que utilizando la aplicación.

Entretanto, la comunidad internauta ha encontrado otros motivos más allá del porno para crear estos vídeos, si bien, como es normal en Internet, no pasan del mero entretenimiento. Un tipo de deepfake muy popular es aquel que utiliza el rostro de un actor en una película en la que no interviene, como es el caso del popular fragmento de El señor de los anillos en el cual todos los rostros fueron sustituidos por el de Nicholas Cage, o la conocida escena de “Instinto básico”, que pasa a ser protagonizada por Steve Buscemi en lugar de Sharon Stone.

Implicaciones sociales de los deepfakes

Este tipo de diversión no es mala en sí misma, pero sus novedosas posibilidades de manipulación sitúan a la sociedad ante varios desafíos, por ejemplo, respecto a la cuestión de la legalidad. Las actrices cuyos rostros pudieron verse en aquellos vídeos pornográficos no dieron en ningún momento su consentimiento. Aparte de su dudosa moralidad, estos vídeos deepfake suponen una clara intromisión en el derecho personal a la intimidad, pues podrían incluso dañar la reputación a largo plazo.

Hecho

Hasta ahora los deepfakes han utilizado sobre todo la imagen de personajes famosos. Esto se debe, entre otras cosas, a que el material gráfico disponible en la red sobre estas personas es muy abundante. Con todo, al publicar cada vez más fotografías sobre nosotros mismos, los usuarios particulares también pueden ser víctima de este tipo de vídeo.

Más allá del daño personal, los deepfakes también podrían poner en marcha cambios sociales. Todos conocemos las noticias falsas (fake news) que desde hace algunos años rondan los medios de comunicación. Cada vez es más difícil distinguir los hechos reales de las afirmaciones falsas. Si hasta ahora los vídeos se consideraban un indicio de veracidad, los deepfakes, que permiten amañar vídeos con relativamente pocos medios y no siempre por diversión, han acabado con este fundamento.

Las falsificaciones han sido siempre un importante medio de propaganda, pero con los deepfakes el impacto en la política puede adquirir una dimensión mucho más impredecible. Mientras un vídeo en que se ha intercambiado la cara de Angela Merkel por la de Donald Trump se queda en algo humorístico, con el mismo método podría situarse a algún político en una situación en la que nunca estuvieron. Dado que hoy el machine learning puede incluso reproducir la voz de una persona de una forma relativamente fiel, puede imaginarse cómo lo hará en el futuro y darse por sentado que tales engaños tendrán un papel en los procesos electorales venideros y en las relaciones internacionales.

Las implicaciones sociales de este cambio son claras y es que ya no podemos creer a pies juntillas lo que difunden los medios de comunicación, en especial en Internet. Hay personas que ya hoy suscriben un sano escepticismo, pero son muchísimas las que todavía confían en cualquier declaración difundida en las redes sociales sin hechos que la fundamenten. ¿Ver para creer? En el futuro puede que ya no podamos confiar ni en lo que ven nuestros propios ojos.

Pese a todo, no todos los cambios que traen consigo los deepfakes son destructivos o necios. En la creación de efectos especiales el aprendizaje profundo puede significar una verdadera revolución. Hoy, insertar el rostro de un actor o una actriz en un cuerpo diferente es aún un proceso bastante complejo. En la película Rogue One de la saga La Guerra de las Galaxias los técnicos recrearon con efectos visuales a una joven princesa Leia aunque la actriz, Carrie Fischer, había cumplido ya los 60 años. Al parecer un internauta consiguió el mismo efecto con deepfakes en una media hora y con un PC doméstico. Los deepfakes demuestran así tener el potencial para crear efectos especiales de una forma mucho más asequible.

Hay quien incluso especula que los deepfakes y la facilidad que traen consigo podrían dar libertad al espectador para escoger, con un solo clic, al artista que debería llevar la voz cantante en su película favorita y lo mismo sería imaginable en el mundo de la publicidad. Los artistas entonces dejarían de ponerse delante de la cámara para anunciar los más diversos productos, sino que solo tendrían que vender una licencia de uso de su rostro. Los consumidores podrían incluso probar las prendas de una tienda online en su famoso favorito.

En resumen

El aprendizaje automático ofrece posibilidades inmensas para el futuro de nuestra sociedad. En la categorización de imágenes o el desarrollo de coches autónomos, Google ya está hoy experimentando con las redes neuronales artificiales y el deep learning. Los deepfakes muestran una de las posibles caras oscuras de la tecnología, puesto que, como se sabe, cualquier avance puede aplicarse también de forma destructiva. Con ello, la sociedad es la encargada de encontrar soluciones a estos problemas y de aprovechar las verdaderas oportunidades del machine learning y de los deepfakes.