Nueva York. El creador de ChatGPT está incursionando en los videos generados por inteligencia artificial.
Sora es la nueva herramienta de OpenAI, y convierte textos en videos realistas. Dicha herramienta, que la compañía con sede en San Francisco presentó el jueves, utiliza inteligencia artificial generativa para crear al instante videos cortos basados en comandos escritos.
No es la primera herramienta que demuestra este tipo de tecnología, pero analistas de la industria destacan la alta calidad de los videos que Sora ha generado hasta ahora, y apuntaron que su introducción representa un gran paso tanto para OpenAI como para el futuro de la generación de videos a partir de texto.
Sin embargo, como ocurre con todas las cosas en el ámbito de la inteligencia artificial, este tipo de tecnología también plantea inquietudes por sus posibles implicaciones éticas y sociales. Esto es lo que hay que saber:
Sora es un generador de video. Usa inteligencia artificial para crear videos de hasta 60 segundos en respuesta a comandos escritos. El modelo también puede crear videos a partir de una imagen fija.
La IA generativa es una rama de la tecnología que puede crear algo nuevo. Algunos ejemplos son los chatbots, como ChatGPT de OpenAI, y los generadores de imágenes, como DALL-E y Midjourney. Conseguir que un sistema de IA genere videos es más nuevo y más difícil, pero se basa en parte de la misma tecnología.
Sora aún no está a disposición del público —OpenAI señaló que está colaborando con artistas y autoridades antes de hacer pública la nueva herramienta— y aún hay mucho que no se sabe. Pero desde el anuncio del jueves, la compañía ha compartido un puñado de ejemplos de videos generados por Sora para mostrar lo que puede crear.
El director general de OpenAI, Sam Altman, también recurrió a X para pedir a los usuarios de la red social que le enviaran ideas para instrucciones. Más tarde, compartió videos realistas que respondían a sugerencias como “dos perros golden retrievers haciendo un podcast en la cima de una montaña” y “una competencia de bicicletas en el océano con diferentes animales como atletas que montan las bicicletas con vista de cámara de un dron”.
Sora de OpenAI no es la primera herramienta de su tipo. Google, Meta y Runway ML son otras empresas que han presentado tecnologías similares.
Sin embargo, los analistas de la industria destacaron la calidad y la impresionante duración de los videos de Sora compartidos hasta ahora. Fred Havemeyer, director de investigación sobre IA y software en Estados Unidos para Macquarie, señaló que el lanzamiento de Sora supone un gran avance para el sector.
“No sólo puedes generar videos más largos, entiendo que de hasta 60 segundos, sino que además los videos que se crean tienen un aspecto más normal y parecen respetar más la física y el mundo real”, explicó Havemeyer. “No se ven tantos videos de ‘valle inquietante’ ni fragmentos en los videos que se vean… poco naturales».
Si bien ha habido un “tremendo progreso” en los videos generados por IA en el último año —incluido el lanzamiento de Stable Video Diffusion en noviembre del año pasado— el analista sénior de Forrester, Rowan Curran, dijo que ese tipo de videos han requerido más “arreglos» para que los personajes y las escenas sean coherentes.
La coherencia y la duración de los videos de Sora, sin embargo, representan «nuevas oportunidades para que los creativos incorporen elementos de video generados por IA a contenidos más tradicionales, y ahora incluso para generar videos narrativos completos a partir de uno o unos pocos comandos”, dijo Curran a The Associated Press por correo electrónico el viernes.
Aunque las capacidades de Sora han asombrado a los observadores desde su lanzamiento el jueves, también persisten las inquietudes por las implicaciones éticas y sociales de los usos de la herramienta.
Havemeyer señaló como ejemplo los riesgos sustanciales para el ciclo electoral de 2024. Disponer de una forma “potencialmente mágica” de generar videos que parezcan y suenen realistas plantea una serie de problemas dentro y fuera de la política, como la posibilidad de fraudes, propaganda y desinformación, añadió.
“Las externalidades negativas de la IA generativa serán un tema crítico de debate en 2024”, afirmó Havemeyer. “Es una cuestión sustancial que todas las empresas y todas las personas tendrán que afrontar este año”.
Las empresas tecnológicas siguen tomando las decisiones cuando se trata de gobernar la IA y sus riesgos, mientras los gobiernos de todo el mundo trabajan para ponerse al día. En diciembre, la Unión Europea llegó a un acuerdo sobre las primeras normas integrales de IA del mundo, pero la ley no entrará en vigor hasta dos años después de su aprobación definitiva.
El jueves, OpenAI declaró que tomaría importantes medidas de seguridad antes de generalizar el uso de Sora.
“Estamos trabajando con ‘equipos rojos’ —expertos en ámbitos como la desinformación, los contenidos que incitan al odio y los prejuicios— que pondrán a prueba el modelo”, explicó la empresa. “También estamos construyendo herramientas para ayudar a detectar contenido engañoso, como un clasificador que pueda indicar cuando un video ha sido generado por Sora”.
La vicepresidenta de Asuntos Globales de OpenAI, Anna Makanju, reiteró esto al hablar el viernes en la Conferencia de Seguridad de Múnich, donde OpenAI y otras 19 compañías tecnológicas se comprometieron a colaborar voluntariamente para combatir los deepfakes electorales generados por IA. Señaló que la empresa lanzaría Sora “de una manera bastante cautelosa”.
Al mismo tiempo, OpenAI ha revelado poca información sobre cómo se creó Sora. El informe técnico de la compañía no revela qué imágenes y fuentes de video utilizaron para entrenar a Sora, y la empresa no ha respondido hasta el momento a una solicitud de comentarios hecha el viernes.
El lanzamiento de Sora también se produce en un contexto de demandas contra OpenAI y su socio comercial Microsoft por parte de algunos escritores y por The New York Times por el uso de obras escritas protegidas por derechos de autor para entrenar a ChatGPT. OpenAI paga a la AP una cantidad no divulgada por la licencia de su archivo de noticias en texto.