A OpenAI anunciou um novo modelo de inteligência artificial generativa, que transforma texto em vídeo, capaz de gerar sequências bem realistas de até um minuto a partir de uma descrição. Ele foi apelidado Sora, em referência à palavra japonesa que significa céu.
Atualmente, o Sora está disponível apenas para equipes que avaliam o modelo para potenciais danos e riscos. No seu blog de comunidade, a OpenAI disse que a capacidade da ferramenta de “simular o mundo real” é fundamental para o avanço da AGI (Inteligência Artificial Geral), uma IA autodidata.
FUNÇÕES. O Sora pode criar “cenas complexas com vários personagens, tipos específicos de movimento e detalhes precisos do assunto e do fundo”, diz um post no blog de comunidade da OpenAI.
Como mostra a pesquisa técnica do modelo, algumas das principais habilidades do Sora são:
- Estender vídeos para frente ou para trás no tempo;
- Animar imagens estatísticas;
- Criar transições entre dois vídeos;
- Manter pessoas, animais e objetos em diferentes distâncias no vídeo;
- Simular processos artificiais, como videogames;
- Detalhamento das interações com objetos (como marcas de mordida em vídeos onde alguém está comendo).
Sobre a simulação de videogames, é de se pensar o quanto de transmissões falsas com IA irão começar a surgir na Twitch ou outras plataformas de gamers quando uma ferramenta dessas for lançada ao público.
LIMITAÇÕES. O modelo sabe criar uns vídeos bem legais, mas, segundo a pesquisa da OpenAI, ele ainda tem dificuldades de entender detalhes simples ou direções básicas — como esquerda e direita — ou a física de interações básicas — como coisas quebrando. Uma limitação que nem sempre é frequente, mas ainda existe, é criar vídeos com base em descrições precisas de eventos que acontecem ao longo de um certo tempo, segundo a empresa.
SEGURANÇA. Na semana passada, a OpenAI começou a adicionar metadados às imagens geradas por suas ferramentas, incluindo o DALL-E, para facilitar a identificação de conteúdo produzido artificialmente. A empresa afirmou que incorporará esses metadados ao Sora, caso o modelo seja implementado em algum de seus produtos.
O modelo segue as políticas estabelecidas pela OpenAI, recusando solicitações que envolvam violência, conteúdo sexual e outras proibições. A empresa também está colaborando com artistas visuais, designers e cineastas, oferecendo-lhes acesso para receber sugestões sobre como aprimorar o produto, embora os nomes dessas pessoas não tenham sido divulgados.
Via New York Times, Ars Technica e OpenAI (todos em inglês)