OpenAI anuncia Sora, IA desenvolvida para a conversão de textos em vídeos

Ferramenta engrossa o mercado de Inteligência Artificial aplicada ao mercado audiovisual e concorre com o Lumiere, do Google

Por Ian Cândido - 16/02/2024

Cenas complexas com vários personagens, movimentos mais específicos e detalhes precisos sobre a situação ilustrada. Estas são algumas das promessas do Sora, nova ferramenta de geração de vídeo por meio de Inteligência Artificial, anunciada pela OpenAI na última quinta-feira, 15.

O modelo segue o caminho do ChatGPT, mais notável expoente da companhia, e permite que os usuários escrevam prompts de comando para instruir a IA. A partir das informações recebidas, a ferramenta consegue gerar vídeos de até 60 segundos. Imagens estáticas também podem ser usadas como instruções para a máquina.

A empresa garantiu que o novo modelo tem a capacidade de compreender como os objetos existem no mundo físico e interpretar adereços com precisão para gerar personagens atraentes que expressam emoções vibrantes.

Como funciona?

Segundo a OpenAI, o Sora utiliza a mesma técnica de recaptação do DALL-E 3, que envolve a geração de legendas altamente descritivas para os dados de treinamento visual. Como resultado, o modelo é capaz de seguir com mais fidelidade as instruções de texto do usuário no vídeo gerado.

A empresa acrescenta que a ferramenta é um modelo de difusão que, como tal, gera vídeos que começam com algo que se assemelha a ruído estático, gradualmente transformado pelo motor da Inteligência Artificial, que corrige o ruído ao longo de várias etapas até transformá-lo na imagem idealizada pelo usuário.

Outra habilidade destacada pela OpenAI é a capacidade de gerar vídeos inteiros de uma só vez, do zero, ou estender os vídeos gerados para torná-los mais longos. Para provar a precisão da ferramenta, a empresa recorreu ao X (antigo Twitter) para fazer uma série de postagens de exibição dos vídeos produzidos durante os testes do Sora. Nos títulos de cada post, a empresa compartilhou os prompts utilizados na geração de cada peça.

Os textos de comando utilizados como modelo variam entre duas e oito linhas e abrangem uma série de características que vão desde as feições e o estilo dos personagens até os elementos técnicos de uma filmagem real, como a iluminação e a textura da imagem.

Limitações e disponibilidade

No comunicado oficial de lançamento, a OpenAI admitiu que o Sora, em seu estado atual, possui limitações. As mais notáveis, segundo a empresa, são a dificuldade em simular com precisão a física de uma cena complexa a baixa compreensão de instâncias específicas de causa e efeito.

A empresa destaca, também, que o modelo pode confundir detalhes espaciais de um prompt e confundir direções como esquerda e direita, bem como pode apresentar dificuldades com descrições precisas de eventos que ocorrem ao longo do tempo, como seguir uma trajetória específica de câmera.

Atualmente, o Sora está disponível para um grupo limitado de artistas visuais, cineastas e red teamers, especialistas que testam a ferramenta para corrigir problemas relacionados a potenciais usos nocivos, como a desinformação e a propagação de discursos de ódio. Segundo a OpenAI, o produto será disponibilizado ao público após os testes de segurança.