A OpenAI, criadora do Chat GPT, apresentou, nesta quinta-feira (15), seu mais recente avanço: o Sora, um modelo de inteligência artificial capaz de criar vídeos realistas a partir de textos curtos. Embora ainda não esteja disponível ao público, especialistas já estão analisando suas capacidades.
Segundo a empresa de tecnologia, o Sora pode gerar vídeos de até 60 segundos com cenas detalhadas e movimentos de câmera complexos, com personagens expressando emoções vibrantes, seja em forma de animações quanto vídeos com estilo realista. “O modelo entende não apenas o que o usuário pediu no prompt [comando], mas também como essas coisas existem no mundo físico”, explicou a OpenAI.
Prompt: “Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. the art style is 3d and realistic, with a focus on lighting and texture. the mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with… pic.twitter.com/aLMgJPI0y6
— OpenAI (@OpenAI) February 15, 2024
A técnica utilizada, chamada de “difusão”, começa com um ruído estático e gradualmente transforma-o em uma representação reconhecível. “O Sora serve de base para modelos que podem compreender e simular o mundo real, capacidade que acreditamos que será um marco importante para alcançar a AGI [Inteligência Artificial Geral]“, afirma a OpenAI.
Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024
Embora promissor, o Sora ainda tem limitações, como dificuldades em reproduzir fielmente a física complexa de uma cena e compreender lógicas de causa e efeito. A OpenAI está trabalhando em medidas de segurança antes de disponibilizá-lo ao público, incluindo colaborações com especialistas em áreas como desinformação e conteúdo prejudicial.
“O modelo também pode confundir detalhes espaciais de um ‘prompt’, por exemplo, misturando direita e esquerda, e pode ter dificuldades com descrições precisas de eventos que ocorrem ao longo do tempo, como seguir uma trajetória específica de câmera”, destacou a empresa.
Fonte: Meio Norte com informações do g1