geração da pista
Em uma recente entrevista ao Collider, Joe Russo, diretor de filmes da Marvel como "Vingadores: Ultimato", previu que, dentro de dois anos, a IA será capaz de criar um filme completo.
Diria que é um cronograma bastante otimista. Mas estamos nos aproximando.
Esta semana, a Runway, uma startup de IA apoiada pelo Google que ajudou a desenvolver o gerador de imagens de IA Stable Diffusion, lançou o Gen-2, um modelo que gera vídeos a partir de prompts de texto ou de uma imagem existente. (O Gen-2 estava anteriormente com acesso limitado e em lista de espera.) A continuação do modelo Gen-1 da Runway lançado em fevereiro, o Gen-2 é um dos primeiros modelos de texto para vídeo disponíveis comercialmente.
"Comercialmente disponível" é uma distinção importante. Texto para vídeo, sendo a próxima fronteira lógica em IA generativa depois de imagens e texto, está se tornando uma área de foco maior, especialmente entre os gigantes da tecnologia, vários dos quais demonstraram modelos de texto para vídeo no ano passado. Mas esses modelos permanecem firmes nos estágios de pesquisa, inacessíveis a todos, exceto a alguns poucos cientistas e engenheiros de dados.
Claro, primeiro não é necessariamente melhor.
Por curiosidade pessoal e serviço a vocês, queridos leitores, executei alguns prompts no Gen-2 para ter uma noção do que o modelo pode - e não pode - realizar. (Atualmente, a Runway oferece cerca de 100 segundos de geração de vídeo gratuita.) Não havia muito método para minha loucura, mas tentei capturar uma variedade de ângulos, gêneros e estilos que um diretor, profissional ou poltrona, gostaria de ver na tela prateada - ou em um laptop, conforme o caso.
Uma limitação do Gen-2 que se tornou imediatamente aparente é a taxa de quadros dos vídeos de quatro segundos que o modelo gera. É bastante baixo e perceptível, a ponto de ser quase como uma apresentação de slides em alguns lugares.
Créditos da imagem:Pista
O que não está claro é se isso é um problema com a tecnologia ou uma tentativa da Runway de economizar nos custos de computação. De qualquer forma, isso torna o Gen-2 uma proposta pouco atraente para os editores que desejam evitar o trabalho de pós-produção.
Além do problema da taxa de quadros, descobri que os clipes gerados pela geração 2 tendem a compartilhar uma certa granulação ou imprecisão em comum, como se tivessem algum tipo de filtro antigo do Instagram aplicado. Outros artefatos também ocorrem em alguns lugares, como a pixelização em torno de objetos quando a "câmera" (por falta de uma palavra melhor) os circula ou rapidamente se aproxima deles.
Assim como muitos modelos generativos, o Gen-2 também não é particularmente consistente em relação à física ou à anatomia. Como algo criado por um surrealista, os braços e as pernas das pessoas nos vídeos produzidos pela Gen-2 se fundem e se separam novamente enquanto os objetos derretem no chão e desaparecem, seus reflexos distorcidos e deformados. E - dependendo do prompt - os rostos podem parecer de boneca, com olhos brilhantes e sem emoção e pele pastosa que evoca um plástico barato.
Créditos da imagem:Pista
Para aumentar ainda mais, há a questão do conteúdo. O Gen-2 parece ter dificuldade em entender as nuances, apegando-se a determinados descritores em prompts enquanto ignora outros, aparentemente de forma aleatória.
Créditos da imagem:Pista
Um dos prompts que tentei, "Um vídeo de uma utopia subaquática, filmado em uma câmera antiga, no estilo de um filme de 'filmagem encontrada', não trouxe tal utopia - apenas o que parecia um mergulho em primeira pessoa através um recife de coral anônimo. O Gen-2 lutou com meus outros prompts também, falhando em gerar uma foto de zoom para um prompt que pedia especificamente um "zoom lento" e não acertava a aparência de um astronauta comum.
Os problemas podem estar no conjunto de dados de treinamento do Gen-2? Talvez.
Gen-2, como Stable Diffusion, é um modelo de difusão, o que significa que aprende como subtrair gradualmente o ruído de uma imagem inicial feita inteiramente de ruído para aproximá-la, passo a passo, do prompt. Os modelos de difusão aprendem por meio de treinamento em milhões a bilhões de exemplos; em um artigo acadêmico detalhando a arquitetura do Gen-2, a Runway diz que o modelo foi treinado em um conjunto de dados interno de 240 milhões de imagens e 6,4 milhões de videoclipes.