A fonte de dados do próximo modelo de inteligência artificial de geração de vídeo da OpenAI, Sora, não é clara para a diretora de tecnologia da empresa, Mira Murati.
Durante entrevista ao The Wall Street Journal publicada em 13 de março, Murati deu respostas vagas quando questionado sobre a fonte de dados do modelo Sora da empresa, que é capaz de gerar vídeos a partir de instruções de texto.
“Usamos dados disponíveis publicamente e dados licenciados”, respondeu Murati sobre como a empresa avaliada em US$ 80 bilhões estava treinando seu próximo modelo.
Joanna Stern, do Journal, perguntou então se Sora foi treinado com dados de plataformas de mídia social, como YouTube, Instagram ou Facebook. “Na verdade, não tenho certeza sobre isso”, respondeu Murati, acrescentando:
“Você sabe, se eles estivessem disponíveis publicamente – disponíveis publicamente para uso. Mas eu não tenho certeza. Não estou confiante sobre isso.”
Antes de passar para outro tópico, Stern mencionou a parceria da OpenAI com a empresa de imagens Shutterstock, perguntando se seus dados poderiam ser usados para treinar Sora. “Só não vou entrar em detalhes sobre os dados que foram usados. Mas eram dados publicamente disponíveis ou licenciados”, acrescentou Murati. Mais tarde, ela confirmou ao Journal que os dados da Shutterstock foram usados para Sora.
Os modelos de IA são treinados usando grandes conjuntos de dados, conhecidos como conjuntos de dados de treinamento, que ajudam o modelo a aprender a reconhecer padrões, fazer previsões ou compreender a linguagem.
CTO da OpenAI, Mira Murati, durante entrevista ao The Wall Street Journal. Fonte: WSJ
Murati está na OpenAI desde 2018, liderando alguns dos projetos mais populares da empresa, incluindo o modelo gerador de imagens DALL-E 3, a ferramenta de reconhecimento de fala Whisper e a versão mais recente do chatbot GPT-4 da empresa. Em novembro de 2023, ela assumiu brevemente o cargo de CEO interina depois que o conselho da OpenAI destituiu Sam Altman.
A OpenAI foi alvo de diversas ações legais envolvendo dados de treinamento de seus modelos de IA. Em julho de 2023, os autores Sarah Silverman, Richard Kadrey e Christopher Golden entraram com uma ação judicial contra a empresa, alegando que o ChatGPT gera resumos dos trabalhos dos autores com base em conteúdo protegido por direitos autorais.
Em dezembro, o The New York Times processou a Microsoft e a OpenAI em uma queixa semelhante de violação de direitos autorais, alegando que as empresas usaram o conteúdo do jornal para treinar chatbots de IA. Uma ação coletiva diferente foi movida na Califórnia, alegando que a OpenAI extraiu informações privadas do usuário da Internet para treinar o ChatGPT sem o consentimento do usuário.
Revista: Inside Pink Drainer – Analista de segurança defende sua franquia de criptografia fraudulenta