Theo TechCrunch, CEO của OpenAI Sam Altman đã tiết lộ trong một buổi AMA trên Reddit rằng công ty đang phải đối mặt với những hạn chế đáng kể về năng lực tính toán, điều này đang cản trở tần suất phát hành sản phẩm. Altman giải thích rằng tính phức tạp của các mô hình và nhu cầu đưa ra quyết định khó khăn về phân bổ tính toán là những yếu tố chính gây ra sự chậm trễ. Các báo cáo chỉ ra rằng OpenAI đã phải vật lộn để đảm bảo cơ sở hạ tầng tính toán đủ để chạy và đào tạo các mô hình tạo ra của mình. Gần đây, Reuters đưa tin rằng OpenAI đã hợp tác với Broadcom để phát triển một con chip AI, dự kiến sẽ có mặt vào năm 2026.
Do những hạn chế về năng lực này, Chế độ Giọng nói Nâng cao của OpenAI cho ChatGPT sẽ không nhận được khả năng nhìn mà đã được trình diễn ban đầu vào tháng Tư. Trong sự kiện báo chí tháng Tư, OpenAI đã giới thiệu ứng dụng ChatGPT phản hồi các tín hiệu hình ảnh qua camera của smartphone. Tuy nhiên, Fortune sau đó đã báo cáo rằng buổi trình diễn đã bị vội vàng để chuyển sự chú ý khỏi hội nghị phát triển Google I/O, và nhiều người trong OpenAI tin rằng GPT-4o chưa sẵn sàng để phát hành. Do đó, phiên bản chỉ có giọng nói của Chế độ Giọng nói Nâng cao đã trải qua nhiều tháng trì hoãn.
Trong cuộc AMA, Altman đã đề cập rằng không có thời gian cụ thể cho bản phát hành lớn tiếp theo của trình tạo hình ảnh của OpenAI, DALL-E. Thêm vào đó, Sora, công cụ tạo video của OpenAI, đã bị trì hoãn do cần hoàn thiện mô hình, xem xét an toàn và mở rộng khả năng tính toán. Kevin Weil, giám đốc sản phẩm của OpenAI, cho biết Sora đã gặp phải những thách thức kỹ thuật, khiến nó kém cạnh tranh hơn so với các hệ thống đối thủ từ Luma và Runway. Hệ thống ban đầu, được công bố vào tháng Hai, mất hơn 10 phút để xử lý một đoạn video dài 1 phút. Vào tháng Mười, Tim Brooks, một trong những người đồng dẫn dắt Sora, đã rời đi để gia nhập Google.
Altman cũng đã thảo luận về khả năng cho phép