Hơn nửa năm kể từ lần đầu tiên được giới thiệu, công nghệ AI tạo video của OpenAI vẫn chưa được phát hành chính thức. Điều này không phù hợp với thông lệ của các công ty khởi nghiệp trong lĩnh vực trí tuệ nhân tạo.
Kể từ khi Sora ra mắt vào đầu năm nay, nhiều sản phẩm AI tạo video đã được công bố. Luma đã cho ra mắt Dream Machine với một video quảng cáo đạt tiêu chuẩn điện ảnh. Đồng thời, Runway cũng cung cấp cho người dùng cơ hội trải nghiệm miễn phí. Theo thống kê không chính thức, chỉ riêng tại Trung Quốc đã có ít nhất 20 startup đang phát triển các công nghệ video AI.
Tuy nhiên, sau hơn nửa năm kể từ khi xuất hiện, Sora của OpenAI, nổi bật nhất trong số đó, vẫn chưa được phát hành. Điều này khá khác biệt so với cách tiếp cận thông thường của công ty, khi họ thường giới thiệu Chat GPT-4o trong các buổi livestream và cho phép người dùng sử dụng ngay lập tức sau sự kiện đó.
Sora phức tạp hơn ChatGPT hay Midjourney
Có nhiều mô hình AI tạo video được giới thiệu gần đây, nhưng số có thể dùng được rất hạn chế. Sora vẫn trong quá trình thử nghiệm kín, chỉ dành cho nhóm nghệ sĩ, người làm phim được chọn. AI Video của Alibaba và Baidu chỉ được sử dụng nội bộ. Kuaishou Kling dần phổ biến nhưng người dùng cũng phải đăng ký vào hàng chờ dùng thử.
Các giải pháp tạo video hiện tại đều gồm bước nhập yêu cầu, chọn tỉ lệ, phong cách, thời gian. Khó khăn kỹ thuật chính nằm ở độ phân giải và thời lượng đoạn clip thành phẩm. Đây cũng là tâm điểm cạnh tranh giữa các công ty thuộc lĩnh vực này. Để có lợi thế trước đối thủ, start-up phải đầu tư phần cứng mạnh để tăng năng lực xử lý.
Nhà nghiên cứu AI Cyrus đã chỉ ra rằng các mô hình hiện có chỉ có thể cung cấp độ phân giải tối đa là 480/720p. Bên cạnh khả năng xử lý của phần cứng trí tuệ nhân tạo, quá trình huấn luyện mô hình cũng rất phức tạp. Khi một mô hình được đào tạo để sản xuất video với độ phân giải thấp bị nâng cấp lên mức cao hơn, nó sẽ dẫn đến nhiều sai sót về mặt vật lý và logic.
Theo thông tin từ Bloomberg, việc sản xuất video bằng AI yêu cầu nhiều tài nguyên tính toán hơn so với việc vận hành chatbot hoặc tạo ra hình ảnh tĩnh. Những thách thức kỹ thuật này có thể tác động tiêu cực đến bài toán kinh doanh, khi mà khách hàng phải gánh chịu chi phí rất lớn.
Hiện tại, các chương trình tạo video tại Trung Quốc chỉ cho phép sản xuất những video ngắn trong khoảng thời gian 2-3 giây với các chuyển động đơn giản. Phiên bản cao cấp nhất cũng chỉ kéo dài từ 10 đến 12 giây. Sản phẩm cao cấp nhất từng được giới thiệu là Sora, có độ dài 60 giây, nhưng vẫn đang trong giai đoạn thử nghiệm.
Ngoài vấn đề về độ dài video, khả năng xây dựng bối cảnh câu chuyện cũng là một giới hạn của các hệ thống video AI. “Về lý thuyết, chúng ta có thể tạo ra video kéo dài tới cả giờ đồng hồ. Tuy nhiên, chúng ta không muốn tạo ra những cảnh phim giống như từ camera giám sát, với các đoạn lặp lại và không có sự chuyển động,” Zhang Heng, trưởng nhóm nghiên cứu Pomegranate AI, đã chia sẻ với Fixed Focus.
Lý do Sora ra mắt chậm trễ
Tại hội nghị quốc tế về Trí tuệ Nhân tạo vừa qua, các chuyên gia trong lĩnh vực AI đã chỉ ra rằng việc tạo sinh video vẫn đang ở giai đoạn đầu phát triển, tương tự như giai đoạn của GPT-3. Vì lý do đó, họ dự đoán rằng ít nhất còn phải chờ thêm nửa năm nữa để công nghệ này đạt được mức độ hoàn thiện. Hơn nữa, sự phức tạp của mô hình này so với mô hình ngôn ngữ cũng làm cho việc thương mại hóa trên quy mô lớn trở nên khó khăn hơn.
Sora có thời gian phát triển kéo dài hơn so với Midjourney và vì nó liên quan đến yếu tố dòng thời gian.
Bên cạnh đó, nguồn dữ liệu để đào tạo cho hệ thống tạo video AI cũng gặp nhiều hạn chế. Zhang Heng cho biết: “Chúng tôi đã sử dụng hết tài nguyên huấn luyện hiện có và đang tìm kiếm các phương pháp mới.”
Các mô hình trí tuệ nhân tạo hiện nay chỉ phát huy hiệu quả cao trong một lĩnh vực cụ thể. Chẳng hạn, Kuaishou Kling hoạt động tốt khi người dùng nhập vào các câu lệnh liên quan đến ẩm thực hoặc chương trình truyền hình, nhờ vào lượng dữ liệu phong phú từ công ty mẹ.
Sora vẫn chưa có bản thử nghiệm công khai, nhưng ngay cả những đoạn clip được OpenAI lựa chọn để công bố cũng chỉ ra rằng việc tạo ra các đối tượng tuân theo chính xác các định luật vật lý vẫn là một thách thức lớn. Trong một cuộc phỏng vấn với Bloomberg, nhóm phát triển cho biết họ chưa ấn định thời gian cụ thể cho việc ra mắt Sora.
Một giám đốc điều hành đã tiết lộ rằng thời điểm ra mắt có thể diễn ra vào cuối năm. Nhiều nguồn tin dự đoán rằng OpenAI sẽ phải hoãn ngày phát hành sau cuộc bầu cử tổng thống ở Mỹ. Sora đã dấy lên mối lo ngại về khả năng lan truyền của những video giả mạo mà đội ngũ phát triển chưa kiểm soát được.