Một nhóm nghiên cứu toàn cầu hợp tác với Nvidia đã phát triển một mô hình AI được gọi là Fugatto, được mô tả như một công cụ đa năng cho âm thanh. Mô hình này có khả năng tạo ra hoặc biến đổi hầu như bất kỳ sự kết hợp nào của âm nhạc bằng cách sử dụng bất kỳ tập tin âm thanh hay văn bản nào.

Fugatto, tên viết tắt của Foundational Generative Audio Transformer Opus 1, được Nvidia khẳng định có khả năng vượt trội. Chẳng hạn, Fugatto có thể tạo ra một giai điệu chỉ dựa trên văn bản, điều chỉnh cảm xúc trong giọng hát của ca sĩ hoặc thay đổi giọng nói của họ, và thậm chí thêm hoặc loại bỏ nhạc cụ từ một bài hát hiện có.

Mô Hình Âm Thanh Nvidia Fugatto Ai Tuyên Bố Cách Mạng Hóa Quy Trình Sản Xuất Âm Thanh.
Mô Hình Âm Thanh Nvidia Fugatto Ai Tuyên Bố Cách Mạng Hóa Quy Trình Sản Xuất Âm Thanh.

Fugatto có khả năng làm thay đổi cách thức sáng tạo âm nhạc. Với nó, nhà sản xuất có thể nhanh chóng phác thảo ý tưởng cho một bài hát mới với các phong cách giọng nói và nhạc cụ tùy chỉnh, hoặc điều chỉnh hiệu ứng trong một bản nhạc đã có.

Ido Zmishlany, một nhà sản xuất và nhạc sĩ đạt nhiều giải thưởng bạch kim, tin rằng AI và các công cụ như Fugatto sẽ giúp viết nên chương tiếp theo của âm nhạc. Tuy nhiên, mô hình này không chỉ giới hạn trong sản xuất âm nhạc.

Nvidia đã nêu bật một số trường hợp sử dụng khác, chẳng hạn như một công ty quảng cáo sử dụng nó để điều chỉnh lời lồng ghép trong một chiến dịch để phù hợp với các khu vực, tình huống hoặc ngôn ngữ khác nhau. Mô hình cũng có thể hỗ trợ cải thiện các công cụ học ngôn ngữ bằng cách cho phép người dùng tùy chỉnh giọng nói của người nói, như làm cho nó nghe giống như một người bạn hoặc thành viên trong gia đình.

Các nhà phát triển trò chơi điện tử có thể sử dụng công cụ này để tạo ra các tài sản mới ngay lập tức dựa trên phản hồi của người chơi, hoặc điều chỉnh những tài sản đã ghi sẵn để phù hợp nhất với mức độ hành động trên màn hình tại bất kỳ thời điểm nào.

Rafael Valle, một trong những nhà nghiên cứu tham gia vào dự án, cho biết họ muốn xây dựng một mô hình hiểu và tạo ra âm thanh giống như con người.

Hơn một năm công sức đã được bỏ ra để hoàn thiện phiên bản đầy đủ của Fugatto, sử dụng 2,5 tỷ tham số. Nvidia cho biết mô hình này được đào tạo trên một nhóm hệ thống DGX với 32 GPU Nvidia H100 Tensor Core. Thật không may, lịch trình phát hành Fugatto cho công chúng vẫn chưa được tiết lộ.

Theo Techspot

Bình luận (0 bình luận)

For security, use of Google's reCAPTCHA service is required which is subject to the Google Privacy Policy and Terms of Use.