Nvidia vừa công bố thông tin chi tiết về tương lai của đồ họa máy tính, đặc biệt là trong lĩnh vực trò chơi điện tử, với tham vọng áp dụng trí tuệ nhân tạo (AI) để cải cách quy trình tạo hình ảnh của các chip GPU hiện nay trong các trò chơi mà người dùng trải nghiệm hàng ngày.
Trong khi nhiều giải pháp AI thường được nhắc đến trên các phương tiện truyền thông như báo chí, truyền hình và trang tin tức chủ yếu xoay quanh các mô hình ngôn ngữ do các tập đoàn lớn phát triển và biến thành các công cụ như chatbot hoặc trợ lý ảo, Nvidia đang đi theo một hướng khác. Trên thực tế, Gen AI chỉ là một trong nhiều giải pháp trí tuệ nhân tạo dựa trên công nghệ mô phỏng mạng nơ-ron thần kinh giống như trong não người. Một ví dụ khác là mô hình mô phỏng cấu trúc protein xoắn của Google DeepMind, AlphaFold.
Khi nói đến xử lý đồ họa máy tính, Nvidia đã ứng dụng công nghệ học sâu (deep learning) từ nhiều năm trước khi ra đời, thông qua việc phát triển giải pháp mang tên DLSS, được giới thiệu cùng với thế hệ card đồ họa RTX sử dụng kiến trúc Turing vào năm 2018.
Gần đây, Nvidia đã giới thiệu ACE, một giải pháp cho phép tạo ra một thế giới ảo với các nhân vật sống động. Công nghệ AI này kết hợp âm thanh và chuyển động môi, cũng như biểu cảm khuôn mặt mà không cần sử dụng không gian lớn được gọi là “volume”, nơi mà các chuyển động của cơ thể và biểu cảm khuôn mặt của diễn viên được ghi lại và tích hợp vào nhân vật ảo trong trò chơi.
Những thông tin mới từ Nvidia cho thấy công ty đang rất nghiêm túc trong việc áp dụng học sâu (deep learning) nói chung và trí tuệ nhân tạo thế hệ mới (Gen AI) nói riêng vào lĩnh vực đồ họa máy tính và thiết kế game.
Ray Reconstruction
Có thể nói rằng điểm nhấn của các giải pháp mới chính là Ray Reconstruction, kết hợp giữa việc xử lý dò tia theo thời gian thực và nâng cao độ phân giải hình ảnh bằng một thuật toán AI duy nhất, nhằm nâng cao rõ rệt chất lượng hình ảnh hiển thị trên màn hình.
Trước khi thảo luận về Ray Reconstruction, cần nhắc đến các giải pháp nâng cao độ phân giải hình ảnh cấp cao như DLSS, FSR và XeSS, được phát triển bởi Nvidia, AMD và Intel.
Trong bối cảnh đồ họa trò chơi hiện nay, cuộc cạnh tranh giữa các nhà sản xuất card đồ họa không chỉ đơn thuần xoay quanh sức mạnh xử lý thô, hay còn gọi là rasterization, quá trình chuyển đổi các khung vector do CPU tạo ra thành điểm ảnh hiển thị trên màn hình. Hiện tại, các công ty phải so kè về khả năng của kiến trúc chip trong việc nâng cao độ phân giải hình ảnh game lên mức độ phân giải gốc của màn hình một cách hiệu quả nhất. Do đó, những giải pháp như FSR và DLSS cho phép người dùng trải nghiệm trò chơi qua hai giai đoạn: xử lý đồ họa thô với hiệu suất chip xử lý, sau đó là giải pháp “nhân tạo” để cải thiện cả chất lượng hình ảnh lẫn tốc độ khung hình.
Nvidia đã đưa ra một con số thú vị, cho thấy rằng nhờ vào công nghệ AI, thông thường CPU và GPU có khả năng tạo ra 1 pixel hiển thị trên màn hình, và khi áp dụng giải pháp nâng cấp hình ảnh bằng deep learning, toàn bộ hệ thống có thể tạo ra tổng cộng 8 pixel. Điều này đồng nghĩa với việc trong một số trường hợp, chẳng hạn như khi DLSS được kích hoạt ở chế độ Ultra Performance, độ phân giải render chỉ đạt 1/4 độ phân giải màn hình, cụ thể là khi chơi game 4K, phần cứng máy tính sẽ thực hiện render hình ảnh ở độ phân giải 1080p.
Trước khi có Ray Reconstruction, quá trình xử lý ray tracing theo thời gian thực trên card đồ họa RTX phụ thuộc vào một số yếu tố và các giai đoạn xử lý. Giai đoạn đầu tiên là loại bỏ nhiễu trong các tia sáng, mà trong mắt người chơi, đó chính là những điểm sáng phản chiếu trên bề mặt vật thể, bóng tối hoặc hình ảnh phản chiếu; càng nhiều tiếng ồn, thì hình ảnh càng kém chất lượng. Giải pháp này đã được áp dụng thông qua DLSS 2, ra mắt cùng với thế hệ card RTX 30 series sử dụng kiến trúc Ampere. Dù cho trò chơi vẫn giữ được vẻ đẹp, như trường hợp của Control, nhưng phương pháp này không cho phép các nhà phát triển trò chơi hoàn toàn tối ưu hóa “nâng cấp độ phân giải hình ảnh”, bởi vì quá trình dò tia không hỗ trợ cho bước này.
Vì vậy, tốc độ khung hình sẽ không được cải thiện tối đa từ DLSS, hình ảnh có thể bị vỡ nát và biến dạng, và điều tồi tệ nhất là sẽ xuất hiện các vệt bóng kéo dài trên các vật thể nhỏ như gương chiếu hậu của ô tô trong Cyberpunk 2077, hoặc dây điện ở Saint Denis trong Red Dead Redemption 2.
Sau đó, Nvidia nhận ra rằng việc tích hợp xử lý dò tia thời gian thực cùng với nâng cao độ phân giải hình ảnh là một yếu tố quan trọng, từ đó Ray Reconstruction đã được phát triển. Cơ chế đồ họa này đã thay đổi cách thức xử lý dò tia, áp dụng phương pháp giảm nhiễu mang tên khử nhiễu hợp nhất.
Để thực hiện điều này, Ray Reconstruction tận dụng một số mô hình AI được đào tạo nhằm xử lý các tín hiệu hình ảnh động như bóng chuyển động, nguồn sáng và vật thể. So với các bộ khử nhiễu do lập trình viên tự viết, việc ứng dụng AI đem lại sự cải thiện đáng kể về hiệu suất xử lý trên các cấu hình máy tính.
Về mặt lý thuyết, Ray Reconstruction có khả năng trở thành một bước tiến vượt bậc trong lĩnh vực đồ họa máy tính sử dụng AI, vì nó không chỉ tối ưu hóa quy trình dò tia, giúp công nghệ đồ họa tiên tiến dễ tiếp cận hơn cho người dùng PC, mà còn làm giảm tải và yêu cầu phần cứng trong nhiều trường hợp. Nhờ vào việc giảm nhẹ yêu cầu phần cứng, các nhà phát triển trò chơi có cơ hội tạo ra những thế giới ảo đẹp mắt hơn, khai thác tối đa sức mạnh của máy tính cá nhân.
Nén dữ liệu & xử lý ánh sáng
Bước tiếp theo trong việc ứng dụng trí tuệ nhân tạo (AI) vào lĩnh vực đồ họa máy tính sẽ là gì? Tại sự kiện Đồ họa hiệu suất cao vừa qua, John Burgess từ Nvidia đã chia sẻ về những xu hướng mới nổi trong việc tăng tốc đồ họa bằng AI, đồng thời nghiên cứu sâu hơn về các ứng dụng có thể được thực hiện trực tiếp trên card đồ họa RTX GeForce và RTX dành cho máy tính cá nhân cũng như máy trạm. Theo nhận định của Burgess, AI có khả năng hỗ trợ xử lý nhiều tác vụ khác nhau, không chỉ dừng lại ở việc sử dụng DLSS để nâng cao độ phân giải hình ảnh trò chơi lên mức tương ứng với màn hình.
Trước đó, đơn vị TAP thuộc Intel cũng đã thảo luận về các ý tưởng tương tự, nhìn thấy tiềm năng của AI trong đồ họa máy tính không chỉ nhằm tạo ra các khung hình mới hoặc cải thiện độ phân giải của trò chơi. Một số giải pháp mới mà Nvidia giới thiệu, áp dụng thuật toán AI, bao gồm:
- Neural Texture Compression
- Real-time Neural Appearance Models
- NeuralVDB
- Neural Radiance Cache
Đầu tiên là Nén Texture bằng Neural, đây là một ứng dụng AI nhằm nâng cao độ sắc nét và chi tiết của hình ảnh trong các trò chơi. Giải pháp này sử dụng một mạng nơ-ron có tên gọi là MLP (Multi Layer Perception). Nhờ vào giải pháp này, tốc độ nén dữ liệu bề mặt đối tượng đồ họa trong bộ cài trò chơi có thể tăng từ 4 đến 16 lần.
Kết quả là, mô hình 3D hiển thị trong các cảnh game sẽ trở nên sắc nét hơn trong khi dung lượng vẫn được giữ nguyên hoặc giảm nhẹ. Dung lượng texture giảm có nghĩa là yêu cầu về bộ nhớ máy tính sẽ thấp hơn, đồng thời giảm gánh nặng cho VRAM, băng thông bộ nhớ và bộ nhớ đệm, trong khi chất lượng hình ảnh vẫn đảm bảo đẹp như cũ hoặc thậm chí tốt hơn.
Tiếp theo là công nghệ NeuralVDB, một giải pháp chuyên dụng cho việc nén dữ liệu đồ họa, đặc biệt hữu ích cho các đối tượng có độ chi tiết cao như cây cối. Giải pháp này sử dụng từ 2 đến 4 MLP để cải thiện khả năng nén dữ liệu, đạt mức tăng tốc độ từ 10 đến 100 lần. Tại sự kiện SIGGRAPH 2022, Nvidia đã giới thiệu cách mà mô hình AI có thể tối ưu hóa dữ liệu đồ họa để xử lý những mô phỏng vật lý phức tạp, như sóng nước, trong đó khối lượng dữ liệu VRAM cần xử lý đã được giảm tới 25 lần, từ 15GB xuống chỉ còn hơn 600 MB.
Thứ ba, Neural Radiance Cache áp dụng mạng thần kinh để xử lý và mã hóa dữ liệu ánh sáng tại một mức độ nhất định. Giải pháp này sẽ được tích hợp với quy trình dựng hình đồ họa dựa trên phương pháp dò đường dẫn, nhằm tính toán đường đi của ánh sáng thay vì chỉ mô phỏng một số tia cụ thể như trong Ray Tracing. Khi kết hợp hai phương pháp này, chất lượng hình ảnh 3D sẽ được nâng cao một cách rõ rệt. Giải pháp AI này giúp khử nhiễu hình ảnh một cách nhanh chóng và thực hiện tính toán đường đi của ánh sáng hiệu quả hơn.
Xử lý đồ hoạ bề mặt của vật thể
Những tính năng liên quan đến deep learning trong xử lý ray tracing thời gian thực đã được đề cập ở trên, đặc biệt trong lĩnh vực đồ họa game. Tuy nhiên, cũng cần nhấn mạnh các quy trình cơ bản để hiển thị trò chơi trên màn hình máy tính, bao gồm việc tô bóng (shader) và render hình ảnh theo thời gian thực.
Tại sự kiện SIGGRAPH 2024, Nvidia đã giới thiệu một công nghệ mới mang tên NAM, viết tắt của Neural Appearance Models. Giải pháp này áp dụng trí tuệ nhân tạo để mô phỏng và tái hiện bề mặt của các vật liệu và đối tượng một cách chân thực hơn, nhờ vào những phương pháp tối ưu hơn so với cách tiếp cận truyền thống. Các mạng nơ-ron hỗ trợ trong việc xử lý bề mặt của NAM đã được đào tạo để hiểu rõ các đặc tính căn bản của bề mặt từ các vật thể và vật liệu trong thực tế. Sau đó, NAM được triển khai dưới dạng AI tổng quát, cho phép tích hợp chi tiết bề mặt vào mô hình 3D của các đối tượng và yếu tố trong trò chơi, làm tăng tính chân thực đồng thời giảm thiểu thời gian dựng hình.
Giới thiệu về NAM một cách cụ thể hơn, nó được cấu thành từ hai mạng nơ-ron đa lớp (MLP), phục vụ cho việc nhận diện không gian và hình ảnh. MLP đầu tiên có nhiệm vụ phân tích và đánh giá giá trị BRDF (hàm phân phối phản xạ hai chiều) của bề mặt vật liệu cũng như các đối tượng thực tế. Trong khi đó, MLP thứ hai sẽ xử lý dữ liệu mẫu với quy mô lớn. Cấu trúc của NAM tương tự như mô hình tạo ra hình ảnh, bao gồm các khối mã hóa và giải mã, nhằm xử lý dữ liệu đầu vào để tạo ra các đặc điểm bề mặt của đối tượng một cách chân thực nhất, ví dụ như buổi thuyết trình của Nvidia tại SIGGRAPH 2024 như đã đề cập ở dưới đây.
Theo Nvidia, nhờ vào mô hình AI hoạt động theo phương pháp NAM, thuật toán này có khả năng hiển thị các đối tượng và bề mặt với độ phân giải lên tới 16K thay vì chỉ dừng lại ở mức 4K. Bên cạnh đó, với việc áp dụng công nghệ AI trong quá trình tạo ra, thời gian cần thiết để trình chiếu hình ảnh 3D đã giảm từ 12 đến 24 lần so với các giải pháp đổ bóng đồ họa truyền thống, ở cùng một độ phân giải của kết cấu hình ảnh.
Những điều chưa làm được
Trước hết, hãy tổng hợp các khả năng của trí tuệ nhân tạo trong lĩnh vực đồ họa máy tính, đóng góp vào những bước tiến đáng kể trong thế giới đồ họa 3D:
- Nén dữ liệu hiệu quả
- Thực hiện các phép toán phức tạp
- Lưu trữ dữ liệu tín hiệu phức tạp
Tuy nhiên, vẫn còn một số thách thức cần được khắc phục để ứng dụng trí tuệ nhân tạo một cách hiệu quả trong ngành đồ họa máy tính:
- Mức độ sai lệch khi xử lý các luồng hoạt động song song
- Sự xung đột với các lõi xử lý đổ bóng truyền thống trên card đồ họa
Cụ thể, khi mỗi luồng xử lý trong lõi chip GPU đang hoạt động và thiết lập lệnh chờ cho từng mạng nơ-ron riêng lẻ, cần tìm ra phương pháp để đồng bộ hóa tất cả các mạng nơ-ron này nhằm tạo ra sản phẩm hiển thị nhất quán.
Một ví dụ điển hình cho tương lai của đồ họa 3D render bằng máy tính là Sora từ OpenAI, được vận hành dựa trên GPU máy chủ của Nvidia. Sora mô phỏng một chiếc xe di chuyển trên con đường đất, với một dải bụi rất chân thực được tạo ra từ bánh xe phía sau, cùng với khả năng mô phỏng hệ thống giảm xóc và trọng lượng của chiếc xe. Mọi hình ảnh được trình bày đều được sản xuất bởi AI. Để tạo ra đoạn video ngắn này, cần đến hàng chục ngàn GPU để huấn luyện mô hình AI. Tham vọng trong tương lai gần là khi sức mạnh của card đồ họa tiêu dùng gia tăng, hoàn toàn có thể tự động sinh ra video thông qua AI, hoạt động trên card đồ họa trong máy tính cá nhân.
Nguồn: WCCFTech