Năm nay sắp kết thúc, và AMD hy vọng rằng các chip AI MI300X mạnh mẽ mới của họ sẽ giúp công ty thu hẹp khoảng cách với Nvidia. Tuy nhiên, một cuộc điều tra sâu rộng từ SemiAnalysis cho thấy những thách thức về phần mềm của AMD đang khiến Nvidia duy trì lợi thế ổn định của mình.
SemiAnalysis đã so sánh MI300X của AMD với H100 và H200 của Nvidia, phát hiện ra nhiều sự khác biệt giữa các chip. Đối với những người chưa biết, MI300X là một bộ tăng tốc GPU dựa trên kiến trúc AMD CDNA 3 và được thiết kế cho tính toán hiệu suất cao, đặc biệt là cho các tác vụ AI.
Về lý thuyết, các chỉ số hiệu suất có vẻ rất tốt cho AMD: chip này cung cấp 1.307 TeraFLOPS sức mạnh tính toán FP16 và một bộ nhớ HBM3 khổng lồ 192GB, vượt qua cả hai sản phẩm cạnh tranh của Nvidia. Các giải pháp của AMD cũng hứa hẹn sẽ có chi phí sở hữu thấp hơn so với các chip đắt đỏ và mạng InfiniBand của Nvidia.
Tuy nhiên, như nhóm SemiAnalysis phát hiện sau năm tháng thử nghiệm nghiêm ngặt, thông số kỹ thuật thô không phải là toàn bộ câu chuyện. Mặc dù silicon của MI300X rất ấn tượng, nhưng hệ sinh thái phần mềm của AMD cần rất nhiều nỗ lực để sử dụng hiệu quả. SemiAnalysis đã phải phụ thuộc nhiều vào các kỹ sư của AMD để sửa lỗi và giải quyết các vấn đề liên tục trong quá trình đánh giá và thử nghiệm của họ.
Điều này hoàn toàn khác biệt so với phần cứng và phần mềm của Nvidia, vốn được cho là hoạt động mượt mà ngay từ đầu mà không cần sự hỗ trợ nào từ nhân viên của Nvidia.
Hơn nữa, những vấn đề về phần mềm không chỉ giới hạn trong thử nghiệm của SemiAnalysis – khách hàng của AMD cũng đang gặp khó khăn. Chẳng hạn, nhà cung cấp đám mây lớn nhất của AMD là Tensorwave đã phải cho phép các kỹ sư của AMD truy cập vào cùng một bộ vi xử lý MI300X mà Tensorwave đã mua, chỉ để AMD có thể khắc phục lỗi phần mềm.
Những rắc rối không dừng lại ở đó. Từ các vấn đề tích hợp với PyTorch đến khả năng mở rộng kém trên nhiều chip, phần mềm của AMD luôn không đạt yêu cầu so với hệ sinh thái CUDA đã được chứng minh của Nvidia. SemiAnalysis cũng lưu ý rằng nhiều Thư viện AI của AMD thực chất là các nhánh của Thư viện AI của Nvidia, dẫn đến kết quả không tối ưu và các vấn đề về tính tương thích.
Mặc dù AMD đang cố gắng vượt qua những thách thức từ CUDA, nhưng vẫn chưa thành công do văn hóa đảm bảo chất lượng phần mềm (QA) của AMD không đạt yêu cầu và trải nghiệm sử dụng ban đầu khá khó khăn. Trong khi AMD nỗ lực lấp đầy khoảng cách này, các kỹ sư Nvidia vẫn đang làm việc chăm chỉ để mở rộng thêm khoảng cách đó với các tính năng mới, thư viện và cập nhật hiệu suất.
Các nhà phân tích đã phát hiện ra một tín hiệu tích cực trong các nhánh phát triển BF16 trước khi phát hành cho phần mềm MI300X, cho thấy hiệu suất tốt hơn đáng kể. Tuy nhiên, khi mã nguồn này được đưa vào sản xuất, khả năng cao là Nvidia sẽ có các chip Blackwell thế hệ tiếp theo sẵn sàng (dù có thông tin cho rằng Nvidia đang gặp phải một số khó khăn trong quá trình triển khai).
Dựa trên những vấn đề này, SemiAnalysis đã đưa ra một loạt khuyến nghị cho AMD, bắt đầu bằng việc cung cấp thêm tài nguyên tính toán và kỹ thuật cho đội ngũ kỹ sư của Team Red nhằm khắc phục và cải thiện hệ sinh thái.
Met with @LisaSu today for 1.5 hours as we went through everything
She acknowledged the gaps in AMD software stack
She took our specific recommendations seriously
She asked her team and us a lot of questions
Many changes are in flight already!
Excited to see improvements coming https://t.co/38aAwwIdEI— Dylan Patel (@dylan522p) December 23, 2024
Người sáng lập SemiAnalysis, Dylan Patel, đã có cuộc gặp gỡ với CEO của AMD, Lisa Su. Ông đã chia sẻ trên mạng xã hội X rằng bà Su nhận thức rõ công việc cần thiết để cải thiện bộ phần mềm của AMD. Ông cũng nhấn mạnh rằng nhiều thay đổi đã đang được phát triển.
Tuy nhiên, việc này sẽ gặp khó khăn sau nhiều năm dường như bị bỏ quên trong lĩnh vực quan trọng này. Dù các nhà phân tích mong muốn AMD thực sự có thể cạnh tranh với Nvidia, nhưng “hệ sinh thái CUDA” hiện vẫn giữ cho Nvidia dẫn đầu một cách vững chắc.
Theo Techspot