Image via Techpowerup |
Stable Diffusion AI ကိုဖန်တီးတဲ့ Stability AI က developer တွေဟာ Stable Diffusion 3 အတွက် NVIDIA H100 80GB၊ A100 80GB နဲ့ Intel Gaudi2 96GB Accelerator တွေအပါအဝင် နာမည်ကြီးdata center AI GPU တွေကို benchmark လုပ်ခဲ့ကြပါတယ်။ ဒီလိုလုပ်ဆောင်ခဲ့ရာမှာ generative AI နဲ့ LLM အတွက် ရည်ရွယ်ဖန်တီးထားတဲ့ Gaudi2 96GB ဟာ super-scaler CUDA+ Tensor Core GPU ထက် အကြမ်းဖြင်းအားဖြင့် ၅၆%လောက်ပိုမိုမြန်ဆန်နေတာကိုတွေ့ရှိခဲ့ရတယ်လို့ဆိုပါတယ်။
Node ၂ခုမှာ Accelerator ၁၆ခုပါဝင်ကာ accelerator တစ်ခုကို batch size ၁၆(စုစုပေါင်း ၂၅၆) ခုပုံသေပါဝင်တဲ့ Gaudi2 array ဟာ တစ်စက္ကန့်ကို ၉၂၇ပုံထုတ်ပေးနိုင်စွမ်းရှိပြီး H100 array ကတော့ ၅၉၅ပုံထုတ်ပေးနိင်သလို A100 array ဆိုရင် ၃၈၁ပုံသာထုတ်ပေးနိုင်တယ်လို့ဆိုပါတယ်။
Image via Techpowerup |
သတိထားရမှာက အပေါ်ကရလဒ်တွေဟာ အခြေခံ PyTorch ကိုအသုံးပြုချိန်မှာရရှိထားတာပါ။ Stability AI ကတော့ Nvidia အတွက် optimize လုပ်ထားတဲ့ TensorRT နဲ့ဆိုရင် A100 ချစ်ပ်တွေဟာ Gaudi2 ထက် ၄၀%ပိုမိုမြန်ဆန်တယ်လို့ဆိုပါတယ်။ နောက်ပိုင်း optimization ပိုကောင်းလာတဲ့အခါ Gaudi2 ဟာ A100 ကိုသာလွန်လာပါလိမ့်မယ်။ အစောပိုင်းက အခြေခံ PyTorch ကို SDXL model နဲ့စမ်းသပ်ရာမှာ Gaudi2 ဟာ 1024x1024 ရုပ်ပုံတစ်ခုကို ၃.၂စက္ကန့်အတွင်းထုတ်ပေးနိုင်ခဲ့ချိန်မှာ A100 က ၃.၆စက္ကန့်ရရှိခဲ့ပါတယ်။ A100 က TensorRT ကိုအသုံးပြုချိန်မှာတော့ ၂.၇စက္ကန့်သာကြာမြင့်တာကိုတွေ့ရတယ်လို့ဆိုပါတယ်။ Stability AI ကတော့ Gaudi2 ရဲ့ ပိုမိုမြန်ဆန်တဲ့ interconnect နဲ့များပြားလှတဲ့ 96GB memory က Intel ချစ်ပ်တွေကို ပြိုင်ဆိုင်နိုင်စွမ်းရှိစေတယ်လို့ ချီးကျုးသွားပါတယ်။
Source: Techpowerup
#EnThueTech
#News
#AI
#HPC
0 Comments