Biren BR100 - nowe informacje o specyfikacji oraz wydajności chińskiego akceleratora wprost z konferencji Hot Chips 34
Dwa tygodnie temu chińska firma Biren Technology zaprezentowała swoje najnowsze akceleratory graficzne Biren BR100 oraz Biren BR104. Zwłaszcza ten pierwszy na papierze wydaje się bardzo ciekawy, zwłaszcza że sam producent deklaruje jego wyższą wydajność w porównaniu chociażby do modelu NVIDIA A100. Podczas pierwszej prezentacji nie zdradzono jednak zbyt wielu informacji o specyfikacji. Dopiero podczas Hot Chips 34 ujawniono nieco więcej szczegółów.
Chińska firma Biren Technology pojawiła się na konferencji Hot Chips i zdradziła nowe informacje na temat akceleratora Biren BR100.
Biren BR100 - chiński akcelerator graficzny mający przegonić układ NVIDIA A100. Na pokładzie 77 mld tranzystorów i 64 GB HBM2e
Biren Technology zdradziło co nieco na temat wydajności akceleratora Biren BR100 w zadaniach związanych z głębokim uczeniem. W zależności od typu zadania, Biren BR100 oferuje od 2,4x do 2,8x wyższą wydajność w porównaniu do akceleratora NVIDIA A100 (średnio jest to ~2,6x). Jeśli chodzi o budowę Biren BR100, to akcelerator zbudowany jest z dwóch chipletów obliczeniowych, gdzie każdy z nich posiada 16 klastrów SPC (Streaming Processing Clusters). Każdy klaster SPC posiada 16 jednostek EU (Execution Unit), natomiast 4 EU tworzą jeden blok CU (Compute Unit, choć co ciekawe Biren Technology zdradził również, że teoretycznie w jednym CU może znaleźć się zarówno 4 EU, jak również 8 lub 16 EU). Tym samym pojedynczy klaster SPC posiada 4 CU oraz 16 EU. Jeden chiplet z 16 SPC wyposażony jest natomiast w 256 EU oraz 64 CU (przy zachowaniu ciągłości, że 4 EU = 1 CU). Dalsze obliczenia prowadzą natomiast do prostego wniosku, że pełny układ Biren BR100 oferuje 32 SPC, 512 EU oraz 128 CU (jeśli cały układ opiera się na budowie 4 EU = 1 CU).
Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W
Pojedynczy blok CU podłączony jest do 64 KB pamięci cache L1, a dodatkowo klaster SPC posiada dostęp do 8 MB pamięci cache L2, współdzielonej przez wszystkie jednostki wykonawcze (EU). Łącznie samej pamięci cache L1 mamy 8 MB, natomiast L2 - 256 MB. W kolejnych slajdach producenta możemy także zobaczyć, że jednostki wykonawcze (EU) są zbudowane m.in. z 16 rdzeni przetwarzania strumieniowego (V-Core) oraz jednego silnika Tensor (Tensor Engine). O ile rdzenie V-Core służą przede wszystkim do obliczeń typu FP32, FP16, INT32 oraz INT16, tak Tensor Engine jest ukierunkowany głównie na obliczenia ściśle związane ze sztuczną inteligencją. Dodatkowo V-Core posiada również ulepszony model SIMT (prosta instrukcja, wiele wątków jednocześnie), umożliwiający uruchomienie nawet 128 tysięcy wątków we wszystkich 32 klastrach SPC w trybie superskalarnym (zarówno statycznym jak również dynamicznym).
Biren BR100 oferuje 64 GB pamięci VRAM typu HBM2e na 4096-bitowej magistrali, co przekłada się na łączną przepustowość rzędu 2,3 TB/s. Całość wyprodukowano w 7 nm procesie technologicznym TSMC wraz z wykorzystaniem technologii pakowania 2.5D CoWoS tej samej firmy. Oparcie się na budowie chipletowej ma skutkować nawet o 30% lepszą wydajnością w porównaniu z tradycyjnym monolitem, a także zachować niższe koszty produkcji. Co ciekawe, powierzchnia pełnego układu Biren BR100 sięga imponujących 1074 mm² (wraz z 77 mld tranzystorów). TDP akceleratora wynosi z kolei 550 W (OAM). BR100 obsługuje również magistralę PCIe 5.0 x16.
Powiązane publikacje

Intel Arc Pro B50 i B60 na Computex 2025. Nowe GPU z 16 i 24 GB VRAM dla profesjonalnych zastosowań AI i stacji roboczych
9
NVIDIA na Computex 2025. Procesory ARM z MediaTek, RTX 5060 z DLSS 4 i platformy AI GB300 z NVLink Fusion dla serwerów
43
Tajemniczy układ AMD GFX13 znaleziony w jądrze Linuksa. Czy UDNA zakończy dominację NVIDII w ray tracingu i AI?
182
Firma NVIDIA dostarczy 18 000 chipów Blackwell do Arabii Saudyjskiej w ramach partnerstwa z Humain
23