Mendukung AI dalam Skala Besar: Peran Penting Data Center Bridging dengan PFC dan ECN untuk Deploy GPU Massif

Perkembangan model AI yang semakin cerdas, terutama Large Language Models (LLM) dan algoritma deep learning, telah menciptakan kebutuhan komputasi yang sangat besar. Di balik itu semua, Graphics Processing Units (GPU) menjadi tulang punggung berkat kemampuan paralelismenya yang ideal untuk perhitungan intensif dan berulang dalam pelatihan AI.

Namun, menghubungkan ribuan GPU di dalam pusat data bukan hanya soal menyalakan perangkat. Dibutuhkan infrastruktur jaringan yang sangat canggih, mampu menangani arus data dalam jumlah masif dengan latensi rendah, dan yang paling penting: tanpa kehilangan paket data (packet loss). Inilah mengapa teknologi Data Center Bridging (DCB), ditambah mekanisme kontrol lalu lintas seperti Priority-based Flow Control (PFC) dan Explicit Congestion Notification (ECN), menjadi mutlak diperlukan.

Tantangan: Kemacetan Jaringan dalam Kluster GPU

Bayangkan sebuah pekerjaan pelatihan AI yang melibatkan ratusan hingga ribuan GPU. GPU tersebut terus bertukar data dalam jumlah besar—parameter, nilai gradien, dan aktivasi—seringkali dalam pola komunikasi serentak. Pola ini dikenal sebagai incast.

Di jaringan Ethernet tradisional, kondisi ini bisa menyebabkan kemacetan serius hingga packet loss. Dalam konteks AI, kehilangan paket bukan sekadar masalah kecil. Hal ini bisa:

memperlambat pelatihan,
menambah waktu konvergensi model,
dan meningkatkan biaya komputasi karena GPU menunggu data masuk.

Dengan kata lain, meski GPU terlihat bekerja 100%, sebenarnya mereka bisa saja “diam” menunggu jaringan.

Kaitan Jaringan dengan Utilisasi GPU

Baik untuk inference maupun training, jaringan berperan sangat penting:

Inference LLM (Model Parallelism & Batching): Model besar sering dibagi ke banyak GPU. Jika ada kemacetan jaringan, alur inferensi bisa terhenti. Dampaknya, latensi naik dan throughput sistem turun. DCB dengan jaringan bebas packet loss memastikan aliran data antargpu tetap lancar.
Fine-tuning LLM (Distributed Training): Proses ini membutuhkan pertukaran data besar-besaran antar-GPU. Jika ada paket hilang, proses training bisa terhambat berjam-jam. PFC menjamin data ini tidak pernah hilang, sementara ECN membantu mencegah antrian penuh sejak awal.

Apa itu Data Center Bridging (DCB)?

DCB adalah sekumpulan standar IEEE (802.1Qxx) yang membuat Ethernet lebih andal di pusat data. Untuk AI, peran utamanya adalah menciptakan jaringan lossless—artinya tidak ada paket penting yang hilang.

Dua fitur utama DCB adalah PFC dan ECN.

Priority-based Flow Control (PFC): Pencegah Paket Hilang

PFC (IEEE 802.1Qbb) memperluas mekanisme PAUSE di Ethernet. Bedanya, PFC bisa menghentikan hanya lalu lintas dengan prioritas tertentu, bukan semuanya.

Cara kerjanya:

Lalu lintas AI (misalnya RoCEv2) diberi prioritas tinggi.
Jika buffer switch penuh untuk prioritas ini, switch mengirim sinyal PFC ke perangkat pengirim.
Perangkat berhenti mengirim data hanya untuk kelas prioritas tersebut.
Saat buffer kembali normal, pengiriman dilanjutkan.

Manfaat untuk GPU:

Zero packet loss untuk lalu lintas AI.
Isolasi antara trafik AI dan trafik lain.
Kinerja lebih stabil dan prediktif.

Namun, jika salah konfigurasi, bisa muncul “PFC storm” yang justru memperlambat jaringan. Inilah sebabnya ECN sangat penting sebagai pelengkap.

Explicit Congestion Notification (ECN): Pencegahan Proaktif

ECN (RFC 3168) memberi cara agar perangkat jaringan memberi peringatan dini ketika antrean mulai penuh. Alih-alih membuang paket, switch menandai paket dengan “Congestion Experienced (CE)”.

Alurnya:

Sender dan receiver sepakat menggunakan ECN.
Jika antrean hampir penuh, paket ditandai CE.
Receiver memberi tahu sender soal kemacetan.
Sender menurunkan laju kirim data.

Dengan cara ini, kemacetan dicegah sebelum benar-benar terjadi.

Sinergi PFC dan ECN di Kluster GPU

ECN sebagai garis depan: memberi peringatan dini agar laju data diturunkan.
PFC sebagai benteng terakhir: jika masih ada lonjakan besar, PFC memastikan tidak ada paket hilang.
Optimasi RoCEv2: kombinasi ECN dan PFC membuat protokol RDMA ini berjalan lossless dan cepat.

Hasilnya, jaringan bisa menyeimbangkan latensi rendah untuk lalu lintas kecil (mice flows) dan throughput tinggi untuk transfer besar (elephant flows).

Contoh di Dunia Nyata: Multi-tenant GPU Cluster

Dalam satu perusahaan besar, GPU cluster bisa dipakai oleh banyak tim:

Tim R&D: butuh throughput stabil untuk fine-tuning model semalaman.
Departemen QC: butuh inferensi real-time dengan latensi <10ms agar lini produksi tidak terhenti.
Tim Keuangan: menjalankan batch inference untuk analisis risiko, butuh throughput tinggi dalam waktu terbatas.

Dengan DCB, admin jaringan bisa memberi prioritas berbeda untuk tiap jenis trafik sehingga semua kebutuhan SLA bisa terpenuhi tanpa saling mengganggu.

Kesimpulan

Seiring kompleksitas model AI terus meningkat, infrastruktur jaringan menjadi faktor penentu kinerja GPU. Data Center Bridging (DCB), dengan PFC dan ECN, bukan sekadar fitur tambahan, melainkan fondasi penting agar AI dalam skala besar bisa berjalan efisien, andal, dan bebas packet loss.

Dengan memilih solusi jaringan berbasis standar industri ini, perusahaan bisa:

memaksimalkan investasi GPU,
mengurangi biaya operasional,
dan mempercepat inovasi di era kecerdasan buatan.

Infrastruktur IT yang kuat adalah kunci produktivitas perusahaan. Dengan edgecore indonesia, Anda bisa mendapatkan solusi IT lengkap yang sesuai dengan kebutuhan Anda. iLogo Indonesia sebagai mitra terpercaya siap mengintegrasikan semuanya agar bisnis Anda tetap berjalan lancar dan aman.
Hubungi kami sekarang atau kunjungi edgecore.ilogoindonesia.id untuk informasi lebih lanjut!