×
AI modelleriyle çalışan sunucu odası, NVIDIA H100 ve H200 kümeleri

Kurumsal Ortamda LLM Kapasite Planlaması

Büyük dil modellerini (LLM’ler) kurumsal bir ortamda devreye almak, kavram kanıtlama aşamasından, ciddi bir mühendislik disiplinine dönüşmüş durumda. Ancak, gerçek dünya koşullarında eşzamanlı yük altında bir çıkarım sunucusunun kapasitesini doğru bir şekilde tahmin etmek hala önemli bir zorluk olarak karşımıza çıkıyor.

Gerçek Kullanım Senaryolarında Performansın Ölçülmesi

Altyapı mühendisleri, genellikle karmaşık yapılandırma alanlarıyla uğraşmak zorunda kalırlar ve vLLM içindeki --max-num-batched-tokens veya --gpu-memory-utilization gibi ayarların optimizasyon yapıp yapmadığını sorgularlar. Resmi belgeler ayarlama mekanizmalarını sağlar, ancak belirli bir iş yükü, donanım mimarisi ve Hizmet Düzeyi Anlaşması (SLA) için en uygun yapılandırmayı keşfetmek adına sistematik bir yöntem nadiren sunar.

Türk Sistem Yöneticileri için Pratik Bir Örnek

Örneğin, bir şirket içi yapay zeka kodlama asistanı için NVIDIA H100 ve H200 kümelerinde dağıtılan 120 milyar parametreli bir modelin kapasite planlamasını gerçekleştirdik. Sonuç olarak, yalnızca son kapasite ölçümlerimizi yayınlamak yerine, bu sonuçlara ulaşmak için geliştirdiğimiz titiz, uçtan uca metodolojiyi belgelerle açıkladık.

Sadece Bir Benchmark Çalıştırmanın Sorunu

Standart LLM benchmarkları, sabit bir istemi sabit bir eşzamanlılıkla gönderir ve ortalama gecikme süresini raporlar. Ancak, gerçek dünya kullanım senaryoları için kapasite planlaması yapılırken, çoklu dönüş trafiği simülasyonu gereklidir. Gerçek trafik karmaşıktır. Örneğin, kullanıcıların %70’i kısa istekler gönderirken, %20’si orta büyüklükte istekler gönderir ve %10’u derin analiz için tüm kod tabanlarını sunar. Bu üç segment, çıkarım motorunu temelde farklı şekillerde zorlar.

Örnek: Türk Şirketi İçin İdeal Yöntem

Bu tür bir senaryoda, standart benchmarklar yeterli olmayabilir. Türk şirketleri için benzer bir yapı kurarak, gerçek kullanıcı davranışlarını simüle edebilir ve daha doğru kapasite planlaması yapabilirsiniz.

Biz Ne İnşa Ettik?

Beyaz kitap, üç ana aşamayı içeren bir çerçeve tanımlıyor:

  • İş Yükü Modelleme: Kullanıcı profillerini tanımlayarak, gerçek geliştiricilerin bir kodlama asistanı ile etkileşimini simüle etmek için çoklu dönüş akışları oluşturdik.
  • Evrimsel Parametre Arama: Optuna’nın NSGA-II örnekleyicisini kullanarak, vLLM parametre alanını hedef eşzamanlılıkta aradık ve en iyi yapılandırmaları belirledik.
  • Çekirdek Seviyesi Profil Oluşturma: NVIDIA Nsight Systems ile çekirdek seviyesinde izler yakalayarak, gerçek mimari darboğazları belirledik.

Türk Sistem Yöneticileri İçin Pratik Uygulama

Türk sistem yöneticileri, benzer bir çerçeveyi kendi altyapılarına uygulayarak, gerçek kullanıcı davranışlarına dayalı daha etkili kapasite planlaması yapabilirler.

Makale İçerisinde Öğrenecekleriniz

  • Gerçek kullanıcı davranışlarını yansıtan bir iş yükü simülasyonunun nasıl tasarlanacağı.
  • vLLM parametre alanını verimli bir şekilde aramak için çok amaçlı optimizasyonun nasıl kullanılacağı.
  • Prometheus ve DCGM Exporter kullanarak çıkarım motoru iç görülerine ve GPU donanım durumuna eşzamanlı görünürlük elde etme.
  • Yük altındaki bir vLLM dağıtımından NVIDIA Nsight Systems çekirdek izlerinin nasıl yakalanacağı ve yorumlanacağı.

Sık Sorulan Sorular

vLLM parametrelerini nasıl optimize edebilirim?

Optuna’nın NSGA-II gibi çok amaçlı evrimsel algoritmaları kullanarak parametre alanını keşfedebilir ve en iyi yapılandırmaları bulabilirsiniz.

Gerçek kullanıcı davranışlarını nasıl simüle edebilirim?

Geliştiricilerin bir kodlama asistanı ile etkileşimini taklit eden çoklu dönüş akışları oluşturmak için açık kaynaklı veri kümelerini kullanabilirsiniz.

GPU donanım durumunu nasıl izleyebilirim?

Prometheus ve DCGM Exporter kullanarak GPU donanım durumu hakkında eşzamanlı görünürlük elde edebilirsiniz.

Çekirdek seviyesinde izleme nedir?

NVIDIA Nsight Systems kullanarak, çekirdek seviyesinde izler yakalayabilir ve sisteminizdeki gerçek mimari darboğazları belirleyebilirsiniz.

Sonraki Adım

Makalenin detaylı metodolojisini inceleyerek, kendi LLM dağıtımınız için en uygun kullanıcı sayısını belirlemek üzere sistemli bir süreç başlatabilirsiniz. Kendi altyapınıza uyarladığınızda nasıl sonuçlar elde ettiğinizi paylaşmayı unutmayın.


Kaynak: VMware – How Many Users Can Your LLM Server Really Handle?

1988 İstanbul doğumluyum. Bilgisayar dünyasına olan hayranlığım çok küçük yaşlarda başladı. Bu sebeple sistem alanında kendimi geliştirmeye karar verdim. Celal Bayar Üniversitesi Bilgisayar Programcılığı ve Anadolu Üniversitesi İşletme mezunuyum. Beykent Üniversitesi'nde Yönetim Bilişim Sistemleri Bölümü'nde yüksek lisans eğitimimi tamamladım. 2005 yılında Bilge Adam Sistem & Network Mühendisliği eğitimi aldım. Hemen ardından IT dünyasına giriş yaptım. Collezione şirketinde 2006 - 2018 yılları arasında Sistem Uzmanı olarak görev yaptım. 2018 Temmuz ayından beri LCWAIKIKI şirketinde System Engineer pozisyonunda çalışmaktayım. Sektörde 19 yıllık deneyime sahibim. Birçok önemli projede görev aldım. Sayfanın en alt kısmından Linkedin profilime ulaşabilirsiniz. Bilgi ve tecrübemi hem bu blog üzerinde hem de Çözümpark Bilişim Portalı üzerinde paylaşıyorum.

Yorum gönder