Jak skonfigurować autoskalowanie dla workloadu inferencyjnego

Ta sekcja wyjaśnia, jak skonfigurować autoskalowanie dla workloadów inferencyjnych.

Konfiguracja autoskalowania odbywa się w sekcji Replica autoscaling. Aby przejść do tej sekcji, możesz skorzystać z instrukcji Jak wdrożyć rozproszony workload inferencyjny.

Najpierw należy ustawić minimalną liczbę replik – liczbę replik przed rozpoczęciem autoskalowania.

Następnie należy ustawić maksymalną liczbę replik – liczbę replik po pełnym autoskalowaniu.

Kolejnym krokiem jest skonfigurowanie warunków, przy których autoskalowanie zostanie uruchomione. W run:ai dostępne są 3 opcje: - Throughput (żądania/sek.) - Concurrency (liczba żądań) - Latency (milisekundy)

Dla wybranej opcji należy ustawić odpowiednią wartość:

Jak skonfigurować autoskalowanie dla workloadu inferencyjnego

Skalowanie w górę i w dół będzie odbywać się automatycznie zgodnie z ustawionymi warunkami.