litellm

Running

ffreemt commited on Nov 25, 2024

Commit

c5a9402

1 Parent(s): af413b3

Update config.yaml litellm_settings

Files changed (1) hide show

config.yaml CHANGED Viewed

@@ -1,3 +1,7 @@
 model_list:
 # northflank
   - model_name: gpt-4o-mini-northflank
@@ -31,7 +35,7 @@ model_list:
       api_key: os.environ/GEMINI_API_KEY1
       rpm: 4  # 2 * # of keys
       tpm: 6400 # 32,000 * # of keys
   - model_name: gemini-1.5-flash-k1
     litellm_params:
       model: gemini/gemini-1.5-flash
@@ -42,7 +46,7 @@ model_list:
       api_key: os.environ/GEMINI_API_KEY1
       rpm: 30  # 15 * # of keys
       tpm: 2000000 # 1,000,000 * # of keys
   - model_name: gemini-1.5-pro-k2
     litellm_params:
       model: gemini/gemini-1.5-pro
@@ -53,7 +57,7 @@ model_list:
       api_key: os.environ/GEMINI_API_KEY
       rpm: 4  # 2 * # of keys
       tpm: 6400 # 32,000 * # of keys
   - model_name: gemini-1.5-flash-k2
     litellm_params:
       model: gemini/gemini-1.5-flash
@@ -68,7 +72,11 @@ model_list:
 litellm_settings:
   # Networking settings
   request_timeout: 20 # (int) llm request timeout in seconds. Raise Timeout error if call takes longer than 10s. Sets litellm.request_timeout
-general_settings:
   master_key: os.environ/MASTER_KEY  # sk-1234 # [OPTIONAL] Only use this if you require all calls to contain this key (Authorization: Bearer sk-1234)
   routing_strategy: simple-shuffle

+# aistudio gemini free, Rate Limits https://ai.google.dev/pricing#1_5pro
+# gemini-1.5-pro: 2 rpm, 32,000 tpm, 1,500 RPD
+# gemini-1.5-flash: 15 rpm, 1,000,000 tpm, 50 RPD
 model_list:
 # northflank
   - model_name: gpt-4o-mini-northflank
       api_key: os.environ/GEMINI_API_KEY1
       rpm: 4  # 2 * # of keys
       tpm: 6400 # 32,000 * # of keys
   - model_name: gemini-1.5-flash-k1
     litellm_params:
       model: gemini/gemini-1.5-flash
       api_key: os.environ/GEMINI_API_KEY1
       rpm: 30  # 15 * # of keys
       tpm: 2000000 # 1,000,000 * # of keys
   - model_name: gemini-1.5-pro-k2
     litellm_params:
       model: gemini/gemini-1.5-pro
       api_key: os.environ/GEMINI_API_KEY
       rpm: 4  # 2 * # of keys
       tpm: 6400 # 32,000 * # of keys
   - model_name: gemini-1.5-flash-k2
     litellm_params:
       model: gemini/gemini-1.5-flash
 litellm_settings:
   # Networking settings
   request_timeout: 20 # (int) llm request timeout in seconds. Raise Timeout error if call takes longer than 10s. Sets litellm.request_timeout
+  num_retries: 3
+  fallbacks: [{"gemini-1.5-pro": ["gpt-4o-mini"]}]
+  allowed_fails: 3 # cooldown model if it fails > 1 call in a minute.
+  cooldown_time: 30 # how long to cooldown model if fails/min > allowed_fails
+general_settings:
   master_key: os.environ/MASTER_KEY  # sk-1234 # [OPTIONAL] Only use this if you require all calls to contain this key (Authorization: Bearer sk-1234)
   routing_strategy: simple-shuffle