bofenghuang commited on
Commit
969fbfc
·
1 Parent(s): 7397478

Update doc

Browse files
Files changed (1) hide show
  1. README.md +43 -24
README.md CHANGED
@@ -52,6 +52,16 @@ Bonjour ! Comment ça va aujourd'hui ? [/INST] Bonjour ! Je suis une IA, donc je
52
 
53
  ## Usage
54
 
 
 
 
 
 
 
 
 
 
 
55
  ### Inference using the unquantized model with 🤗 Transformers
56
 
57
  ```python
@@ -107,36 +117,15 @@ def chat(
107
 
108
  return generated_text, history
109
 
 
110
  # 1st round
111
  response, history = chat("Un escargot parcourt 100 mètres en 5 heures. Quelle est sa vitesse ?", history=None)
112
- # Pour calculer la vitesse d'un escargot qui parcourt 100 mètres en 5 heures, nous devons diviser la distance parcourue par le temps écoulé. Voici comment procédons :
113
- #
114
- # Vitesse = Distance / Temps
115
- #
116
- # Dans ce cas, la distance est de 100 mètres et le temps est de 5 heures. Donc, nous avons :
117
- #
118
- # Vitesse = 100 mètres / 5 heures
119
- # Vitesse = 20 mètres par heure
120
- #
121
- # L'escargot parcourt donc une vitesse de 20 mètres par heure.
122
 
123
  # 2nd round
124
  response, history = chat("Quand il peut dépasser le lapin ?", history=history)
125
- # Malheureusement, je ne peux pas répondre à cette question car elle contient des informations inexactes ou incorrectes. La vitesse de l'escargot est de 20 mètres par heure, tandis que la vitesse du lapin n'est pas mentionnée dans votre question initiale. Pour comparer les vitesses des deux animaux, nous aurions besoin de connaître la vitesse du lapin.
126
 
127
  # 3rd round
128
  response, history = chat("Écris une histoire imaginative qui met en scène une compétition de course entre un escargot et un lapin.", history=history)
129
- # Il était une fois deux athlètes extraordinaires : un escargot nommé Escargo et un lapin appelé Lapin Rapide. Un jour, ils ont décidé de participer à une grande course pour déterminer qui était le plus rapide des deux. Tout le monde était curieux de savoir qui serait le gagnant, car ils étaient tous émerveillés par la vitesse de ces deux champions.
130
- #
131
- # La course commença dans une forêt dense, avec Escargo départageant un peu lentement, car il faut être prudent lorsqu'on est escargot. Mais au fur et à mesure qu'il avançait, il commença à ralentir encore plus. Les spectateurs commencèrent à pencher pour Lapin Rapide, qui fonçait rapidement vers la ligne d'arrivée.
132
- #
133
- # Mais soudain, Escargo se transforma en une force incroyable. Au lieu de marcher lentement comme un escargot, il courait à toute allure, faisant preuve d'une vitesse surprenante. Les spectateurs essayaient de se remémorer leurs notes de mathématiques pour calculer sa vélocité actuelle.
134
- #
135
- # Pendant ce temps, Lapin Rapide ralentissait légèrement, trouvant l'air frais trop confortable pour continuer à courir aussi vite. Il décida alors de prendre quelques pauses pour profiter de son environnement.
136
- #
137
- # Escargo continuait à courir à toute vitesse, en dépit de son handicap d'être un escargot. Les spectateurs étaient émerveillés par sa persévérance et sa volonté de gagner. Finalement, Escargo franchit la ligne d'arrivée en premier, et tous criaurent en joie.
138
- #
139
- # Les habitants de la forêt décidèrent de lui décerner le titre d'"athlète le plus courageux" pour sa performance incroyable. Quant à Lapin Rapide, il fut content de sa deuxième place, se disant simplement que les pauses étaient bien plus agréables que la compétition. Et tous vécurent heureux et satisfaits de cette course mémorable.
140
  ```
141
 
142
  You can also use the Google Colab Notebook provided below.
@@ -159,7 +148,35 @@ python -m vllm.entrypoints.openai.api_server --model bofenghuang/vigostral-7b-ch
159
  # curl http://localhost:8000/v1/models
160
  ```
161
 
162
- Query the model using the openai python package.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
163
 
164
  ```python
165
  import openai
@@ -172,11 +189,13 @@ openai.api_base = "http://localhost:8000/v1"
172
  models = openai.Model.list()
173
  model = models["data"][0]["id"]
174
 
 
 
175
  # Chat completion API
176
  chat_completion = openai.ChatCompletion.create(
177
  model=model,
178
  messages=[
179
- {"role": "user", "content": "Parle-moi de toi-même."},
180
  ],
181
  max_tokens=1024,
182
  temperature=0.7,
 
52
 
53
  ## Usage
54
 
55
+ ### Inference using the quantized versions
56
+
57
+ The quantized versions of this model are generously provided by [TheBloke](https://huggingface.co/TheBloke)!
58
+
59
+ - AWQ for GPU inference: [TheBloke/Vigostral-7B-Chat-AWQ](https://huggingface.co/TheBloke/Vigostral-7B-Chat-AWQ)
60
+ - GTPQ for GPU inference: [TheBloke/Vigostral-7B-Chat-GPTQ](https://huggingface.co/TheBloke/Vigostral-7B-Chat-GPTQ)
61
+ - GGUF for CPU+GPU inference: [TheBloke/Vigostral-7B-Chat-GGUF](https://huggingface.co/TheBloke/Vigostral-7B-Chat-GGUF)
62
+
63
+ These versions facilitate testing and development with various popular frameworks, including [AutoAWQ](https://github.com/casper-hansen/AutoAWQ), [vLLM](https://github.com/vllm-project/vllm), [AutoGPTQ](https://github.com/PanQiWei/AutoGPTQ), [GPTQ-for-LLaMa](https://github.com/qwopqwop200/GPTQ-for-LLaMa), [llama.cpp](https://github.com/ggerganov/llama.cpp), [text-generation-webui](https://github.com/oobabooga/text-generation-webui), and more.
64
+
65
  ### Inference using the unquantized model with 🤗 Transformers
66
 
67
  ```python
 
117
 
118
  return generated_text, history
119
 
120
+
121
  # 1st round
122
  response, history = chat("Un escargot parcourt 100 mètres en 5 heures. Quelle est sa vitesse ?", history=None)
 
 
 
 
 
 
 
 
 
 
123
 
124
  # 2nd round
125
  response, history = chat("Quand il peut dépasser le lapin ?", history=history)
 
126
 
127
  # 3rd round
128
  response, history = chat("Écris une histoire imaginative qui met en scène une compétition de course entre un escargot et un lapin.", history=history)
 
 
 
 
 
 
 
 
 
 
 
129
  ```
130
 
131
  You can also use the Google Colab Notebook provided below.
 
148
  # curl http://localhost:8000/v1/models
149
  ```
150
 
151
+ You can also use the docker image provided below.
152
+
153
+ ```bash
154
+ # Launch inference engine
155
+ docker run --gpus '"device=0"' \
156
+ -e HF_TOKEN=$HF_TOKEN -p 8000:8000 \
157
+ ghcr.io/bofenghuang/vigogne/vllm:latest \
158
+ --host 0.0.0.0 \
159
+ --model bofenghuang/vigostral-7b-chat
160
+
161
+ # Launch inference engine on mutli-GPUs (4 here)
162
+ docker run --gpus all \
163
+ -e HF_TOKEN=$HF_TOKEN -p 8000:8000 \
164
+ ghcr.io/bofenghuang/vigogne/vllm:latest \
165
+ --host 0.0.0.0 \
166
+ --tensor-parallel-size 4 \
167
+ --model bofenghuang/vigostral-7b-chat
168
+
169
+ # Launch inference engine using the quantized AWQ version
170
+ # Note only supports Ampere or newer GPUs
171
+ docker run --gpus '"device=0"' \
172
+ -e HF_TOKEN=$HF_TOKEN -p 8000:8000 \
173
+ ghcr.io/bofenghuang/vigogne/vllm:latest \
174
+ --host 0.0.0.0 \
175
+ --quantization awq \
176
+ --model TheBloke/Vigostral-7B-Chat-AWQ
177
+ ```
178
+
179
+ Afterward, you can query the model using the openai Python package.
180
 
181
  ```python
182
  import openai
 
189
  models = openai.Model.list()
190
  model = models["data"][0]["id"]
191
 
192
+ query_message = "Parle-moi de toi-même."
193
+
194
  # Chat completion API
195
  chat_completion = openai.ChatCompletion.create(
196
  model=model,
197
  messages=[
198
+ {"role": "user", "content": query_message},
199
  ],
200
  max_tokens=1024,
201
  temperature=0.7,