KarBik commited on
Commit
f822ceb
·
verified ·
1 Parent(s): bbe2983

Add new SentenceTransformer model.

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,845 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ base_model: intfloat/multilingual-e5-base
3
+ library_name: sentence-transformers
4
+ metrics:
5
+ - cosine_accuracy@1
6
+ - cosine_accuracy@3
7
+ - cosine_accuracy@5
8
+ - cosine_accuracy@10
9
+ - cosine_precision@1
10
+ - cosine_precision@3
11
+ - cosine_precision@5
12
+ - cosine_precision@10
13
+ - cosine_recall@1
14
+ - cosine_recall@3
15
+ - cosine_recall@5
16
+ - cosine_recall@10
17
+ - cosine_ndcg@10
18
+ - cosine_mrr@10
19
+ - cosine_map@100
20
+ pipeline_tag: sentence-similarity
21
+ tags:
22
+ - sentence-transformers
23
+ - sentence-similarity
24
+ - feature-extraction
25
+ - generated_from_trainer
26
+ - dataset_size:9000
27
+ - loss:MatryoshkaLoss
28
+ - loss:MultipleNegativesRankingLoss
29
+ widget:
30
+ - source_sentence: Les vérifications périodiques sont réalisées soit par un organisme
31
+ accrédité, soit par une personne qualifiée appartenant à l'entreprise et dont
32
+ la compétence est appréciée par l'employeur au regard de critères énoncés dans
33
+ un arrêté du ministre chargé du travail et du ministre chargé de l'agriculture.
34
+ sentences:
35
+ - Quels sont les critères énoncés dans un arrêté du ministre chargé du travail et
36
+ du ministre chargé de l'agriculture pour apprécier la compétence d'une personne
37
+ qualifiée pour réaliser des vérifications périodiques au sein d'une entreprise
38
+ ?
39
+ - Quels sont les éléments clés que les acquéreurs de parts d'une société d'épargne
40
+ forestière doivent prendre en compte pour évaluer les caractéristiques d'un patrimoine
41
+ forestier et les risques associés ?
42
+ - Quels sont les ustensiles, machines ou mécaniques interdits de détention en rapport
43
+ avec la fabrication ou la pulvérisation du tabac ?
44
+ - source_sentence: 'Les prestations en matière d''échange (numéros 96 et 97 du tableau
45
+ 5) donnent lieu à la perception : 1° S''agissant de l''échange bilatéral, d''un
46
+ émolument proportionnel à la valeur du plus fort des deux lots échangés, selon
47
+ le barème suivant : Tranches d''assiette Taux applicable De 0 à 6 500 € 3,870
48
+ % De 6 500 € à 17 000 € 1,596 % De 17 000 € à 60 000 € 1,064 % Plus de 60 000
49
+ € 0,799 % 2° S''agissant de l''échange multilatéral, d''un émolument proportionnel
50
+ à la valeur globale des biens échangés, selon le barème suivant : Tranches d''assiette
51
+ Taux applicable De 0 à 6 500 € 2,580 % De 6 500 € à 17 000 € 1,064 % De 17 000
52
+ € à 60 000 € 0,709 % Plus de 60 000 € 0,532 %'
53
+ sentences:
54
+ - Quels sont les conséquences pour le prêteur en cas de défaut de mention ou de
55
+ mention erronée du taux effectif global, notamment en ce qui concerne le droit
56
+ aux intérêts et le remboursement du capital ?
57
+ - Quels sont les éléments déterminants pour établir l'assiette et le mode de servitude
58
+ de passage pour cause d'enclave, et quels sont les effets sur l'action en indemnité
59
+ et le passage en cas d'usage continu de trente ans ?
60
+ - Quel est le taux d'émolument applicable en fonction de la valeur des biens échangés
61
+ dans les cas d'échange bilatéral ou multilatéral ?
62
+ - source_sentence: La demande d'autorisation de transit est présentée par une personne
63
+ titulaire du statut d'opérateur économique agréé pour la sécurité et la sûreté
64
+ tel que défini dans le règlement (UE) n° 952/2013 du Parlement européen et du
65
+ Conseil du 9 octobre 2013 établissant le code des douanes de l'Union. La demande
66
+ est établie dans les conditions définies par arrêté du ministre chargé des douanes.
67
+ Elle est déposée auprès du chef du service des autorisations de mouvements internationaux
68
+ d'armes.
69
+ sentences:
70
+ - Quels types de contrats sont exclus de la portée des dispositions du présent titre
71
+ ?
72
+ - Quels sont les critères pour obtenir le statut d'opérateur économique agréé pour
73
+ la sécurité et la sûreté, nécessaires pour présenter une demande d'autorisation
74
+ de transit, conformément au règlement (UE) n° 952/2013 du Parlement européen et
75
+ du Conseil ?
76
+ - Dans quelsles conditions un établissement de crédit ou une société de financement
77
+ peut-il déroger, en tout ou partie, aux dispositions des articles D. 331-75 et
78
+ D. 331-76-5-1 lors de l'octroi d'un prêt au vendeur ?
79
+ - source_sentence: En application du contrat prévu à l'article 95 ZA , le tiers de
80
+ confiance transmet à l'administration fiscale par voie électronique, pour le compte
81
+ de ses clients, les déclarations annuelles de revenus et leurs annexes. L'obligation
82
+ de télétransmission du tiers de confiance ne porte pas sur les déclarations à
83
+ souscrire au titre des revenus perçus au cours de l'année durant laquelle s'achève
84
+ la mission de tiers de confiance. Le contribuable mentionné au I de l'article
85
+ 170 ter du code général des impôts est regardé, pour une année donnée, comme client
86
+ d'un tiers de confiance s'il est lié avec celui-ci par le contrat prévu à l'article
87
+ 95 ZA, conclu au plus tard lors du dépôt, par le professionnel, de la déclaration
88
+ annuelle des revenus.
89
+ sentences:
90
+ - Quel est le sort des demandes lorsqu'il n'y a pas de réponse de l'autorité compétente
91
+ dans les délais prévus ?
92
+ - Quels sont les éléments que le tiers de confiance est tenu de transmettre à l'administration
93
+ fiscale pour le compte de ses clients, et dans quels cas cette obligation de télétransmission
94
+ ne s'applique-t-elle pas ?
95
+ - Quels sont les membres composant les collèges territoriaux des finances publiques
96
+ et qui est chargé de la présidence en cas d'absence ou d'empêchement du président
97
+ ?
98
+ - source_sentence: Les projets de marchés de partenariat conclus pour le compte des
99
+ acheteurs non autorisés sont instruits par le ministre de tutelle.
100
+ sentences:
101
+ - Quels sont les documents que les établissements de paiement et les établissements
102
+ de monnaie électronique doivent mettre à disposition de leur clientèle et du public
103
+ pour les opérations de paiement et les comptes de paiement, et quels sont les
104
+ informations minimales qui doivent être incluses dans ces documents ?
105
+ - Dans quelle situation l'assuré a-t-il besoin d'être assisté ou représenté par
106
+ un avocat en raison de la défense de la partie adverse ?
107
+ - Qui est responsable de l'instruction des projets de marchés de partenariat conclus
108
+ pour le compte des acheteurs non autorisés ?
109
+ model-index:
110
+ - name: SentenceTransformer based on intfloat/multilingual-e5-base
111
+ results:
112
+ - task:
113
+ type: information-retrieval
114
+ name: Information Retrieval
115
+ dataset:
116
+ name: dim 768
117
+ type: dim_768
118
+ metrics:
119
+ - type: cosine_accuracy@1
120
+ value: 0.94
121
+ name: Cosine Accuracy@1
122
+ - type: cosine_accuracy@3
123
+ value: 0.981
124
+ name: Cosine Accuracy@3
125
+ - type: cosine_accuracy@5
126
+ value: 0.987
127
+ name: Cosine Accuracy@5
128
+ - type: cosine_accuracy@10
129
+ value: 0.989
130
+ name: Cosine Accuracy@10
131
+ - type: cosine_precision@1
132
+ value: 0.94
133
+ name: Cosine Precision@1
134
+ - type: cosine_precision@3
135
+ value: 0.32699999999999996
136
+ name: Cosine Precision@3
137
+ - type: cosine_precision@5
138
+ value: 0.19740000000000005
139
+ name: Cosine Precision@5
140
+ - type: cosine_precision@10
141
+ value: 0.0989
142
+ name: Cosine Precision@10
143
+ - type: cosine_recall@1
144
+ value: 0.94
145
+ name: Cosine Recall@1
146
+ - type: cosine_recall@3
147
+ value: 0.981
148
+ name: Cosine Recall@3
149
+ - type: cosine_recall@5
150
+ value: 0.987
151
+ name: Cosine Recall@5
152
+ - type: cosine_recall@10
153
+ value: 0.989
154
+ name: Cosine Recall@10
155
+ - type: cosine_ndcg@10
156
+ value: 0.9683994234957766
157
+ name: Cosine Ndcg@10
158
+ - type: cosine_mrr@10
159
+ value: 0.9613761904761905
160
+ name: Cosine Mrr@10
161
+ - type: cosine_map@100
162
+ value: 0.9617349428516079
163
+ name: Cosine Map@100
164
+ - task:
165
+ type: information-retrieval
166
+ name: Information Retrieval
167
+ dataset:
168
+ name: dim 512
169
+ type: dim_512
170
+ metrics:
171
+ - type: cosine_accuracy@1
172
+ value: 0.942
173
+ name: Cosine Accuracy@1
174
+ - type: cosine_accuracy@3
175
+ value: 0.982
176
+ name: Cosine Accuracy@3
177
+ - type: cosine_accuracy@5
178
+ value: 0.988
179
+ name: Cosine Accuracy@5
180
+ - type: cosine_accuracy@10
181
+ value: 0.989
182
+ name: Cosine Accuracy@10
183
+ - type: cosine_precision@1
184
+ value: 0.942
185
+ name: Cosine Precision@1
186
+ - type: cosine_precision@3
187
+ value: 0.32733333333333325
188
+ name: Cosine Precision@3
189
+ - type: cosine_precision@5
190
+ value: 0.19760000000000003
191
+ name: Cosine Precision@5
192
+ - type: cosine_precision@10
193
+ value: 0.0989
194
+ name: Cosine Precision@10
195
+ - type: cosine_recall@1
196
+ value: 0.942
197
+ name: Cosine Recall@1
198
+ - type: cosine_recall@3
199
+ value: 0.982
200
+ name: Cosine Recall@3
201
+ - type: cosine_recall@5
202
+ value: 0.988
203
+ name: Cosine Recall@5
204
+ - type: cosine_recall@10
205
+ value: 0.989
206
+ name: Cosine Recall@10
207
+ - type: cosine_ndcg@10
208
+ value: 0.969565548663498
209
+ name: Cosine Ndcg@10
210
+ - type: cosine_mrr@10
211
+ value: 0.9629166666666668
212
+ name: Cosine Mrr@10
213
+ - type: cosine_map@100
214
+ value: 0.9632981492091787
215
+ name: Cosine Map@100
216
+ - task:
217
+ type: information-retrieval
218
+ name: Information Retrieval
219
+ dataset:
220
+ name: dim 256
221
+ type: dim_256
222
+ metrics:
223
+ - type: cosine_accuracy@1
224
+ value: 0.937
225
+ name: Cosine Accuracy@1
226
+ - type: cosine_accuracy@3
227
+ value: 0.98
228
+ name: Cosine Accuracy@3
229
+ - type: cosine_accuracy@5
230
+ value: 0.985
231
+ name: Cosine Accuracy@5
232
+ - type: cosine_accuracy@10
233
+ value: 0.989
234
+ name: Cosine Accuracy@10
235
+ - type: cosine_precision@1
236
+ value: 0.937
237
+ name: Cosine Precision@1
238
+ - type: cosine_precision@3
239
+ value: 0.3266666666666666
240
+ name: Cosine Precision@3
241
+ - type: cosine_precision@5
242
+ value: 0.197
243
+ name: Cosine Precision@5
244
+ - type: cosine_precision@10
245
+ value: 0.0989
246
+ name: Cosine Precision@10
247
+ - type: cosine_recall@1
248
+ value: 0.937
249
+ name: Cosine Recall@1
250
+ - type: cosine_recall@3
251
+ value: 0.98
252
+ name: Cosine Recall@3
253
+ - type: cosine_recall@5
254
+ value: 0.985
255
+ name: Cosine Recall@5
256
+ - type: cosine_recall@10
257
+ value: 0.989
258
+ name: Cosine Recall@10
259
+ - type: cosine_ndcg@10
260
+ value: 0.9661778506957523
261
+ name: Cosine Ndcg@10
262
+ - type: cosine_mrr@10
263
+ value: 0.958502380952381
264
+ name: Cosine Mrr@10
265
+ - type: cosine_map@100
266
+ value: 0.9588400474998072
267
+ name: Cosine Map@100
268
+ - task:
269
+ type: information-retrieval
270
+ name: Information Retrieval
271
+ dataset:
272
+ name: dim 128
273
+ type: dim_128
274
+ metrics:
275
+ - type: cosine_accuracy@1
276
+ value: 0.93
277
+ name: Cosine Accuracy@1
278
+ - type: cosine_accuracy@3
279
+ value: 0.972
280
+ name: Cosine Accuracy@3
281
+ - type: cosine_accuracy@5
282
+ value: 0.983
283
+ name: Cosine Accuracy@5
284
+ - type: cosine_accuracy@10
285
+ value: 0.988
286
+ name: Cosine Accuracy@10
287
+ - type: cosine_precision@1
288
+ value: 0.93
289
+ name: Cosine Precision@1
290
+ - type: cosine_precision@3
291
+ value: 0.32399999999999995
292
+ name: Cosine Precision@3
293
+ - type: cosine_precision@5
294
+ value: 0.19660000000000002
295
+ name: Cosine Precision@5
296
+ - type: cosine_precision@10
297
+ value: 0.09880000000000001
298
+ name: Cosine Precision@10
299
+ - type: cosine_recall@1
300
+ value: 0.93
301
+ name: Cosine Recall@1
302
+ - type: cosine_recall@3
303
+ value: 0.972
304
+ name: Cosine Recall@3
305
+ - type: cosine_recall@5
306
+ value: 0.983
307
+ name: Cosine Recall@5
308
+ - type: cosine_recall@10
309
+ value: 0.988
310
+ name: Cosine Recall@10
311
+ - type: cosine_ndcg@10
312
+ value: 0.9619055617624742
313
+ name: Cosine Ndcg@10
314
+ - type: cosine_mrr@10
315
+ value: 0.9532523809523811
316
+ name: Cosine Mrr@10
317
+ - type: cosine_map@100
318
+ value: 0.9537039961889963
319
+ name: Cosine Map@100
320
+ - task:
321
+ type: information-retrieval
322
+ name: Information Retrieval
323
+ dataset:
324
+ name: dim 64
325
+ type: dim_64
326
+ metrics:
327
+ - type: cosine_accuracy@1
328
+ value: 0.901
329
+ name: Cosine Accuracy@1
330
+ - type: cosine_accuracy@3
331
+ value: 0.966
332
+ name: Cosine Accuracy@3
333
+ - type: cosine_accuracy@5
334
+ value: 0.977
335
+ name: Cosine Accuracy@5
336
+ - type: cosine_accuracy@10
337
+ value: 0.989
338
+ name: Cosine Accuracy@10
339
+ - type: cosine_precision@1
340
+ value: 0.901
341
+ name: Cosine Precision@1
342
+ - type: cosine_precision@3
343
+ value: 0.32199999999999995
344
+ name: Cosine Precision@3
345
+ - type: cosine_precision@5
346
+ value: 0.19540000000000005
347
+ name: Cosine Precision@5
348
+ - type: cosine_precision@10
349
+ value: 0.09890000000000002
350
+ name: Cosine Precision@10
351
+ - type: cosine_recall@1
352
+ value: 0.901
353
+ name: Cosine Recall@1
354
+ - type: cosine_recall@3
355
+ value: 0.966
356
+ name: Cosine Recall@3
357
+ - type: cosine_recall@5
358
+ value: 0.977
359
+ name: Cosine Recall@5
360
+ - type: cosine_recall@10
361
+ value: 0.989
362
+ name: Cosine Recall@10
363
+ - type: cosine_ndcg@10
364
+ value: 0.947780306797729
365
+ name: Cosine Ndcg@10
366
+ - type: cosine_mrr@10
367
+ value: 0.9342468253968255
368
+ name: Cosine Mrr@10
369
+ - type: cosine_map@100
370
+ value: 0.9345714945276086
371
+ name: Cosine Map@100
372
+ ---
373
+
374
+ # SentenceTransformer based on intfloat/multilingual-e5-base
375
+
376
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-base](https://huggingface.co/intfloat/multilingual-e5-base) on the json dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
377
+
378
+ ## Model Details
379
+
380
+ ### Model Description
381
+ - **Model Type:** Sentence Transformer
382
+ - **Base model:** [intfloat/multilingual-e5-base](https://huggingface.co/intfloat/multilingual-e5-base) <!-- at revision d13f1b27baf31030b7fd040960d60d909913633f -->
383
+ - **Maximum Sequence Length:** 512 tokens
384
+ - **Output Dimensionality:** 768 tokens
385
+ - **Similarity Function:** Cosine Similarity
386
+ - **Training Dataset:**
387
+ - json
388
+ <!-- - **Language:** Unknown -->
389
+ <!-- - **License:** Unknown -->
390
+
391
+ ### Model Sources
392
+
393
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
394
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
395
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
396
+
397
+ ### Full Model Architecture
398
+
399
+ ```
400
+ SentenceTransformer(
401
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
402
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
403
+ (2): Normalize()
404
+ )
405
+ ```
406
+
407
+ ## Usage
408
+
409
+ ### Direct Usage (Sentence Transformers)
410
+
411
+ First install the Sentence Transformers library:
412
+
413
+ ```bash
414
+ pip install -U sentence-transformers
415
+ ```
416
+
417
+ Then you can load this model and run inference.
418
+ ```python
419
+ from sentence_transformers import SentenceTransformer
420
+
421
+ # Download from the 🤗 Hub
422
+ model = SentenceTransformer("KarBik/legal-french-matroshka")
423
+ # Run inference
424
+ sentences = [
425
+ 'Les projets de marchés de partenariat conclus pour le compte des acheteurs non autorisés sont instruits par le ministre de tutelle.',
426
+ "Qui est responsable de l'instruction des projets de marchés de partenariat conclus pour le compte des acheteurs non autorisés ?",
427
+ "Dans quelle situation l'assuré a-t-il besoin d'être assisté ou représenté par un avocat en raison de la défense de la partie adverse ?",
428
+ ]
429
+ embeddings = model.encode(sentences)
430
+ print(embeddings.shape)
431
+ # [3, 768]
432
+
433
+ # Get the similarity scores for the embeddings
434
+ similarities = model.similarity(embeddings, embeddings)
435
+ print(similarities.shape)
436
+ # [3, 3]
437
+ ```
438
+
439
+ <!--
440
+ ### Direct Usage (Transformers)
441
+
442
+ <details><summary>Click to see the direct usage in Transformers</summary>
443
+
444
+ </details>
445
+ -->
446
+
447
+ <!--
448
+ ### Downstream Usage (Sentence Transformers)
449
+
450
+ You can finetune this model on your own dataset.
451
+
452
+ <details><summary>Click to expand</summary>
453
+
454
+ </details>
455
+ -->
456
+
457
+ <!--
458
+ ### Out-of-Scope Use
459
+
460
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
461
+ -->
462
+
463
+ ## Evaluation
464
+
465
+ ### Metrics
466
+
467
+ #### Information Retrieval
468
+ * Dataset: `dim_768`
469
+ * Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
470
+
471
+ | Metric | Value |
472
+ |:--------------------|:-----------|
473
+ | cosine_accuracy@1 | 0.94 |
474
+ | cosine_accuracy@3 | 0.981 |
475
+ | cosine_accuracy@5 | 0.987 |
476
+ | cosine_accuracy@10 | 0.989 |
477
+ | cosine_precision@1 | 0.94 |
478
+ | cosine_precision@3 | 0.327 |
479
+ | cosine_precision@5 | 0.1974 |
480
+ | cosine_precision@10 | 0.0989 |
481
+ | cosine_recall@1 | 0.94 |
482
+ | cosine_recall@3 | 0.981 |
483
+ | cosine_recall@5 | 0.987 |
484
+ | cosine_recall@10 | 0.989 |
485
+ | cosine_ndcg@10 | 0.9684 |
486
+ | cosine_mrr@10 | 0.9614 |
487
+ | **cosine_map@100** | **0.9617** |
488
+
489
+ #### Information Retrieval
490
+ * Dataset: `dim_512`
491
+ * Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
492
+
493
+ | Metric | Value |
494
+ |:--------------------|:-----------|
495
+ | cosine_accuracy@1 | 0.942 |
496
+ | cosine_accuracy@3 | 0.982 |
497
+ | cosine_accuracy@5 | 0.988 |
498
+ | cosine_accuracy@10 | 0.989 |
499
+ | cosine_precision@1 | 0.942 |
500
+ | cosine_precision@3 | 0.3273 |
501
+ | cosine_precision@5 | 0.1976 |
502
+ | cosine_precision@10 | 0.0989 |
503
+ | cosine_recall@1 | 0.942 |
504
+ | cosine_recall@3 | 0.982 |
505
+ | cosine_recall@5 | 0.988 |
506
+ | cosine_recall@10 | 0.989 |
507
+ | cosine_ndcg@10 | 0.9696 |
508
+ | cosine_mrr@10 | 0.9629 |
509
+ | **cosine_map@100** | **0.9633** |
510
+
511
+ #### Information Retrieval
512
+ * Dataset: `dim_256`
513
+ * Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
514
+
515
+ | Metric | Value |
516
+ |:--------------------|:-----------|
517
+ | cosine_accuracy@1 | 0.937 |
518
+ | cosine_accuracy@3 | 0.98 |
519
+ | cosine_accuracy@5 | 0.985 |
520
+ | cosine_accuracy@10 | 0.989 |
521
+ | cosine_precision@1 | 0.937 |
522
+ | cosine_precision@3 | 0.3267 |
523
+ | cosine_precision@5 | 0.197 |
524
+ | cosine_precision@10 | 0.0989 |
525
+ | cosine_recall@1 | 0.937 |
526
+ | cosine_recall@3 | 0.98 |
527
+ | cosine_recall@5 | 0.985 |
528
+ | cosine_recall@10 | 0.989 |
529
+ | cosine_ndcg@10 | 0.9662 |
530
+ | cosine_mrr@10 | 0.9585 |
531
+ | **cosine_map@100** | **0.9588** |
532
+
533
+ #### Information Retrieval
534
+ * Dataset: `dim_128`
535
+ * Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
536
+
537
+ | Metric | Value |
538
+ |:--------------------|:-----------|
539
+ | cosine_accuracy@1 | 0.93 |
540
+ | cosine_accuracy@3 | 0.972 |
541
+ | cosine_accuracy@5 | 0.983 |
542
+ | cosine_accuracy@10 | 0.988 |
543
+ | cosine_precision@1 | 0.93 |
544
+ | cosine_precision@3 | 0.324 |
545
+ | cosine_precision@5 | 0.1966 |
546
+ | cosine_precision@10 | 0.0988 |
547
+ | cosine_recall@1 | 0.93 |
548
+ | cosine_recall@3 | 0.972 |
549
+ | cosine_recall@5 | 0.983 |
550
+ | cosine_recall@10 | 0.988 |
551
+ | cosine_ndcg@10 | 0.9619 |
552
+ | cosine_mrr@10 | 0.9533 |
553
+ | **cosine_map@100** | **0.9537** |
554
+
555
+ #### Information Retrieval
556
+ * Dataset: `dim_64`
557
+ * Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
558
+
559
+ | Metric | Value |
560
+ |:--------------------|:-----------|
561
+ | cosine_accuracy@1 | 0.901 |
562
+ | cosine_accuracy@3 | 0.966 |
563
+ | cosine_accuracy@5 | 0.977 |
564
+ | cosine_accuracy@10 | 0.989 |
565
+ | cosine_precision@1 | 0.901 |
566
+ | cosine_precision@3 | 0.322 |
567
+ | cosine_precision@5 | 0.1954 |
568
+ | cosine_precision@10 | 0.0989 |
569
+ | cosine_recall@1 | 0.901 |
570
+ | cosine_recall@3 | 0.966 |
571
+ | cosine_recall@5 | 0.977 |
572
+ | cosine_recall@10 | 0.989 |
573
+ | cosine_ndcg@10 | 0.9478 |
574
+ | cosine_mrr@10 | 0.9342 |
575
+ | **cosine_map@100** | **0.9346** |
576
+
577
+ <!--
578
+ ## Bias, Risks and Limitations
579
+
580
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
581
+ -->
582
+
583
+ <!--
584
+ ### Recommendations
585
+
586
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
587
+ -->
588
+
589
+ ## Training Details
590
+
591
+ ### Training Dataset
592
+
593
+ #### json
594
+
595
+ * Dataset: json
596
+ * Size: 9,000 training samples
597
+ * Columns: <code>positive</code> and <code>anchor</code>
598
+ * Approximate statistics based on the first 1000 samples:
599
+ | | positive | anchor |
600
+ |:--------|:-------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
601
+ | type | string | string |
602
+ | details | <ul><li>min: 11 tokens</li><li>mean: 141.81 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 11 tokens</li><li>mean: 57.29 tokens</li><li>max: 262 tokens</li></ul> |
603
+ * Samples:
604
+ | positive | anchor |
605
+ ||:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
606
+ | <code>Sauf dispositions contraires des conventions internationales, l'émission de titres comportant la mention visée à l'article 51 entraîne l'obligation pour l'organisme émetteur d'opérer, sur les produits de ces titres et pendant toute la durée de ceux-ci, la retenue à la source édictée par le 1 de l'article 119 bis du code général des impôts. Le montant de cette retenue doit être versé au comptable désigné par l'administration, dans les conditions et suivant les modalités fixées par le 1 de l'article 1672 et l'article 1673 dudit code.</code> | <code>Quelle est l'obligation de l'organisme émetteur concernant les produits de titres émis avec la mention visée à l'article 51, et comment doit-il opérer la retenue à la source pendant la durée de ces titres ?</code> |
607
+ | <code>Lorsque l'allocation est attribuée en application du troisième alinéa de l'article L. 232-12 et du cinquième alinéa de l'article L. 232-14 , le montant forfaitaire attribué est, respectivement, égal, à domicile, à 50 % du montant du plafond mentionné à l'article L. 232-3-1 correspondant au degré de perte d'autonomie le plus important, et, en établissement, à 50 % du tarif afférent à la dépendance de l'établissement considéré applicable aux résidents classés dans les groupes iso-ressources 1 et 2. Cette avance s'impute sur les montants de l'allocation personnalisée d'autonomie versée ultérieurement.</code> | <code>Quel est le montant forfaitaire attribué lorsqu'une allocation est octroyée en application du troisième alinéa de l'article L. 232-12 et du cinquième alinéa de l'article L. 232-14, selon que l'allocation est perçue à domicile ou en établissement ?</code> |
608
+ | <code>La taxe devient exigible au moment où le poids lourd : 1° Entre sur le réseau, si la condition mentionnée au 1° de l'article L. 421-202 est remplie ; 2° Franchit un point de la section de tarification déterminé par l'autorité compétente, si cette même condition n'est pas remplie.</code> | <code>Quel est le moment où la taxe devient exigible pour un poids lourd en fonction de son entrée dans le réseau ou de son franchissement d'un point de tarification déterminé ?</code> |
609
+ * Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
610
+ ```json
611
+ {
612
+ "loss": "MultipleNegativesRankingLoss",
613
+ "matryoshka_dims": [
614
+ 768,
615
+ 512,
616
+ 256,
617
+ 128,
618
+ 64
619
+ ],
620
+ "matryoshka_weights": [
621
+ 1,
622
+ 1,
623
+ 1,
624
+ 1,
625
+ 1
626
+ ],
627
+ "n_dims_per_step": -1
628
+ }
629
+ ```
630
+
631
+ ### Training Hyperparameters
632
+ #### Non-Default Hyperparameters
633
+
634
+ - `eval_strategy`: epoch
635
+ - `per_device_train_batch_size`: 32
636
+ - `per_device_eval_batch_size`: 16
637
+ - `gradient_accumulation_steps`: 16
638
+ - `learning_rate`: 2e-05
639
+ - `num_train_epochs`: 4
640
+ - `lr_scheduler_type`: cosine
641
+ - `warmup_ratio`: 0.1
642
+ - `bf16`: True
643
+ - `tf32`: True
644
+ - `load_best_model_at_end`: True
645
+ - `optim`: adamw_torch_fused
646
+ - `batch_sampler`: no_duplicates
647
+
648
+ #### All Hyperparameters
649
+ <details><summary>Click to expand</summary>
650
+
651
+ - `overwrite_output_dir`: False
652
+ - `do_predict`: False
653
+ - `eval_strategy`: epoch
654
+ - `prediction_loss_only`: True
655
+ - `per_device_train_batch_size`: 32
656
+ - `per_device_eval_batch_size`: 16
657
+ - `per_gpu_train_batch_size`: None
658
+ - `per_gpu_eval_batch_size`: None
659
+ - `gradient_accumulation_steps`: 16
660
+ - `eval_accumulation_steps`: None
661
+ - `learning_rate`: 2e-05
662
+ - `weight_decay`: 0.0
663
+ - `adam_beta1`: 0.9
664
+ - `adam_beta2`: 0.999
665
+ - `adam_epsilon`: 1e-08
666
+ - `max_grad_norm`: 1.0
667
+ - `num_train_epochs`: 4
668
+ - `max_steps`: -1
669
+ - `lr_scheduler_type`: cosine
670
+ - `lr_scheduler_kwargs`: {}
671
+ - `warmup_ratio`: 0.1
672
+ - `warmup_steps`: 0
673
+ - `log_level`: passive
674
+ - `log_level_replica`: warning
675
+ - `log_on_each_node`: True
676
+ - `logging_nan_inf_filter`: True
677
+ - `save_safetensors`: True
678
+ - `save_on_each_node`: False
679
+ - `save_only_model`: False
680
+ - `restore_callback_states_from_checkpoint`: False
681
+ - `no_cuda`: False
682
+ - `use_cpu`: False
683
+ - `use_mps_device`: False
684
+ - `seed`: 42
685
+ - `data_seed`: None
686
+ - `jit_mode_eval`: False
687
+ - `use_ipex`: False
688
+ - `bf16`: True
689
+ - `fp16`: False
690
+ - `fp16_opt_level`: O1
691
+ - `half_precision_backend`: auto
692
+ - `bf16_full_eval`: False
693
+ - `fp16_full_eval`: False
694
+ - `tf32`: True
695
+ - `local_rank`: 0
696
+ - `ddp_backend`: None
697
+ - `tpu_num_cores`: None
698
+ - `tpu_metrics_debug`: False
699
+ - `debug`: []
700
+ - `dataloader_drop_last`: False
701
+ - `dataloader_num_workers`: 0
702
+ - `dataloader_prefetch_factor`: None
703
+ - `past_index`: -1
704
+ - `disable_tqdm`: False
705
+ - `remove_unused_columns`: True
706
+ - `label_names`: None
707
+ - `load_best_model_at_end`: True
708
+ - `ignore_data_skip`: False
709
+ - `fsdp`: []
710
+ - `fsdp_min_num_params`: 0
711
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
712
+ - `fsdp_transformer_layer_cls_to_wrap`: None
713
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
714
+ - `deepspeed`: None
715
+ - `label_smoothing_factor`: 0.0
716
+ - `optim`: adamw_torch_fused
717
+ - `optim_args`: None
718
+ - `adafactor`: False
719
+ - `group_by_length`: False
720
+ - `length_column_name`: length
721
+ - `ddp_find_unused_parameters`: None
722
+ - `ddp_bucket_cap_mb`: None
723
+ - `ddp_broadcast_buffers`: False
724
+ - `dataloader_pin_memory`: True
725
+ - `dataloader_persistent_workers`: False
726
+ - `skip_memory_metrics`: True
727
+ - `use_legacy_prediction_loop`: False
728
+ - `push_to_hub`: False
729
+ - `resume_from_checkpoint`: None
730
+ - `hub_model_id`: None
731
+ - `hub_strategy`: every_save
732
+ - `hub_private_repo`: False
733
+ - `hub_always_push`: False
734
+ - `gradient_checkpointing`: False
735
+ - `gradient_checkpointing_kwargs`: None
736
+ - `include_inputs_for_metrics`: False
737
+ - `eval_do_concat_batches`: True
738
+ - `fp16_backend`: auto
739
+ - `push_to_hub_model_id`: None
740
+ - `push_to_hub_organization`: None
741
+ - `mp_parameters`:
742
+ - `auto_find_batch_size`: False
743
+ - `full_determinism`: False
744
+ - `torchdynamo`: None
745
+ - `ray_scope`: last
746
+ - `ddp_timeout`: 1800
747
+ - `torch_compile`: False
748
+ - `torch_compile_backend`: None
749
+ - `torch_compile_mode`: None
750
+ - `dispatch_batches`: None
751
+ - `split_batches`: None
752
+ - `include_tokens_per_second`: False
753
+ - `include_num_input_tokens_seen`: False
754
+ - `neftune_noise_alpha`: None
755
+ - `optim_target_modules`: None
756
+ - `batch_eval_metrics`: False
757
+ - `batch_sampler`: no_duplicates
758
+ - `multi_dataset_batch_sampler`: proportional
759
+
760
+ </details>
761
+
762
+ ### Training Logs
763
+ | Epoch | Step | Training Loss | dim_128_cosine_map@100 | dim_256_cosine_map@100 | dim_512_cosine_map@100 | dim_64_cosine_map@100 | dim_768_cosine_map@100 |
764
+ |:----------:|:------:|:-------------:|:----------------------:|:----------------------:|:----------------------:|:---------------------:|:----------------------:|
765
+ | 0 | 0 | - | 0.8447 | 0.9084 | 0.9190 | 0.6362 | 0.9236 |
766
+ | 0.5674 | 10 | 5.322 | - | - | - | - | - |
767
+ | 0.9645 | 17 | - | 0.9353 | 0.9413 | 0.9488 | 0.9197 | 0.9453 |
768
+ | 1.1348 | 20 | 0.3395 | - | - | - | - | - |
769
+ | 1.7021 | 30 | 0.0929 | - | - | - | - | - |
770
+ | 1.9858 | 35 | - | 0.9517 | 0.9571 | 0.9631 | 0.9357 | 0.9625 |
771
+ | 2.2695 | 40 | 0.0408 | - | - | - | - | - |
772
+ | 2.8369 | 50 | 0.0264 | - | - | - | - | - |
773
+ | 2.9504 | 52 | - | 0.9513 | 0.9579 | 0.9634 | 0.9357 | 0.9620 |
774
+ | 3.4043 | 60 | 0.0209 | - | - | - | - | - |
775
+ | **3.8582** | **68** | **-** | **0.9537** | **0.9588** | **0.9633** | **0.9346** | **0.9617** |
776
+
777
+ * The bold row denotes the saved checkpoint.
778
+
779
+ ### Framework Versions
780
+ - Python: 3.10.12
781
+ - Sentence Transformers: 3.1.1
782
+ - Transformers: 4.41.2
783
+ - PyTorch: 2.1.2+cu121
784
+ - Accelerate: 0.34.2
785
+ - Datasets: 2.19.1
786
+ - Tokenizers: 0.19.1
787
+
788
+ ## Citation
789
+
790
+ ### BibTeX
791
+
792
+ #### Sentence Transformers
793
+ ```bibtex
794
+ @inproceedings{reimers-2019-sentence-bert,
795
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
796
+ author = "Reimers, Nils and Gurevych, Iryna",
797
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
798
+ month = "11",
799
+ year = "2019",
800
+ publisher = "Association for Computational Linguistics",
801
+ url = "https://arxiv.org/abs/1908.10084",
802
+ }
803
+ ```
804
+
805
+ #### MatryoshkaLoss
806
+ ```bibtex
807
+ @misc{kusupati2024matryoshka,
808
+ title={Matryoshka Representation Learning},
809
+ author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
810
+ year={2024},
811
+ eprint={2205.13147},
812
+ archivePrefix={arXiv},
813
+ primaryClass={cs.LG}
814
+ }
815
+ ```
816
+
817
+ #### MultipleNegativesRankingLoss
818
+ ```bibtex
819
+ @misc{henderson2017efficient,
820
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
821
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
822
+ year={2017},
823
+ eprint={1705.00652},
824
+ archivePrefix={arXiv},
825
+ primaryClass={cs.CL}
826
+ }
827
+ ```
828
+
829
+ <!--
830
+ ## Glossary
831
+
832
+ *Clearly define terms in order to be accessible across audiences.*
833
+ -->
834
+
835
+ <!--
836
+ ## Model Card Authors
837
+
838
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
839
+ -->
840
+
841
+ <!--
842
+ ## Model Card Contact
843
+
844
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
845
+ -->
config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "intfloat/multilingual-e5-base",
3
+ "architectures": [
4
+ "XLMRobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 768,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 3072,
15
+ "layer_norm_eps": 1e-05,
16
+ "max_position_embeddings": 514,
17
+ "model_type": "xlm-roberta",
18
+ "num_attention_heads": 12,
19
+ "num_hidden_layers": 12,
20
+ "output_past": true,
21
+ "pad_token_id": 1,
22
+ "position_embedding_type": "absolute",
23
+ "torch_dtype": "float32",
24
+ "transformers_version": "4.41.2",
25
+ "type_vocab_size": 1,
26
+ "use_cache": true,
27
+ "vocab_size": 250002
28
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.1.1",
4
+ "transformers": "4.41.2",
5
+ "pytorch": "2.1.2+cu121"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": null
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:026d7118e322c9265204d9d146fa1b92d397bda8fa6b8190684e0d4b2e5d7b8a
3
+ size 1112197096
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
3
+ size 5069051
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
3
+ size 17082987
tokenizer_config.json ADDED
@@ -0,0 +1,54 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "mask_token": "<mask>",
49
+ "model_max_length": 512,
50
+ "pad_token": "<pad>",
51
+ "sep_token": "</s>",
52
+ "tokenizer_class": "XLMRobertaTokenizer",
53
+ "unk_token": "<unk>"
54
+ }