igmochang commited on
Commit
4cd873d
·
verified ·
1 Parent(s): f2e7e69

Add new SentenceTransformer model.

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,876 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ base_model: hiiamsid/sentence_similarity_spanish_es
3
+ library_name: sentence-transformers
4
+ metrics:
5
+ - cosine_accuracy@1
6
+ - cosine_accuracy@3
7
+ - cosine_accuracy@5
8
+ - cosine_accuracy@10
9
+ - cosine_precision@1
10
+ - cosine_precision@3
11
+ - cosine_precision@5
12
+ - cosine_precision@10
13
+ - cosine_recall@1
14
+ - cosine_recall@3
15
+ - cosine_recall@5
16
+ - cosine_recall@10
17
+ - cosine_ndcg@10
18
+ - cosine_mrr@10
19
+ - cosine_map@100
20
+ - dot_accuracy@1
21
+ - dot_accuracy@3
22
+ - dot_accuracy@5
23
+ - dot_accuracy@10
24
+ - dot_precision@1
25
+ - dot_precision@3
26
+ - dot_precision@5
27
+ - dot_precision@10
28
+ - dot_recall@1
29
+ - dot_recall@3
30
+ - dot_recall@5
31
+ - dot_recall@10
32
+ - dot_ndcg@10
33
+ - dot_mrr@10
34
+ - dot_map@100
35
+ pipeline_tag: sentence-similarity
36
+ tags:
37
+ - sentence-transformers
38
+ - sentence-similarity
39
+ - feature-extraction
40
+ - generated_from_trainer
41
+ - dataset_size:2748
42
+ - loss:MultipleNegativesRankingLoss
43
+ widget:
44
+ - source_sentence: ¿cual caracterist morfolog distint solanum chrysotrichum inclu
45
+ detall hoj inflorescent frut ?
46
+ sentences:
47
+ - frut subglob cerc 5 9 mm diametr blanc cicl anual distribu regional sur mexic
48
+ suramer fenolog floracion registr marz septiembr frecuent juli usos 3462 nombr
49
+ cientif solanum chrysotrichum nombr comun descripcion arbust 3 m alto escas armad
50
+ tall toment tricom multiangul pedicul larg grues braz central vec alarg acule
51
+ cort rect incurv 2 5 mm larg hoj solitari ampli ovad 40 cm larg apic agud bas
52
+ trunc cord enter lobul salient afelp toment frecuent ferrugine haz hirsut tricom
53
+ estrell sesil braz central larg enves suavement toment tricom multiangul pedicul
54
+ grues nervi principal vec armad peciol 15 cm larg toment vec armad inflorescent
55
+ simpl cim poc ram cad ram racem vari flor lateral peduncul ramific vec primari
56
+ obsolet 15 cm larg cerdosohisp pedicel casi 5 mm larg tricom braz central larg
57
+ inerm caliz casi 5 mm larg toment tricom multiangul lobul 13 longitud lobul angost
58
+ triangular corol 30 50 mm diametr blanc lob 13 longitud lobul ovad pubescent medi
59
+ anter 6 10 mmde larg frut tip bay globos 1 15 cm diametr glabr verd pedicel fructifer
60
+ grues alarg erect semill aplan 22 26 mm diametr cicl anual distribu regional mexic
61
+ panam fenolog fertil año usos 3243 nombr cientif forchhammeri pall nombr comun
62
+ siemprev aceitun blanc descripcion arbol arbust 4 10 m altur ramit glabr hoj simpl
63
+ altern obovadooblong 25104 082 cm apic redond emargin obtus cortomucron glabr
64
+ lustrosasinflorescent rac axilar comprim 4 6 cm larg flor pard crem pequeñ bisexual
65
+ frut tip bay 2 cm diametr esfer amarilloanaranj madur rellen pulp suav jugos sabor
66
+ desagradablel mader amarill paj dens present anatom comun pose floem incluidodiagnost
67
+ especi dificil ubic famili caracteriz hoj pequeñ obov glabr lustr arbol cop dens
68
+ redond plantul brinzal hoj bastant linear contrast individu adult cicl anual distribu
69
+ regional mexic fenolog flor observ ener marz noviembr diciembr
70
+ - peciol aproxim 4 6 mm larg toment jov flor sesil espig subcapit peduncul 15 7
71
+ cm larg frut drup elipsoid 1 3 08 22 cm endocarp 5 surc cicl anual distribu regional
72
+ cost ric bolivi antill fenolog flor sid observ moment frut recolect setiembr octubr
73
+ usos 173 nombr cientif cyathe microdont nombr comun rab mic helech arborescent
74
+ descripcion tronc 15 m alto 58 cm diametr hoj 1217 m larg peciol pard espin espin
75
+ 38 mm escam peciol 1020 153 mm angost lanceol pard concolor lev marg clar caspill
76
+ ausent lamin 2pinnadopinnatif apic gradual atenu raquis pard pard clar espin espin
77
+ 25 mm glabr pinn pedicul pedicul 02212 cm pinn medi 3050 1520 cm cost pajiz pard
78
+ clar lis espin basal espin 13 mm glabr puberulent pel 0102 mm pardoamarillent
79
+ pinnul 710 1525 cm sesil costul glabr puberulent pel 0102 mm pardoamarillent escam
80
+ escas ausent diminut aplan segment pinnul medi 1725 par 1525 mm ancho serr crenul
81
+ obtus nervadur 913 par segment 1bifurc glabr pel tej lamin nervadur glabr sor
82
+ medi parafis tan larg esporangi conspicu pardoamarillent blanc panam indusi ausent
83
+ cicl anual distribu regional mexic mesoamer colombi venezuel ecuador peru bolivi
84
+ brasil guyan fenolog usos raic utiliz cultiv orquid fabric artesan 2099 nombr
85
+ cientif rhadinae serperast nombr comun hojarasquer rayadaingles strip littersnak
86
+ descripcion miembr gener especi serpient pequeñ median dificil sobrepas 300 mm
87
+ longitud total cuy col represent aproxim 40 cient longitud present 11 2 14 2 dient
88
+ maxilar aument gradual tamañ haci part posterior boc ultim dos grand separ rest
89
+ interespaci pequefi dient mandibular desigual hemipen simpl vari espin ganch proximal
90
+ grand detras cual zon espin porcion distal organ calic form estructur capit sulcus
91
+ spermaticus bifurc cabez apen disting cuell ojo bien pequeñ ia pupil redond cuerp
92
+ cilindr col median larg
93
+ - larg glabr inflorescent rac subumbel cort 10 15 flor opuest hoj principal cerc
94
+ extrem ram glabrescent peduncul ramific 03 1 cm larg pedicel 10 20 mm larg caliz
95
+ 2 3 mm larg profund lobul lobul deltoid apical tricom simpl basal glabr corol
96
+ 9 12 mm diametr blanc frecuent tint purpure sec profund lobul lobul oblong glabr
97
+ anter casi3 mm larg frut tip bay globos casi 13 cm diametr glabr verdeamarill
98
+ pedicel fructifer acrescent aun delg patent deflex semill aplan 3 mm diametr cicl
99
+ anual distribu regional mexic bolivi fenolog fertil año usos 729 nombr cientif
100
+ dermanur aztec nombr comun murcielag descripcion longitud cabez cuerp 5975 mm
101
+ longitud col 0 mm longitud pie 1114 mm longitud orej 1520 mm longitud antebraz
102
+ 4149 mm pes 1533 ges tamañ median part dorsal color caf carbon negruzc part ventral
103
+ liger pal punt pel tenuement escarch pelaj larg 910 mm bland lin facial estrech
104
+ blancuzc clar escarch orej hoj nasal color caf oscur herradur hoj nasal total
105
+ libr uropatagi pequeñ cerc 6 mm form v superfici dorsal pelud bord dens franj
106
+ pat pies pelud cicl anual distribu regional distribu mexic oest panam localiz
107
+ 600 3000 msnm fenolog usos 1226 nombr cientif pelecanus occidentalis nombr comun
108
+ alcatraz buchon pelican pard descripcion mid 109 cm pes 3 kg inconfund unic pelican
109
+ comun cost adult pos cuerp caf grisace oscur plum part superior present lustr
110
+ plat cabez cuell blanc pic parduzc bols piel car grisac pat negr epoc reproduct
111
+ cuell principal negr crest nucal castañ present tint amarill cabez piel alrededor
112
+ ojo rojiz pic ostent tint rosace especimen inmadur cabez cuell part superior caf
113
+ abdom blanc alcanz plumaj definit adult despues 3 años cicl anual especi resident
114
+ aunqu individu pued ser migratori neartic distribu regional encuentr cost pacif
115
+ washington nort peru cost islas atlant golf mexic carib carolin nort venezuel
116
+ fenolog usos 2900 nombr cientif aulaxin quadrangul nombr comun liqu
117
+ - source_sentence: ¿cual caracterist distint plumaj mosquer agu adult juvenil ?
118
+ sentences:
119
+ - nombr comun mosquer agu descripcion mid 155 cm pes 21 grs negruzc tamañ median
120
+ rar ocasion encuentr lej agu adult muestr cabez cuell mayor part region inferior
121
+ negr opac negr pizarr centr abdom blanc flanc coberter infracaudal gris tizn rest
122
+ region superior pizarr negruzc present 2 barr alar gris secundari tercial bord
123
+ grisace col negruzc vexil extern timoner extern bord blanc pic pat negruzc especimen
124
+ juvenil present plumaj negr parduzc apag abdom barr alar caf canel opac caf ante
125
+ plum espald rabadill flec caf pal cicl anual efectu migracion altitudinal distribu
126
+ regional encuentr suroest eua noroest argentin fenolog usos 1029 nombr cientif
127
+ cheilanth brachypus nombr comun descripcion helech terrestr epipetr rizom cort
128
+ ascendent compact escam 8 15 01 03 mm linear pardoamarillent pardorojiz concolor
129
+ liger bicolor enter marg dispers dentadofrond 10 35 cm larg peciol 1 5 cm larg
130
+ 18 15 tamañ frond pard oscur cilindr dens escam pelos escam 1 5 05 1 mm lanceol
131
+ linear pard pardorojiz tricom 1 2 mm blanquecin tortuos lamin 8 30 25 5 cm oblanceol
132
+ 1 pinnadopinnatif haz dens pelos tricom casi 1 mm hialin lax patent enves dens
133
+ escam pelos superfici visibl tricom escam anaranjadorojiz pinn 10 21 par 12 25
134
+ 06 13 cm equilater delt lanceol raquis negr ocult dens cubiert tricom escam nervadur
135
+ ocult visibl indusi reflex escari enter decurrentecheilanth brachypus caracteriz
136
+ lamin 1 pinnadopinnatif oblanceol dens escam enves mesoamer especi c bonariensis
137
+ unic especi cheilanth lamin 1 pinnadopinnatif cicl anual distribu regional mexic
138
+ mesoamer fenolog usos 2778 nombr cientif caripi montagnei nombr comun descripcion
139
+ cuerp fructifer 05 25 cm alto form cop alarg extrem superior aplan 05 15 cm diametr
140
+ blanc beig rellen context sol color blanc pose olor sabor distint
141
+ - orej casi desnud unid band pequeñ cruz superfici cabez car desnud hoj nasal pequeñ
142
+ herradur complet fusion labi superior barbill acanal bord hiler diminut verrug
143
+ col cort mid men mit longitud uropatagi antebraz desnud alas cort anchas unid
144
+ pat cerc bas ded pat desnud calcane larg pat cicl anual distribu regional hondur
145
+ bolivi norest argentin guyan brasil localiz tierr baj 600 msnm fenolog usos 420
146
+ nombr cientif aechme angustifoli nombr comun piñuel epifit parasit descripcion
147
+ epifitahoj 19 685 cm lamin 12 35 4 cm agud acumin escap 225 58 63 cm erect bract
148
+ superior larg entrenud inferior cort espinososerradasinflorescent 45 235 cm unipinn
149
+ bipinn basal bract primari espinososerr distal espig 4 9 flor distic bract floral
150
+ 04 06 cm larg igual longitud entrenud flor sesil sepal 5 9 mm mucron petal amarilloss
151
+ reconoc tamañ flor inflorescent cicl anual distribu regional nicaragu ecuador
152
+ peru bolivi fenolog floracion observ ener febrer noviembr frut observ marz octubr
153
+ usos 682 nombr cientif centronycteris centralis nombr comun murcielag descripcion
154
+ longitud cabez cuerp 4959 mm longitud col 2024 mm longitud pie 79 mm longitud
155
+ orej 1719 mm longitud antebraz 4349 mm pes 56 gcuerp color amarill sombr caf parduzc
156
+ part inferior cuart traser uropatagi color caf anaranj pelaj larg espes orej larg
157
+ form hoz punt piel car ros membran negruzc uropatagi larg pelud bas calcane larg
158
+ alas lig pat bas ded sac aere cicl anual distribu regional mexic peru guyan brasil
159
+ tierr baj sol fenolog usos 1980 nombr cientif ctenosaur quinquecarinat nombr comun
160
+ garrob ingles spiny tail iguan descripcion lagartij grand alcanz 350 mm hc hembr
161
+ pequeñ adult col alcanz casi dobl larg rest cuerp cabez disting cuell miembr robust
162
+ muscul escam region dorsal pequeñ apen imbric debil quill except aquell part dorsal
163
+ miembr grand fuertement quill escam ventral lis
164
+ - sorali comun granular submarginal isidi pustul ausent apoteci rar observ cicl
165
+ anual distribu regional pantropical extend region templ adyacent fenolog usos
166
+ 25 nombr cientif tabebui ochrace nombr comun cortez amarill cortez amarillapiuv
167
+ tarum brasil descripcion arbol 25 m 50 cm med altur pech dap fust cortez surc
168
+ profund separ ram joven pubescent hoj digit 5 foliol aserr enter membranace pubescent
169
+ glaucoamarillent enves oblongoobov oblongoelipt abrupt acumin bas obtus trunc
170
+ foliol terminal 522 18144 cm par intermedi 42198 14132 cm pubescent estrell ferrugineoamarillent
171
+ ambas superfici peciol 618 cm larg lanos pubescent peciolul 0258 cm larg inflorescent
172
+ panicul terminal pubescent flor dulc fraganci caliz campanul 5 lobul gran cantid
173
+ pubescent lanos amarillent corol tubul amarill lin rojiz cuell tub usual parduzc
174
+ 483 cm larg frut capsul lin cilindr delg extrem 1135 118 cm lanos pubescent semill
175
+ 0408 1829 cm alad especi comun dentr gener reconoc pos hoj sol 5 foliol dens pubescent
176
+ estrell principal enves asi peciol ram joven enves ademas glauc amarillent cicl
177
+ anual distribu regional centroamer hondur guatemal nort suramer brasil ytrinid
178
+ fenolog flor observ ener juni produc anual gran cantid plantul usos mader pard
179
+ oscur parec tabebui guayac pes dur cort alta resistent mecan larg durabil aun
180
+ baj condicion favor pudricion mader propi usos extern post durmient ferrocarril
181
+ acab construccion civil bol bolich asim bell floracion sid plant ornamental pais
182
+ distribu natural especi adapt siti sec util preservavion mejor are degrad altas
183
+ pendient lorenzi 1949 2608 nombr cientif tabanus unistriatus nombr comun taban
184
+ descripcion hind tibia without apical spurs basicost with strong seta as dens
185
+ as thos on the adjoining cost vertex without tubercl scutellum and posterior margin
186
+ of the mesoscutum without black velvety spot body not wholly black subcallus bar
187
+ and shiny abdom black or dark brown with singl prominent pal middorsal strip covering
188
+ tergit 16 frons over 6 tim as high as the basal width wing somewhat smoky along
189
+ the forebord and apex cicl anual distribu regional guatemal to ecuador ? guyan
190
+ ? peru fenolog usos
191
+ - source_sentence: explic distribu geograf especi mencion context import control serpient
192
+ venen viper
193
+ sentences:
194
+ - cuerp cilindr col median larg escam cefal comprend rostral dos internasal dos
195
+ prefrontal frontal dos parietal loreal nasal preocul dos postocular present 22
196
+ 6 23 temporal 8 o 9 supralabial 8 infralabial present dos par geneial 19 hiler
197
+ escam dorsal diferent import congener c scytalin reduccion lis foset apical ventral
198
+ redond ia plac anal present enter subcaudal divid color uniform band transversal
199
+ cefal nucal juvenil color complet diferent cons color fond roj cuerp band nucal
200
+ amarill clar cabez negr cicl anual distribu regional yucatan mexic nort argentin
201
+ fenolog usos sistem inmunolog capaz soport vari cc venen bothrops hac potencial
202
+ interes medic especi sirv control serpient venen viper 2687 nombr cientif euphori
203
+ candezei nombr comun escarabaj frut descripcion cuerp 175 232 mm longitud 92 122
204
+ mm ancho color dorsal ventral cuerp inclu pigidi pat verd vidrios rar aparec individu
205
+ tonal rojiz bastant llamat pronot elitr lis present puntuacion llamat part superior
206
+ mientr part posterior elitr pigidi present rug ondul bastant caracterist present
207
+ sed blanquecin especial evident are ventral bord anterior clipe present par dient
208
+ dirig haci arrib dorsal cabez concav are correspondient frent clipe lev elev longitudinal
209
+ part central anten mach present maz antenal volumin hembr pronot present carin
210
+ lateral bien marc complet bord posterior present escotadur correspondient bord
211
+ anterior escutel grand expuest tibi anterior present tres dient extern evident
212
+ tibi anterior mach tiend ser estiliz hembr femur medi posterior present ventral
213
+ carin longitudinal clar defin cerc bord posterior sal hiler sed tibi medi posterior
214
+ present evident hiler sed junt relat larg bord intern dorsal cox medi bien separ
215
+ tubercul mesosternal relat ancho form pentagonal vist ventral fig propleur quill
216
+ pronunci cercan paralel sutur sep preproestern diferenci sex mach present anten
217
+ maz volumin hembr figs abdom vist perfil tiend ser concav mientr hembr tiend ser
218
+ rect convex ademas tibi anterior mach tiend ser estiliz hembr cicl anual distribu
219
+ regional especi distribu ampli haci nort mientr sur sol sid hall panam
220
+ - larg apic agud acumin bas obtus redond enter vec afelp haz dispers tricom porrect
221
+ subsesil enves suavement toment tricom multiangul pedicul nervi principal vec
222
+ armad peciol 3 cm larg toment mayor armad inflorescent rac amonton 4 12 flor lateral
223
+ toment tricom estrell sesil cort pedicel inerm menud inconspicu armad peduncul
224
+ 1 cm larg vec bifurc pedicel 10 mm larg caliz casi 3 mm larg lobul cerc mit longitud
225
+ lobul angost sen redond toment tricom multiangul corol 15 mm diametr blanc azul
226
+ profund lobul lobul angost pubescent asi distal anter 5 mm larg frut tip bay globos
227
+ 08 s 1 cm diametr glabr anaranj lustros madur pedicel fructifer acrescent delg
228
+ expand distal erect semill aplan casi 3 mm diametr cicl anual distribu regional
229
+ mexic panam ecuador fenolog fertil may setiembr usos 3284 nombr cientif sagittari
230
+ lancifoli nombr comun descripcion hierb perenn emergent provenient rizom monoic
231
+ hoj distint distic erect peciol cerc 100 cm larg lamin 83550 0441521 cm lin ovad
232
+ elipt atenu baseinflorescent bisexual emergent 6 13 verticil simpl ramific cad
233
+ 3 flor flor 20 o estambr flor estamin estambr esteril flor pistil pistil esteril
234
+ ausent flor estamin cabez frutal 811 1115 mm pedicel ascendent sepal reflex papil
235
+ aqueni 16 25 mm larg car lateral 1 glandul pic erect 03 07 mm larg cicl anual
236
+ distribu regional surest unid ecuador brasil antill fenolog floracion año usos
237
+ 2498 nombr cientif hyperbaen leptobotry nombr comun descripcion arbust arbol 3
238
+ 6 mhoj coriac lustr glabr elipticooblong ovadolanceol mid 7 205 35 87 cm 5 8 par
239
+ nervi secundari venacion terciari irregular reticul marg enteroondul apic acumin
240
+ bas estrech redond
241
+ - zanthoxylum fag l sarg var culantrill crec fald cordiller guanac til elev 600
242
+ 1300 m pose mayor aparient arbol poc aguijon fust aguijon ram raquis levement
243
+ alad panicul 11 cm standley 1937 trat zanthoxylum insular cicl anual distribu
244
+ regional mexic sur amer antill fenolog floracion observ febrer usos 697 nombr
245
+ cientif glyphonycteris daviesi nombr comun murcielag descripcion longitud cabez
246
+ cuerp 6384 mm longitud col 511 mm longitud pie 1720 mm longitud orej 2731 mm longitud
247
+ antebraz 5458 mm pes 1930 ges especi mayor tamañ dentr gener sol par incis grand
248
+ tan larg canin part dorsal color caf parduzc oscur part ventral liger pal pelaj
249
+ larg lanud orej larg extrem punt labi barbill bastant pelud barbill acanal bord
250
+ cojincill lis form v col cort mid cerc mit longitud uropatagi calcane pequeñ pat
251
+ pat larg moder pelud cicl anual distribu regional hondur peru guyan brasil bolivi
252
+ localiz sol tierr baj fenolog usos 1583 nombr cientif sclerurus albigularis nombr
253
+ comun tirahoj gargantigr descripcion mid 17 cm pes 38 grs sclerurus grand muestr
254
+ contr distint gris gargant pech ruf adult muestr pile caf oscur lev escam grues
255
+ negruzc espald coberter alar caf castañ oscur torn caf oscur remer castañ rabadill
256
+ coberter supracaudal col negruzc lad cabez oliv grisace oscur cost flanc region
257
+ infracaudal color caf castañ oscur maxil negr mandibul color cuern punt negruzc
258
+ pat negr cafecin ejemplar juvenil similar pech opac oscur gargant oscur escam
259
+ fusc cicl anual distribu regional encuentr cost ric nort bolivi guyan trinid tobag
260
+ fenolog usos 210 nombr cientif cyathe squarros
261
+ - source_sentence: describ caracterist morfolog werauhi kathya inclu detall hoj inflorescent
262
+ flor
263
+ sentences:
264
+ - color cuerp negr pard oscur aparient pul levisim brill verd casi impercept mayor
265
+ especimen especimen lad pacif cost ric aparient levement opac lad atlant general
266
+ cuerp lis dorsal carent set bord anterior cabez dos dient relat junt ver figur
267
+ abaj are dorsal ojos bastant ampli relacion especi gener cost ric ver figur abaj
268
+ fov lateral pronot circular alarg form surc escutel visibl cad elitr present 9
269
+ estri visibl inclu supraepipleural carec carin lateral elitr supraepipleural pigidi
270
+ muestr carin basal bien marc denticul ventral bord anterolateral protorax ausent
271
+ ver figur abaj carin proepimeral protorax present complet ver figur abaj tibi
272
+ anterior muestr 3 dient bord extern bord intern rect ver figur abaj espolon apical
273
+ tibi bif diferent hembr simpl ver figur abaj tars anterior present tod especi
274
+ gener ver figur abaj tibi medi posterior delg curv escas expand haci extrem ver
275
+ figur abaj prim tars pat posterior longitud normal larg segund form triangul ver
276
+ figur abaj ventral femur posterior present carin longitudinal cerc bord anterior
277
+ carin cerc bord posterior ver figur abaj diagnosis hembr semej mach except espolon
278
+ apical tibi anterior simpl bif ver figur abaj ademas ultim segment abdominal ancho
279
+ medial mach cicl anual colect mes año are distribu lad atlant pacif distribu regional
280
+ encuentr ademas belic nicaragu panam colombi brasil ecuador fenolog usos 3283
281
+ nombr cientif echinodorus bolivianus nombr comun descripcion hierb anual rizomat
282
+ plant fertil emergent mayor frecuenci crec var riber humed cerc 30 cm altur hoj
283
+ sumerg emergent peciol 1 725 cm larg lamin 13 722 cm larg lin linearlanceol atenu
284
+ bas marc peluc inflorescent 1 o 23 verticil simpl cad 4 11 flor pedicel 08 355
285
+ cm larg flor sepal 28 43 mm larg 89 estambr pistil cerc 20 cabez frutal 153 254
286
+ mm simil anill encerr total sepal aqueni 1 17 mm larg usual 2 o 3 costill bien
287
+ desarroll car vec ausent cicl anual distribu regional unid nort argentin trinid
288
+ antill fenolog flor ener may usos
289
+ - bract floral 04 07 cm cort casi igual entrenud flor sesil sepal 5 8 mm mucron
290
+ petal blanc bay 1 2 cm negrasmuy simil especi gener ronnbergi cual pued ser dificil
291
+ distingu veget autor inclus suger posibil unir nuev ambos gener cicl anual distribu
292
+ regional cost ric panam fenolog fructif observ agost ener usos 680 nombr cientif
293
+ cormur brevirostris nombr comun murcielag descripcion longitud cabez cuerp 4658mm
294
+ longitud col 1016mm longitud pie 58mm longitud orej 1316mm longitud antebraz 4550mm
295
+ pes 711gpart dorsal ric color caf castañ negruzc juvenil subadult part ventral
296
+ liger pal pelaj espes brillant piel car orej negruzc trag ancho nariz cort pel
297
+ casi punt membran negr alas unid pat bas ded sac aere grand abertur extiend bord
298
+ ala cicl anual distribu regional nicaragu peru brasil tierr baj 1000msnm fenolog
299
+ usos 1078 nombr cientif kogi sim nombr comun cachalot enan dwarf sperm whal descripcion
300
+ signific menor kogi breviceps pues promedi 28 m longitud 260 kg pes dors gris
301
+ oscur vientr blanc cost color blanc grisace alet pectoral gris oscur alet dorsal
302
+ proporcional cuerp tamañ sol liger posterior mit cuerp igual k breviceps present
303
+ hocic fuertement trunc ojo alet pectoral plieg piel semej agall abertur branquial
304
+ fals natural ningun relacion pec cicl anual especi ocasional aunqu divers epoc
305
+ año anterior situacion pued trat especi resident rar escas distribu regional agu
306
+ tropical templ planet aunqu falt mediterrane mar negr mar roj golf persic fenolog
307
+ usos japon isla san vicent antill menor caz carn 1637 nombr cientif myiodynast
308
+ hemichrysus nombr comun pech amarill mosquer ventridor descripcion mid 20 cm pes
309
+ 41 grs difier mosquer tip pitangus sulphuratus list mal oscur adult muestr coronill
310
+ gris oscur fin list negr manch amarill brillant ocult rest region oliv verdos
311
+ oscur alas col fusc bord tercial amarill pal remer coberter alar angost color
312
+ canel present list negruzc grues are loreal auricular bord cej list blanc mejill
313
+ list mal fusc grues barbill blanc rest region inferior amarill brillant pic pat
314
+ negr
315
+ - maxim 24 dient n richardi abdom larg 607 % longitud estand vs 493568 % color clar
316
+ miembr atenu generotien pat traser angost 41 % longitud estand vs 445o % especi
317
+ cost ric ded pat traser cort 3er ded 0917 % pat delanter traser sindactil 4 ded
318
+ pat delanter 5 ded pat traser ded pat traser extern sol perfil extern surc punt
319
+ digit libr punt redondeadastien fos nasal larg ancho cabez 40 vec diametr fos
320
+ nasal compar tamañ n richardi grand miembr gener cost ric cicl anual distribu
321
+ regional fenolog usos 1894 nombr cientif pselliophorus tibialis nombr comun salton
322
+ musl amarill descripcion 185 cm 31 g oscur delg col larg musl amarill esponj pic
323
+ bien larg delg aspect atlapet adult pile part atras nuc negr rest part arrib negr
324
+ pizarr gargant negruzc pas pizarr negruzc rest region inferior pech abdom teñ
325
+ verd oliv iris castañ pic negr pat fusc individu present pequeñ manch amarill
326
+ bord hombr juvenil parec opac encim color negr tizn debaj present fuert tint cafecin
327
+ musl caf oliv pal cicl anual distribu regional encuentr cost ric oest panam fenolog
328
+ usos 44 nombr cientif werauhi kathya nombr comun piñuel parasit epifit descripcion
329
+ epifit terrestr caulescent hoj 15 45 cm larg atenu cartac papel quebradiz vain
330
+ 24 39 cm caf oscur lepidot lamin 10 19 cm glabr lepidot lin longitudinal oscur
331
+ escap 22 37 cm larg erect curvadoerect bract verdecrem larg entrenudosinflorescent
332
+ erect 2 5 cm larg 1pinn bract primari larg ram lateral estos sesil casi sesil
333
+ dos tres flor colateral bract floral 13 18 cm larg verdecrem ovad oblong carin
334
+ glabr lepidot membranac cartaceasflor sesil sepal 06 10 cm larg coriace petal
335
+ crem verdecrem 17 20 cm largocapsul 17 25 cm larg com semill canel cicl anual
336
+ distribu regional
337
+ - source_sentence: ¿qu aspect morfolog plumaj charran embrid permit diferenci especi
338
+ similar stern fuscat especial epoc cri ?
339
+ sentences:
340
+ - nombr comun sinsont tropical descripcion dors cuerp color gris opac brillant part
341
+ cabez part ventral blancuzc alas caf negruzc barr angost blanc col delg caf negruzc
342
+ punt blanc list ocul negr cej blanc pat pic negr rand traylor 1961 sanchez 2003
343
+ cicl anual distribu regional sur mexic colombi andes sur brasil peterson chalf
344
+ 1973 fenolog usos 2509 nombr cientif zanthoxylum melanostictum nombr comun lagart
345
+ color lagartill descripcion arbol arbust 2 15 m fust poc aguijon ram joven rojiz
346
+ glabr aguijon escas lenticeladashoj imparipinn 3 7 par foliol opuest elipt ovad
347
+ 2 102142 08 5268 cm glabr lustros coriace apic cort acumin redond ocasion levement
348
+ emargin bas obtus bord general enter peciol peciolul rojizosinflorescent panicul
349
+ terminal 13 cmflor blanc 5 petal frut folicul verruc rojiz obovoid 4 8 mm diametr
350
+ semill negr 3 6 mmse disting color mor rojiz peciol raquis peciolul fust general
351
+ carec aguijon escas principal bas cicl anual distribu regional mexic centr amer
352
+ fenolog floracion observ ener abril agost usos 3117 nombr cientif campnosperm
353
+ panamens nombr comun descripcion arbol 12 30 m altur rmit ferrugineopuberulent
354
+ hoj simpl altern cortopeciol oblongoobov 1435 5515 cm apic obtus redond cartac
355
+ pubescent dens tricom estrell pequeñ escam pelt pard rojiz enves nervadur secundari
356
+ evidenteinflorescent panicul general axil 40 cm larg flor amarillent pequeñ frut
357
+ drup triangularovoid 115 0712 cmdiagnost caracteriz hoj agrup final ramit cuy
358
+ aparient recuerd arbol espavel zapot carenci savi lechos habitat suel aneg permit
359
+ distingu ademas present ramif simpodial tipic hoj viej torn rojoanaranj ramit
360
+ hoj enves pubescent dor diminut pel escam particul cicl anual distribu regional
361
+ hondur panam fenolog flor observ agost octubr frut setiembr octubr usos 2396 nombr
362
+ cientif micrurus mipartitus
363
+ - larg lamin 22 45 65 05 1 2 25 cm linearelipt lin atenu ambos extrem coriace lustros
364
+ marg comun revolut raquis pajiz pard ven lateral evident sor redond 1 3 4 seri
365
+ cost marg cicl anual distribu regional cost ric panam colombi venezuel ecuador
366
+ peru bolivi fenolog usos 144 nombr cientif croton ortholobus nombr comun targu
367
+ descripcion arbust 3 m altur hoj elipt ovad lanceol 3 10 cm larg 15 7 cm ancho
368
+ peciol 2 glandul apic marg levement aserr inflorescent bisexual racem espig 4
369
+ 7 cm larg frut 4 6 mm longituds reconoc hoj levement aserr peciol glandular estipul
370
+ linear inflorescent flor solitari sosten bract linear cicl anual distribu regional
371
+ hondur nicaragu fenolog usos 3017 nombr cientif gymnospori haberian nombr comun
372
+ descripcion arbol 5 30 m altur ramit verd pal verd amarillent estipul diminut
373
+ rojiz hoj simpl altern 812 46 cm elipt apic acumin agud glabr bord enteroinflorescent
374
+ cim axilar 20 flor flor verd 45 7 mm ancho frut tip capsul 1 115 cm amarillent
375
+ glob 2 4 lobul semill pard aril blancos caracteriz hoj sec adquier ton verd amarillent
376
+ bas general redond bord levement revolut rasg taxonom recuerd gener maytenus dificil
377
+ separ rasp cortez tronc ramit raic epidermis amarillent amarill encend mayor especi
378
+ famili g haberian caracterist vec not direct bas tronc hab rasp cortez cicl anual
379
+ distribu regional mexic estacion biolog tuxtl veracruz fenolog flor observ febrer
380
+ juli frut ener marz diciembr usos 321 nombr cientif vriese marnierlapostollei
381
+ nombr comun piñuel epifit parasit descripcion epifitashoj 8 15 21 cm acumin agud
382
+ apicul membranac subcartac vain 2 4 cm canelacrem esparcid lepidot lamin 13 26
383
+ cm esparcid lepidot lin longitudinal mor escap 16 22 26 cm erect curvadoerect
384
+ - pes 12 grs empidonax pequeñ caf alas cort redond anill ocul opac adult oliv cafecin
385
+ encim anill ocul ante angost bien defin barr alar opac caf pal gargant blanc pech
386
+ present tint parduzc abdom ante amarillent forr alas general coberter infracaudal
387
+ encend maxil negr mandibul color anaranjadocarn forr boc anaranj pat negruzc especimen
388
+ juvenil caf tizn opac encim barr alar contrast color ante canel cicl anual especi
389
+ migratori neartic ver distribu cost ric distribu regional reproduc local nort
390
+ mexic oest panam inviern part central mexic part central panam fenolog usos 1746
391
+ nombr cientif vire philadelphicus nombr comun vire amarillent descripcion mid
392
+ 115 cm pes 115 grs vire pequeñ marc alar color parec vermivor peregrin asoci frecuenci
393
+ cabez relat grand redond pic grues list facial anchas coberter infracaudal amarill
394
+ adult pile gris tint oliv rest region superior verd oliv grisace cej are baj ojo
395
+ color blanc separ mediant list ocul fusc mejill teñ oliv region inferior var principal
396
+ amarill bastant brillant gargant abdom pal principal blancuzc amarill bien defin
397
+ sol pech coberter infracaudal maxil color cuern fusc mandibul color cuern pal
398
+ pat gris individu inmadur parec adult ocasion present coberter alar mayor cort
399
+ opac punt pal reten plumaj juvenil cicl anual especi migratori neartic ver distribu
400
+ cost ric distribu regional reproduc canad extrem nort eua inviern peninsul yucatan
401
+ guatemal part central panam rar ocasion nort guatemal fenolog usos 1446 nombr
402
+ cientif onychoprion anaethetus nombr comun charran embrid descripcion mid 36 cm
403
+ pes 100 grs tamañ median espald oscur col profund ahorquill disting stern fuscat
404
+ coll nucal clar manch blanc delg frent extiend form list supercili cort epoc cri
405
+ adult present coronill list loreal negr coll nucal gris clar rest region superior
406
+ gris parduzc oscur tod region inferior rectric extern blanc tint gris pech cost
407
+ pic pat negr epoc cri ve rar ocasion cost ric coronill eminent blanc list negr
408
+ part posterior
409
+ model-index:
410
+ - name: SentenceTransformer based on hiiamsid/sentence_similarity_spanish_es
411
+ results:
412
+ - task:
413
+ type: information-retrieval
414
+ name: Information Retrieval
415
+ dataset:
416
+ name: Unknown
417
+ type: unknown
418
+ metrics:
419
+ - type: cosine_accuracy@1
420
+ value: 0.7784256559766763
421
+ name: Cosine Accuracy@1
422
+ - type: cosine_accuracy@3
423
+ value: 0.89067055393586
424
+ name: Cosine Accuracy@3
425
+ - type: cosine_accuracy@5
426
+ value: 0.922740524781341
427
+ name: Cosine Accuracy@5
428
+ - type: cosine_accuracy@10
429
+ value: 0.9533527696793003
430
+ name: Cosine Accuracy@10
431
+ - type: cosine_precision@1
432
+ value: 0.7784256559766763
433
+ name: Cosine Precision@1
434
+ - type: cosine_precision@3
435
+ value: 0.2968901846452867
436
+ name: Cosine Precision@3
437
+ - type: cosine_precision@5
438
+ value: 0.18454810495626817
439
+ name: Cosine Precision@5
440
+ - type: cosine_precision@10
441
+ value: 0.09533527696793001
442
+ name: Cosine Precision@10
443
+ - type: cosine_recall@1
444
+ value: 0.7784256559766763
445
+ name: Cosine Recall@1
446
+ - type: cosine_recall@3
447
+ value: 0.89067055393586
448
+ name: Cosine Recall@3
449
+ - type: cosine_recall@5
450
+ value: 0.922740524781341
451
+ name: Cosine Recall@5
452
+ - type: cosine_recall@10
453
+ value: 0.9533527696793003
454
+ name: Cosine Recall@10
455
+ - type: cosine_ndcg@10
456
+ value: 0.8696617098665955
457
+ name: Cosine Ndcg@10
458
+ - type: cosine_mrr@10
459
+ value: 0.8424909759822294
460
+ name: Cosine Mrr@10
461
+ - type: cosine_map@100
462
+ value: 0.8440024185539007
463
+ name: Cosine Map@100
464
+ - type: dot_accuracy@1
465
+ value: 0.7201166180758017
466
+ name: Dot Accuracy@1
467
+ - type: dot_accuracy@3
468
+ value: 0.8790087463556852
469
+ name: Dot Accuracy@3
470
+ - type: dot_accuracy@5
471
+ value: 0.9154518950437318
472
+ name: Dot Accuracy@5
473
+ - type: dot_accuracy@10
474
+ value: 0.9446064139941691
475
+ name: Dot Accuracy@10
476
+ - type: dot_precision@1
477
+ value: 0.7201166180758017
478
+ name: Dot Precision@1
479
+ - type: dot_precision@3
480
+ value: 0.29300291545189505
481
+ name: Dot Precision@3
482
+ - type: dot_precision@5
483
+ value: 0.18309037900874633
484
+ name: Dot Precision@5
485
+ - type: dot_precision@10
486
+ value: 0.09446064139941689
487
+ name: Dot Precision@10
488
+ - type: dot_recall@1
489
+ value: 0.7201166180758017
490
+ name: Dot Recall@1
491
+ - type: dot_recall@3
492
+ value: 0.8790087463556852
493
+ name: Dot Recall@3
494
+ - type: dot_recall@5
495
+ value: 0.9154518950437318
496
+ name: Dot Recall@5
497
+ - type: dot_recall@10
498
+ value: 0.9446064139941691
499
+ name: Dot Recall@10
500
+ - type: dot_ndcg@10
501
+ value: 0.8406159912422888
502
+ name: Dot Ndcg@10
503
+ - type: dot_mrr@10
504
+ value: 0.80640589569161
505
+ name: Dot Mrr@10
506
+ - type: dot_map@100
507
+ value: 0.8085654600526095
508
+ name: Dot Map@100
509
+ ---
510
+
511
+ # SentenceTransformer based on hiiamsid/sentence_similarity_spanish_es
512
+
513
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [hiiamsid/sentence_similarity_spanish_es](https://huggingface.co/hiiamsid/sentence_similarity_spanish_es). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
514
+
515
+ ## Model Details
516
+
517
+ ### Model Description
518
+ - **Model Type:** Sentence Transformer
519
+ - **Base model:** [hiiamsid/sentence_similarity_spanish_es](https://huggingface.co/hiiamsid/sentence_similarity_spanish_es) <!-- at revision 66ab46adac3910bb6ea6085b962a25e49513b981 -->
520
+ - **Maximum Sequence Length:** 512 tokens
521
+ - **Output Dimensionality:** 768 tokens
522
+ - **Similarity Function:** Cosine Similarity
523
+ <!-- - **Training Dataset:** Unknown -->
524
+ <!-- - **Language:** Unknown -->
525
+ <!-- - **License:** Unknown -->
526
+
527
+ ### Model Sources
528
+
529
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
530
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
531
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
532
+
533
+ ### Full Model Architecture
534
+
535
+ ```
536
+ SentenceTransformer(
537
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
538
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
539
+ )
540
+ ```
541
+
542
+ ## Usage
543
+
544
+ ### Direct Usage (Sentence Transformers)
545
+
546
+ First install the Sentence Transformers library:
547
+
548
+ ```bash
549
+ pip install -U sentence-transformers
550
+ ```
551
+
552
+ Then you can load this model and run inference.
553
+ ```python
554
+ from sentence_transformers import SentenceTransformer
555
+
556
+ # Download from the 🤗 Hub
557
+ model = SentenceTransformer("igmochang/CR-biodiversity-preprocessed-sentence-similarity-es")
558
+ # Run inference
559
+ sentences = [
560
+ '¿qu aspect morfolog plumaj charran embrid permit diferenci especi similar stern fuscat especial epoc cri ?',
561
+ 'pes 12 grs empidonax pequeñ caf alas cort redond anill ocul opac adult oliv cafecin encim anill ocul ante angost bien defin barr alar opac caf pal gargant blanc pech present tint parduzc abdom ante amarillent forr alas general coberter infracaudal encend maxil negr mandibul color anaranjadocarn forr boc anaranj pat negruzc especimen juvenil caf tizn opac encim barr alar contrast color ante canel cicl anual especi migratori neartic ver distribu cost ric distribu regional reproduc local nort mexic oest panam inviern part central mexic part central panam fenolog usos 1746 nombr cientif vire philadelphicus nombr comun vire amarillent descripcion mid 115 cm pes 115 grs vire pequeñ marc alar color parec vermivor peregrin asoci frecuenci cabez relat grand redond pic grues list facial anchas coberter infracaudal amarill adult pile gris tint oliv rest region superior verd oliv grisace cej are baj ojo color blanc separ mediant list ocul fusc mejill teñ oliv region inferior var principal amarill bastant brillant gargant abdom pal principal blancuzc amarill bien defin sol pech coberter infracaudal maxil color cuern fusc mandibul color cuern pal pat gris individu inmadur parec adult ocasion present coberter alar mayor cort opac punt pal reten plumaj juvenil cicl anual especi migratori neartic ver distribu cost ric distribu regional reproduc canad extrem nort eua inviern peninsul yucatan guatemal part central panam rar ocasion nort guatemal fenolog usos 1446 nombr cientif onychoprion anaethetus nombr comun charran embrid descripcion mid 36 cm pes 100 grs tamañ median espald oscur col profund ahorquill disting stern fuscat coll nucal clar manch blanc delg frent extiend form list supercili cort epoc cri adult present coronill list loreal negr coll nucal gris clar rest region superior gris parduzc oscur tod region inferior rectric extern blanc tint gris pech cost pic pat negr epoc cri ve rar ocasion cost ric coronill eminent blanc list negr part posterior',
562
+ 'nombr comun sinsont tropical descripcion dors cuerp color gris opac brillant part cabez part ventral blancuzc alas caf negruzc barr angost blanc col delg caf negruzc punt blanc list ocul negr cej blanc pat pic negr rand traylor 1961 sanchez 2003 cicl anual distribu regional sur mexic colombi andes sur brasil peterson chalf 1973 fenolog usos 2509 nombr cientif zanthoxylum melanostictum nombr comun lagart color lagartill descripcion arbol arbust 2 15 m fust poc aguijon ram joven rojiz glabr aguijon escas lenticeladashoj imparipinn 3 7 par foliol opuest elipt ovad 2 102142 08 5268 cm glabr lustros coriace apic cort acumin redond ocasion levement emargin bas obtus bord general enter peciol peciolul rojizosinflorescent panicul terminal 13 cmflor blanc 5 petal frut folicul verruc rojiz obovoid 4 8 mm diametr semill negr 3 6 mmse disting color mor rojiz peciol raquis peciolul fust general carec aguijon escas principal bas cicl anual distribu regional mexic centr amer fenolog floracion observ ener abril agost usos 3117 nombr cientif campnosperm panamens nombr comun descripcion arbol 12 30 m altur rmit ferrugineopuberulent hoj simpl altern cortopeciol oblongoobov 1435 5515 cm apic obtus redond cartac pubescent dens tricom estrell pequeñ escam pelt pard rojiz enves nervadur secundari evidenteinflorescent panicul general axil 40 cm larg flor amarillent pequeñ frut drup triangularovoid 115 0712 cmdiagnost caracteriz hoj agrup final ramit cuy aparient recuerd arbol espavel zapot carenci savi lechos habitat suel aneg permit distingu ademas present ramif simpodial tipic hoj viej torn rojoanaranj ramit hoj enves pubescent dor diminut pel escam particul cicl anual distribu regional hondur panam fenolog flor observ agost octubr frut setiembr octubr usos 2396 nombr cientif micrurus mipartitus',
563
+ ]
564
+ embeddings = model.encode(sentences)
565
+ print(embeddings.shape)
566
+ # [3, 768]
567
+
568
+ # Get the similarity scores for the embeddings
569
+ similarities = model.similarity(embeddings, embeddings)
570
+ print(similarities.shape)
571
+ # [3, 3]
572
+ ```
573
+
574
+ <!--
575
+ ### Direct Usage (Transformers)
576
+
577
+ <details><summary>Click to see the direct usage in Transformers</summary>
578
+
579
+ </details>
580
+ -->
581
+
582
+ <!--
583
+ ### Downstream Usage (Sentence Transformers)
584
+
585
+ You can finetune this model on your own dataset.
586
+
587
+ <details><summary>Click to expand</summary>
588
+
589
+ </details>
590
+ -->
591
+
592
+ <!--
593
+ ### Out-of-Scope Use
594
+
595
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
596
+ -->
597
+
598
+ ## Evaluation
599
+
600
+ ### Metrics
601
+
602
+ #### Information Retrieval
603
+
604
+ * Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
605
+
606
+ | Metric | Value |
607
+ |:--------------------|:----------|
608
+ | cosine_accuracy@1 | 0.7784 |
609
+ | cosine_accuracy@3 | 0.8907 |
610
+ | cosine_accuracy@5 | 0.9227 |
611
+ | cosine_accuracy@10 | 0.9534 |
612
+ | cosine_precision@1 | 0.7784 |
613
+ | cosine_precision@3 | 0.2969 |
614
+ | cosine_precision@5 | 0.1845 |
615
+ | cosine_precision@10 | 0.0953 |
616
+ | cosine_recall@1 | 0.7784 |
617
+ | cosine_recall@3 | 0.8907 |
618
+ | cosine_recall@5 | 0.9227 |
619
+ | cosine_recall@10 | 0.9534 |
620
+ | cosine_ndcg@10 | 0.8697 |
621
+ | cosine_mrr@10 | 0.8425 |
622
+ | **cosine_map@100** | **0.844** |
623
+ | dot_accuracy@1 | 0.7201 |
624
+ | dot_accuracy@3 | 0.879 |
625
+ | dot_accuracy@5 | 0.9155 |
626
+ | dot_accuracy@10 | 0.9446 |
627
+ | dot_precision@1 | 0.7201 |
628
+ | dot_precision@3 | 0.293 |
629
+ | dot_precision@5 | 0.1831 |
630
+ | dot_precision@10 | 0.0945 |
631
+ | dot_recall@1 | 0.7201 |
632
+ | dot_recall@3 | 0.879 |
633
+ | dot_recall@5 | 0.9155 |
634
+ | dot_recall@10 | 0.9446 |
635
+ | dot_ndcg@10 | 0.8406 |
636
+ | dot_mrr@10 | 0.8064 |
637
+ | dot_map@100 | 0.8086 |
638
+
639
+ <!--
640
+ ## Bias, Risks and Limitations
641
+
642
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
643
+ -->
644
+
645
+ <!--
646
+ ### Recommendations
647
+
648
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
649
+ -->
650
+
651
+ ## Training Details
652
+
653
+ ### Training Dataset
654
+
655
+ #### Unnamed Dataset
656
+
657
+
658
+ * Size: 2,748 training samples
659
+ * Columns: <code>sentence_0</code> and <code>sentence_1</code>
660
+ * Approximate statistics based on the first 1000 samples:
661
+ | | sentence_0 | sentence_1 |
662
+ |:--------|:-----------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------|
663
+ | type | string | string |
664
+ | details | <ul><li>min: 14 tokens</li><li>mean: 24.86 tokens</li><li>max: 43 tokens</li></ul> | <ul><li>min: 323 tokens</li><li>mean: 508.41 tokens</li><li>max: 512 tokens</li></ul> |
665
+ * Samples:
666
+ | sentence_0 | sentence_1 |
667
+ |:--------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
668
+ | <code>¿cual caracterist fisic distint esmerejon inclu diferent mach hembr ?</code> | <code>1407 nombr cientif falc columbarius nombr comun esmerejon descripcion mach mid 265 cm pes 160 grs hembr 33 cm 215 grs pequeñ constitu fuert alas puntiagud adult encim gris pizarr mach caf oscur hembr debaj ante list caf oscur profus cabez fin list cuent cej clar traz barr ocul oscur col negruzc 2 o 3 band clar gris mach hembr especimen inmadur parec hembr iris caf oscur cer pat amarill exhib ruf klisklis falc sparverius difier tamañ form accipit joven cicl anual especi migratori neartic ver distribu cost ric distribu regional reproduc nort alask canad extrem nort eua inviern sur part central alask sur canad nort amer sur antill especi ampli distribu viej mund fenolog usos 411 nombr cientif tillandsi subulifer nombr comun piñuel parasit descripcion epifitashoj 5 20 cm roset bulbos vain canel lamin 04 08 cm linearsubul involut escap 65 125 cm erect bract larg entrenudosinflorescent erect 5 105 cm simpl terminal 5 9 flor bract floral 18 3 cm verd cort sepal imbric ecarin conspicu nerv sepal 21 26 cm petal rojiz proximal amarill distal bord rojiz capsul 5 73 cmse reconoc facil roset tubul hoj espiral bract floral pequeñ sepal lamin foliar menor 1 cm ancho cicl anual distribu regional nicaragu venezuel trinid fenolog floracion abril juni frut octubr usos 802 nombr cientif liomys salvini nombr comun raton mont descripcion longitud cabez cuerp 103140mm longitud col 97143mm longitud pie 2630mm longitud orej 1216mm pes 3065gtamañ pequeñ median color caf parduzc pal part dorsal siempr gris sombr caf parduzc pel riz color caf amarillent crem tenuement interpuest espin oscur line anaranj cost part ventral pat color crem blanc col bicolor casi igual tamañ longitud cabez cuerp lc liger pelud ningun mechon pel 24mm punt plant pat traser vellud talon cojincill basal cicl anual</code> |
669
+ | <code>describ morfolog tillandsi subulifer inclu detall hoj inflorescent bract</code> | <code>1407 nombr cientif falc columbarius nombr comun esmerejon descripcion mach mid 265 cm pes 160 grs hembr 33 cm 215 grs pequeñ constitu fuert alas puntiagud adult encim gris pizarr mach caf oscur hembr debaj ante list caf oscur profus cabez fin list cuent cej clar traz barr ocul oscur col negruzc 2 o 3 band clar gris mach hembr especimen inmadur parec hembr iris caf oscur cer pat amarill exhib ruf klisklis falc sparverius difier tamañ form accipit joven cicl anual especi migratori neartic ver distribu cost ric distribu regional reproduc nort alask canad extrem nort eua inviern sur part central alask sur canad nort amer sur antill especi ampli distribu viej mund fenolog usos 411 nombr cientif tillandsi subulifer nombr comun piñuel parasit descripcion epifitashoj 5 20 cm roset bulbos vain canel lamin 04 08 cm linearsubul involut escap 65 125 cm erect bract larg entrenudosinflorescent erect 5 105 cm simpl terminal 5 9 flor bract floral 18 3 cm verd cort sepal imbric ecarin conspicu nerv sepal 21 26 cm petal rojiz proximal amarill distal bord rojiz capsul 5 73 cmse reconoc facil roset tubul hoj espiral bract floral pequeñ sepal lamin foliar menor 1 cm ancho cicl anual distribu regional nicaragu venezuel trinid fenolog floracion abril juni frut octubr usos 802 nombr cientif liomys salvini nombr comun raton mont descripcion longitud cabez cuerp 103140mm longitud col 97143mm longitud pie 2630mm longitud orej 1216mm pes 3065gtamañ pequeñ median color caf parduzc pal part dorsal siempr gris sombr caf parduzc pel riz color caf amarillent crem tenuement interpuest espin oscur line anaranj cost part ventral pat color crem blanc col bicolor casi igual tamañ longitud cabez cuerp lc liger pelud ningun mechon pel 24mm punt plant pat traser vellud talon cojincill basal cicl anual</code> |
670
+ | <code>¿cual caracterist distint ramif hoj alzate verticillat permit identif ?</code> | <code>color caf parduzc pal part dorsal siempr gris sombr caf parduzc pel riz color caf amarillent crem tenuement interpuest espin oscur line anaranj cost part ventral pat color crem blanc col bicolor casi igual tamañ longitud cabez cuerp lc liger pelud ningun mechon pel 24mm punt plant pat traser vellud talon cojincill basal cicl anual distribu regional mexic part central cost ric vertient pacif principal localiz tierr baj 1500msnm fenolog usos 3032 nombr cientif alzate verticillat nombr comun descripcion arbol arbust 4 15 m altur ramit cuadrangular pard rojiz exfoli hoj simpl opuest decus obovadoelipt 915 610 cm apic redond retus sesil subsesil coriac glabrasinflorescent panicul terminal 25 cm larg flor petal lil ros frut tip capsul aplan verd pal 5 8 mm largodiagnost reconoc ramif verticil fust pard exfoli escam hoj coriac semej clusi clusiacea secrecion lechos glabr sesil nervadur secundari evident ramit joven cuadrangular hoj torn anaranj rojiz viej cicl anual distribu regional cost ric suramer fenolog flor observ octubr diciembr frut febrer marz usos siti fald cordiller volcan central utiliz ornamental deb foment pues atract follaj arquitectur 1546 nombr cientif eubucc bourcierii nombr comun barbud cabecirroj descripcion mid 15 cm pes 35 grs robust cabezon dos sex present color llamat pic grues conspicu color amarill mach adult are loreal frent barbill negr rest cabez gargant pech roj profund desvanec form abrupt anaranj pech amarill list verd opac profus region posterior region superior alas col color verd opac separ roj cabez lad cuell mediant barr vertical blanc azul iris roj ladrill pic amarill verdos pat verd oliv hembr muestr gargant verd pal part anterior coronill lad cuell anaranj profund continu faj traves part superior pech rest coronill verd ocrace oscur tint anaranj mejill list cort ojo azul clar part baj pech verd oliv clar</code> |
671
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
672
+ ```json
673
+ {
674
+ "scale": 20.0,
675
+ "similarity_fct": "cos_sim"
676
+ }
677
+ ```
678
+
679
+ ### Training Hyperparameters
680
+ #### Non-Default Hyperparameters
681
+
682
+ - `eval_strategy`: steps
683
+ - `per_device_train_batch_size`: 10
684
+ - `per_device_eval_batch_size`: 10
685
+ - `num_train_epochs`: 2
686
+ - `multi_dataset_batch_sampler`: round_robin
687
+
688
+ #### All Hyperparameters
689
+ <details><summary>Click to expand</summary>
690
+
691
+ - `overwrite_output_dir`: False
692
+ - `do_predict`: False
693
+ - `eval_strategy`: steps
694
+ - `prediction_loss_only`: True
695
+ - `per_device_train_batch_size`: 10
696
+ - `per_device_eval_batch_size`: 10
697
+ - `per_gpu_train_batch_size`: None
698
+ - `per_gpu_eval_batch_size`: None
699
+ - `gradient_accumulation_steps`: 1
700
+ - `eval_accumulation_steps`: None
701
+ - `torch_empty_cache_steps`: None
702
+ - `learning_rate`: 5e-05
703
+ - `weight_decay`: 0.0
704
+ - `adam_beta1`: 0.9
705
+ - `adam_beta2`: 0.999
706
+ - `adam_epsilon`: 1e-08
707
+ - `max_grad_norm`: 1
708
+ - `num_train_epochs`: 2
709
+ - `max_steps`: -1
710
+ - `lr_scheduler_type`: linear
711
+ - `lr_scheduler_kwargs`: {}
712
+ - `warmup_ratio`: 0.0
713
+ - `warmup_steps`: 0
714
+ - `log_level`: passive
715
+ - `log_level_replica`: warning
716
+ - `log_on_each_node`: True
717
+ - `logging_nan_inf_filter`: True
718
+ - `save_safetensors`: True
719
+ - `save_on_each_node`: False
720
+ - `save_only_model`: False
721
+ - `restore_callback_states_from_checkpoint`: False
722
+ - `no_cuda`: False
723
+ - `use_cpu`: False
724
+ - `use_mps_device`: False
725
+ - `seed`: 42
726
+ - `data_seed`: None
727
+ - `jit_mode_eval`: False
728
+ - `use_ipex`: False
729
+ - `bf16`: False
730
+ - `fp16`: False
731
+ - `fp16_opt_level`: O1
732
+ - `half_precision_backend`: auto
733
+ - `bf16_full_eval`: False
734
+ - `fp16_full_eval`: False
735
+ - `tf32`: None
736
+ - `local_rank`: 0
737
+ - `ddp_backend`: None
738
+ - `tpu_num_cores`: None
739
+ - `tpu_metrics_debug`: False
740
+ - `debug`: []
741
+ - `dataloader_drop_last`: False
742
+ - `dataloader_num_workers`: 0
743
+ - `dataloader_prefetch_factor`: None
744
+ - `past_index`: -1
745
+ - `disable_tqdm`: False
746
+ - `remove_unused_columns`: True
747
+ - `label_names`: None
748
+ - `load_best_model_at_end`: False
749
+ - `ignore_data_skip`: False
750
+ - `fsdp`: []
751
+ - `fsdp_min_num_params`: 0
752
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
753
+ - `fsdp_transformer_layer_cls_to_wrap`: None
754
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
755
+ - `deepspeed`: None
756
+ - `label_smoothing_factor`: 0.0
757
+ - `optim`: adamw_torch
758
+ - `optim_args`: None
759
+ - `adafactor`: False
760
+ - `group_by_length`: False
761
+ - `length_column_name`: length
762
+ - `ddp_find_unused_parameters`: None
763
+ - `ddp_bucket_cap_mb`: None
764
+ - `ddp_broadcast_buffers`: False
765
+ - `dataloader_pin_memory`: True
766
+ - `dataloader_persistent_workers`: False
767
+ - `skip_memory_metrics`: True
768
+ - `use_legacy_prediction_loop`: False
769
+ - `push_to_hub`: False
770
+ - `resume_from_checkpoint`: None
771
+ - `hub_model_id`: None
772
+ - `hub_strategy`: every_save
773
+ - `hub_private_repo`: False
774
+ - `hub_always_push`: False
775
+ - `gradient_checkpointing`: False
776
+ - `gradient_checkpointing_kwargs`: None
777
+ - `include_inputs_for_metrics`: False
778
+ - `eval_do_concat_batches`: True
779
+ - `fp16_backend`: auto
780
+ - `push_to_hub_model_id`: None
781
+ - `push_to_hub_organization`: None
782
+ - `mp_parameters`:
783
+ - `auto_find_batch_size`: False
784
+ - `full_determinism`: False
785
+ - `torchdynamo`: None
786
+ - `ray_scope`: last
787
+ - `ddp_timeout`: 1800
788
+ - `torch_compile`: False
789
+ - `torch_compile_backend`: None
790
+ - `torch_compile_mode`: None
791
+ - `dispatch_batches`: None
792
+ - `split_batches`: None
793
+ - `include_tokens_per_second`: False
794
+ - `include_num_input_tokens_seen`: False
795
+ - `neftune_noise_alpha`: None
796
+ - `optim_target_modules`: None
797
+ - `batch_eval_metrics`: False
798
+ - `eval_on_start`: False
799
+ - `eval_use_gather_object`: False
800
+ - `batch_sampler`: batch_sampler
801
+ - `multi_dataset_batch_sampler`: round_robin
802
+
803
+ </details>
804
+
805
+ ### Training Logs
806
+ | Epoch | Step | Training Loss | cosine_map@100 |
807
+ |:------:|:----:|:-------------:|:--------------:|
808
+ | 0.1818 | 50 | - | 0.6806 |
809
+ | 0.3636 | 100 | - | 0.7391 |
810
+ | 0.5455 | 150 | - | 0.7742 |
811
+ | 0.7273 | 200 | - | 0.7927 |
812
+ | 0.9091 | 250 | - | 0.8211 |
813
+ | 1.0 | 275 | - | 0.8162 |
814
+ | 1.0909 | 300 | - | 0.8241 |
815
+ | 1.2727 | 350 | - | 0.8137 |
816
+ | 1.4545 | 400 | - | 0.8318 |
817
+ | 1.6364 | 450 | - | 0.8342 |
818
+ | 1.8182 | 500 | 0.4916 | 0.8432 |
819
+ | 2.0 | 550 | - | 0.8440 |
820
+
821
+
822
+ ### Framework Versions
823
+ - Python: 3.10.12
824
+ - Sentence Transformers: 3.1.1
825
+ - Transformers: 4.44.2
826
+ - PyTorch: 2.4.1+cu121
827
+ - Accelerate: 0.34.2
828
+ - Datasets: 3.0.1
829
+ - Tokenizers: 0.19.1
830
+
831
+ ## Citation
832
+
833
+ ### BibTeX
834
+
835
+ #### Sentence Transformers
836
+ ```bibtex
837
+ @inproceedings{reimers-2019-sentence-bert,
838
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
839
+ author = "Reimers, Nils and Gurevych, Iryna",
840
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
841
+ month = "11",
842
+ year = "2019",
843
+ publisher = "Association for Computational Linguistics",
844
+ url = "https://arxiv.org/abs/1908.10084",
845
+ }
846
+ ```
847
+
848
+ #### MultipleNegativesRankingLoss
849
+ ```bibtex
850
+ @misc{henderson2017efficient,
851
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
852
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
853
+ year={2017},
854
+ eprint={1705.00652},
855
+ archivePrefix={arXiv},
856
+ primaryClass={cs.CL}
857
+ }
858
+ ```
859
+
860
+ <!--
861
+ ## Glossary
862
+
863
+ *Clearly define terms in order to be accessible across audiences.*
864
+ -->
865
+
866
+ <!--
867
+ ## Model Card Authors
868
+
869
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
870
+ -->
871
+
872
+ <!--
873
+ ## Model Card Contact
874
+
875
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
876
+ -->
config.json ADDED
@@ -0,0 +1,27 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "/content/drive/MyDrive/Colibri/Embedding/preprocessed_text_model",
3
+ "architectures": [
4
+ "BertModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "classifier_dropout": null,
8
+ "gradient_checkpointing": false,
9
+ "hidden_act": "gelu",
10
+ "hidden_dropout_prob": 0.1,
11
+ "hidden_size": 768,
12
+ "initializer_range": 0.02,
13
+ "intermediate_size": 3072,
14
+ "layer_norm_eps": 1e-12,
15
+ "max_position_embeddings": 512,
16
+ "model_type": "bert",
17
+ "num_attention_heads": 12,
18
+ "num_hidden_layers": 12,
19
+ "output_past": true,
20
+ "pad_token_id": 1,
21
+ "position_embedding_type": "absolute",
22
+ "torch_dtype": "float32",
23
+ "transformers_version": "4.44.2",
24
+ "type_vocab_size": 2,
25
+ "use_cache": true,
26
+ "vocab_size": 31002
27
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.1.1",
4
+ "transformers": "4.44.2",
5
+ "pytorch": "2.4.1+cu121"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": null
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:579e4b56124348bee77687de4e56925844d6b14bf8de8d7303f9d0dea07864d7
3
+ size 439425888
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,37 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cls_token": {
3
+ "content": "[CLS]",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "mask_token": {
10
+ "content": "[MASK]",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "pad_token": {
17
+ "content": "[PAD]",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "sep_token": {
24
+ "content": "[SEP]",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "unk_token": {
31
+ "content": "[UNK]",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ }
37
+ }
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json ADDED
@@ -0,0 +1,64 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "[MASK]",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "[PAD]",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "3": {
20
+ "content": "[UNK]",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "4": {
28
+ "content": "[CLS]",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "5": {
36
+ "content": "[SEP]",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "clean_up_tokenization_spaces": true,
45
+ "cls_token": "[CLS]",
46
+ "do_basic_tokenize": true,
47
+ "do_lower_case": false,
48
+ "mask_token": "[MASK]",
49
+ "max_length": 512,
50
+ "model_max_length": 512,
51
+ "never_split": null,
52
+ "pad_to_multiple_of": null,
53
+ "pad_token": "[PAD]",
54
+ "pad_token_type_id": 0,
55
+ "padding_side": "right",
56
+ "sep_token": "[SEP]",
57
+ "stride": 0,
58
+ "strip_accents": false,
59
+ "tokenize_chinese_chars": true,
60
+ "tokenizer_class": "BertTokenizer",
61
+ "truncation_side": "right",
62
+ "truncation_strategy": "longest_first",
63
+ "unk_token": "[UNK]"
64
+ }
vocab.txt ADDED
The diff for this file is too large to render. See raw diff