mrm8488
/

modernbert-embed-base-ft-sts-spanish-matryoshka-768-64

@@ -46,8 +46,6 @@ widget:
   - Un gato está mirando hacia la cámara también.
   - '"Sí, no deseo estar presente durante este testimonio", declaró tranquilamente
     Peterson, de 31 años, al juez cuando fue devuelto a su celda.'
-datasets:
-- clibrain/stsb_multi_es_aug_gpt3.5-turbo_2
 pipeline_tag: sentence-similarity
 library_name: sentence-transformers
 metrics:
@@ -190,7 +188,7 @@ model-index:
 # SentenceTransformer based on nomic-ai/modernbert-embed-base
-This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [nomic-ai/modernbert-embed-base](https://huggingface.co/nomic-ai/modernbert-embed-base) on the [stsb_multi_es_aug_gpt3.5-turbo_2](https://huggingface.co/datasets/clibrain/stsb_multi_es_aug_gpt3.5-turbo_2) dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
 ## Model Details
@@ -201,9 +199,7 @@ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [n
 - **Output Dimensionality:** 768 dimensions
 - **Similarity Function:** Cosine Similarity
 - **Training Dataset:**
-    - [stsb_multi_es_aug_gpt3.5-turbo_2](https://huggingface.co/datasets/clibrain/stsb_multi_es_aug_gpt3.5-turbo_2)
-<!-- - **Language:** Unknown -->
-<!-- - **License:** Unknown -->
 ### Model Sources
@@ -307,9 +303,8 @@ You can finetune this model on your own dataset.
 ### Training Dataset
-#### stsb_multi_es_aug_gpt3.5-turbo_2
-* Dataset: [stsb_multi_es_aug_gpt3.5-turbo_2](https://huggingface.co/datasets/clibrain/stsb_multi_es_aug_gpt3.5-turbo_2) at [3567b77](https://huggingface.co/datasets/clibrain/stsb_multi_es_aug_gpt3.5-turbo_2/tree/3567b77024bc5cc6372e058c9f05107deb361664)
 * Size: 2,697 training samples
 * Columns: <code>sentence1</code>, <code>sentence2</code>, and <code>score</code>
 * Approximate statistics based on the first 1000 samples:
@@ -347,9 +342,8 @@ You can finetune this model on your own dataset.
 ### Evaluation Dataset
-#### stsb_multi_es_aug_gpt3.5-turbo_2
-* Dataset: [stsb_multi_es_aug_gpt3.5-turbo_2](https://huggingface.co/datasets/clibrain/stsb_multi_es_aug_gpt3.5-turbo_2) at [3567b77](https://huggingface.co/datasets/clibrain/stsb_multi_es_aug_gpt3.5-turbo_2/tree/3567b77024bc5cc6372e058c9f05107deb361664)
 * Size: 697 evaluation samples
 * Columns: <code>sentence1</code>, <code>sentence2</code>, and <code>score</code>
 * Approximate statistics based on the first 697 samples:

   - Un gato está mirando hacia la cámara también.
   - '"Sí, no deseo estar presente durante este testimonio", declaró tranquilamente
     Peterson, de 31 años, al juez cuando fue devuelto a su celda.'
 pipeline_tag: sentence-similarity
 library_name: sentence-transformers
 metrics:
 # SentenceTransformer based on nomic-ai/modernbert-embed-base
+This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [nomic-ai/modernbert-embed-base](https://huggingface.co/nomic-ai/modernbert-embed-base) on the stsb_multi_es_augmented (private) dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
 ## Model Details
 - **Output Dimensionality:** 768 dimensions
 - **Similarity Function:** Cosine Similarity
 - **Training Dataset:**
+    - Private stsb dataset
 ### Model Sources
 ### Training Dataset
+#### stsb_multi_es_augmented (private)
 * Size: 2,697 training samples
 * Columns: <code>sentence1</code>, <code>sentence2</code>, and <code>score</code>
 * Approximate statistics based on the first 1000 samples:
 ### Evaluation Dataset
+#### stsb_multi_es_augmented (private)
 * Size: 697 evaluation samples
 * Columns: <code>sentence1</code>, <code>sentence2</code>, and <code>score</code>
 * Approximate statistics based on the first 697 samples: