Upload folder using huggingface_hub

Browse files

Files changed (4) hide show

README.md +14 -9
config.json +79 -86
model.safetensors +2 -2
pytorch_model.bin +2 -2

README.md CHANGED Viewed

@@ -1,24 +1,25 @@
 ---
-language: gn
 tags:
 - guarani
-- tts
 - speech
 - vits
 license: mit
-datasets:
-- mozilla-foundation/common_voice_11_0
 ---
-# Guarani VITS TTS Model
-This is a Text-to-Speech model for the Guarani language, based on the VITS architecture.
 ## Model Description
-This model is designed for Guarani text-to-speech synthesis, utilizing the VITS architecture. It can generate natural-sounding speech from Guarani text input.
 ## Usage
 ```python
 from transformers import VitsModel, AutoTokenizer
 import torch
@@ -26,9 +27,13 @@ import torch
 model = VitsModel.from_pretrained("joselobenitezg/mms-grn-tts")
 tokenizer = AutoTokenizer.from_pretrained("joselobenitezg/mms-grn-tts")
-text = "mba'eichapa"
 inputs = tokenizer(text, return_tensors="pt")
 with torch.no_grad():
-    output = model.generate(**inputs)
 ```

 ---
+language:
+- grn
 tags:
 - guarani
+- text-to-speech
 - speech
+- audio
 - vits
 license: mit
 ---
+# MMS-TTS Guarani Model
+This is a VITS-based text-to-speech model for the Guarani language, based on the MMS-TTS architecture.
 ## Model Description
+This model can generate speech from Guarani text input using the VITS architecture.
 ## Usage
 ```python
 from transformers import VitsModel, AutoTokenizer
 import torch
 model = VitsModel.from_pretrained("joselobenitezg/mms-grn-tts")
 tokenizer = AutoTokenizer.from_pretrained("joselobenitezg/mms-grn-tts")
+text = "some example text in the Guarani language"
 inputs = tokenizer(text, return_tensors="pt")
 with torch.no_grad():
+    output = model(**inputs).waveform
+# Save the output as a wav file
+import scipy
+scipy.io.wavfile.write("output.wav", rate=model.config.sampling_rate, data=output)
 ```

config.json CHANGED Viewed

@@ -1,90 +1,83 @@
 {
-  "activation_dropout": 0.1,
-  "architectures": [
-    "VitsModel"
-  ],
-  "attention_dropout": 0.1,
-  "depth_separable_channels": 2,
-  "depth_separable_num_layers": 3,
-  "duration_predictor_dropout": 0.5,
-  "duration_predictor_filter_channels": 256,
-  "duration_predictor_flow_bins": 10,
-  "duration_predictor_kernel_size": 3,
-  "duration_predictor_num_flows": 4,
-  "duration_predictor_tail_bound": 5.0,
-  "ffn_dim": 768,
-  "ffn_kernel_size": 3,
-  "flow_size": 192,
-  "hidden_act": "relu",
-  "hidden_dropout": 0.1,
-  "hidden_size": 192,
-  "initializer_range": 0.02,
-  "layer_norm_eps": 1e-05,
-  "layerdrop": 0.1,
-  "leaky_relu_slope": 0.1,
-  "model_type": "vits",
-  "noise_scale": 0.667,
-  "noise_scale_duration": 0.8,
-  "num_attention_heads": 2,
-  "num_hidden_layers": 6,
-  "num_speakers": 1,
-  "posterior_encoder_num_wavenet_layers": 16,
-  "prior_encoder_num_flows": 4,
-  "prior_encoder_num_wavenet_layers": 4,
-  "resblock_dilation_sizes": [
-    [
-      1,
-      3,
-      5
     ],
-    [
-      1,
-      3,
-      5
     ],
-    [
-      1,
       3,
-      5
-    ]
-  ],
-  "resblock_kernel_sizes": [
-    3,
-    7,
-    11
-  ],
-  "sampling_rate": 16000,
-  "speaker_embedding_size": 0,
-  "speaking_rate": 1.0,
-  "spectrogram_bins": 513,
-  "torch_dtype": "float32",
-  "transformers_version": "4.28.0",
-  "upsample_initial_channel": 512,
-  "upsample_kernel_sizes": [
-    16,
-    16,
-    4,
-    4
-  ],
-  "upsample_rates": [
-    8,
-    8,
-    2,
-    2
-  ],
-  "use_bias": true,
-  "use_stochastic_duration_prediction": true,
-  "vocab_size": 53,
-  "wavenet_dilation_rate": 1,
-  "wavenet_dropout": 0.0,
-  "wavenet_kernel_size": 5,
-  "window_size": 4,
-  "is_encoder_decoder": true,
-  "intermediate_size": 768,
-  "max_position_embeddings": 2048,
-  "pad_token_id": 0,
-  "bos_token_id": 1,
-  "eos_token_id": 2,
-  "model_id": "mms-grn-tts",
-  "task": "text-to-speech"
-}

 {
+    "activation_dropout": 0.1,
+    "architectures": [
+      "VitsModel"
     ],
+    "attention_dropout": 0.1,
+    "depth_separable_channels": 2,
+    "depth_separable_num_layers": 3,
+    "duration_predictor_dropout": 0.5,
+    "duration_predictor_filter_channels": 256,
+    "duration_predictor_flow_bins": 10,
+    "duration_predictor_kernel_size": 3,
+    "duration_predictor_num_flows": 4,
+    "duration_predictor_tail_bound": 5.0,
+    "ffn_dim": 768,
+    "ffn_kernel_size": 3,
+    "flow_size": 192,
+    "hidden_act": "relu",
+    "hidden_dropout": 0.1,
+    "hidden_size": 192,
+    "initializer_range": 0.02,
+    "layer_norm_eps": 1e-05,
+    "layerdrop": 0.1,
+    "leaky_relu_slope": 0.1,
+    "model_type": "vits",
+    "noise_scale": 0.667,
+    "noise_scale_duration": 0.8,
+    "num_attention_heads": 2,
+    "num_hidden_layers": 6,
+    "num_speakers": 1,
+    "posterior_encoder_num_wavenet_layers": 16,
+    "prior_encoder_num_flows": 4,
+    "prior_encoder_num_wavenet_layers": 4,
+    "resblock_dilation_sizes": [
+      [
+        1,
+        3,
+        5
+      ],
+      [
+        1,
+        3,
+        5
+      ],
+      [
+        1,
+        3,
+        5
+      ]
     ],
+    "resblock_kernel_sizes": [
       3,
+      7,
+      11
+    ],
+    "sampling_rate": 16000,
+    "speaker_embedding_size": 0,
+    "speaking_rate": 1.0,
+    "spectrogram_bins": 513,
+    "torch_dtype": "float32",
+    "transformers_version": "4.33.0.dev0",
+    "upsample_initial_channel": 512,
+    "upsample_kernel_sizes": [
+      16,
+      16,
+      4,
+      4
+    ],
+    "upsample_rates": [
+      8,
+      8,
+      2,
+      2
+    ],
+    "use_bias": true,
+    "use_stochastic_duration_prediction": true,
+    "vocab_size": 53,
+    "wavenet_dilation_rate": 1,
+    "wavenet_dropout": 0.0,
+    "wavenet_kernel_size": 5,
+    "window_size": 4
+  }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:98571fe9308634639b03be782aa1a52d1064ea2b361f78f149474a2482541fdc
-size 145280528

 version https://git-lfs.github.com/spec/v1
+oid sha256:df93b9c09021ca6ca0c523dd592c6dda97ab201f1396ff4f0ab8beeee86702d2
+size 145242200

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:22c37f591dc560adb1ff8267b95cbd8a1285e1ba35fc522540a6591a83e83b81
-size 145458210

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e965dedf44e12b1cd1f0d8cd0c6e3e3e483dce2b83886a503f539711491e850
+size 145452018