Spaces:

AiKontent
/

voice_generator

Running

App Files Files Community

mrestrepo commited on Sep 4, 2024

Commit

b308ed7

1 Parent(s): 33c11bc

Update: Use TTS.API for voice generation

Browse files

Files changed (26) hide show

.gitattributes +1 -0
.gitignore +2 -0
app.py +27 -46
assets/bella/en/neutro_1.wav +3 -0
assets/bella/en/neutro_2.wav +3 -0
assets/bella/en/neutro_3.wav +3 -0
assets/julia/emocionada_1.wav +3 -0
assets/julia/emocionada_2_Final.wav +3 -0
assets/julia/enfadado_1_Final.wav +3 -0
assets/julia/enfadado_2_Final.wav +3 -0
assets/julia/enfadado_3_Final.wav +3 -0
assets/julia/neutro_4_Final_fast.wav +3 -0
assets/roomie/ref_1.wav +3 -0
assets/roomie/ref_10.wav +3 -0
assets/roomie/ref_11.wav +3 -0
assets/roomie/ref_12.wav +3 -0
assets/roomie/ref_6.wav +3 -0
assets/roomie/ref_7.wav +3 -0
assets/roomie/ref_8.wav +3 -0
assets/roomie/roomie_emocionado_base_1.wav +3 -0
assets/roomie/roomie_emocionado_base_2.wav +3 -0
assets/xavy/neutro_1.wav +3 -0
assets/xavy/neutro_2.wav +3 -0
assets/xavy/neutro_3.wav +3 -0
audios/file_audio_aa99e44b-8b91-4571-a73f-25a7b701b653.wav +0 -0
requirements.txt +197 -6

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+*.wav filter=lfs diff=lfs merge=lfs -text

.gitignore CHANGED Viewed

@@ -2,6 +2,8 @@
 output.wav
 /venv/
 venv/
 __pycache__/
 audios/

 output.wav
 /venv/
 venv/
+/.venv/
+.venv/
 __pycache__/
 audios/

app.py CHANGED Viewed

@@ -1,66 +1,46 @@
-import os
 import gradio as gr
 import uuid
 import requests
-import pathlib
-from elevenlabs.client import ElevenLabs, AsyncElevenLabs
-from elevenlabs import play, save, Voice, stream
-from dotenv import load_dotenv
 from datetime import timedelta
-from gcloud import storage
-load_dotenv()
-KEY_ELEVENLABS = os.getenv('ELEVENLABS_KEY')
 async def generate_audio(text_input: str, creator: str) -> str:
-    voice_id = ''
     match creator:
         case 'Roomie':
-            voice_id = '2Onew6n5JwT9uEbmTSrO'
         case 'Xavy':
-            voice_id = 'cYBsY94mzMC7VpGoVMgr'
         case 'Bella':
-            voice_id = 'X9j5sAaRD6aEgBblOUOG'
-    CLIENT_ELEVENLABS = ElevenLabs(api_key=KEY_ELEVENLABS)
-    VOICE_CREATOR = Voice(voice_id=voice_id)
-    CREDENTIALS_GCP = os.getenv("GOOGLE_APPLICATION_CREDENTIALS")
-    NAME_BUCKET = os.getenv("NAME_BUCKET")
-    unique_id = str(uuid.uuid4())
-    STORAGE_CLIENT = storage.Client.from_service_account_json(CREDENTIALS_GCP)
-    audio = CLIENT_ELEVENLABS.generate(
-        text=text_input,
-        voice=VOICE_CREATOR,
-        model="eleven_multilingual_v2"
-    )
-    source_audio_file_name = f'./audios/file_audio_{unique_id}.wav'
-    try:
-        save(audio, source_audio_file_name)
-    except Exception as e:
-        print(e)
-    destination_blob_name_audio = unique_id + '.wav'
-    bucket = STORAGE_CLIENT.bucket(NAME_BUCKET)
-    blob = bucket.blob(destination_blob_name_audio)
-    try:
-        blob.upload_from_filename(source_audio_file_name)
-    except Exception as e:
-        print(e)
-    try:
-        url_expiration = timedelta(minutes=15)
-        signed_url_audio = blob.generate_signed_url(expiration=url_expiration)
-    except Exception as e:
-        print(e)
     return gr.Audio(value=source_audio_file_name)
@@ -68,7 +48,8 @@ async def generate_audio(text_input: str, creator: str) -> str:
 app = gr.Interface(
     fn=generate_audio,
     inputs=[gr.Textbox(label='Text to Speach'), gr.Dropdown(
-        ['Roomie', 'Xavy', 'Bella'], label="Coice your creator")],
     outputs=['audio']
 )

 import gradio as gr
 import uuid
 import requests
 from datetime import timedelta
+from TTS.api import TTS
+import locale
+locale.getpreferredencoding = lambda: "UTF-8"
+tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)
+tts = TTS("xtts_v2.0.2", gpu=True)
 async def generate_audio(text_input: str, creator: str) -> str:
+    refer_voices = ''
+    unique_id = str(uuid.uuid4())
+    output_file = f'{unique_id}.wav'
     match creator:
         case 'Roomie':
+            refer_voices = ["./assets/roomie/roomie_emocionado_base_1.wav", "./assets/roomie/ref_12.wav", "./assets/roomie/ref_11.wav", "./assets/roomie/ref_10.wav",
+                            "./assets/roomie/ref_1.wav", "./assets/roomie/ref_6.wav", "./assets/roomie/ref_7.wav", "./assets/roomie/ref_8.wav", "./assets/roomie/roomie_emocionado_base_2.wav",]
         case 'Xavy':
+            refer_voices = ["./assets/xavy/neutro_3.wav",
+                            "./assets/xavy/neutro_1.wav", "./assets/xavy/neutro_2.wav"]
         case 'Bella':
+            refer_voices = ["./assets/bella/neutro_2.wav",
+                            "./assets/bella/neutro_1.wav", "./assets/bella/neutro_3.wav"]
+        case 'Julia':
+            refer_voices = ["assets/julia/neutro_4_Final_fast.wav", "assets/julia/enfadado_1_Final.wav", "assets/julia/enfadado_2_Final.wav",
+                            "assets/julia/enfadado_3_Final.wav", "assets/julia/emocionada_1.wav", "assets/julia/emocionada_2_Final.wav"]
+    tts.tts_to_file(text=text_input,
+                    file_path=output_file,
+                    speaker_wav=refer_voices,
+                    language="en",
+                    split_sentences=True,
+                    )
+    source_audio_file_name = output_file
     return gr.Audio(value=source_audio_file_name)
 app = gr.Interface(
     fn=generate_audio,
     inputs=[gr.Textbox(label='Text to Speach'), gr.Dropdown(
+        ['Roomie', 'Xavy', 'Bella', 'Julia'], label="Coice your creator")],
     outputs=['audio']
 )

assets/bella/en/neutro_1.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:98dc1a8dd3a2ba8e161689b7b57b71f97134878fd67c955293587c82b17f0d3e
+size 7845662

assets/bella/en/neutro_2.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:df483d6b4c938839f4cfb1be42dc06f3d31b1cdc742911aa7e774c765a50a543
+size 6258690

assets/bella/en/neutro_3.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a3ede7b64c845e13c86a5c7a42288edb0b65d0d6f8fe74ff1afcf2ab723da346
+size 5256176

assets/julia/emocionada_1.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fe37c7fa25dbfbc506a7499bb97c407fdd610731c7ca2b8ba8925212523d1729
+size 1658984

assets/julia/emocionada_2_Final.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:82c875ee37816301c854f68c87455b0912d81155841b05bbcd5ded572e8ebfe3
+size 1440008

assets/julia/enfadado_1_Final.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4acb29543f94308279d6f9b570bcbff6b27001e2352e2757aedb68816cf40b66
+size 1349096

assets/julia/enfadado_2_Final.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:583c19a521f2e92a6b131661e1a82cbe9e82e9e687eb58c1c6408f2c9bbc7c21
+size 1314194

assets/julia/enfadado_3_Final.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:101e941d79be49e530b81c973328974857227ddef1d9207bff41396fbfe49c4b
+size 1375176

assets/julia/neutro_4_Final_fast.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:601ff8eba95b1d6eb0bbea865cf0bef531d3ee846df86b72bf62ca5a0dfac9f1
+size 1164208

assets/roomie/ref_1.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:536a06686422eeef5cae532de4e8eeaf371b0156bf3965e8965978d09ad7898f
+size 2610862

assets/roomie/ref_10.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:62e43e0fd5a524b7ef4d0071c8e6d49052cf9deef9cfd700149ecc04393ec472
+size 3880742

assets/roomie/ref_11.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:04e017bf4772a3fff0a8550249bc1871d9f35be8ae41189af11d2c6228b7b3f5
+size 4156764

assets/roomie/ref_12.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3c5ecdc575c16e32f399f1739c8eb614a1225467ca179e2519dff4986ac6011f
+size 4897922

assets/roomie/ref_6.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f44787ce4f3c35180a07df2276a5aa02f033d5840497e8a88446abfd39e29f6a
+size 1073680

assets/roomie/ref_7.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ed002bfc9ce7f28e7f4d1784383983f81a9315e19dd6cc68e24d41f755fba8f7
+size 1046772

assets/roomie/ref_8.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2e0ea7f7d46ba0d676d2b7ecc411445993be4d44dd5c4ca4e8d62af0887259c0
+size 1091886

assets/roomie/roomie_emocionado_base_1.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:57b7c1003bf1d80f943cbf5646d93fdc81644e986e95cde658629532cc0d5f6d
+size 1941612

assets/roomie/roomie_emocionado_base_2.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f6f95ab42e4ca4f8e0b4a353f9bd1892d5fed41626bec212b0369e8fa048f002
+size 2073488

assets/xavy/neutro_1.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:05817d73012f2dd9be6b43873ccdc17619719b451e31c5f47e2412f77779921f
+size 4564004

assets/xavy/neutro_2.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8ec5a3ed875d08961e6bb81fcf9884882f2b8c27633dba427445e109ca0702d9
+size 5531872

assets/xavy/neutro_3.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8367089cd45b9aa1e68be518638a84fe26a03fbe0966d561dbe658de891536fc
+size 6015018

audios/file_audio_aa99e44b-8b91-4571-a73f-25a7b701b653.wav CHANGED Viewed

Binary files a/audios/file_audio_aa99e44b-8b91-4571-a73f-25a7b701b653.wav and b/audios/file_audio_aa99e44b-8b91-4571-a73f-25a7b701b653.wav differ

requirements.txt CHANGED Viewed

@@ -1,6 +1,197 @@
-requests==2.31.0
-pathlib==1.0.1
-python-dotenv==1.0.1
-gradio==4.15.0
-elevenlabs==1.1.2
-gcloud==0.18.3

+absl-py==2.1.0
+aiofiles==23.2.1
+aiohappyeyeballs==2.4.0
+aiohttp==3.10.5
+aiosignal==1.3.1
+annotated-types==0.7.0
+anyascii==0.3.2
+anyio==4.4.0
+asttokens==2.4.1
+attrs==24.2.0
+audioread==3.0.1
+babel==2.16.0
+backcall==0.2.0
+bangla==0.0.2
+beautifulsoup4==4.12.3
+bleach==6.1.0
+blinker==1.8.2
+blis==0.7.11
+bnnumerizer==0.0.2
+bnunicodenormalizer==0.1.7
+catalogue==2.0.10
+certifi==2024.8.30
+cffi==1.17.1
+charset-normalizer==3.3.2
+click==8.1.7
+cloudpathlib==0.19.0
+colorama==0.4.6
+confection==0.1.5
+contourpy==1.3.0
+coqpit==0.0.17
+cycler==0.12.1
+cymem==2.0.8
+Cython==3.0.11
+dateparser==1.1.8
+decorator==5.1.1
+defusedxml==0.7.1
+docopt==0.6.2
+einops==0.8.0
+encodec==0.1.1
+executing==2.1.0
+fastapi==0.112.2
+fastjsonschema==2.20.0
+ffmpy==0.4.0
+filelock==3.15.4
+Flask==3.0.3
+fonttools==4.53.1
+frozenlist==1.4.1
+fsspec==2024.9.0
+g2pkk==0.1.2
+gradio==4.42.0
+gradio_client==1.3.0
+grpcio==1.66.1
+gruut==2.2.3
+gruut-ipa==0.13.0
+gruut-lang-de==2.0.1
+gruut-lang-en==2.0.1
+gruut-lang-es==2.0.1
+gruut-lang-fr==2.0.2
+h11==0.14.0
+hangul-romanize==0.1.0
+httpcore==1.0.5
+httpx==0.27.2
+huggingface-hub==0.24.6
+idna==3.8
+importlib_resources==6.4.4
+inflect==7.3.1
+ipython==8.12.3
+itsdangerous==2.2.0
+jamo==0.4.1
+jedi==0.19.1
+jieba==0.42.1
+Jinja2==3.1.4
+joblib==1.4.2
+jsonlines==1.2.0
+jsonschema==4.23.0
+jsonschema-specifications==2023.12.1
+jupyter_client==8.6.2
+jupyter_core==5.7.2
+jupyterlab_pygments==0.3.0
+kiwisolver==1.4.7
+langcodes==3.4.0
+language_data==1.2.0
+lazy_loader==0.4
+librosa==0.10.2.post1
+llvmlite==0.43.0
+marisa-trie==1.2.0
+Markdown==3.7
+markdown-it-py==3.0.0
+MarkupSafe==2.1.5
+matplotlib==3.9.2
+matplotlib-inline==0.1.7
+mdurl==0.1.2
+mistune==3.0.2
+more-itertools==10.4.0
+mpmath==1.3.0
+msgpack==1.0.8
+multidict==6.0.5
+murmurhash==1.0.10
+nbclient==0.10.0
+nbconvert==7.16.4
+nbformat==5.10.4
+networkx==2.8.8
+nltk==3.9.1
+num2words==0.5.13
+numba==0.60.0
+numpy==1.26.4
+orjson==3.10.7
+packaging==24.1
+pandas==1.5.3
+pandocfilters==1.5.1
+parso==0.8.4
+pickleshare==0.7.5
+pillow==10.4.0
+pipreqs==0.5.0
+platformdirs==4.2.2
+pooch==1.8.2
+preshed==3.0.9
+prompt_toolkit==3.0.47
+protobuf==5.28.0
+psutil==6.0.0
+pure_eval==0.2.3
+pycparser==2.22
+pydantic==2.8.2
+pydantic_core==2.20.1
+pydub==0.25.1
+Pygments==2.18.0
+pynndescent==0.5.13
+pyparsing==3.1.4
+pypinyin==0.52.0
+pysbd==0.3.4
+python-crfsuite==0.9.10
+python-dateutil==2.9.0.post0
+python-multipart==0.0.9
+pytz==2024.1
+pywin32==306
+PyYAML==6.0.2
+pyzmq==26.2.0
+referencing==0.35.1
+regex==2024.7.24
+requests==2.32.3
+rich==13.8.0
+rpds-py==0.20.0
+ruff==0.6.3
+safetensors==0.4.4
+scikit-learn==1.5.1
+scipy==1.14.1
+semantic-version==2.10.0
+shellingham==1.5.4
+six==1.16.0
+smart-open==7.0.4
+sniffio==1.3.1
+soundfile==0.12.1
+soupsieve==2.6
+soxr==0.5.0.post1
+spacy==3.7.6
+spacy-legacy==3.0.12
+spacy-loggers==1.0.5
+srsly==2.4.8
+stack-data==0.6.3
+starlette==0.38.4
+SudachiDict-core==20240716
+SudachiPy==0.6.8
+sympy==1.12
+tensorboard==2.17.1
+tensorboard-data-server==0.7.2
+thinc==8.2.5
+threadpoolctl==3.5.0
+tinycss2==1.3.0
+tokenizers==0.19.1
+tomlkit==0.12.0
+torch==2.4.1+cu118
+torchaudio==2.4.1+cu118
+torchvision==0.19.1+cu118
+tornado==6.4.1
+tqdm==4.66.5
+trainer==0.0.36
+traitlets==5.14.3
+transformers==4.44.2
+TTS==0.22.0
+typeguard==4.3.0
+typer==0.12.5
+typing_extensions==4.12.2
+tzdata==2024.1
+tzlocal==5.2
+umap-learn==0.5.6
+Unidecode==1.3.8
+urllib3==2.2.2
+uvicorn==0.30.6
+wasabi==1.1.3
+wcwidth==0.2.13
+weasel==0.4.1
+webencodings==0.5.1
+websockets==12.0
+Werkzeug==3.0.4
+wrapt==1.16.0
+yarg==0.1.9
+yarl==1.9.9