Spaces:

WillHeld
/

diva-audio

Running on Zero

App Files Files Community

WillHeld commited on Dec 19, 2024

Commit

f7e8ea0

0 Parent(s):

Try Starting Space from Scratch

Browse files

Files changed (7) hide show

.gitattributes +35 -0
.gitignore +2 -0
README.md +13 -0
app.py +213 -0
files.txt +0 -0
packages.txt +1 -0
requirements.txt +5 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

.gitignore ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ __pycache__
2	+ user_study.json

README.md ADDED Viewed

	@@ -0,0 +1,13 @@

+---
+title: Diva Audio
+emoji: 🔊
+colorFrom: gray
+colorTo: red
+sdk: gradio
+sdk_version: 5.9.1
+app_file: app.py
+pinned: false
+license: mpl-2.0
+---
+An example chatbot using [Gradio](https://gradio.app), [`huggingface_hub`](https://huggingface.co/docs/huggingface_hub/v0.22.2/en/index), and the [Hugging Face Inference API](https://huggingface.co/docs/api-inference/index).

app.py ADDED Viewed

	@@ -0,0 +1,213 @@

+import copy
+import os
+import random
+import sys
+import xxhash
+import gradio as gr
+import librosa
+import numpy as np
+import soundfile as sf
+import torch
+import torch.nn.functional as F
+from accelerate import infer_auto_device_map
+from datasets import Audio
+from safetensors.torch import load, load_model
+import spaces
+from torch import nn
+from transformers import (
+    AutoModelForCausalLM,
+    AutoProcessor,
+    AutoTokenizer,
+    LlamaForCausalLM,
+    TextIteratorStreamer,
+    WhisperForConditionalGeneration,
+    AutoProcessor,
+    AutoModel,
+)
+from transformers.generation import GenerationConfig
+anonymous = False
+diva_model = AutoModel.from_pretrained(
+    "WillHeld/DiVA-llama-3-v0-8b", trust_remote_code=True
+)
+resampler = Audio(sampling_rate=16_000)
+@spaces.GPU
+@torch.no_grad
+def diva_audio(audio_input, do_sample=False, temperature=0.001):
+    sr, y = audio_input
+    x = xxhash.xxh32(bytes(y)).hexdigest()
+    y = y.astype(np.float32)
+    y /= np.max(np.abs(y))
+    a = resampler.decode_example(
+        resampler.encode_example({"array": y, "sampling_rate": sr})
+    )
+    yield from diva_model.generate_stream(
+        a["array"], None, do_sample=do_sample, max_new_tokens=256
+    )
+def transcribe_wrapper(audio_input, state, model_order):
+    spinner = "◒"
+    d_resp = gr.Textbox(
+        value="♫♪.ılılıll|̲̅̅●̲̅̅|̲̅̅=̲̅̅|̲̅̅●̲̅̅|llılılı.♫♪loading♫♪.ılılıll|̲̅̅●̲̅̅|̲̅̅=̲̅̅|̲̅̅●̲̅̅|llılılı.♫♪loading♫♪.ılılıll|̲̅̅●̲̅̅|̲̅̅=̲̅̅|̲̅̅●̲̅̅|llılılı.♫♪♫♪",
+        visible=True,
+        label=model_names[0] if not anonymous else f"Model {order}",
+    )
+    yield (
+        gr.Button(
+            value="Loading Weights onto ZeroGPU...",
+            interactive=False,
+            variant="primary",
+        ),
+        d_resp,
+        state,
+    )
+    yield from transcribe(audio_input, state, model_order)
+@spaces.GPU
+def transcribe(audio_input, state, model_order):
+    if audio_input == None:
+        return (
+            "Click to run inference!",
+            "",
+            state,
+        )
+    def gen_from_diva():
+        diva_resp = diva_audio(audio_input)
+        for resp in diva_resp:
+            d_resp = gr.Textbox(
+                value=resp,
+                visible=True,
+                label=model_names[0] if not anonymous else f"Model {order}",
+            )
+            yield d_resp
+    spinner_id = 0
+    spinners = ["◐ ", "◓ ", "◑", "◒"]
+    for response in gen_from_diva():
+        spinner = spinners[spinner_id]
+        spinner_id = (spinner_id + 1) % 4
+        yield (
+            gr.Button(
+                value=spinner + " Generating Responses " + spinner,
+                interactive=False,
+                variant="primary",
+            ),
+            response,
+            state,
+        )
+    yield (
+        gr.Button(value="Click to run inference!", interactive=True, variant="primary"),
+        response,
+        state,
+    )
+def on_page_load(state, model_order):
+    if state == 0:
+        gr.Info(
+            "Record something you'd say to an AI Assistant! Think about what you usually use Siri, Google Assistant, or ChatGPT for."
+        )
+        state = 1
+        if anonymous:
+            random.shuffle(model_order)
+    return state, model_order
+def recording_complete(state):
+    if state == 1:
+        gr.Info(
+            "Once you submit your recording, DiVA will stream back a response! This might take a second as ZeroGPU needs to load model weights into vRAM!."
+        )
+        state = 2
+    return (
+        gr.Button(value="Click to run inference!", interactive=True, variant="primary"),
+        state,
+    )
+def clear_factory(button_id):
+    def clear(audio_input, model_order):
+        return (
+            model_order,
+            gr.Button(
+                value="Record Audio to Submit!",
+                interactive=False,
+            ),
+            None,
+            None,
+        )
+    return clear
+theme = gr.themes.Soft(
+    primary_hue=gr.themes.Color(
+        c100="#82000019",
+        c200="#82000033",
+        c300="#8200004c",
+        c400="#82000066",
+        c50="#8200007f",
+        c500="#8200007f",
+        c600="#82000099",
+        c700="#820000b2",
+        c800="#820000cc",
+        c900="#820000e5",
+        c950="#820000f2",
+    ),
+    secondary_hue="rose",
+    neutral_hue="stone",
+)
+model_names = ["DiVA Llama 3 8B"]
+model_shorthand = ["diva"]
+with gr.Blocks(theme=theme) as demo:
+    state = gr.State(0)
+    model_order = gr.State([0, 1])
+    with gr.Row():
+        audio_input = gr.Audio(
+            sources=["microphone"], streaming=False, label="Audio Input"
+        )
+    with gr.Row():
+        btn = gr.Button(value="Record Audio to Submit!", interactive=False)
+    with gr.Row():
+        out1 = gr.Textbox(visible=False)
+    audio_input.stop_recording(
+        recording_complete,
+        [state],
+        [btn, state],
+    )
+    audio_input.start_recording(
+        lambda: gr.Button(
+            value="Uploading Audio to Cloud", interactive=False, variant="primary"
+        ),
+        None,
+        btn,
+    )
+    btn.click(
+        fn=transcribe_wrapper,
+        inputs=[audio_input, state, model_order],
+        outputs=[btn, out1, state],
+    )
+    audio_input.clear(
+        clear_factory(None),
+        [audio_input, model_order],
+        [model_order, btn, audio_input, out1],
+    )
+    demo.load(
+        fn=on_page_load, inputs=[state, model_order], outputs=[state, model_order]
+    )
+demo.launch(share=True)

files.txt ADDED Viewed

File without changes

packages.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ ffmpeg

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+transformers==4.45.2
+accelerate
+peft
+librosa
+torchaudio