ANALYSE_AGENT

Running

@@ -3,6 +3,13 @@ import numpy as np
 import scipy.io.wavfile as wavfile
 from pydub import AudioSegment
 import io
 # Function to calculate SNR
 def calculate_snr(audio_data):
@@ -14,15 +21,21 @@ def calculate_snr(audio_data):
     return snr
 # Function to evaluate audio quality
-def evaluate_audio_quality(file):
     audio = AudioSegment.from_file(file)
     audio_data = np.array(audio.get_array_of_samples())
     # Calculate volume
     volume = audio.dBFS
     # Calculate SNR
     snr = calculate_snr(audio_data)
-    return volume, snr

 import scipy.io.wavfile as wavfile
 from pydub import AudioSegment
 import io
+import tiktoken
+from transcript_audio import transcript_audio
+def count_tokens(input_string: str) -> int:
+    tokenizer = tiktoken.get_encoding("cl100k_base")
+    tokens = tokenizer.encode(input_string)
+    return len(tokens)
 # Function to calculate SNR
 def calculate_snr(audio_data):
     return snr
 # Function to evaluate audio quality
+def evaluate_audio_quality(file) -> dict:
     audio = AudioSegment.from_file(file)
     audio_data = np.array(audio.get_array_of_samples())
+    #number of minutes
+    duration = len(audio_data) / audio.frame_rate / 60
     # Calculate volume
     volume = audio.dBFS
     # Calculate SNR
     snr = calculate_snr(audio_data)
+    #get the transcription of the audio
+    transcription = transcript_audio(file)
+    return {"volume": volume, "SNR": snr,"transcription": transcription,"number_of_tokens": count_tokens(transcription),"duration": duration}

utils/audit/transcript_audio.py ADDED Viewed

+from openai import OpenAI
+client = OpenAI()
+def transcript_audio(audio_file):
+    transcription = client.audio.transcriptions.create(
+        model="whisper",
+        file=audio_file
+    )
+    return transcription.text