TTS_DATASET_MAKER

Sleeping

App Files Files Community

Omarrran commited on Nov 10, 2024

Commit

1d92b3b

verified ·

1 Parent(s): 18d6a1e

Update app.py

Browse files

Files changed (1) hide show

app.py +179 -24

app.py CHANGED Viewed

@@ -151,20 +151,27 @@ class TTSDatasetCollector:
             self.log_operation(error_msg, "error")
             logger.error(traceback.format_exc())
             return False, error_msg
-        def get_styled_text(self, text: str) -> str:
-    """Get text with current font styling"""
-    font_css = FONT_STYLES[self.current_font]['css']
-    return f"<div style='{font_css}'>{text}</div>"
-    def generate_filenames(self, dataset_name: str, speaker_id: str) -> Tuple[str, str]:
         """Generate unique filenames for audio and text files"""
         timestamp = datetime.now().strftime("%Y%m%d%H%M%S")
         sentence_id = f"{self.current_index+1:04d}"
         base_name = f"{dataset_name}_{speaker_id}_{sentence_id}_{timestamp}"
         return f"{base_name}.wav", f"{base_name}.txt"
     def save_recording(self, audio_file, speaker_id: str, dataset_name: str) -> Tuple[bool, str]:
         """Save recording with enhanced error handling and logging"""
         if not all([audio_file, speaker_id, dataset_name]):
@@ -293,6 +300,62 @@ Font_Style: {metadata['font_style']}
             self.log_operation(error_msg, "error")
             logger.error(traceback.format_exc())
 def create_interface():
     """Create Gradio interface with enhanced features"""
@@ -305,6 +368,14 @@ def create_interface():
         font-size: 1.2em !important;
         padding: 20px !important;
     }
     """
     # Add font-face declarations
@@ -346,21 +417,24 @@ def create_interface():
             # Right column - Recording
             with gr.Column():
                 current_text = gr.HTML(
-                    label="Current Sentence"
                 )
                 audio_recorder = gr.Audio(
                     label="Record Audio",
-                    type="filepath"
                 )
                 next_text = gr.HTML(
-                    label="Next Sentence"
                 )
         # Controls
         with gr.Row():
             prev_btn = gr.Button("Previous", variant="secondary")
-            next_btn = gr.Button("Next", variant="secondary")
-            save_btn = gr.Button("Save Recording", variant="primary")
         # Status and Progress
         with gr.Row():
@@ -387,7 +461,12 @@ def create_interface():
             if not success:
                 return {status: msg}
-            return update_display()
         def load_file(file):
             """Handle file loading with enhanced error reporting"""
@@ -396,7 +475,8 @@ def create_interface():
                     current_text: "",
                     next_text: "",
                     progress: "",
-                    status: "⚠️ No file selected"
                 }
             success, msg = collector.load_text_file(file)
@@ -406,30 +486,105 @@ def create_interface():
                     next_text: "",
                     progress: "",
                     status: f"❌ {msg}",
-                    dataset_info: update_dataset_info()
                 }
             return {
-                current_text: collector.get_styled_text(collector.sentences[0]),
-                next_text: collector.get_styled_text(collector.sentences[1]) if len(collector.sentences) > 1 else "",
-                progress: f"📖 Sentence 1 of {len(collector.sentences)}",
                 status: f"✅ {msg}",
-                dataset_info: update_dataset_info()
             }
-        # Remaining methods and event handlers go here ...
         return interface
 if __name__ == "__main__":
     try:
         interface = create_interface()
         interface.launch(
             server_name="0.0.0.0",
             server_port=7860,
-            share=True
         )
     except Exception as e:
         logger.error(f"Failed to launch interface: {str(e)}")
         logger.error(traceback.format_exc())
-        raise

             self.log_operation(error_msg, "error")
             logger.error(traceback.format_exc())
             return False, error_msg
+    def get_styled_text(self, text: str) -> str:
+        """Get text with current font styling"""
+        font_css = FONT_STYLES[self.current_font]['css']
+        return f"<div style='{font_css}'>{text}</div>"
+def generate_filenames(self, dataset_name: str, speaker_id: str) -> Tuple[str, str]:
         """Generate unique filenames for audio and text files"""
         timestamp = datetime.now().strftime("%Y%m%d%H%M%S")
         sentence_id = f"{self.current_index+1:04d}"
         base_name = f"{dataset_name}_{speaker_id}_{sentence_id}_{timestamp}"
         return f"{base_name}.wav", f"{base_name}.txt"
+    def set_font(self, font_style: str) -> Tuple[bool, str]:
+        """Set the current font style"""
+        if font_style not in FONT_STYLES:
+            return False, f"Invalid font style. Available styles: {', '.join(FONT_STYLES.keys())}"
+        self.current_font = font_style
+        return True, f"Font style set to {font_style}"
     def save_recording(self, audio_file, speaker_id: str, dataset_name: str) -> Tuple[bool, str]:
         """Save recording with enhanced error handling and logging"""
         if not all([audio_file, speaker_id, dataset_name]):
             self.log_operation(error_msg, "error")
             logger.error(traceback.format_exc())
+    def get_navigation_info(self) -> Dict[str, Optional[str]]:
+        """Get current and next sentence information"""
+        if not self.sentences:
+            return {
+                'current': None,
+                'next': None,
+                'progress': "No text loaded"
+            }
+        current = self.get_styled_text(self.sentences[self.current_index])
+        next_text = None
+        if self.current_index < len(self.sentences) - 1:
+            next_text = self.get_styled_text(self.sentences[self.current_index + 1])
+        progress = f"Sentence {self.current_index + 1} of {len(self.sentences)}"
+        return {
+            'current': current,
+            'next': next_text,
+            'progress': progress
+        }
+    def navigate(self, direction: str) -> Dict[str, Optional[str]]:
+        """Navigate through sentences"""
+        if not self.sentences:
+            return {
+                'current': None,
+                'next': None,
+                'progress': "No text loaded",
+                'status': "⚠️ Please load a text file first"
+            }
+        if direction == "next" and self.current_index < len(self.sentences) - 1:
+            self.current_index += 1
+        elif direction == "prev" and self.current_index > 0:
+            self.current_index -= 1
+        nav_info = self.get_navigation_info()
+        nav_info['status'] = "✅ Navigation successful"
+        return nav_info
+    def get_dataset_statistics(self) -> Dict:
+        """Get current dataset statistics"""
+        try:
+            metadata_file = self.root_path / 'metadata' / 'dataset_info.json'
+            if not metadata_file.exists():
+                return {}
+            with open(metadata_file, 'r') as f:
+                return json.load(f)
+        except Exception as e:
+            logger.error(f"Error reading dataset statistics: {str(e)}")
+            return {}
 def create_interface():
     """Create Gradio interface with enhanced features"""
         font-size: 1.2em !important;
         padding: 20px !important;
     }
+    .sentence-display {
+        font-size: 1.4em !important;
+        padding: 15px !important;
+        border: 1px solid #ddd !important;
+        border-radius: 8px !important;
+        margin: 10px 0 !important;
+        min-height: 100px !important;
+    }
     """
     # Add font-face declarations
             # Right column - Recording
             with gr.Column():
                 current_text = gr.HTML(
+                    label="Current Sentence",
+                    elem_classes=["sentence-display"]
                 )
                 audio_recorder = gr.Audio(
                     label="Record Audio",
+                    type="filepath",
+                    elem_classes=["record-button"]
                 )
                 next_text = gr.HTML(
+                    label="Next Sentence",
+                    elem_classes=["sentence-display"]
                 )
         # Controls
         with gr.Row():
             prev_btn = gr.Button("Previous", variant="secondary")
+            next_btn = gr.Button("Next", variant="primary")
+            save_btn = gr.Button("Save Recording", variant="primary", elem_classes=["record-button"])
         # Status and Progress
         with gr.Row():
             if not success:
                 return {status: msg}
+            nav_info = collector.get_navigation_info()
+            return {
+                current_text: nav_info['current'],
+                next_text: nav_info['next'],
+                status: f"Font updated to {font_style}"
+            }
         def load_file(file):
             """Handle file loading with enhanced error reporting"""
                     current_text: "",
                     next_text: "",
                     progress: "",
+                    status: "⚠️ No file selected",
+                    dataset_info: collector.get_dataset_statistics()
                 }
             success, msg = collector.load_text_file(file)
                     next_text: "",
                     progress: "",
                     status: f"❌ {msg}",
+                    dataset_info: collector.get_dataset_statistics()
                 }
+            nav_info = collector.get_navigation_info()
             return {
+                current_text: nav_info['current'],
+                next_text: nav_info['next'],
+                progress: nav_info['progress'],
                 status: f"✅ {msg}",
+                dataset_info: collector.get_dataset_statistics()
             }
+        def save_current_recording(audio_file, speaker_id_value, dataset_name_value):
+            """Handle saving the current recording"""
+            if not audio_file:
+                return {status: "⚠️ Please record audio first"}
+            success, msg = collector.save_recording(
+                audio_file, speaker_id_value, dataset_name_value
+            )
+            if not success:
+                return {
+                    status: f"❌ {msg}",
+                    dataset_info: collector.get_dataset_statistics()
+                }
+            # Auto-advance to next sentence after successful save
+            nav_info = collector.navigate("next")
+            return {
+                current_text: nav_info['current'],
+                next_text: nav_info['next'],
+                progress: nav_info['progress'],
+                status: f"✅ {msg}",
+                dataset_info: collector.get_dataset_statistics()
+            }
+        def navigate_sentences(direction):
+            """Handle navigation between sentences"""
+            nav_info = collector.navigate(direction)
+            return {
+                current_text: nav_info['current'],
+                next_text: nav_info['next'],
+                progress: nav_info['progress'],
+                status: nav_info['status']
+            }
+        # Event handlers
+        file_input.upload(
+            load_file,
+            inputs=[file_input],
+            outputs=[current_text, next_text, progress, status, dataset_info]
+        )
+        font_select.change(
+            update_font,
+            inputs=[font_select],
+            outputs=[current_text, next_text, status]
+        )
+        save_btn.click(
+            save_current_recording,
+            inputs=[audio_recorder, speaker_id, dataset_name],
+            outputs=[current_text, next_text, progress, status, dataset_info]
+        )
+        prev_btn.click(
+            lambda: navigate_sentences("prev"),
+            outputs=[current_text, next_text, progress, status]
+        )
+        next_btn.click(
+            lambda: navigate_sentences("next"),
+            outputs=[current_text, next_text, progress, status]
+        )
+        # Initialize dataset info
+        dataset_info.value = collector.get_dataset_statistics()
         return interface
 if __name__ == "__main__":
     try:
+        # Set up any required environment variables
+        os.environ["GRADIO_SERVER_NAME"] = "0.0.0.0"
+        os.environ["GRADIO_SERVER_PORT"] = "7860"
+        # Create and launch the interface
         interface = create_interface()
+        interface.queue()  # Enable queuing for better handling of concurrent users
         interface.launch(
             server_name="0.0.0.0",
             server_port=7860,
+            share=True,
+            debug=True,
+            show_error=True
         )
     except Exception as e:
         logger.error(f"Failed to launch interface: {str(e)}")
         logger.error(traceback.format_exc())
+        raise