Spaces:

bziiit
/

RAG-EC-Campagne-N1.1

Sleeping

App Files Files Community

LaurentTRIPIED commited on Mar 31, 2024

Commit

e466f0b

verified ·

1 Parent(s): c010f77

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -18

app.py CHANGED Viewed

@@ -1,38 +1,55 @@
 import PyPDF2
 import json
 def extract_text_from_pdf(pdf_path):
-    """
-    Extrait le texte de chaque page du fichier PDF spécifié et retourne
-    une liste de dictionnaires avec le numéro de page et le texte.
-    :param pdf_path: Chemin vers le fichier PDF à lire.
-    :return: Liste de dictionnaires contenant le numéro de page et le texte extrait.
-    """
     text = []
     with open(pdf_path, 'rb') as file:
         pdf_reader = PyPDF2.PdfReader(file)
-        # Utilisation de l'index de la boucle pour obtenir le numéro de page
         for i, page in enumerate(pdf_reader.pages):
             text.append({"page": i + 1, "text": page.extract_text()})
     return text
 def save_text_to_json(data, output_file):
-    """
-    Sauvegarde les données fournies dans un fichier JSON.
-    :param data: Données à sauvegarder (liste de dictionnaires).
-    :param output_file: Chemin du fichier JSON de sortie.
-    """
     with open(output_file, 'w', encoding='utf-8') as f:
         json.dump(data, f, ensure_ascii=False, indent=4)
 # Chemin vers le fichier PDF et le fichier JSON de sortie
 pdf_path = 'data/07-VF2_UDM_Oneframe_A4-2023.pdf'
 json_output_path = 'data/extracted_text.json'
-# Exécution des fonctions pour extraire le texte et sauvegarder en JSON
-pdf_text = extract_text_from_pdf(pdf_path)
-save_text_to_json(pdf_text, json_output_path)
-print(f"Le texte a été extrait et sauvegardé dans {json_output_path}")

+import streamlit as st
 import PyPDF2
 import json
+# Fonction pour extraire le texte du PDF
 def extract_text_from_pdf(pdf_path):
     text = []
     with open(pdf_path, 'rb') as file:
         pdf_reader = PyPDF2.PdfReader(file)
         for i, page in enumerate(pdf_reader.pages):
             text.append({"page": i + 1, "text": page.extract_text()})
     return text
+# Fonction pour sauvegarder le texte dans un fichier JSON
 def save_text_to_json(data, output_file):
     with open(output_file, 'w', encoding='utf-8') as f:
         json.dump(data, f, ensure_ascii=False, indent=4)
+# Fonction pour afficher le contenu du fichier JSON
+def display_json_contents(file_path):
+    try:
+        with open(file_path, 'r', encoding='utf-8') as f:
+            data = json.load(f)
+            st.write(data)
+    except FileNotFoundError:
+        st.error(f"Le fichier {file_path} n'a pas été trouvé.")
+# Interface Streamlit
+st.title("Extracteur de Texte PDF et Sauvegarde en JSON")
 # Chemin vers le fichier PDF et le fichier JSON de sortie
 pdf_path = 'data/07-VF2_UDM_Oneframe_A4-2023.pdf'
 json_output_path = 'data/extracted_text.json'
+# Bouton pour lancer l'extraction et la sauvegarde
+if st.button('Extraire le texte du PDF et sauvegarder en JSON'):
+    pdf_text = extract_text_from_pdf(pdf_path)
+    save_text_to_json(pdf_text, json_output_path)
+    st.success("Le texte a été extrait et sauvegardé.")
+# Bouton pour afficher le contenu du fichier JSON
+if st.button('Afficher le contenu JSON'):
+    display_json_contents(json_output_path)
+# Option pour télécharger le fichier JSON
+try:
+    with open(json_output_path, 'r', encoding='utf-8') as f:
+        download = st.download_button(
+            label="Télécharger le JSON",
+            data=f,
+            file_name="extracted_text.json",
+            mime="application/json"
+        )
+except FileNotFoundError:
+    st.error(f"Le fichier {json_output_path} n'est pas disponible pour téléchargement.")