SucheRAG

Sleeping

App Files Files Community

alexkueck commited on Jul 6, 2024

Commit

1773910

verified ·

1 Parent(s): ce120c3

Update app.py

Browse files

Files changed (1) hide show

app.py +47 -47

app.py CHANGED Viewed

@@ -7,6 +7,8 @@ import io
 #from PIL import Image, ImageDraw, ImageOps, ImageFont
 #import base64
 import tempfile
 from PyPDF2 import PdfReader, PdfWriter
@@ -270,6 +272,8 @@ def generate_text (prompt, chatbot, history, retriever, top_p=0.6, temperature=0
 ##############################################################
 #Eingaben der GUI verarbeiten
 def generate_auswahl(prompt_in, file, file_history, chatbot, history, anzahl_docs=4, top_p=0.6, temperature=0.5, max_new_tokens=4048, max_context_length_tokens=2048, repetition_penalty=1.3,top_k=5,  validate=False):
@@ -288,43 +292,42 @@ def generate_auswahl(prompt_in, file, file_history, chatbot, history, anzahl_doc
         if vektordatenbank is None:
             print("db neu aufbauen!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!1")
             #Splits zu allen Dokumenten in den Verzeichnissen erstellen
-            PREPROCESSED_SPLITS, SPLIT_TO_ORIGINAL_MAPPING = document_loading_splitting()
-            if PREPROCESSED_SPLITS:
-                #Vektordatenbank zu den Splits erstellen
-                vektordatenbank = document_storage_chroma(PREPROCESSED_SPLITS)
-                # Speichern des Vektorstores
-                save_vectorstore(vektordatenbank)
-        #Retriever erstellen, um die relevanten Slpits zu einem Prompt zu suchen.... (retrieven)
-        retriever = vektordatenbank.as_retriever(search_kwargs = {"k": ANZAHL_DOCS})
-        #kein Bild hochgeladen -> auf Text antworten...
-        status = "Antwort der Vektordatenbank"
-        results, status = generate_text(prompt, chatbot, history, retriever, top_p=0.6, temperature=0.5, max_new_tokens=4048, max_context_length_tokens=2048, repetition_penalty=1.3, top_k=3)
-        #in results sind die preprocessed Splits enthalten, dargestellt werden sollen die orginalen:
-        relevant_docs_org=[]
-        for result in results['relevant_docs']:
-            split_id = result.get("metadata", {}).get("split_id")
-            if split_id:
-                original_split = SPLIT_TO_ORIGINAL_MAPPING[split_id]
-                relevant_docs_org.append(original_split)
-        relevant_docs = extract_document_info(relevant_docs_org)
-        #Ergebnisse für history und chatbot zusammenstellen
-        summary =  str(results['answer']) + "\n\n<b>Auszüge dazu: </b>"
-        summary += " ".join([
-            '<div><b>Dokument/Link: </b> <span style="color: #BB70FC;"><a href="' + str(doc['download_link']) + '" target="_blank">' + str(doc['titel']) + '</a></span>'
-            '(<b>Seite:</span> <span style="color: red;">' + str(doc['seite']) + '</b></span>)<br>'
-            '<span><b>Auschnitt:</b> ' + str(doc["content"]) + '</span></div><br>'
-            #'<div><span><b>Link: </b><span style="color: #BB70FC;"><a href="' + str(doc['download_link']) + '" target="_blank">' + str(doc['titel']) + '</a></span></div><br>'
-            for doc in relevant_docs])
-        history = history + [[prompt_in, summary]]
-        chatbot[-1][1] = summary
-        return chatbot, history, None, file_history, ""
     else: #noch nicht validiert, oder kein Prompt
@@ -335,9 +338,6 @@ def generate_auswahl(prompt_in, file, file_history, chatbot, history, anzahl_doc
 def upload_pdf(file):
     if file is None:
         return None, "Keine Datei hochgeladen."
-    else:
-        #damit bei neuer suche die Vektordatenbank neu initialisiert wird
-        vektordatenbank = None
     # Extrahieren des Dateinamens aus dem vollen Pfad
     filename = os.path.basename(file.name)
@@ -353,13 +353,13 @@ def upload_pdf(file):
         upload_path = f"chroma/kkg/{filename}"
     # Datei zum Hugging Face Space hochladen
-    api.upload_file(
-        path_or_fileobj=file.name,
-        path_in_repo=upload_path,
-        repo_id=REPO_ID,
-        repo_type=REPO_TYPE,
-        token=HF_WRITE
-    )
     return f"PDF '{filename}' erfolgreich hochgeladen."
 ########################################

 #from PIL import Image, ImageDraw, ImageOps, ImageFont
 #import base64
 import tempfile
+import asyncio
+from concurrent.futures import ThreadPoolExecutor
 from PyPDF2 import PdfReader, PdfWriter
 ##############################################################
 #Eingaben der GUI verarbeiten
 def generate_auswahl(prompt_in, file, file_history, chatbot, history, anzahl_docs=4, top_p=0.6, temperature=0.5, max_new_tokens=4048, max_context_length_tokens=2048, repetition_penalty=1.3,top_k=5,  validate=False):
         if vektordatenbank is None:
             print("db neu aufbauen!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!1")
             #Splits zu allen Dokumenten in den Verzeichnissen erstellen
+            vektordatenbank = create_vektorstore()
+        if vektordatenbank:
+            #Retriever erstellen, um die relevanten Slpits zu einem Prompt zu suchen.... (retrieven)
+            retriever = vektordatenbank.as_retriever(search_kwargs = {"k": ANZAHL_DOCS})
+            #kein Bild hochgeladen -> auf Text antworten...
+            status = "Antwort der Vektordatenbank"
+            results, status = generate_text(prompt, chatbot, history, retriever, top_p=0.6, temperature=0.5, max_new_tokens=4048, max_context_length_tokens=2048, repetition_penalty=1.3, top_k=3)
+            #in results sind die preprocessed Splits enthalten, dargestellt werden sollen die orginalen:
+            relevant_docs_org=[]
+            for result in results['relevant_docs']:
+                split_id = result.get("metadata", {}).get("split_id")
+                if split_id:
+                    original_split = SPLIT_TO_ORIGINAL_MAPPING[split_id]
+                    relevant_docs_org.append(original_split)
+            relevant_docs = extract_document_info(relevant_docs_org)
+            #Ergebnisse für history und chatbot zusammenstellen
+            summary =  str(results['answer']) + "\n\n<b>Auszüge dazu: </b>"
+            summary += " ".join([
+                '<div><b>Dokument/Link: </b> <span style="color: #BB70FC;"><a href="' + str(doc['download_link']) + '" target="_blank">' + str(doc['titel']) + '</a></span>'
+                '(<b>Seite:</span> <span style="color: red;">' + str(doc['seite']) + '</b></span>)<br>'
+                '<span><b>Auschnitt:</b> ' + str(doc["content"]) + '</span></div><br>'
+                #'<div><span><b>Link: </b><span style="color: #BB70FC;"><a href="' + str(doc['download_link']) + '" target="_blank">' + str(doc['titel']) + '</a></span></div><br>'
+                for doc in relevant_docs])
+            history = history + [[prompt_in, summary]]
+            chatbot[-1][1] = summary
+            return chatbot, history, None, file_history, ""
+        else:
+            chatbot[-1][1] = "keine Dokumente gefunden!"
+            return chatbot, history, None, file_history, ""
     else: #noch nicht validiert, oder kein Prompt
 def upload_pdf(file):
     if file is None:
         return None, "Keine Datei hochgeladen."
     # Extrahieren des Dateinamens aus dem vollen Pfad
     filename = os.path.basename(file.name)
         upload_path = f"chroma/kkg/{filename}"
     # Datei zum Hugging Face Space hochladen
+    upload_file_to_huggingface(file.name, upload_path)
+    ############################################
+    #Vektorstore neu....
+    ############################################
+    _ = create_vektorstore()
     return f"PDF '{filename}' erfolgreich hochgeladen."
 ########################################