SucheRAG

Sleeping

alexkueck commited on Jul 2, 2024

Commit

52138cf

verified ·

1 Parent(s): 28815ea

Update utils.py

Files changed (1) hide show

utils.py CHANGED Viewed

@@ -130,6 +130,29 @@ def normalise_prompt (prompt):
     return normalized_prompt
 ##################################################
 #RAG Hilfsfunktionen - Dokumenten bearbeiten für Vektorstore
 ##################################################

     return normalized_prompt
+#um ähnliche Wörter anhand ihres Wortstammes zu erkennen
+# Funktion zur Stemmatisierung des Textes
+def preprocess_text(text):
+    if not text:
+        return ""
+    text = text.lower()
+    tokenizer = RegexpTokenizer(r'\w+')
+    word_tokens = tokenizer.tokenize(text)
+    filtered_words = [word for word in word_tokens if word not in german_stopwords]
+    stemmer = SnowballStemmer("german")
+    stemmed_words = [stemmer.stem(word) for word in filtered_words]
+    return " ".join(stemmed_words)
+# Funktion zur Bereinigung des Textes aus den Pdfs und Word Dokuemtne, um den Tokenizer nicht zu überfordern
+def clean_text(text):
+    # Entfernen nicht druckbarer Zeichen
+    text = re.sub(r'[^\x00-\x7F]+', ' ', text)
+    # Ersetzen ungewöhnlicher Leerzeichen durch normale Leerzeichen
+    text = re.sub(r'\s+', ' ', text)
+    return text.strip()
 ##################################################
 #RAG Hilfsfunktionen - Dokumenten bearbeiten für Vektorstore
 ##################################################