alexkueck commited on
Commit
36a4149
·
verified ·
1 Parent(s): 81eb1d5

Update utils.py

Browse files
Files changed (1) hide show
  1. utils.py +4 -4
utils.py CHANGED
@@ -303,7 +303,7 @@ def load_word_with_metadata(file_path):
303
  ################################################
304
  #die Inhalte splitten, um in Vektordatenbank entsprechend zu laden als Splits
305
  # Funktion zum Splitten und Zuweisen der doc_id
306
- def split_documents_with_id(docs):
307
  splits = []
308
  for doc in docs:
309
  doc_splits = text_splitter.split_text(doc.page_content)
@@ -366,11 +366,11 @@ def document_loading_splitting():
366
  ################################
367
  # Document splitting
368
  text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)# RecursiveCharacterTextSplitter(chunk_overlap = 150, chunk_size = 1500)
369
- splits = text_splitter.split_documents(preprocessed_docs)
370
 
371
  # Split sowohl für originale als auch für vorverarbeitete Dokumente
372
- original_splits = split_documents_with_id(original_docs)
373
- preprocessed_splits = split_documents_with_id(preprocessed_docs)
374
 
375
  # Mapping von vorverarbeiteten Splits zu Originalsplits anhand der IDs
376
  split_to_original_mapping = {p_split.metadata["doc_id"]: o_split for p_split, o_split in zip(preprocessed_splits, original_splits)}
 
303
  ################################################
304
  #die Inhalte splitten, um in Vektordatenbank entsprechend zu laden als Splits
305
  # Funktion zum Splitten und Zuweisen der doc_id
306
+ def split_documents_with_id(docs, text_splitter):
307
  splits = []
308
  for doc in docs:
309
  doc_splits = text_splitter.split_text(doc.page_content)
 
366
  ################################
367
  # Document splitting
368
  text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)# RecursiveCharacterTextSplitter(chunk_overlap = 150, chunk_size = 1500)
369
+ #splits = text_splitter.split_documents(preprocessed_docs)
370
 
371
  # Split sowohl für originale als auch für vorverarbeitete Dokumente
372
+ original_splits = split_documents_with_id(original_docs, text_splitter)
373
+ preprocessed_splits = split_documents_with_id(preprocessed_docs, text_splitter)
374
 
375
  # Mapping von vorverarbeiteten Splits zu Originalsplits anhand der IDs
376
  split_to_original_mapping = {p_split.metadata["doc_id"]: o_split for p_split, o_split in zip(preprocessed_splits, original_splits)}