MA_check

Runtime error

App Files Files Community

destiratnakomala commited on May 8, 2024

Commit

f2a3f35

verified ·

1 Parent(s): ee48719

Update app.py

Browse files

Files changed (1) hide show

app.py +50 -82

app.py CHANGED Viewed

@@ -3,26 +3,15 @@ import os
 import pandas as pd
 from PyPDF2 import PdfReader
 import openai
-from collections import defaultdict
-from io import StringIO
-from pdfminer.high_level import extract_text
 import json
-from openai import OpenAI
-import re
 from dotenv import load_dotenv
-from pdfminer.pdfparser import PDFParser
-from pdfminer.pdfdocument import PDFDocument
-from pdfminer.pdfpage import PDFPage
-from pdfminer.layout import LAParams
-from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
-from pdfminer.converter import TextConverter
-# 1. Initialization
 load_dotenv()
 api_key = os.getenv('OPENAI_API_KEY')
 openai.api_key = api_key
-client = OpenAI(api_key=api_key)
-pdf_folder = "pdf"
 st.title("Mahkamah Agung: NER & Summarization of Legal Documents")
@@ -41,89 +30,68 @@ def get_pdf_details(folder_path):
             except Exception as e:
                 st.warning(f"Could not read {filename}: {str(e)}")
     return pdf_details
 pdf_list = get_pdf_details(pdf_folder)
 pdf_df = pd.DataFrame(pdf_list)
 if not pdf_df.empty:
     with st.expander('PDF Overview'):
-       st.dataframe(pdf_df)
 else:
     st.warning("No PDFs found in the specified folder.")
-#---------------------PDF SEARCH AND EXTRACT----------------------
-st.subheader("PDF to Text Conversion")
 def extract_text_from_pdf(uploaded_file, start_page, end_page):
     text = extract_text(uploaded_file, page_numbers=range(start_page, end_page+1))
     return text
-pdf_files = [f for f in os.listdir(pdf_folder) if f.lower().endswith('.pdf')]
-search_query = st.text_input("Search for a PDF")
-filtered_pdfs = [pdf for pdf in pdf_files if search_query.lower() in pdf.lower()]
-if filtered_pdfs:
-    selected_pdf = st.selectbox("Select a PDF to convert to text", filtered_pdfs)
-else:
-    st.warning("No PDFs found matching your search.")
-    selected_pdf = None
-if selected_pdf:
     pdf_path = os.path.join(pdf_folder, selected_pdf)
     uploaded_file = open(pdf_path, 'rb')
-    # Extract and display the first 3 pages
-    start_page_first = 1
-    end_page_first = 3
-    extracted_text_first = extract_text_from_pdf(uploaded_file, start_page_first, end_page_first)
-    # Determine total number of pages
     pdf_reader = PdfReader(uploaded_file)
     total_pages = len(pdf_reader.pages)
-    # Extract and display the last 3 pages
-    if total_pages > 3:
-        start_page_last = max(1, total_pages - 2)
-        end_page_last = total_pages
-        extracted_text_last = extract_text_from_pdf(uploaded_file, start_page_last, end_page_last)
-    # Join the extracted text
-    extracted_text = extracted_text_first + "\n" + extracted_text_last if total_pages > 3 else extracted_text_first
-else:
-    st.warning("Please select a PDF file.")
-#----------------------ANALYZE
-if st.button("Analyze The Document"):
-    # Display the extracted text
-    if extracted_text:
-        with st.expander('Extracted Text'):
-            st.text_area("Extracted Text", value=extracted_text, height=300)
-    else:
-        st.warning("No text extracted. The PDF might contain images or other non-text content.")
-    template = """
-        # Anda Adalah Seorang Hakim Agung Di Mahkamah Agung Di Indonesia. Berdasarkan Putusan Di Bawah Ini, Berikan Kesimpulannya:
-        {}
-        Variabel Yang Harus Ada Adalah Sebagai Berikut: Hakim Ketua, Hakim Anggota, Panitera, Putusan, Putusan Lainnya, Catatan Putusan, Tanggal Musyawarah, Tanggal Pembacaan, Jenis Institusi Yudisial, Tanggal Pendaftaran, Institusi Yudisial, Nomor Kasus, Pengadilan, Nama Terdakwa, Tempat Lahir Terdakwa, Tanggal Lahir Terdakwa, Usia Terdakwa, Jenis Kelamin Terdakwa, Kebangsaan Terdakwa, Agama Terdakwa, Pekerjaan Terdakwa, Pasal Dakwaan, Pelanggaran Dakwaan, Vonis Hukuman, Deskripsi Vonis Atribut Disita, Vonis Atribut Disita Berat, Denda, Dan  Kesimpulan.
-    # """
-    #---------------------NER & SUMMARIZATION----------------------
-    response = client.chat.completions.create(
-    model="gpt-3.5-turbo-0125",
-    response_format={ "type": "json_object" },
-    messages=[
-        {"role": "system", "content": "You are a helpful assistant designed to output JSON."},
-        {"role": "user", "content": template.format(extracted_text)}
-    ]
-    )
-    data= json.loads(response.choices[0].message.content)
-    df = pd.json_normalize(data)
-    df=df.T
-    df.columns = ["Kesimpulan Putusan"]
-    st.dataframe(df)

 import pandas as pd
 from PyPDF2 import PdfReader
 import openai
+from pdfminer.high_level import extract_text
 import json
 from dotenv import load_dotenv
+# Initialize OpenAI API
 load_dotenv()
 api_key = os.getenv('OPENAI_API_KEY')
 openai.api_key = api_key
+pdf_folder = "pdf"
 st.title("Mahkamah Agung: NER & Summarization of Legal Documents")
             except Exception as e:
                 st.warning(f"Could not read {filename}: {str(e)}")
     return pdf_details
 pdf_list = get_pdf_details(pdf_folder)
 pdf_df = pd.DataFrame(pdf_list)
 if not pdf_df.empty:
     with st.expander('PDF Overview'):
+        st.dataframe(pdf_df)
 else:
     st.warning("No PDFs found in the specified folder.")
+#---------------------MULTISELECT AND TEXT EXTRACTION----------------------
+st.subheader("Select PDFs for Extraction and Analysis")
+pdf_files = [f for f in os.listdir(pdf_folder) if f.lower().endswith('.pdf')]
+selected_pdfs = st.multiselect("Select PDFs", pdf_files)
 def extract_text_from_pdf(uploaded_file, start_page, end_page):
     text = extract_text(uploaded_file, page_numbers=range(start_page, end_page+1))
     return text
+pdf_texts = {}
+for selected_pdf in selected_pdfs:
     pdf_path = os.path.join(pdf_folder, selected_pdf)
     uploaded_file = open(pdf_path, 'rb')
     pdf_reader = PdfReader(uploaded_file)
     total_pages = len(pdf_reader.pages)
+    # Extract text from the first 3 pages and the last 3 pages
+    extracted_text_first = extract_text_from_pdf(uploaded_file, 1, min(3, total_pages))
+    extracted_text_last = extract_text_from_pdf(uploaded_file, max(1, total_pages - 2), total_pages)
+    extracted_text = extracted_text_first + "\n" + extracted_text_last
+    pdf_texts[selected_pdf] = extracted_text
+#---------------------ANALYZE AND SUMMARIZE----------------------
+template = """
+# Anda Adalah Seorang Hakim Agung Di Mahkamah Agung Di Indonesia. Berdasarkan Putusan Di Bawah Ini, Berikan Kesimpulannya:
+{}
+Variabel Yang Harus Ada Adalah Sebagai Berikut: Hakim Ketua, Hakim Anggota, Panitera, Putusan, Putusan Lainnya, Catatan Putusan, Tanggal Musyawarah, Tanggal Pembacaan, Jenis Institusi Yudisial, Tanggal Pendaftaran, Institusi Yudisial, Nomor Kasus, Pengadilan, Nama Terdakwa, Tempat Lahir Terdakwa, Tanggal Lahir Terdakwa, Usia Terdakwa, Jenis Kelamin Terdakwa, Kebangsaan Terdakwa, Agama Terdakwa, Pekerjaan Terdakwa, Pasal Dakwaan, Pelanggaran Dakwaan, Vonis Hukuman, Deskripsi Vonis Atribut Disita, Vonis Atribut Disita Berat, Denda, Dan Kesimpulan.
+"""
+if st.button("Analyze Selected PDFs"):
+    summaries = []
+    for pdf_name, text in pdf_texts.items():
+        response = openai.ChatCompletion.create(
+            model="gpt-3.5-turbo",
+            messages=[
+                {"role": "system", "content": "You are a helpful assistant designed to output JSON."},
+                {"role": "user", "content": template.format(text)}
+            ]
+        )
+        data = json.loads(response.choices[0].message.content)
+        df = pd.json_normalize(data)
+        df = df.T
+        df.columns = [f"Kesimpulan Putusan ({pdf_name})"]
+        summaries.append(df)
+    # Display the summaries for each selected PDF
+    for summary in summaries:
+        with st.expander(f"Summary for {summary.columns[0]}"):
+            st.dataframe(summary)