Spaces:

Sakshiw1
/

OCR_app

Sleeping

Sakshiw1 commited on Sep 26, 2024

Commit

a8e3390

verified ·

1 Parent(s): e29c724

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,13 +1,12 @@
-import pytesseract
-from PIL import Image
 import gradio as gr
 import re
-# Configure Tesseract path (update if needed)
-pytesseract.pytesseract.tesseract_cmd = r'C:/Program Files/Tesseract-OCR/tesseract.exe'
 def perform_ocr(image):
-    text = pytesseract.image_to_string(image, lang='hin+eng')
     return text
 def search_first_keyword_in_text(text, keyword):
@@ -24,8 +23,6 @@ def search_first_keyword_in_text(text, keyword):
 def ocr_and_search(image, keyword):
     try:
-        # Resize the image to a manageable size for processing
-        image = image.resize((800, 600))  # Adjust size as needed
         extracted_text = perform_ocr(image)
         search_result = search_first_keyword_in_text(extracted_text, keyword)
         return extracted_text, search_result

 import gradio as gr
+from transformers import pipeline
 import re
+# Load the OCR pipeline from Hugging Face
+ocr_pipeline = pipeline("image-to-text", model="microsoft/trocr-base-stage1")
 def perform_ocr(image):
+    text = ocr_pipeline(image)[0]['generated_text']
     return text
 def search_first_keyword_in_text(text, keyword):
 def ocr_and_search(image, keyword):
     try:
         extracted_text = perform_ocr(image)
         search_result = search_first_keyword_in_text(extracted_text, keyword)
         return extracted_text, search_result