Spaces:

polygraf-ai
/

article_writer

Runtime error

App Files Files Community

eljanmahammadli commited on Aug 2, 2024

Commit

ef88cd6

1 Parent(s): fb4d683

added exact keyword match search

Browse files

Files changed (5) hide show

.gitignore +1 -1
ai_generate.py +3 -0
app.py +18 -9
humanize.py +0 -1
plagiarism.py +1 -5

.gitignore CHANGED Viewed

@@ -1,4 +1,4 @@
-_pycache_
 .env
 nohup.out
 *.out

+__pycache__/
 .env
 nohup.out
 *.out

ai_generate.py CHANGED Viewed

@@ -16,12 +16,14 @@ from langchain_core.runnables import RunnablePassthrough
 from langchain.chains import RetrievalQA
 from langchain_groq import ChatGroq
 from dotenv import load_dotenv
 load_dotenv()
 groq_client = Groq(
     api_key=os.environ.get("GROQ_API_KEY"),
 )
 def create_db_with_langchain(path):
     loader = PyMuPDFLoader(path)
     data = loader.load()
@@ -75,6 +77,7 @@ def generate_groq_base(text, model):
             response += chunk.choices[0].delta.content or ""
     return response
 def generate_groq(text, model, path):
     if path:
         return generate_groq_rag(text, model, path)

 from langchain.chains import RetrievalQA
 from langchain_groq import ChatGroq
 from dotenv import load_dotenv
 load_dotenv()
 groq_client = Groq(
     api_key=os.environ.get("GROQ_API_KEY"),
 )
 def create_db_with_langchain(path):
     loader = PyMuPDFLoader(path)
     data = loader.load()
             response += chunk.choices[0].delta.content or ""
     return response
 def generate_groq(text, model, path):
     if path:
         return generate_groq_rag(text, model, path)

app.py CHANGED Viewed

@@ -5,7 +5,7 @@ import re
 from humanize import paraphrase_text
 from ai_generate import generate
 import requests
-import language_tool_python
 import torch
 from gradio_client import Client
 from transformers import GPT2LMHeadModel, GPT2TokenizerFast
@@ -83,6 +83,7 @@ def format_and_correct_language_check(text: str) -> str:
     tool = language_tool_python.LanguageTool("en-US")
     return tool.correct(text)
 def predict(model, tokenizer, text):
     text = remove_special_characters(text)
     bc_token_size = 256
@@ -415,6 +416,7 @@ def generate_and_format(
     month_to,
     day_to,
     domains_to_include,
     pdf_file_input,
     generated_article: str = None,
     user_comments: str = None,
@@ -423,8 +425,13 @@ def generate_and_format(
     date_to = build_date(year_to, month_to, day_to)
     sorted_date = f"date:r:{date_from}:{date_to}"
     content_string = ""
     if google_search_check:
-        url_content = google_search(topic, sorted_date, domains_to_include)
         content_string = "\n".join(
             f"{url.strip()}: \n{content.strip()[:2000]}" for url, content in url_content.items()
         )
@@ -622,6 +629,12 @@ def create_interface():
                                 multiselect=True,
                                 label="Domains To Include",
                             )
                     gr.Markdown("# Add Optional PDF File with Information", elem_classes="text-center text-3xl mb-6")
                     pdf_file_input = gr.File(label="Upload PDF")
@@ -734,6 +747,7 @@ def create_interface():
                 month_to,
                 day_to,
                 domains_to_include,
                 pdf_file_input,
             ],
             outputs=[output_article],
@@ -767,6 +781,7 @@ def create_interface():
                 domains_to_include,
                 pdf_file_input,
                 output_article,
                 ai_comments,
             ],
             outputs=[output_article],
@@ -791,12 +806,6 @@ def create_interface():
             outputs=[humanized_output],
         )
         copy_to_input_btn.click(
             fn=copy_to_input,
             inputs=[humanized_output],
@@ -809,4 +818,4 @@ def create_interface():
 if __name__ == "__main__":
     demo = create_interface()
     # demo.launch(server_name="0.0.0.0", share=True, server_port=7890)
-    demo.launch(server_name="0.0.0.0")

 from humanize import paraphrase_text
 from ai_generate import generate
 import requests
+import language_tool_python
 import torch
 from gradio_client import Client
 from transformers import GPT2LMHeadModel, GPT2TokenizerFast
     tool = language_tool_python.LanguageTool("en-US")
     return tool.correct(text)
 def predict(model, tokenizer, text):
     text = remove_special_characters(text)
     bc_token_size = 256
     month_to,
     day_to,
     domains_to_include,
+    search_keywords,
     pdf_file_input,
     generated_article: str = None,
     user_comments: str = None,
     date_to = build_date(year_to, month_to, day_to)
     sorted_date = f"date:r:{date_from}:{date_to}"
     content_string = ""
+    final_query = topic
+    if search_keywords != "":
+        quoted_keywords = [f'"{keyword.strip()}"' for keyword in search_keywords.split(",")]
+        final_query = final_query + " " + " ".join(quoted_keywords)
+    print(final_query)
     if google_search_check:
+        url_content = google_search(final_query, sorted_date, domains_to_include)
         content_string = "\n".join(
             f"{url.strip()}: \n{content.strip()[:2000]}" for url, content in url_content.items()
         )
                                 multiselect=True,
                                 label="Domains To Include",
                             )
+                        with gr.Row():
+                            search_keywords = gr.Textbox(
+                                label="Keywords",
+                                placeholder="Enter comma-separated keywords",
+                                elem_classes="input-highlight-yellow",
+                            )
                     gr.Markdown("# Add Optional PDF File with Information", elem_classes="text-center text-3xl mb-6")
                     pdf_file_input = gr.File(label="Upload PDF")
                 month_to,
                 day_to,
                 domains_to_include,
+                search_keywords,
                 pdf_file_input,
             ],
             outputs=[output_article],
                 domains_to_include,
                 pdf_file_input,
                 output_article,
+                search_keywords,
                 ai_comments,
             ],
             outputs=[output_article],
             outputs=[humanized_output],
         )
         copy_to_input_btn.click(
             fn=copy_to_input,
             inputs=[humanized_output],
 if __name__ == "__main__":
     demo = create_interface()
     # demo.launch(server_name="0.0.0.0", share=True, server_port=7890)
+    demo.launch(server_name="0.0.0.0")

humanize.py CHANGED Viewed

@@ -19,7 +19,6 @@ else:
     device = torch.device("cpu")
 # Configuration for models and their adapters
 model_config = {
     "Base Model": "polygraf-ai/poly-humanizer-base",

     device = torch.device("cpu")
 # Configuration for models and their adapters
 model_config = {
     "Base Model": "polygraf-ai/poly-humanizer-base",

plagiarism.py CHANGED Viewed

@@ -15,8 +15,7 @@ def clean_html(text):
     result += article.title + "\n"
     paragraphs = justext.justext(text, justext.get_stoplist("English"))
     for paragraph in paragraphs:
-        if not paragraph.is_boilerplate:
-            result += paragraph.text
     return result
@@ -130,7 +129,4 @@ def google_search(
             text = clean_html(soup.text)
             result_content[url] = text
             count += 1
-    # for key, value in result_content.items():
-    #     print("-------------------URL: ", key)
-    #     print(value[:30])
     return result_content

     result += article.title + "\n"
     paragraphs = justext.justext(text, justext.get_stoplist("English"))
     for paragraph in paragraphs:
+        result += paragraph.text
     return result
             text = clean_html(soup.text)
             result_content[url] = text
             count += 1
     return result_content