Spaces:

alijaanai
/

Rag-chatbot

Sleeping

+import os
+import json
+import streamlit as st
+from langchain_huggingface import HuggingFaceEmbeddings
+from langchain_chroma import Chroma
+from langchain_groq import ChatGroq
+from langchain.memory import ConversationBufferMemory
+from langchain.chains import ConversationalRetrievalChain
+from vectorize_documents import embeddings
+working_dir = os.path.dirname(os.path.abspath(__file__))
+config_data = json.load(open(f"{working_dir}/config.json"))
+GROQ_API_KEY = config_data["GROQ_API_KEY"]
+os.environ["GROQ_API_KEY"] = GROQ_API_KEY
+def setup_vectorstore():
+    persist_directory = f"{working_dir}/vector_db_dir"
+    embedddings = HuggingFaceEmbeddings()
+    vectorstore = Chroma(persist_directory=persist_directory,
+                         embedding_function=embeddings)
+    return vectorstore
+def chat_chain(vectorstore):
+    llm = ChatGroq(model="llama-3.1-70b-versatile",
+                   temperature=0)
+    retriever = vectorstore.as_retriever()
+    memory = ConversationBufferMemory(
+        llm=llm,
+        output_key="answer",
+        memory_key="chat_history",
+        return_messages=True
+    )
+    chain = ConversationalRetrievalChain.from_llm(
+        llm=llm,
+        retriever=retriever,
+        chain_type="stuff",
+        memory=memory,
+        verbose=True,
+        return_source_documents=True
+    )
+    return chain
+st.set_page_config(
+    page_title="Multi Doc Chat",
+    page_icon = "📚",
+    layout="centered"
+)
+st.title("📚 Multi Documents Chatbot")
+if "chat_history" not in st.session_state:
+    st.session_state.chat_history = []
+if "vectorstore" not in st.session_state:
+    st.session_state.vectorstore = setup_vectorstore()
+if "conversationsal_chain" not in st.session_state:
+    st.session_state.conversationsal_chain = chat_chain(st.session_state.vectorstore)
+for message in st.session_state.chat_history:
+    with st.chat_message(message["role"]):
+        st.markdown(message["content"])
+user_input = st.chat_input("Ask AI...")
+if user_input:
+    st.session_state.chat_history.append({"role": "user", "content": user_input})
+    with st.chat_message("user"):
+        st.markdown(user_input)
+    with st.chat_message("assistant"):
+        response = st.session_state.conversationsal_chain({"question": user_input})
+        assistant_response = response["answer"]
+        st.markdown(assistant_response)
+        st.session_state.chat_history.append({"role": "assistant", "content": assistant_response})
+main.py
+Displaying main.py.

requirements.txt ADDED Viewed

	@@ -0,0 +1,9 @@

+streamlit==1.38.0
+langchain-community==0.2.16
+langchain-text-splitters==0.2.4
+langchain-chroma==0.1.3
+langchain-huggingface==0.0.3
+langchain-groq==0.1.9
+unstructured==0.15.0
+unstructured[pdf]==0.15.0
+nltk==3.8.1

vectorize_documents.py ADDED Viewed

	@@ -0,0 +1,26 @@

+from langchain_community.document_loaders import UnstructuredFileLoader
+from langchain_community.document_loaders import DirectoryLoader
+from langchain_text_splitters import CharacterTextSplitter
+from langchain_huggingface import HuggingFaceEmbeddings
+from langchain_chroma import Chroma
+# loaidng the embedding model
+embeddings = HuggingFaceEmbeddings()
+loader = DirectoryLoader(path="data",
+                         glob="./*.pdf",
+                         loader_cls=UnstructuredFileLoader)
+documents = loader.load()
+text_splitter = CharacterTextSplitter(chunk_size=2000,
+                                      chunk_overlap=500)
+text_chunks = text_splitter.split_documents(documents)
+vectordb = Chroma.from_documents(
+    documents=text_chunks,
+    embedding=embeddings,
+    persist_directory="vector_db_dir"
+)
+print("Documents Vectorized")