End2End APP LLM Model Usig GEMINI

BEKOhub · BEKOhub · commit 90912662e5c0 · 2024-12-01T04:55:08.000+01:00
diff --git a/app.py b/app.py
@@ -0,0 +1,43 @@
+import streamlit as st
+from src.helper import *
+
+
+
+def user_input(user_question):
+    response = st.session_state.conversation({'question': user_question})
+    st.session_state.chatHistory = response['chat_history']
+    for i, message in enumerate(st.session_state.chatHistory):
+        if i%2 == 0:
+            st.write("User: ", message.content)
+        else:
+            st.write("Reply: ", message.content)
+
+
+def main():
+    st.set_page_config("Information Retrieval")
+    st.header("Information Retrieval System💁")
+
+    user_question = st.text_input("Ask a Question from the PDF Files")
+
+    if "conversation" not in st.session_state:
+        st.session_state.conversation = None
+    if "chatHistory" not in st.session_state:
+        st.session_state.chatHistory = None
+    if user_question:
+        user_input(user_question)
+
+    with st.sidebar:
+        st.title("Menu:")
+        pdf_docs = st.file_uploader("Upload your PDF Files and Click on the Submit & Process Button", accept_multiple_files=True)
+        if st.button("Submit & Process"):
+            with st.spinner("Processing..."):
+                raw_text = get_pdf_text(pdf_docs)
+                text_chunks = get_text_chunks(raw_text)
+                vector_store = get_vector_store(text_chunks)
+                st.session_state.conversation = get_conversational_chain(vector_store)
+                st.success("Done")
+
+
+
+if __name__ == "__main__":
+    main()
diff --git a/requirements.txt b/requirements.txt
@@ -0,0 +1,7 @@
+python-dotenv
+google-generativeai
+langchain
+PyPDF2
+faiss-cpu
+streamlit
+-e .
diff --git a/research/trials.ipynb b/research/trials.ipynb
@@ -0,0 +1,40 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from dotenv import load_dotenv\n",
+    "import os"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "GenAI",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.13.0"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/research/trials.py b/research/trials.py
@@ -0,0 +1,10 @@
+# %% 
+
+from dotenv import load_dotenv
+import os
+
+# %%
+load_dotenv()
+GOOGLE_AI_KEY = os.getenv("GOOGLE_API_KEY")
+print(GOOGLE_AI_KEY) 
+# %%
diff --git a/setup.py b/setup.py
@@ -0,0 +1,10 @@
+from setuptools import find_packages, setup
+
+setup(
+    name= 'LLMGenerativeAI',
+    version='0.0.0',
+    author= 'Hamza BEKOURY',
+    author_email= 'hambkr.pro@hotmail.com',
+    packages= find_packages(),
+    install_requires = []
+)
diff --git a/src/helper.py b/src/helper.py
@@ -0,0 +1,60 @@
+import os
+from PyPDF2 import PdfReader
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain_community.vectorstores import FAISS  # Updated import
+from langchain.chains import ConversationalRetrievalChain
+from langchain.memory import ConversationBufferMemory
+from dotenv import load_dotenv
+from langchain_google_genai import (
+    ChatGoogleGenerativeAI,
+    GoogleGenerativeAIEmbeddings,
+    HarmCategory,
+    HarmBlockThreshold,
+)
+from langchain_core.prompts import ChatPromptTemplate
+import google.generativeai as genai
+
+# Load environment variables
+load_dotenv()
+GOOGLE_API_KEY = os.getenv("GOOGLE_API_KEY")
+os.environ['GOOGLE_API_KEY'] = GOOGLE_API_KEY
+genai.configure(api_key=GOOGLE_API_KEY)
+
+def get_pdf_text(pdf_docs):
+    text = ""
+    for pdf in pdf_docs:
+        pdf_reader = PdfReader(pdf)
+        for page in pdf_reader.pages:
+            text += page.extract_text()
+    return text
+
+def get_text_chunks(text):
+    text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=20)
+    chunks = text_splitter.split_text(text)
+    return chunks
+
+def get_vector_store(text_chunks):
+    embeddings = GoogleGenerativeAIEmbeddings(
+        google_api_key=GOOGLE_API_KEY,
+        model="models/embedding-001"
+    )
+    vector_store = FAISS.from_texts(text_chunks, embedding=embeddings)
+    return vector_store
+
+def get_conversational_chain(vector_store):
+    llm = ChatGoogleGenerativeAI(
+        model="gemini-1.5-pro",
+        temperature=0.7,
+        max_tokens=512,
+        safety_settings={
+            HarmCategory.HARM_CATEGORY_DANGEROUS_CONTENT: HarmBlockThreshold.BLOCK_NONE
+        }
+    )
+    
+    memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)
+    conversation_chain = ConversationalRetrievalChain.from_llm(
+        llm=llm,
+        retriever=vector_store.as_retriever(),
+        memory=memory
+    )
+    return conversation_chain