latekvo
diff --git a/‎.dockerignore
+1 b/‎.dockerignore
+1
diff --git a/‎README.md
+29-7 b/‎README.md
+29-7
diff --git a/‎assets/db_schema.png
161 KB b/‎assets/db_schema.png
161 KB
diff --git a/‎core/databases/db_base.py
+2-2 b/‎core/databases/db_base.py
+2-2
diff --git a/‎core/databases/db_completion_tasks.py
+50-49 b/‎core/databases/db_completion_tasks.py
+50-49
diff --git a/‎core/databases/db_crawl_tasks.py
+70-66 b/‎core/databases/db_crawl_tasks.py
+70-66
@@ -0,0 +1 @@
+webui/frontend
@@ -2,12 +2,31 @@
 
 #### Langchain project aiming at achieving perpetual research with the help of a chain of ai researching agents.
 
-- Install and launch Ollama: `ollama serve`
-- Create new environment: `conda env create -n ResearchChain -f environment.yml`
-- Activate the new environment: `conda activate ResearchChain`
-- Pull the model you intend to use: `ollama pull zephyr:7b-beta-q5_K_M` (default)
-- Pull an embedding model: `ollama pull nomic-embed-text` (default)
-- Run: `python3 main.py`
+### Running ResearchChain
+Deploy every single worker, database and utility simultaneously
+> sudo docker-compose -f docker/docker-compose.yml up
+
+Please note, that webui frontend has to be launched separately. `see below`
+
+### Running webui front-end `user interaction`
+
+Frontend is launched separately to back end, run the following command to start it.
+- go to frontend directory: `cd webui/frontend/`
+- install dependencies: `npm install`
+- start react project: `npm run dev`
+- open `http://localhost:3000/` in your browser
+
+### Accessing postgres database
+- postgres can be accessed via `pgAdmin`, which is already included in the docker compose,
+  so there is no need for any additional packages
+- go to `localhost:8081/browser/`
+- click `add new server`
+- in `name`, write `postgres`
+- go to `connection` tab
+- in `hostname/address` write `postgres`
+- in `username` write `admin` and in `password` write `pass`
+- click `save`, the database should be immediately available
+- there, you'll see connection statistics as well as the entire schema
 
 #### Other notes
 
@@ -35,9 +54,12 @@
 > to supply constant 24/7 knowledge and news analysis,
 > and to expand its knowledge base by scheduling crawls based on the provided areas of interest.
 
-### Flow of operations with WebUI app.
+### Flow of operations with WebUI app
 ![Flow chart explaining flow of research chain when WebUI is used as the scheduling app.](./assets/rc_flow.png "Research chain flow chart.")
 
+### Database schema
+![Database schema](./assets/db_schema.png "Database schema.")
+
 ---
 ### Contributing
 
 
@@ -4,8 +4,8 @@
 from sqlalchemy.orm import DeclarativeBase
 
 engine = create_engine(
-    "postgresql://postgres:zaq12wsx@localhost:5432/postgres"
-)  # this string needs to be replaced
+    "postgresql://postgres:pass@postgres:5432/postgres", pool_size=20, max_overflow=0
+)
 
 logging.basicConfig()
 logging.getLogger("sqlalchemy.engine").setLevel(logging.CRITICAL)
 
@@ -39,7 +39,7 @@ def db_add_completion_task(prompt, mode) -> str:
             executing=False,
             execution_date=0,
             completed=False,
-            completion_result="",  # providing default value
+            completion_result="N/A",
             completion_date=0,
             required_crawl_tasks=[],
         )
@@ -53,75 +53,76 @@ def db_add_completion_task(prompt, mode) -> str:
 def db_get_completion_tasks_by_page(
     page: int, per_page: int = defaults.ITEMS_PER_PAGE
 ) -> list[CompletionTask]:
-    session = Session(engine)
-
-    start, stop = page_to_range(page, per_page)
-
-    query = select(CompletionTask).slice(start, stop)
+    with Session(engine) as session:
+        session.expire_on_commit = False
 
-    results = list(session.scalars(query))
-    return results
+        start, stop = page_to_range(page, per_page)
+        query = select(CompletionTask).slice(start, stop)
+        results = list(session.scalars(query))
+        return results
 
 
 def db_get_completion_task_by_uuid(uuid: int) -> CompletionTask:
-    session = Session(engine)
-
-    query = select(CompletionTask).where(CompletionTask.uuid.is_(uuid))
+    with Session(engine) as session:
+        session.expire_on_commit = False
 
-    result = session.scalars(query).one()
-    return result
+        query = select(CompletionTask).where(CompletionTask.uuid == uuid)
+        result = session.scalars(query).one()
+        return result
 
 
 def db_set_completion_task_executing(uuid: str):
-    session = Session(engine)
-
-    session.execute(
-        update(CompletionTask)
-        .where(
-            CompletionTask.uuid == uuid
-        )  # new  operator could be replaced with (__eq__) method s
-        .values(executing=True, execution_date=gen_unix_time())
-    )
+    with Session(engine) as session:
+        session.execute(
+            update(CompletionTask)
+            .where(CompletionTask.uuid == uuid)
+            .values(executing=True, execution_date=gen_unix_time())
+        )
 
-    session.commit()
+        session.commit()
 
 
 def db_get_incomplete_completion_tasks(amount: int = 1):
-    session = Session(engine)
-
-    query = (
-        select(CompletionTask).where(CompletionTask.completed.is_(False)).limit(amount)
-    )
+    with Session(engine) as session:
+        session.expire_on_commit = False
+
+        query = (
+            select(CompletionTask)
+            # point of notice! is_ may need to be replaced with ==
+            .where(CompletionTask.completed.is_(False))
+            .where(CompletionTask.executing.is_(False))
+            .limit(amount)
+        )
 
-    results = list(session.scalars(query).all())
+        results = list(session.scalars(query).all())
 
-    for task in results:
-        db_set_completion_task_executing(task.uuid)
+        for task in results:
+            db_set_completion_task_executing(task.uuid)
 
-    return results
+        return results
 
 
 def db_release_executing_tasks(uuid_list: list[str]):
-    session = Session(engine)
-
-    session.execute(
-        update(CompletionTask)
-        .where(CompletionTask.uuid.in_(uuid_list))
-        .values(executing=False, execution_date=0)
-    )
+    with Session(engine) as session:
+        session.execute(
+            update(CompletionTask)
+            .where(CompletionTask.uuid.in_(uuid_list))
+            .values(executing=False, execution_date=0)
+        )
 
-    session.commit()
+        session.commit()
 
 
 def db_update_completion_task_after_summarizing(summary: str, uuid: str):
-    session = Session(engine)
-
-    session.execute(
-        update(CompletionTask)
-        .where(CompletionTask.uuid.is_(uuid))
-        .values(
-            completed=True, completion_result=summary, completion_date=gen_unix_time()
+    with Session(engine) as session:
+        session.execute(
+            update(CompletionTask)
+            .where(CompletionTask.uuid == uuid)
+            .values(
+                completed=True,
+                completion_result=summary,
+                completion_date=gen_unix_time(),
+            )
         )
-    )
 
-    session.commit()
+        session.commit()
@@ -9,9 +9,8 @@
     ForeignKey,
 )
 from sqlalchemy.orm import Mapped, mapped_column, Session, relationship
-from core.databases import defaults
 
-# from core.databases.models import CrawlTask, EmbeddingProgression
+from core.databases import defaults
 from core.databases.db_base import Base, engine
 from core.tools import utils
 from core.tools.utils import gen_unix_time, page_to_range
@@ -76,68 +75,75 @@ def db_add_crawl_task(prompt: str, mode: Literal["news", "wiki", "docs"] = "wiki
     return new_uuid
 
 
-def db_set_crawl_executing(uuid: str):
-    session = Session(engine)
+def db_get_crawl_tasks_by_page(
+    page: int, per_page: int = defaults.ITEMS_PER_PAGE
+) -> list[CrawlTask]:
+    with Session(engine) as session:
+        session.expire_on_commit = False
 
-    session.execute(
-        update(CrawlTask)
-        .where(CrawlTask.uuid.is_(uuid))
-        .values(executing=True, execution_date=gen_unix_time())
-    )
+        start, stop = page_to_range(page, per_page)
+        query = select(CrawlTask).slice(start, stop)
+        results = list(session.scalars(query))
+        return results
 
-    session.commit()
 
+def db_get_crawl_task_by_uuid(uuid: int) -> CrawlTask:
+    with Session(engine) as session:
+        session.expire_on_commit = False
 
-def db_set_crawl_completed(uuid: str):
-    session = Session(engine)
+        query = select(CrawlTask).where(CrawlTask.uuid == uuid)
+        result = session.scalars(query).one()
+        return result
 
-    session.execute(
-        update(CrawlTask)
-        .where(CrawlTask.uuid.is_(uuid))
-        .values(completed=True, completion_date=gen_unix_time())
-    )
-
-    session.commit()
 
+def db_set_crawl_executing(uuid: str):
+    with Session(engine) as session:
+        session.execute(
+            update(CrawlTask)
+            .where(CrawlTask.uuid == uuid)
+            .values(executing=True, execution_date=gen_unix_time())
+        )
 
-# fixme: this function should return a list of all tasks for management purposes (see below)
-def db_get_crawl_task():
-    session = Session(engine)
+        session.commit()
 
-    query = select(CrawlTask).where(CrawlTask.completed.is_(False))
-    crawl_task = session.scalars(query).one_or_none()
 
-    if crawl_task is not None:
-        db_set_crawl_executing(crawl_task.uuid)
+def db_set_crawl_completed(uuid: str):
+    with Session(engine) as session:
+        session.execute(
+            update(CrawlTask)
+            .where(CrawlTask.uuid == uuid)
+            .values(completed=True, completion_date=gen_unix_time())
+        )
 
-    return crawl_task
+        session.commit()
 
 
 # fixme cont. and this function should only return n of inComp and nonExec tasks, for workers
 def db_get_incomplete_crawl_task():
-    session = Session(engine)
+    with Session(engine) as session:
+        session.expire_on_commit = False
 
-    query = (
-        select(CrawlTask)
-        .where(CrawlTask.completed.is_(False))
-        .where(CrawlTask.executing.is_(False))
-    )
+        query = (
+            select(CrawlTask)
+            .where(CrawlTask.completed.is_(False))
+            .where(CrawlTask.executing.is_(False))
+            .limit(1)
+        )
 
-    crawl_task = session.scalars(query).one_or_none()
+        crawl_task = session.scalars(query).one_or_none()
 
-    if crawl_task is not None:
-        db_set_crawl_executing(crawl_task.uuid)
+        if crawl_task is not None:
+            db_set_crawl_executing(crawl_task.uuid)
 
-    return crawl_task
+        return crawl_task
 
 
 def db_is_task_completed(uuid: str):
-    session = Session(engine)
-
-    query = select(CrawlTask).where(CrawlTask.uuid.is_(uuid))
-    crawl_task = session.scalars(query).one_or_none()
+    with Session(engine) as session:
+        query = select(CrawlTask).where(CrawlTask.uuid == uuid)
+        crawl_task = session.scalars(query).one()
 
-    return crawl_task.completed
+        return crawl_task.completed
 
 
 def db_are_tasks_completed(uuid_list: list[str]):
@@ -156,15 +162,14 @@ def db_are_tasks_completed(uuid_list: list[str]):
 
 
 def db_is_crawl_task_fully_embedded(uuid: str, model_name: str):
-    session = Session(engine)
-
-    query = select(CrawlTask).where(CrawlTask.uuid.is_(uuid))
-    crawl_task = session.scalars(query).one()
+    with Session(engine) as session:
+        query = select(CrawlTask).where(CrawlTask.uuid == uuid)
+        crawl_task = session.scalars(query).one()
 
-    baseline_count = crawl_task.base_amount_scheduled
-    current_count = crawl_task.embedding_progression[model_name]
+        baseline_count = crawl_task.base_amount_scheduled
+        current_count = crawl_task.embedding_progression[model_name]
 
-    return current_count >= baseline_count
+        return current_count >= baseline_count
 
 
 def db_are_crawl_tasks_fully_embedded(uuid_list: str, model_name: str):
@@ -177,25 +182,24 @@ def db_are_crawl_tasks_fully_embedded(uuid_list: str, model_name: str):
 
 
 def db_increment_task_embedding_progression(uuid: str, model_name: str):
-    session = Session(engine)
-
-    query = select(CrawlTask).where(CrawlTask.uuid.is_(uuid))
-    crawl_task = session.scalars(query).one()
+    with Session(engine) as session:
+        query = select(CrawlTask).where(CrawlTask.uuid == uuid)
+        crawl_task = session.scalars(query).one()
 
-    current_progression = crawl_task.embedding_progression
-    current_count = current_progression[model_name]
+        current_progression = crawl_task.embedding_progression
+        current_count = current_progression[model_name]
 
-    if current_count is not None:
-        current_count += 1
-    else:
-        current_count = 1
+        if current_count is not None:
+            current_count += 1
+        else:
+            current_count = 1
 
-    current_progression[model_name] = current_count
+        current_progression[model_name] = current_count
 
-    session.execute(
-        update(CrawlTask)
-        .where(CrawlTask.uuid.is_(crawl_task.uuid))
-        .values(embedding_progression=current_progression)
-    )
+        session.execute(
+            update(CrawlTask)
+            .where(CrawlTask.uuid == crawl_task.uuid)
+            .values(embedding_progression=current_progression)
+        )
 
-    session.commit()
+        session.commit()