Spaces:

terapyon
/

podcast-search

Running

App Files Files Community

terapyon commited on about 1 month ago

Commit

2b32e82

1 Parent(s): 6fd8495

added select podcast for ui

Browse files

Files changed (1) hide show

src/app.py +31 -7

src/app.py CHANGED Viewed

@@ -9,16 +9,29 @@ def get_conn():
     return duckdb.connect(DUCKDB_FILE)
-query = """WITH ordered_embeddings AS (
-    SELECT embeddings.id, embeddings.part FROM embeddings
-        ORDER BY array_distance(embedding, ?::FLOAT[1024])
     LIMIT 10
 )
 SELECT
     p.title,
     p.date,
     e.start,
-    e.text
   FROM
       ordered_embeddings oe
   JOIN
@@ -33,15 +46,26 @@ SELECT
 st.title("terapyon cannel search")
 word = st.text_input("Search word")
 if word:
     st.write(f"Search word: {word}")
     embeddings = get_embeddings([word], query=True)
     word_embedding = embeddings[0, :]
-    conn = get_conn()
-    result = conn.execute(query, (word_embedding,)).df()
-    selected = st.dataframe(result,
                             on_select="rerun",
                             selection_mode="single-row")
     if selected:

     return duckdb.connect(DUCKDB_FILE)
+title_query = """SELECT id, title FROM podcasts
+    ORDER BY date DESC;
+"""
+query = """WITH filtered_podcasts AS (
+    SELECT id
+      FROM podcasts
+        WHERE id in ?
+),
+ordered_embeddings AS (
+    SELECT embeddings.id, embeddings.part
+    FROM embeddings
+    JOIN filtered_podcasts fp ON embeddings.id = fp.id
+    ORDER BY array_distance(embedding, ?::FLOAT[1024])
     LIMIT 10
 )
 SELECT
     p.title,
     p.date,
     e.start,
+    e.text,
+    e.part,
+    p.audio,
   FROM
       ordered_embeddings oe
   JOIN
 st.title("terapyon cannel search")
+conn = get_conn()
+titles = conn.execute(title_query).df()
+selected_title: list[str] | None = st.multiselect("Select title", titles["title"])
+if selected_title:
+    st.write(f"Selected title: {selected_title}")
+    selected_ids = titles.loc[titles.loc[:, "title"].isin(selected_title), "id"].tolist()
+else:
+    st.write("All titles")
+    selected_ids = titles.loc[:, "id"].tolist()
 word = st.text_input("Search word")
 if word:
     st.write(f"Search word: {word}")
     embeddings = get_embeddings([word], query=True)
     word_embedding = embeddings[0, :]
+    result = conn.execute(query,
+                          (selected_ids, word_embedding,)).df()
+    selected = st.dataframe(result,
+                            column_order=["title", "date", "part", "start", "text", "audio"],
                             on_select="rerun",
                             selection_mode="single-row")
     if selected: