Spaces:

celise88
/

Pathfinder

Runtime error

App Files Files Community

celise88 commited on Feb 8, 2023

Commit

793cdd0

1 Parent(s): d8f6ecc

clean up code

Browse files

Files changed (2) hide show

main.py +5 -3
match_utils.py +9 -16

main.py CHANGED Viewed

@@ -13,7 +13,8 @@ from fastapi.staticfiles import StaticFiles
 from fastapi.responses import HTMLResponse
 import pandas as pd
 from scrape_onet import get_onet_code, get_onet_description, get_onet_tasks
-from match_utils import neighborhoods, get_resume, coSkillEmbed, sim_result_loop, skillNER
 # APP SETUP
 app = FastAPI()
@@ -60,8 +61,9 @@ def get_matches(request: Request):
 # POST
 @app.post('/find-my-match/', response_class=HTMLResponse)
 async def post_matches(request: Request, resume: UploadFile = File(...)):
     resume = get_resume(resume)
-    embeds = await coSkillEmbed(resume)
-    simResults = await sim_result_loop(embeds)
     skills = await skillNER(resume)
     return templates.TemplateResponse('find_my_match.html', context={'request': request, 'resume': resume, 'skills': skills, 'simResults': simResults})

 from fastapi.responses import HTMLResponse
 import pandas as pd
 from scrape_onet import get_onet_code, get_onet_description, get_onet_tasks
+from match_utils import neighborhoods, get_resume, skillNER, sim_result_loop
+import time
 # APP SETUP
 app = FastAPI()
 # POST
 @app.post('/find-my-match/', response_class=HTMLResponse)
 async def post_matches(request: Request, resume: UploadFile = File(...)):
+    t = time.time()
     resume = get_resume(resume)
     skills = await skillNER(resume)
+    simResults = await sim_result_loop(resume)
+    print(time.time() - t)
     return templates.TemplateResponse('find_my_match.html', context={'request': request, 'resume': resume, 'skills': skills, 'simResults': simResults})

match_utils.py CHANGED Viewed

@@ -46,7 +46,6 @@ async def neighborhoods(jobtitle=None):
         subtitle = f'<span style="font-size: {subtitle_font_size}px;">{subtitle}</span>'
         title = f'<span style="font-size: {title_font_size}px;">{title}</span>'
         return f'{logo}{title}<br>{subtitle}'
     fig = px.scatter(coheredat, x = 'longitude', y = 'latitude', color = 'Category', hover_data = ['Category', 'Title'],
         title=format_title("Pathfinder", "     Job Neighborhoods: Explore the Map!", "(Generated using Co-here AI's LLM & ONET's Task Statements)"))
     fig['layout'].update(height=1000, width=1500, font=dict(family='Courier New, monospace', color='black'))
@@ -63,7 +62,7 @@ def get_resume(resume):
     resume = "\n".join(text)
     return resume
-async def coSkillEmbed(text):
     try:
         co = cohere.Client(os.getenv("COHERE_TOKEN"))
         response = co.embed(
@@ -73,12 +72,14 @@ async def coSkillEmbed(text):
     except CohereError as e:
         return e
-async def sim_result_loop(embeds):
     def cosine(A, B):
         return np.dot(A,B)/(norm(A)*norm(B))
     simResults = []
-    for i in range(len(simdat)):
-        simResults.append(cosine(np.array(embeds), np.array(simdat.iloc[i,1:])))
     simResults = pd.DataFrame(simResults)
     simResults['JobTitle'] = simdat['Title']
     simResults = simResults.iloc[:,[1,0]]
@@ -88,7 +89,7 @@ async def sim_result_loop(embeds):
     simResults = simResults.iloc[1:,:]
     simResults.reset_index(drop=True, inplace=True)
     for x in range(len(simResults)):
-        simResults.iloc[x,1] = "{:0.2f}".format(simResults.iloc[x,1])
     return simResults
 async def skillNER(resume):
@@ -97,7 +98,6 @@ async def skillNER(resume):
         clean_text = clean_text.replace('-', " ").replace("/"," ")
         clean_text = clean(clean_text.translate(str.maketrans('', '', string.punctuation)))
         return clean_text
     resume = clean_my_text(resume)
     stops = set(nltk.corpus.stopwords.words('english'))
     stops = stops.union({'eg', 'ie', 'etc', 'experience', 'experiences', 'experienced', 'experiencing', 'knowledge',
@@ -107,13 +107,6 @@ async def skillNER(resume):
     resume = [word for word in SpaceTokenizer().tokenize(resume) if word not in stops]
     resume = [word for word in resume if ")" not in word]
     resume = [word for word in resume if "(" not in word]
-    labels = []
-    for i in range(len(resume)):
-        classification = classifier(resume[i])[0]['label']
-        if classification == 'LABEL_1':
-            labels.append("Skill")
-        else:
-            labels.append("Not Skill")
-        skills = dict(zip(resume, labels))
     return skills

         subtitle = f'<span style="font-size: {subtitle_font_size}px;">{subtitle}</span>'
         title = f'<span style="font-size: {title_font_size}px;">{title}</span>'
         return f'{logo}{title}<br>{subtitle}'
     fig = px.scatter(coheredat, x = 'longitude', y = 'latitude', color = 'Category', hover_data = ['Category', 'Title'],
         title=format_title("Pathfinder", "     Job Neighborhoods: Explore the Map!", "(Generated using Co-here AI's LLM & ONET's Task Statements)"))
     fig['layout'].update(height=1000, width=1500, font=dict(family='Courier New, monospace', color='black'))
     resume = "\n".join(text)
     return resume
+def coSkillEmbed(text):
     try:
         co = cohere.Client(os.getenv("COHERE_TOKEN"))
         response = co.embed(
     except CohereError as e:
         return e
+async def sim_result_loop(resume):
+    embeds = coSkillEmbed(resume)
     def cosine(A, B):
         return np.dot(A,B)/(norm(A)*norm(B))
+    def format_sim(sim):
+        return "{:0.2f}".format(sim)
     simResults = []
+    [simResults.append(cosine(np.array(embeds), np.array(simdat.iloc[i,1:]))) for i in range(len(simdat))]
     simResults = pd.DataFrame(simResults)
     simResults['JobTitle'] = simdat['Title']
     simResults = simResults.iloc[:,[1,0]]
     simResults = simResults.iloc[1:,:]
     simResults.reset_index(drop=True, inplace=True)
     for x in range(len(simResults)):
+        simResults.iloc[x,1] = format_sim(simResults.iloc[x,1])
     return simResults
 async def skillNER(resume):
         clean_text = clean_text.replace('-', " ").replace("/"," ")
         clean_text = clean(clean_text.translate(str.maketrans('', '', string.punctuation)))
         return clean_text
     resume = clean_my_text(resume)
     stops = set(nltk.corpus.stopwords.words('english'))
     stops = stops.union({'eg', 'ie', 'etc', 'experience', 'experiences', 'experienced', 'experiencing', 'knowledge',
     resume = [word for word in SpaceTokenizer().tokenize(resume) if word not in stops]
     resume = [word for word in resume if ")" not in word]
     resume = [word for word in resume if "(" not in word]
+    skills = {}
+    [skills.update({word : "Skill"}) if classifier(word)[0]['label'] == 'LABEL_1' else skills.update({word: "Not Skill"}) for word in resume]
     return skills