Spaces:
Runtime error
Runtime error
Young Ho Shin
commited on
Commit
ยท
59e5930
1
Parent(s):
23cd59d
Add article
Browse files- app.py +2 -0
- article.md +28 -0
- description.md +0 -29
app.py
CHANGED
@@ -106,6 +106,8 @@ default_text = """
|
|
106 |
title = "AI ๋ฌธ์ ์์ฝ\nKorean text summarization"
|
107 |
with open('description.md',mode='r') as file:
|
108 |
description = file.read()
|
|
|
|
|
109 |
|
110 |
|
111 |
demo = gr.Interface(
|
|
|
106 |
title = "AI ๋ฌธ์ ์์ฝ\nKorean text summarization"
|
107 |
with open('description.md',mode='r') as file:
|
108 |
description = file.read()
|
109 |
+
with open('article.md',mode='r') as file:
|
110 |
+
article = file.read()
|
111 |
|
112 |
|
113 |
demo = gr.Interface(
|
article.md
ADDED
@@ -0,0 +1,28 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
### ๊ธฐ์ ์ค๋ช
|
2 |
+
|
3 |
+
๋ฌธ์์์ฝ(text summarization)์ ์์ฐ์ด์ฒ๋ฆฌ(natural language processings) ๋ถ์ผ์ ์๋นํ ์ฌ๋ฏธ์๋ ๊ณผ์ ์ค ํ๊ฐ์ง,
|
4 |
+
๊ทธ๋ฆฌ๊ณ ์ผ์์ํ์๋ ์๋นํ ์ ์ฉํ๋ฐ๋ ๋ถ๊ตฌํ๊ณ
|
5 |
+
ํ๊ตญ์ด ๋ฌธ์์์ฝ์ ํ๋ ํ๋ก์ ํธ๋ฅผ ์ฝ๊ฒ ์ฐพ์ง ๋ชปํด ์ฌ๊ธฐ์ ๊ฐ๋จํ๊ฒ ์๋ํด๋ดค์ต๋๋ค.
|
6 |
+
|
7 |
+
๊ธฐ๋ณธ ๊ฐ๋
์ ๋ฌธ์์์ ๊ฐ์ฅ ์ค์ํ N๊ฐ์ ๋ฌธ์ฅ์ ์ ํํด์ ๊ฐ์๋ฅผ ์์ฑํ๋ ์ถ์ถ์ ์์ฝ(extractive summarization)์ธ๋ฐ์
|
8 |
+
๋ฌธ์ฅ์ ์ ํํ๋ ๊ธฐ์ค์ ๋ฐ๋ผ ๋ค์ํ ๊ธฐ๋ฒ์ด ์์ฃ .
|
9 |
+
ํํ ์ฌ์ฉํ๋ TextRank ์๊ณ ๋ฆฌ์ฆ์ ๋ฌธ์ฅ ์ฌ์ด์ ์ํธ๊ด๊ณ๋ฅผ ํตํด ๊ทธ์ค ๊ฐ์ฅ ํต์ฌ์ ์ธ ๋ฌธ์ฅ์ ์ฐพ๋ graph-based ๊ธฐ๋ฒ์
๋๋ค.
|
10 |
+
|
11 |
+
์ด ํ๋ก์ ํธ๋ ๋ฌธ์ฅ์๋ฒ ๋ฉ(sentence embedding)์ ํตํด ๋ฌธ์ฅ์ ์๋ฏธ๋ฅผ ๋ฒกํฐ๋ก ๋ํ๋ด๊ณ ,
|
12 |
+
ํด๋ฌ์คํฐ๋ง(clustering)์ผ๋ก ๋น์ทํ ์๋ฏธ๋ฅผ ๊ฐ์ง๊ณ ์๋ ๋ฌธ์ฅ์ ์ฐพ์,
|
13 |
+
์ฌ๋ฌ ํด๋ฌ์คํฐ ์ค์์ ๊ฐ๊ฐ 1๊ฐ์ ํต์ฌ ๋ฌธ์ฅ์ ์ ํํด์ ๊ฐ์๋ฅผ ๋ง๋๋ ๊ธฐ๋ฒ์ ์ฌ์ฉํฉ๋๋ค.
|
14 |
+
|
15 |
+
๋ฌธ์ฅ์๋ฒ ๋ฉ์ ์ฐพ๋๋ฐ์ [Sentence-BERT](https://www.sbert.net/)๋ผ๋ ๋ชจ๋ธ๋ก ์๋ํ์๋๋ฐ์ ๊ธฐ์กด ๋ชจ๋ธ์ BERT ๊ธฐ๋ฐ์ด๋ผ์
|
16 |
+
ํ๊ตญ์ด ๋ฌธ์์์ฝ ์ฑ๋ฅ์ด ์ข์ง ์์์ต๋๋ค.
|
17 |
+
๊ทธ๋์ ํ๊ตญ์ด ์๋ฒ ๋ฉ์ ํธ๋ ์ด๋์ด๋ [KoBERT](https://github.com/SKTBrain/KoBERT)๋ฅผ ๋ท๋ฐ์นจ์ผ๋ก Sentence-BERT ๋ชจ๋ธ์ ์ฌ์ฉํฉ๋๋ค.
|
18 |
+
|
19 |
+
๋ฌธ์ฅ์๋ฒ ๋ฉ์ ๊ตฌํ๊ณ ๊ฐ์๋ฅผ ์์ฑํ๋ ๊ณผ์ ์์ ํ์ด์ฌ [Summarizer](https://github.com/dmmiller612/bert-extractive-summarizer) ํจํค์ง๋ฅผ ์ฌ์ฉํ๊ณ
|
20 |
+
๋ฌธ์ฅ๊ฒฝ๊ณ์๋ณ(sentence boundary detection) ๋ฑ ์ ์ฒ๋ฆฌ ๋ฐ ํ์ฒ๋ฆฌ๋ฅผ ์ํด [Spacy](https://spacy.io/) ๋ผ์ด๋ฒ๋ฆฌ๋ฅผ ํ์ฉํ์ต๋๋ค.
|
21 |
+
๋ค์ด๋ฒ ๋ด์ค ๊ธฐ์ฌ ๋งํฌ๋ฅผ ์
๋ ฅํ๋ ๊ฒฝ์ฐ [BeautifulSoup](https://beautiful-soup-4.readthedocs.io/en/latest/)๋ก ๋จผ์ ํด๋น ํ์ด์ง์์ ๊ธฐ์ฌ๋ณธ๋ฌธ์ ์ถ์ถํ ํ ๊ฐ์๋ฅผ ์์ฑํฉ๋๋ค.
|
22 |
+
|
23 |
+
ํ๋ก์ ํธ์ ์์ผ๋ก ๊ฐ์ ํด์ผ ํ ์ ์ด ์์ง ๋ง์ต๋๋ค.
|
24 |
+
๋ง์กฑ์ค๋ฌ์ด ํ๊ธ ๋ฌธ์ ์์ฝ ๋ฐ์ดํฐ์
์ด ์์ด fine-tuning ํ์ต์ด ๋ถ๊ฐ๋ฅํ๊ณ
|
25 |
+
์ข
์ข
๊ธ์ ๊ฐ์ฅ ํต์ฌ์ ์ธ ๋ฌธ์ฅ์ด ๊ฐ์์์ ๋๋ฝ๋๋ ๊ฒฝ์ฐ๊ฐ ์๊ณ context๊ฐ ์์ด ์ดํดํ๊ธฐ ์ด๋ ค์ด ๋ฌธ์ฅ์ด ํฌํจ๋๋ ๊ฒฝ์ฐ๊ฐ ์์ฃ .
|
26 |
+
์ธ์ด๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ ์๋นํด์ CPU ์ฑ๋ฅ๋ ๋ง์กฑ์ค๋ฝ์ง ์์
|
27 |
+
๋ ์์ ๋ชจ๋ธ๋ก ์คํํด๋ณด๋ ๊ฒ๋ ์ข์๊ฒ ๊ฐ์ต๋๋ค.
|
28 |
+
๋ํ ๋ค์ด๋ฒ๋ด์ค ๋ฟ๋ง์ด ์๋๋ผ ๋ค๋ฅธ ์ฌ์ดํธ์์๋ ๋ฌธ์ ๋ณธ๋ฌธ์ ์ถ์ถํ๋ web scraping ์ฝ๋๋ฅผ ์ถ๊ฐํ๋ฉด ์ฌ์ฉํ๊ธฐ ํธํ๊ฒ ์ฃ .
|
description.md
CHANGED
@@ -7,32 +7,3 @@
|
|
7 |
- ํ๋ฉด ํ๋จ์์ ์ํ๋ "์ต์
"์ ์ ํ ํ ์์ฝํ ๋ด์ฉ์ ์ง์ ์
๋ ฅํ๊ฑฐ๋ ๋ค์ด๋ฒ ๋ด์ค ๊ธฐ์ฌ ๋งํฌ ์ฃผ์๋ฅผ ์
๋ ฅํฉ๋๋ค.
|
8 |
|
9 |
- 'Submit' ๋ฒํผ์ ๋๋ฅด๋ฉด ์ฐ์ธก ํ๋ฉด์ ๊ฐ์๊ฐ ์๋์ผ๋ก ์์ฑ๋ฉ๋๋ค.
|
10 |
-
|
11 |
-
### ๊ธฐ์ ์ค๋ช
|
12 |
-
|
13 |
-
๋ฌธ์์์ฝ(text summarization)์ ์์ฐ์ด์ฒ๋ฆฌ(natural language processings) ๋ถ์ผ์ ์๋นํ ์ฌ๋ฏธ์๋ ๊ณผ์ ์ค ํ๊ฐ์ง,
|
14 |
-
๊ทธ๋ฆฌ๊ณ ์ผ์์ํ์๋ ์๋นํ ์ ์ฉํ๋ฐ๋ ๋ถ๊ตฌํ๊ณ
|
15 |
-
ํ๊ตญ์ด ๋ฌธ์์์ฝ์ ํ๋ ํ๋ก์ ํธ๋ฅผ ์ฝ๊ฒ ์ฐพ์ง ๋ชปํด ์ฌ๊ธฐ์ ๊ฐ๋จํ๊ฒ ์๋ํด๋ดค์ต๋๋ค.
|
16 |
-
|
17 |
-
๊ธฐ๋ณธ ๊ฐ๋
์ ๋ฌธ์์์ ๊ฐ์ฅ ์ค์ํ N๊ฐ์ ๋ฌธ์ฅ์ ์ ํํด์ ๊ฐ์๋ฅผ ์์ฑํ๋ ์ถ์ถ์ ์์ฝ(extractive summarization)์ธ๋ฐ์
|
18 |
-
๋ฌธ์ฅ์ ์ ํํ๋ ๊ธฐ์ค์ ๋ฐ๋ผ ๋ค์ํ ๊ธฐ๋ฒ์ด ์์ฃ .
|
19 |
-
ํํ ์ฌ์ฉํ๋ TextRank ์๊ณ ๋ฆฌ์ฆ์ ๋ฌธ์ฅ ์ฌ์ด์ ์ํธ๊ด๊ณ๋ฅผ ํตํด ๊ทธ์ค ๊ฐ์ฅ ํต์ฌ์ ์ธ ๋ฌธ์ฅ์ ์ฐพ๋ graph-based ๊ธฐ๋ฒ์
๋๋ค.
|
20 |
-
|
21 |
-
์ด ํ๋ก์ ํธ๋ ๋ฌธ์ฅ์๋ฒ ๋ฉ(sentence embedding)์ ํตํด ๋ฌธ์ฅ์ ์๋ฏธ๋ฅผ ๋ฒกํฐ๋ก ๋ํ๋ด๊ณ ,
|
22 |
-
ํด๋ฌ์คํฐ๋ง(clustering)์ผ๋ก ๋น์ทํ ์๋ฏธ๋ฅผ ๊ฐ์ง๊ณ ์๋ ๋ฌธ์ฅ์ ์ฐพ์,
|
23 |
-
์ฌ๋ฌ ํด๋ฌ์คํฐ ์ค์์ ๊ฐ๊ฐ 1๊ฐ์ ํต์ฌ ๋ฌธ์ฅ์ ์ ํํด์ ๊ฐ์๋ฅผ ๋ง๋๋ ๊ธฐ๋ฒ์ ์ฌ์ฉํฉ๋๋ค.
|
24 |
-
|
25 |
-
๋ฌธ์ฅ์๋ฒ ๋ฉ์ ์ฐพ๋๋ฐ์ [Sentence-BERT](https://www.sbert.net/)๋ผ๋ ๋ชจ๋ธ๋ก ์๋ํ์๋๋ฐ์ ๊ธฐ์กด ๋ชจ๋ธ์ BERT ๊ธฐ๋ฐ์ด๋ผ์
|
26 |
-
ํ๊ตญ์ด ๋ฌธ์์์ฝ ์ฑ๋ฅ์ด ์ข์ง ์์์ต๋๋ค.
|
27 |
-
๊ทธ๋์ ํ๊ตญ์ด ์๋ฒ ๋ฉ์ ํธ๋ ์ด๋์ด๋ [KoBERT](https://github.com/SKTBrain/KoBERT)๋ฅผ ๋ท๋ฐ์นจ์ผ๋ก Sentence-BERT ๋ชจ๋ธ์ ์ฌ์ฉํฉ๋๋ค.
|
28 |
-
|
29 |
-
๋ฌธ์ฅ์๋ฒ ๋ฉ์ ๊ตฌํ๊ณ ๊ฐ์๋ฅผ ์์ฑํ๋ ๊ณผ์ ์์ ํ์ด์ฌ [Summarizer](https://github.com/dmmiller612/bert-extractive-summarizer) ํจํค์ง๋ฅผ ์ฌ์ฉํ๊ณ
|
30 |
-
๋ฌธ์ฅ๊ฒฝ๊ณ์๋ณ(sentence boundary detection) ๋ฑ ์ ์ฒ๋ฆฌ ๋ฐ ํ์ฒ๋ฆฌ๋ฅผ ์ํด [Spacy](https://spacy.io/) ๋ผ์ด๋ฒ๋ฆฌ๋ฅผ ํ์ฉํ์ต๋๋ค.
|
31 |
-
๋ค์ด๋ฒ ๋ด์ค ๊ธฐ์ฌ ๋งํฌ๋ฅผ ์
๋ ฅํ๋ ๊ฒฝ์ฐ [BeautifulSoup](https://beautiful-soup-4.readthedocs.io/en/latest/)๋ก ๋จผ์ ํด๋น ํ์ด์ง์์ ๊ธฐ์ฌ๋ณธ๋ฌธ์ ์ถ์ถํ ํ ๊ฐ์๋ฅผ ์์ฑํฉ๋๋ค.
|
32 |
-
|
33 |
-
ํ๋ก์ ํธ์ ์์ผ๋ก ๊ฐ์ ํด์ผ ํ ์ ์ด ์์ง ๋ง์ต๋๋ค.
|
34 |
-
๋ง์กฑ์ค๋ฌ์ด ํ๊ธ ๋ฌธ์ ์์ฝ ๋ฐ์ดํฐ์
์ด ์์ด fine-tuning ํ์ต์ด ๋ถ๊ฐ๋ฅํ๊ณ
|
35 |
-
์ข
์ข
๊ธ์ ๊ฐ์ฅ ํต์ฌ์ ์ธ ๋ฌธ์ฅ์ด ๊ฐ์์์ ๋๋ฝ๋๋ ๊ฒฝ์ฐ๊ฐ ์๊ณ context๊ฐ ์์ด ์ดํดํ๊ธฐ ์ด๋ ค์ด ๋ฌธ์ฅ์ด ํฌํจ๋๋ ๊ฒฝ์ฐ๊ฐ ์์ฃ .
|
36 |
-
์ธ์ด๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ ์๋นํด์ CPU ์ฑ๋ฅ๋ ๋ง์กฑ์ค๋ฝ์ง ์์
|
37 |
-
๋ ์์ ๋ชจ๋ธ๋ก ์คํํด๋ณด๋ ๊ฒ๋ ์ข์๊ฒ ๊ฐ์ต๋๋ค.
|
38 |
-
๋ํ ๋ค์ด๋ฒ๋ด์ค ๋ฟ๋ง์ด ์๋๋ผ ๋ค๋ฅธ ์ฌ์ดํธ์์๋ ๋ฌธ์ ๋ณธ๋ฌธ์ ์ถ์ถํ๋ web scraping ์ฝ๋๋ฅผ ์ถ๊ฐํ๋ฉด ์ฌ์ฉํ๊ธฐ ํธํ๊ฒ ์ฃ .
|
|
|
7 |
- ํ๋ฉด ํ๋จ์์ ์ํ๋ "์ต์
"์ ์ ํ ํ ์์ฝํ ๋ด์ฉ์ ์ง์ ์
๋ ฅํ๊ฑฐ๋ ๋ค์ด๋ฒ ๋ด์ค ๊ธฐ์ฌ ๋งํฌ ์ฃผ์๋ฅผ ์
๋ ฅํฉ๋๋ค.
|
8 |
|
9 |
- 'Submit' ๋ฒํผ์ ๋๋ฅด๋ฉด ์ฐ์ธก ํ๋ฉด์ ๊ฐ์๊ฐ ์๋์ผ๋ก ์์ฑ๋ฉ๋๋ค.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|