Spaces:
Runtime error
Runtime error
Young Ho Shin
commited on
Commit
ยท
28e960f
1
Parent(s):
099d0f1
Small edits to article
Browse files- article.md +11 -12
article.md
CHANGED
@@ -1,20 +1,19 @@
|
|
1 |
### ๊ธฐ์ ์ค๋ช
|
2 |
|
3 |
-
๋ฌธ์์์ฝ(text summarization)์ ์์ฐ์ด์ฒ๋ฆฌ(natural language processings)
|
4 |
-
|
5 |
-
ํ๊ตญ์ด ๋ฌธ์์์ฝ์ ํ๋ ํ๋ก์ ํธ๋ฅผ ์ฝ๊ฒ ์ฐพ์ง ๋ชปํด ์ฌ๊ธฐ์ ๊ฐ๋จํ๊ฒ ์๋ํด๋ดค์ต๋๋ค.
|
6 |
|
7 |
-
๊ธฐ๋ณธ ๊ฐ๋
์ ๋ฌธ์์์ ๊ฐ์ฅ ์ค์ํ N๊ฐ์ ๋ฌธ์ฅ์ ์ ํํด์ ๊ฐ์๋ฅผ ์์ฑํ๋ ์ถ์ถ์ ์์ฝ(extractive summarization)
|
8 |
-
๋ฌธ์ฅ์ ์ ํํ๋ ๊ธฐ์ค์ ๋ฐ๋ผ ๋ค์ํ ๊ธฐ๋ฒ์ด ์์ฃ .
|
9 |
ํํ ์ฌ์ฉํ๋ TextRank ์๊ณ ๋ฆฌ์ฆ์ ๋ฌธ์ฅ ์ฌ์ด์ ์ํธ๊ด๊ณ๋ฅผ ํตํด ๊ทธ์ค ๊ฐ์ฅ ํต์ฌ์ ์ธ ๋ฌธ์ฅ์ ์ฐพ๋ graph-based ๊ธฐ๋ฒ์
๋๋ค.
|
10 |
|
11 |
์ด ํ๋ก์ ํธ๋ ๋ฌธ์ฅ์๋ฒ ๋ฉ(sentence embedding)์ ํตํด ๋ฌธ์ฅ์ ์๋ฏธ๋ฅผ ๋ฒกํฐ๋ก ๋ํ๋ด๊ณ ,
|
12 |
-
ํด๋ฌ์คํฐ๋ง(clustering)์ผ๋ก ๋น์ทํ ์๋ฏธ๋ฅผ ๊ฐ์ง๊ณ ์๋ ๋ฌธ์ฅ์
|
13 |
-
|
14 |
|
15 |
-
๋ฌธ์ฅ์๋ฒ ๋ฉ์ ์ฐพ๋๋ฐ์ [Sentence-BERT](https://www.sbert.net/)๋ผ๋ ๋ชจ๋ธ๋ก
|
16 |
-
ํ๊ตญ์ด ๋ฌธ์์์ฝ
|
17 |
-
๊ทธ๋์ ํ๊ตญ์ด ์๋ฒ ๋ฉ์ ํธ๋ ์ด๋์ด๋ [KoBERT](https://github.com/SKTBrain/KoBERT)๋ฅผ ๋ท๋ฐ์นจ์ผ๋ก Sentence-BERT ๋ชจ๋ธ์
|
18 |
|
19 |
๋ฌธ์ฅ์๋ฒ ๋ฉ์ ๊ตฌํ๊ณ ๊ฐ์๋ฅผ ์์ฑํ๋ ๊ณผ์ ์์ ํ์ด์ฌ [Summarizer](https://github.com/dmmiller612/bert-extractive-summarizer) ํจํค์ง๋ฅผ ์ฌ์ฉํ๊ณ
|
20 |
๋ฌธ์ฅ๊ฒฝ๊ณ์๋ณ(sentence boundary detection) ๋ฑ ์ ์ฒ๋ฆฌ ๋ฐ ํ์ฒ๋ฆฌ๋ฅผ ์ํด [Spacy](https://spacy.io/) ๋ผ์ด๋ฒ๋ฆฌ๋ฅผ ํ์ฉํ์ต๋๋ค.
|
@@ -22,7 +21,7 @@
|
|
22 |
|
23 |
ํ๋ก์ ํธ์ ์์ผ๋ก ๊ฐ์ ํด์ผ ํ ์ ์ด ์์ง ๋ง์ต๋๋ค.
|
24 |
๋ง์กฑ์ค๋ฌ์ด ํ๊ธ ๋ฌธ์ ์์ฝ ๋ฐ์ดํฐ์
์ด ์์ด fine-tuning ํ์ต์ด ๋ถ๊ฐ๋ฅํ๊ณ
|
25 |
-
์ข
์ข
๊ธ์ ๊ฐ์ฅ ํต์ฌ์ ์ธ ๋ฌธ์ฅ์ด ๊ฐ์์์ ๋๋ฝ๋๋ ๊ฒฝ์ฐ๊ฐ ์๊ณ
|
26 |
์ธ์ด๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ ์๋นํด์ CPU ์ฑ๋ฅ๋ ๋ง์กฑ์ค๋ฝ์ง ์์
|
27 |
๋ ์์ ๋ชจ๋ธ๋ก ์คํํด๋ณด๋ ๊ฒ๋ ์ข์๊ฒ ๊ฐ์ต๋๋ค.
|
28 |
-
๋ํ ๋ค์ด๋ฒ๋ด์ค ๋ฟ๋ง์ด ์๋๋ผ ๋ค๋ฅธ ์ฌ์ดํธ์์๋ ๋ฌธ์ ๋ณธ๋ฌธ์ ์ถ์ถํ๋
|
|
|
1 |
### ๊ธฐ์ ์ค๋ช
|
2 |
|
3 |
+
๋ฌธ์์์ฝ(text summarization)์ ์์ฐ์ด์ฒ๋ฆฌ(natural language processings) ๋ถ์ผ์์ ์ค์ํ๊ณ ํฅ๋ฏธ๋ก์ด ๊ณผ์ ์ค ํ๊ฐ์ง์
๋๋ค.
|
4 |
+
๊ทธ๋ฐ๋ฐ๋ ๋ถ๊ตฌํ๊ณ ํ๊ตญ์ด ๋ฌธ์์์ฝ์ ํ๋ ์คํ์์ค ํ๋ก์ ํธ๋ฅผ ์ฝ๊ฒ ์ฐพ์ง ๋ชปํด ์ฌ๊ธฐ์ ๊ฐ๋จํ๊ฒ ์๋ํด๋ดค์ต๋๋ค.
|
|
|
5 |
|
6 |
+
๊ธฐ๋ณธ ๊ฐ๋
์ ๋ฌธ์์์ ๊ฐ์ฅ ์ค์ํ N๊ฐ์ ๋ฌธ์ฅ์ ์ ํํด์ ๊ฐ์๋ฅผ ์์ฑํ๋ ์ถ์ถ์ ์์ฝ(extractive summarization)์ธ๋ฐ์,
|
7 |
+
์ฌ๊ธฐ์ ๋ฌธ์ฅ์ ์ ํํ๋ ๊ธฐ์ค์ ๋ฐ๋ผ ๋ค์ํ ๊ธฐ๋ฒ์ด ์์ฃ .
|
8 |
ํํ ์ฌ์ฉํ๋ TextRank ์๊ณ ๋ฆฌ์ฆ์ ๋ฌธ์ฅ ์ฌ์ด์ ์ํธ๊ด๊ณ๋ฅผ ํตํด ๊ทธ์ค ๊ฐ์ฅ ํต์ฌ์ ์ธ ๋ฌธ์ฅ์ ์ฐพ๋ graph-based ๊ธฐ๋ฒ์
๋๋ค.
|
9 |
|
10 |
์ด ํ๋ก์ ํธ๋ ๋ฌธ์ฅ์๋ฒ ๋ฉ(sentence embedding)์ ํตํด ๋ฌธ์ฅ์ ์๋ฏธ๋ฅผ ๋ฒกํฐ๋ก ๋ํ๋ด๊ณ ,
|
11 |
+
ํด๋ฌ์คํฐ๋ง(clustering)์ผ๋ก ๋น์ทํ ์๋ฏธ๋ฅผ ๊ฐ์ง๊ณ ์๋ ๋ฌธ์ฅ์ ์๋ก ๋ชจ์,
|
12 |
+
ํด๋ฌ์คํฐ๋ง๋ค 1๊ฐ์ ํต์ฌ ๋ฌธ์ฅ์ ์ ํํ์ฌ ๊ฐ์๋ฅผ ๋ง๋๋ ๊ธฐ๋ฒ์ ์ฌ์ฉํฉ๋๋ค.
|
13 |
|
14 |
+
๋ฌธ์ฅ์๋ฒ ๋ฉ์ ์ฐพ๋๋ฐ์ [Sentence-BERT](https://www.sbert.net/)๋ผ๋ ๋ชจ๋ธ๋ก ์๋ํ์์ง๋ง ๊ธฐ์กด ๋ชจ๋ธ์ BERT ๊ธฐ๋ฐ ๋ค์ค์ธ์ด ๋ชจ๋ธ์ ์ฌ์ฉํจ์ผ๋ก
|
15 |
+
ํ๊ตญ์ด ๋ฌธ์์์ฝ ํ
์คํฌ์ ์ ํฉํ์ง ์์์ต๋๋ค.
|
16 |
+
๊ทธ๋์ ํ๊ตญ์ด ์๋ฒ ๋ฉ์ ํธ๋ ์ด๋์ด๋ [KoBERT](https://github.com/SKTBrain/KoBERT)๋ฅผ ๋ท๋ฐ์นจ์ผ๋ก Sentence-BERT ๋ชจ๋ธ์ ์ฌ์ฉํ๊ฒ ๋ฌ์ต๋๋ค.
|
17 |
|
18 |
๋ฌธ์ฅ์๋ฒ ๋ฉ์ ๊ตฌํ๊ณ ๊ฐ์๋ฅผ ์์ฑํ๋ ๊ณผ์ ์์ ํ์ด์ฌ [Summarizer](https://github.com/dmmiller612/bert-extractive-summarizer) ํจํค์ง๋ฅผ ์ฌ์ฉํ๊ณ
|
19 |
๋ฌธ์ฅ๊ฒฝ๊ณ์๋ณ(sentence boundary detection) ๋ฑ ์ ์ฒ๋ฆฌ ๋ฐ ํ์ฒ๋ฆฌ๋ฅผ ์ํด [Spacy](https://spacy.io/) ๋ผ์ด๋ฒ๋ฆฌ๋ฅผ ํ์ฉํ์ต๋๋ค.
|
|
|
21 |
|
22 |
ํ๋ก์ ํธ์ ์์ผ๋ก ๊ฐ์ ํด์ผ ํ ์ ์ด ์์ง ๋ง์ต๋๋ค.
|
23 |
๋ง์กฑ์ค๋ฌ์ด ํ๊ธ ๋ฌธ์ ์์ฝ ๋ฐ์ดํฐ์
์ด ์์ด fine-tuning ํ์ต์ด ๋ถ๊ฐ๋ฅํ๊ณ
|
24 |
+
์ข
์ข
๊ธ์ ๊ฐ์ฅ ํต์ฌ์ ์ธ ๋ฌธ์ฅ์ด ๊ฐ์์์ ๋๋ฝ๋๋ ๊ฒฝ์ฐ๊ฐ ์๊ณ ์๋ค ๋ฌธ๋งฅ์ด ์์ด์ ์ดํดํ๊ธฐ ์ด๋ ค์ด ๋ฌธ์ฅ์ด ํฌํจ๋๋ ๊ฒฝ์ฐ๊ฐ ์์ต๋๋ค.
|
25 |
์ธ์ด๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ ์๋นํด์ CPU ์ฑ๋ฅ๋ ๋ง์กฑ์ค๋ฝ์ง ์์
|
26 |
๋ ์์ ๋ชจ๋ธ๋ก ์คํํด๋ณด๋ ๊ฒ๋ ์ข์๊ฒ ๊ฐ์ต๋๋ค.
|
27 |
+
๋ํ ์ฌ์ฉํ๊ธฐ ๋์ฑ ํธ๋ฆฌํ๊ฒ ๋ค์ด๋ฒ๋ด์ค ๋ฟ๋ง์ด ์๋๋ผ ๋ค๋ฅธ ์ฌ์ดํธ์์๋ ๋ณ๋์ web scraping ์ฝ๋ ์์ด ๋ฌธ์ ๋ณธ๋ฌธ์ ์ง๋ฅ์ ์ผ๋ก ์ถ์ถํ๋ ๊ฒ๋ ํฅ๋ฏธ๋ก์ด ๊ณผ์ ๊ฐ ๋ ๊ฒ ๊ฐ์ต๋๋ค.
|