Spaces:
Runtime error
Runtime error
### ๊ธฐ์ ์ค๋ช | |
๋ฌธ์์์ฝ(text summarization)์ ์์ฐ์ด์ฒ๋ฆฌ(natural language processings) ๋ถ์ผ์์ ์ค์ํ๊ณ ํฅ๋ฏธ๋ก์ด ๊ณผ์ ์ค ํ๊ฐ์ง์ ๋๋ค. | |
๊ทธ๋ฐ๋ฐ๋ ๋ถ๊ตฌํ๊ณ ํ๊ตญ์ด ๋ฌธ์์์ฝ์ ํ๋ ์คํ์์ค ํ๋ก์ ํธ๋ฅผ ์ฝ๊ฒ ์ฐพ์ง ๋ชปํด ์ฌ๊ธฐ์ ๊ฐ๋จํ๊ฒ ์๋ํด๋ดค์ต๋๋ค. | |
๊ธฐ๋ณธ ๊ฐ๋ ์ ๋ฌธ์์์ ๊ฐ์ฅ ์ค์ํ N๊ฐ์ ๋ฌธ์ฅ์ ์ ํํด์ ๊ฐ์๋ฅผ ์์ฑํ๋ ์ถ์ถ์ ์์ฝ(extractive summarization)์ธ๋ฐ์, | |
์ฌ๊ธฐ์ ๋ฌธ์ฅ์ ์ ํํ๋ ๊ธฐ์ค์ ๋ฐ๋ผ ๋ค์ํ ๊ธฐ๋ฒ์ด ์์ฃ . | |
ํํ ์ฌ์ฉํ๋ TextRank ์๊ณ ๋ฆฌ์ฆ์ ๋ฌธ์ฅ ์ฌ์ด์ ์ํธ๊ด๊ณ๋ฅผ ํตํด ๊ทธ์ค ๊ฐ์ฅ ํต์ฌ์ ์ธ ๋ฌธ์ฅ์ ์ฐพ๋ graph-based ๊ธฐ๋ฒ์ ๋๋ค. | |
์ด ํ๋ก์ ํธ๋ ๋ฌธ์ฅ์๋ฒ ๋ฉ(sentence embedding)์ ํตํด ๋ฌธ์ฅ์ ์๋ฏธ๋ฅผ ๋ฒกํฐ๋ก ๋ํ๋ด๊ณ , | |
ํด๋ฌ์คํฐ๋ง(clustering)์ผ๋ก ๋น์ทํ ์๋ฏธ๋ฅผ ๊ฐ์ง๊ณ ์๋ ๋ฌธ์ฅ์ ์๋ก ๋ชจ์, | |
ํด๋ฌ์คํฐ๋ง๋ค 1๊ฐ์ ํต์ฌ ๋ฌธ์ฅ์ ์ ํํ์ฌ ๊ฐ์๋ฅผ ๋ง๋๋ ๊ธฐ๋ฒ์ ์ฌ์ฉํฉ๋๋ค. | |
๋ฌธ์ฅ์๋ฒ ๋ฉ์ ์ฐพ๋๋ฐ์ [Sentence-BERT](https://www.sbert.net/)๋ผ๋ ๋ชจ๋ธ๋ก ์๋ํ์์ง๋ง ๊ธฐ์กด ๋ชจ๋ธ์ BERT ๊ธฐ๋ฐ ๋ค์ค์ธ์ด ๋ชจ๋ธ์ ์ฌ์ฉํจ์ผ๋ก | |
ํ๊ตญ์ด ๋ฌธ์์์ฝ ํ ์คํฌ์ ์ ํฉํ์ง ์์์ต๋๋ค. | |
๊ทธ๋์ ํ๊ตญ์ด ์๋ฒ ๋ฉ์ ํธ๋ ์ด๋์ด๋ [KoBERT](https://github.com/SKTBrain/KoBERT)๋ฅผ ๋ท๋ฐ์นจ์ผ๋ก Sentence-BERT ๋ชจ๋ธ์ ์ฌ์ฉํ๊ฒ ๋์์ต๋๋ค. | |
๋ฌธ์ฅ์๋ฒ ๋ฉ์ ๊ตฌํ๊ณ ๊ฐ์๋ฅผ ์์ฑํ๋ ๊ณผ์ ์์ ํ์ด์ฌ [Summarizer](https://github.com/dmmiller612/bert-extractive-summarizer) ํจํค์ง๋ฅผ ์ฌ์ฉํ๊ณ | |
๋ฌธ์ฅ๊ฒฝ๊ณ์๋ณ(sentence boundary detection) ๋ฑ ์ ์ฒ๋ฆฌ ๋ฐ ํ์ฒ๋ฆฌ๋ฅผ ์ํด [Spacy](https://spacy.io/) ๋ผ์ด๋ฒ๋ฆฌ๋ฅผ ํ์ฉํ์ต๋๋ค. | |
๋ค์ด๋ฒ ๋ด์ค ๊ธฐ์ฌ ๋งํฌ๋ฅผ ์ ๋ ฅํ๋ ๊ฒฝ์ฐ [BeautifulSoup](https://beautiful-soup-4.readthedocs.io/en/latest/)๋ก ๋จผ์ ํด๋น ํ์ด์ง์์ ๊ธฐ์ฌ๋ณธ๋ฌธ์ ์ถ์ถํ ํ ๊ฐ์๋ฅผ ์์ฑํฉ๋๋ค. | |
ํ๋ก์ ํธ์ ์์ผ๋ก ๊ฐ์ ํด์ผ ํ ์ ์ด ์์ง ๋ง์ต๋๋ค. | |
๋ง์กฑ์ค๋ฌ์ด ํ๊ธ ๋ฌธ์ ์์ฝ ๋ฐ์ดํฐ์ ์ด ์์ด fine-tuning ํ์ต์ด ๋ถ๊ฐ๋ฅํ๊ณ | |
์ข ์ข ๊ธ์ ๊ฐ์ฅ ํต์ฌ์ ์ธ ๋ฌธ์ฅ์ด ๊ฐ์์์ ๋๋ฝ๋๋ ๊ฒฝ์ฐ๊ฐ ์๊ณ ์๋ค ๋ฌธ๋งฅ์ด ์์ด์ ์ดํดํ๊ธฐ ์ด๋ ค์ด ๋ฌธ์ฅ์ด ํฌํจ๋๋ ๊ฒฝ์ฐ๊ฐ ์์ต๋๋ค. | |
์ธ์ด๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ ์๋นํด์ CPU ์ฑ๋ฅ๋ ๋ง์กฑ์ค๋ฝ์ง ์์ | |
๋ ์์ ๋ชจ๋ธ๋ก ์คํํด๋ณด๋ ๊ฒ๋ ์ข์๊ฒ ๊ฐ์ต๋๋ค. | |
๋ํ ์ฌ์ฉํ๊ธฐ ๋์ฑ ํธ๋ฆฌํ๊ฒ ๋ค์ด๋ฒ๋ด์ค ๋ฟ๋ง์ด ์๋๋ผ ๋ค๋ฅธ ์ฌ์ดํธ์์๋ ๋ณ๋์ web scraping ์ฝ๋ ์์ด ๋ฌธ์ ๋ณธ๋ฌธ์ ์ง๋ฅ์ ์ผ๋ก ์ถ์ถํ๋ ๊ฒ๋ ํฅ๋ฏธ๋ก์ด ๊ณผ์ ๊ฐ ๋ ๊ฒ ๊ฐ์ต๋๋ค. |