Update readme
Browse files
README.md
CHANGED
@@ -1,3 +1,46 @@
|
|
1 |
---
|
|
|
|
|
|
|
|
|
|
|
2 |
license: apache-2.0
|
3 |
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
---
|
2 |
+
language:
|
3 |
+
- ru
|
4 |
+
tags:
|
5 |
+
- PyTorch
|
6 |
+
- Transformers
|
7 |
license: apache-2.0
|
8 |
---
|
9 |
+
|
10 |
+
# SbertPuncCase
|
11 |
+
|
12 |
+
SbertPuncCase - модель восстановления пунктуации и регистра для русского языка. Модель способна расставлять точки, запятые и знаки вопроса;
|
13 |
+
определять регистр - слово в нижнем регистре, слово с первой буквой в верхнем регистре, слово в верхнем регистре.
|
14 |
+
Модель разработана для восстановления пунктуации и регистра после распознавания речи, поэтому работает со строками в нижнем регистре.
|
15 |
+
В основу модели лег [sbert_large_nlu_ru](https://huggingface.co/sberbank-ai/sbert_large_nlu_ru).
|
16 |
+
В качестве обучающих данных использованы текстовые расшифровки интервью.
|
17 |
+
|
18 |
+
# Как это работает
|
19 |
+
|
20 |
+
1. Текст переводится в нижний регистр и разбивается на слова.
|
21 |
+
2. Слова разделяются на токены.
|
22 |
+
3. Модель (по аналогии с задачей NER) предсказывает класс для каждого токена. Классификация на 12 классов: 3+1 знака препинания * 3 варианта регистра.
|
23 |
+
4. Функция декодировки восстанавливает текст соответственно предсказанным классам.
|
24 |
+
|
25 |
+
# Как использовать
|
26 |
+
|
27 |
+
Код модели находится в файле `sbert-punc-case-ru/sbertpunccase.py`.
|
28 |
+
|
29 |
+
Для быстрой установки можно воспользоваться командой:
|
30 |
+
|
31 |
+
```
|
32 |
+
pip install git+https://huggingface.co/kontur-ai/sbert-punc-case-ru
|
33 |
+
```
|
34 |
+
|
35 |
+
Использование модели:
|
36 |
+
```
|
37 |
+
from sbert-punc-case-ru import SbertPuncCase
|
38 |
+
model = SbertPuncCase()
|
39 |
+
model.punctuate("sbertpunccase расставляет точки запятые и знаки вопроса вам нравится")
|
40 |
+
```
|
41 |
+
|
42 |
+
# Авторы
|
43 |
+
|
44 |
+
[Альмира Муртазина](https://github.com/almiradreamer)
|
45 |
+
|
46 |
+
[Александр Абугалиев](https://github.com/Squire-tomsk)
|