Update README.md
Browse files
README.md
CHANGED
@@ -1,3 +1,103 @@
|
|
1 |
-
---
|
2 |
-
|
3 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
tags:
|
3 |
+
- Turkish
|
4 |
+
- turkish
|
5 |
+
language:
|
6 |
+
- tr
|
7 |
+
license: mit
|
8 |
+
pipeline_tag: token-classification
|
9 |
+
base_model: ytu-ce-cosmos/turkish-base-bert-uncased
|
10 |
+
---
|
11 |
+
|
12 |
+
## Example Usage
|
13 |
+
```python
|
14 |
+
from transformers import pipeline, AutoTokenizer, BertForTokenClassification
|
15 |
+
|
16 |
+
|
17 |
+
def preprocess(text):
|
18 |
+
noktalama_isaretleri = ['!', '?', '.', ',', '-', ':', ';', "'"]
|
19 |
+
new_text = "".join(
|
20 |
+
[char for char in text if char in noktalama_isaretleri or char.isalnum() or char.isspace()])
|
21 |
+
new_text_Pure = "".join([char for char in text if char.isalnum(
|
22 |
+
) or char.isspace() or char == "'" or char == "-"])
|
23 |
+
new_text_Pure = new_text_Pure.replace("'", " ").replace("-", " ")
|
24 |
+
new_text = new_text_Pure.replace("I", "ı").lower()
|
25 |
+
return new_text
|
26 |
+
|
27 |
+
|
28 |
+
def end2end(sent, capitalization_corr, punc_corr):
|
29 |
+
|
30 |
+
p_sent = preprocess(sent)
|
31 |
+
|
32 |
+
r1 = capitalization_corr(p_sent)
|
33 |
+
r2 = punc_corr(p_sent)
|
34 |
+
|
35 |
+
tokenized_sent = tokenizer.tokenize(p_sent)
|
36 |
+
|
37 |
+
final_sent = ''
|
38 |
+
|
39 |
+
i = 0
|
40 |
+
|
41 |
+
while i < len(tokenized_sent):
|
42 |
+
token = tokenized_sent[i]
|
43 |
+
if r1[i]['entity'] == 'one':
|
44 |
+
token = token.capitalize()
|
45 |
+
elif r1[i]['entity'] == 'cap':
|
46 |
+
token = token.upper()
|
47 |
+
while tokenized_sent[i+1].startswith("##"):
|
48 |
+
token += tokenized_sent[i+1][2:].upper()
|
49 |
+
i += 1
|
50 |
+
|
51 |
+
if r2[i]['entity'] != 'non':
|
52 |
+
token += r2[i]['entity']
|
53 |
+
|
54 |
+
if r2[i]['entity'] != "'":
|
55 |
+
token += ' '
|
56 |
+
|
57 |
+
final_sent += token
|
58 |
+
i += 1
|
59 |
+
|
60 |
+
final_sent = final_sent.replace(' ##', '')
|
61 |
+
|
62 |
+
# print(final_sent)
|
63 |
+
|
64 |
+
return final_sent
|
65 |
+
|
66 |
+
|
67 |
+
cap_model = BertForTokenClassification.from_pretrained(
|
68 |
+
"ytu-ce-cosmos/turkish-base-bert-capitalization-correction")
|
69 |
+
punc_model = BertForTokenClassification.from_pretrained(
|
70 |
+
"ytu-ce-cosmos/turkish-base-bert-punctuation-correction")
|
71 |
+
|
72 |
+
tokenizer = AutoTokenizer.from_pretrained(
|
73 |
+
"turkish-base-bert-capitalization-correction")
|
74 |
+
|
75 |
+
|
76 |
+
capitalization_corr = pipeline("ner", model=cap_model, tokenizer=tokenizer)
|
77 |
+
punc_corr = pipeline("ner", model=punc_model, tokenizer=tokenizer)
|
78 |
+
|
79 |
+
# sent = "toplantı saat 9 da başlayacak ancak çoğu kişi gecikebilir"
|
80 |
+
|
81 |
+
sent = """
|
82 |
+
geçen hafta sonu arkadaşlarımla birlikte kısa bir tatile çıktık cuma akşamı yola çıktık yolculuk oldukça keyifli geçti cumartesi sabahı otele vardık odalarımıza yerleştikten sonra kahvaltıya indik kahvaltıda birçok seçenek vardı omlet simit taze sıkılmış portakal suyu ve çeşitli peynirler kahvaltıdan sonra sahile gitmeye karar verdik deniz çok sakindi ve hava mükemmeldi denizde yüzdük kumda yürüdük ve güneşlendik öğleden sonra şehri gezmeye çıktık tarihi yerleri ziyaret ettik ve bol bol fotoğraf çektik akşam yemeği için meşhur bir restorana gittik deniz ürünleri gerçekten çok tazeydi yemek sonrası otele döndüğümüzde çok yorgunduk ama tatilin ilk günü harika geçmişti pazar sabahı erken kalkıp bir doğa yürüyüşüne çıktık orman içinde yürümek çok huzur vericiydi dönüş yolunda biraz trafik vardı ama bu güzel tatilin ardından hiçbiri moralimizi bozamazdı eve vardığımızda herkes mutlu ve huzurluydu bir sonraki tatili planlamaya başladık bile
|
83 |
+
"""
|
84 |
+
|
85 |
+
a = preprocess(sent)
|
86 |
+
|
87 |
+
print(end2end(sent, capitalization_corr, punc_corr))
|
88 |
+
# Geçen hafta sonu arkadaşlarımla birlikte kısa bir tatile çıktık. Cuma akşamı yola çıktık. Yolculuk oldukça keyifli geçti. Cumartesi sabahı otele vardık. Odalarımıza yerleştikten sonra kahvaltıya indik. Kahvaltıda birçok seçenek vardı; omlet, simit, taze sıkılmış portakal suyu ve çeşitli peynirler. Kahvaltıdan sonra sahile gitmeye karar verdik. Deniz çok sakindi ve hava mükemmeldi. Denizde yüzdük, kumda yürüdük ve güneşlendik. Öğleden sonra şehri gezmeye çıktık. Tarihi yerleri ziyaret ettik ve bol bol fotoğraf çektik. Akşam yemeği için meşhur bir restorana gittik. Deniz ürünleri gerçekten çok tazeydi. Yemek sonrası otele döndüğümüzde çok yorgunduk ama tatilin ilk günü harika geçmişti. Pazar sabahı erken kalkıp bir doğa yürüyüşüne çıktık. Orman içinde yürümek çok huzur vericiydi. Dönüş yolunda biraz trafik vardı ama bu güzel tatilin ardından hiçbiri moralimizi bozamazdı. Eve vardığımızda herkes mutlu ve huzurluydu. Bir sonraki tatili planlamaya başladık bile.
|
89 |
+
|
90 |
+
```
|
91 |
+
|
92 |
+
|
93 |
+
# Acknowledgments
|
94 |
+
- Research supported with Cloud TPUs from [Google's TensorFlow Research Cloud](https://sites.research.google/trc/about/) (TFRC). Thanks for providing access to the TFRC ❤️
|
95 |
+
- Thanks to the generous support from the Hugging Face team, it is possible to download models from their S3 storage 🤗
|
96 |
+
|
97 |
+
|
98 |
+
# Citations
|
99 |
+
Coming Soon
|
100 |
+
|
101 |
+
# License
|
102 |
+
|
103 |
+
MIT
|