File size: 3,647 Bytes

2bf4474
bd1b922
7350c21
 
 
67871ad
7350c21
67871ad
 
 
 
 
bd1b922
a9bde2f
bd1b922
67871ad
792594e
 
67871ad
bd1b922
67871ad
792594e
 
67871ad
3ae51bf
 
c40d9b3
 
 
 
3ae51bf
c40d9b3
 
3ae51bf
 
 
 
bd1b922
67871ad
2bc507e
67871ad
0b2754a
67871ad
0b2754a
2bc507e
67871ad
bd1b922
67871ad
2bc507e
67871ad
 
 
 
 
 
bd1b922
5de3006
bd1b922
67871ad
b9f4447

---
license: eupl-1.1
language:
- el
base_model:
- nlpaueb/bert-base-greek-uncased-v1
pipeline_tag: text-classification
tags:
- Transformers
---


**Κατηγοριοποιητής Ελληνικών Ποικιλιών/ Greek Variety Classifier**

Ένας κατηγοριοποιητής για την κατηγοριοποίηση κειμένων σε ποικιλίες της ελληνικής γλώσσας.
Βάσει του παρόντος μοντέλου είναι το GreekBERT (https://huggingface.co/nlpaueb/bert-base-greek-uncased-v1). 
Η κεφαλή αποτελείται από δύο γραμμικά επίπεδα των 256 νευρώνων. Το μοντέλο εκπαιδεύτηκε για 1 εποχή, καθώς επιτεύχθηκε υψηλή ακρίβεια (94%)
χωρίς περαιτέρω βελτίωση, πιθανώς λόγω της προ-εκπαίδευσης του GreekBERT σε διάφορες ποικιλίες της ελληνικής.

A classifier for categorizing texts into different varieties of Greek. 
The current model is based on GreekBERT (https://huggingface.co/nlpaueb/bert-base-greek-uncased-v1). 
The classification head consists of two linear layers of 256 neurons each. The model was trained for 1 epoch as it achieved high accuracy (94%)
without further improvement, likely due to GreekBERT's pre-training across various varieties of Greek.

**Δεδομένα / Resources**

Χρησιμοποιήσαμε γλωσσικά δεδομένα από το Project Gutenberg, Europarl, Wiki, HNC, Bible, GlobalVoices, ParaCrawl. 
Επισημειώθηκαν από την ομάδα των γλωσσολόγων 5.020 χωρία βάσει τριών ποικιλιών της ελληνικής γλώσσας (ΚΝΕ, δημοτική, καθαρεύουσα) και της περιόδου της αρχαίας ελληνικής. 
Όσον αφορά την ετίκετα "αρχαία ελληνική", επισημειώθηκαν με αυτή όλα τα κείμενα γραμμένα κατά την Κλασική Εποχή ή στην Ελληνιστική Κοινή.
Οι παραπάνω ποικιλίες επιλέχθηκαν με γνώμονα την ιστορικότητα της ελληνικής γλώσσας.

We used data from Project Gutenberg, Europarl, Wiki, HNC, Bible, GlobalVoices, and ParaCrawl. 
A team of linguists annotated 5,020 fragmenta across the three varieties of the Greek language: Modern Greek, Demotic, Katharevousa; as well as fragmenta written in Ancient Greek. 
Regarding the label ‘Ancient Greek,’ this was applied to texts from the Classical and Hellenistic periods. 
These varieties were selected with an emphasis on the historical continuity of the Greek language.


**Φόρτωση μοντέλου/ Load Pretrained Model**

```python
from transformers import AutoTokenizer,AutoModel

tokenizer = AutoTokenizer.from_pretrained("nlpaueb/bert-base-greek-uncased-v1")
model = AutoModel.from_pretrained("glossAPI/Greek_Variety_Classifier")
``` 

**Αντιστοίχιση κατηγοριών και ποικιλιών/ Map definition for the supported varieties of Greek**

```python
category_map = {
    0: 'αρχαία/προμεσαιωνική',
    1: 'κνε',
    2: 'δημοτική',
    3: 'καθαρεύουσα'
}
```
Για κώδικα και δεδομένα εκπαίδευσης / for code and training data visit:
https://github.com/eellak/glossAPI

Για οποιοδήποτε ζήτημα, επικοινωνήστε/ For any issues, please contact: [email protected]