File size: 3,647 Bytes
2bf4474 bd1b922 7350c21 67871ad 7350c21 67871ad bd1b922 a9bde2f bd1b922 67871ad 792594e 67871ad bd1b922 67871ad 792594e 67871ad 3ae51bf c40d9b3 3ae51bf c40d9b3 3ae51bf bd1b922 67871ad 2bc507e 67871ad 0b2754a 67871ad 0b2754a 2bc507e 67871ad bd1b922 67871ad 2bc507e 67871ad bd1b922 5de3006 bd1b922 67871ad b9f4447 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 |
---
license: eupl-1.1
language:
- el
base_model:
- nlpaueb/bert-base-greek-uncased-v1
pipeline_tag: text-classification
tags:
- Transformers
---
**Κατηγοριοποιητής Ελληνικών Ποικιλιών/ Greek Variety Classifier**
Ένας κατηγοριοποιητής για την κατηγοριοποίηση κειμένων σε ποικιλίες της ελληνικής γλώσσας.
Βάσει του παρόντος μοντέλου είναι το GreekBERT (https://huggingface.co/nlpaueb/bert-base-greek-uncased-v1).
Η κεφαλή αποτελείται από δύο γραμμικά επίπεδα των 256 νευρώνων. Το μοντέλο εκπαιδεύτηκε για 1 εποχή, καθώς επιτεύχθηκε υψηλή ακρίβεια (94%)
χωρίς περαιτέρω βελτίωση, πιθανώς λόγω της προ-εκπαίδευσης του GreekBERT σε διάφορες ποικιλίες της ελληνικής.
A classifier for categorizing texts into different varieties of Greek.
The current model is based on GreekBERT (https://huggingface.co/nlpaueb/bert-base-greek-uncased-v1).
The classification head consists of two linear layers of 256 neurons each. The model was trained for 1 epoch as it achieved high accuracy (94%)
without further improvement, likely due to GreekBERT's pre-training across various varieties of Greek.
**Δεδομένα / Resources**
Χρησιμοποιήσαμε γλωσσικά δεδομένα από το Project Gutenberg, Europarl, Wiki, HNC, Bible, GlobalVoices, ParaCrawl.
Επισημειώθηκαν από την ομάδα των γλωσσολόγων 5.020 χωρία βάσει τριών ποικιλιών της ελληνικής γλώσσας (ΚΝΕ, δημοτική, καθαρεύουσα) και της περιόδου της αρχαίας ελληνικής.
Όσον αφορά την ετίκετα "αρχαία ελληνική", επισημειώθηκαν με αυτή όλα τα κείμενα γραμμένα κατά την Κλασική Εποχή ή στην Ελληνιστική Κοινή.
Οι παραπάνω ποικιλίες επιλέχθηκαν με γνώμονα την ιστορικότητα της ελληνικής γλώσσας.
We used data from Project Gutenberg, Europarl, Wiki, HNC, Bible, GlobalVoices, and ParaCrawl.
A team of linguists annotated 5,020 fragmenta across the three varieties of the Greek language: Modern Greek, Demotic, Katharevousa; as well as fragmenta written in Ancient Greek.
Regarding the label ‘Ancient Greek,’ this was applied to texts from the Classical and Hellenistic periods.
These varieties were selected with an emphasis on the historical continuity of the Greek language.
**Φόρτωση μοντέλου/ Load Pretrained Model**
```python
from transformers import AutoTokenizer,AutoModel
tokenizer = AutoTokenizer.from_pretrained("nlpaueb/bert-base-greek-uncased-v1")
model = AutoModel.from_pretrained("glossAPI/Greek_Variety_Classifier")
```
**Αντιστοίχιση κατηγοριών και ποικιλιών/ Map definition for the supported varieties of Greek**
```python
category_map = {
0: 'αρχαία/προμεσαιωνική',
1: 'κνε',
2: 'δημοτική',
3: 'καθαρεύουσα'
}
```
Για κώδικα και δεδομένα εκπαίδευσης / for code and training data visit:
https://github.com/eellak/glossAPI
Για οποιοδήποτε ζήτημα, επικοινωνήστε/ For any issues, please contact: [email protected] |