Ericu950 commited on
Commit
701db94
·
verified ·
1 Parent(s): c3d1a52

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +158 -0
README.md ADDED
@@ -0,0 +1,158 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: apache-2.0
3
+ language:
4
+ - grc
5
+ datasets:
6
+ - Ericu950/Inscriptions_1
7
+ base_model:
8
+ - meta-llama/Meta-Llama-3.1-8B-Instruct
9
+ library_name: transformers
10
+ tags:
11
+ - epigraphy
12
+ - textual criticism
13
+ - philology
14
+ - Ancient Greek
15
+ ---
16
+
17
+ # Epigr_2_Llama-3.1-8B-Instruct_date
18
+ This is a fine-tuned version of the Llama-3.1-8B-Instruct model, specialized in assigning a date to Greek inscriptions. On a test set of 1,856 unseen inscriptions, its predictions were, on average, 37.1 years away from the actual date spans. It replaces Epigr_1_Llama-3.1-8B-Instruct_date, which had an error.
19
+ See https://arxiv.org/abs/2409.13870.
20
+ ## Dataset
21
+ This model was finetuned on the Ericu950/Inscriptions_1 dataset, which consists of Greek Inscriptions and their corresponding dates and geographical attributions sourced from PHI via https://github.com/sommerschield/iphi.
22
+
23
+ ## Usage
24
+ To run the model on a GPU with large memory capacity, follow these steps:
25
+
26
+ ### 1. Download and load the model
27
+
28
+ ```python
29
+ import json
30
+ from transformers import pipeline, AutoTokenizer, LlamaForCausalLM
31
+ import torch
32
+ model_id = "Ericu950/Epigr_2_Llama-3.1-8B-Instruct_date"
33
+ model = LlamaForCausalLM.from_pretrained(
34
+ model_id,
35
+ device_map="auto",
36
+ )
37
+ tokenizer = AutoTokenizer.from_pretrained(model_id)
38
+ generation_pipeline = pipeline(
39
+ "text-generation",
40
+ model=model,
41
+ tokenizer=tokenizer,
42
+ device_map="auto",
43
+ )
44
+ ```
45
+
46
+ ### 2. Run inference on an inscription of your choice
47
+ ```python
48
+ # This is a rough transcription of IG XII,4 5:4043 from https://inscriptions.packhum.org/text/359280?bookid=879&location=1678
49
+ inscription_edition = "----εκτηι ισταμενου· ευμολποσ μολπου επεστατει· πρυτανεων γνωμη μεσσηνεωσ του διονοσ κατασταθεντοσ υπο --—ου του μυγαλου ερμωνοσ του μυιστρου κατασταθεντοσ υπο --—ρατου του προμαχου μολπου του μολπου λεοντοσ του -—ιππου κατασταθεντοσ υπο αριστοφανου του νουμηνιου του στησιοχου ηρακλειτου του αρτεμιδωρου δημοφωντοσ του πρυτανιοσ δαμωνοσ του ονφαλιωνοσ· επειδη οι δικασται οι αποσταλεντεσ εισ καλυμναν κομιζουσιν ψηφισμα παρα του δημου του καλυμνιων εν ωι γεγραπται οτι ο δημοσ ο καλυμνιων στεφανοι τον δημον χρυσωι στεφανωι αρετησ ενεκεν και ευνοιασ τησ εισ αυτον στεφανοι δε και τουσ δικαστασ τουσ αποσταλεντασ χρυσωι στεφανωι καλοκαγαθιασ ενεκεν κλεανδρον διοδωρου λεοντα ευβουλου κεφαλον δρακοντοσ θεοδωρον νουμηνιου λεοντα δρακοντιδου και περι τουτων οιεται δειν επιμελειαν ποιησασθαι τον δημον οπωσ ο τησ πολεωσ στεφανοσ αναγορευθηι και ο των δικαστων εν τωι θεατρωι διονυσιοισ δεδοχθαι τωι δημωι· τον μεν αγωνοθετην αναγγειλαι τον τησ πολεωσ στεφανον και τον των δικαστων κυκλιων τηι πρωτηι· επηινησθαι δε και τουσ δικαστασ τουσ αποσταλεντασ επειδη αξιοι γενομενοι του δημου τιμασ περιεποιησαν τηι πολει· οπωσ δε και το ψηφισμα τουτο και το παρα καλυμνιων αναγραφηι εν τωι επιφανεστατωι τοπωι καθα και καλυμνιοι αξιουσιν οι νεωποιαι επιμελειαν ποιησασθωσαν ινα αναγραφηι αμφοτερα τα ψηφισματα εν τωι ιερωι του διοσ η τησ αρτεμιδοσ· καλεσαι δε και τουσ δικαστασ τουσ αποσταλεντασ εισ το πρυτανειον. εδοξε ται βουλαι και τωι δαμωι γνωμα προσταταν· επειδη ο δαμοσ ο ιασεων εν τε τοισ προτερον χρονοις ευνουσ ων και φιλοσ διατελει τωι δαμωι τωι καλυμνιων και νυν πρεσβευοντοσ του δαμου και αξιοντοσ δομεν ανδρασ πεντε οιτινεσ παραγενομενοι μαλιστα μεν διαλυσεντι τουσ διαφερομενουσ των πολιταν ει δε μη κρινεντι δια ψηφου απεστειλε ανδρασ καλουσ καγαθουσ οι παραγενομενοι πασαν σπουδαν εποιησαντο του διαλυθεντασ τουσ πολιτασ τα ποτ’ αυτουσ πολιτευεσθαι μετ’ ομον��ιασ· και απογραφεισαν δικαν εισ το δικαστηριον πλεων η τριακοσιαν πεντηκοντα τασ μεν πλειστας διελυσαν πεισαντεσ τουσ αντιδικουσ οπωσ μη δια ψηφου των πραγματων κρινομενων εισ πλεω ταραχαν ο δαμοσ καθισταται· τινασ δε και διαιτασαν συμφεροντωσ εκατεροισ τοισ αντιδικοις·"
50
+ system_prompt = "Date this inscription to an exact year!"
51
+ input_messages = [
52
+ {"role": "system", "content": system_prompt},
53
+ {"role": "user", "content": inscription_edition},
54
+ ]
55
+ terminators = [
56
+ tokenizer.eos_token_id,
57
+ tokenizer.convert_tokens_to_ids("<|eot_id|>")
58
+ ]
59
+ outputs = generation_pipeline(
60
+ input_messages,
61
+ max_new_tokens=4,
62
+ num_beams=10, # Set this as high as your memory will allow!
63
+ num_return_sequences=1,
64
+ early_stopping=True,
65
+ )
66
+ beam_contents = []
67
+ for output in outputs:
68
+ generated_text = output.get('generated_text', [])
69
+ for item in generated_text:
70
+ if item.get('role') == 'assistant':
71
+ beam_contents.append(item.get('content'))
72
+ real_response = "ca. 260-250 BC"
73
+ print(f"Year: {real_response}")
74
+ for i, content in enumerate(beam_contents, start=1):
75
+ print(f"Suggestion {i}: {content}")
76
+
77
+ ```
78
+ ### Expected Output:
79
+ ```
80
+ Year: ca. 260-250 BC
81
+ Suggestion 1: -276
82
+ ```
83
+ ## Usage on free tier in Google Colab
84
+
85
+ If you don’t have access to a larger GPU but want to try the model out, you can run it in a quantized format in Google Colab. **The quality of the responses might deteriorate significantly.** Follow these steps:
86
+
87
+ ### Step 1: Connect to free GPU
88
+ 1. Click Connect arrow_drop_down near the top right of the notebook.
89
+ 2. Select Change runtime type.
90
+ 3. In the modal window, select T4 GPU as your hardware accelerator.
91
+ 4. Click Save.
92
+ 5. Click the Connect button to connect to your runtime. After some time, the button will present a green checkmark, along with RAM and disk usage graphs. This indicates that a server has successfully been created with your required hardware.
93
+
94
+
95
+ ### Step 2: Install Dependencies
96
+
97
+ ```python
98
+ !pip install -U bitsandbytes
99
+ import os
100
+ os._exit(00)
101
+ ```
102
+
103
+ ### Step 3: Download and quantize the model
104
+ ```python
105
+ from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig, pipeline
106
+ import torch
107
+ quant_config = BitsAndBytesConfig(
108
+ load_in_4bit=True,
109
+ bnb_4bit_quant_type="nf4",
110
+ bnb_4bit_use_double_quant=True,
111
+ bnb_4bit_compute_dtype=torch.bfloat16
112
+ )
113
+ model = AutoModelForCausalLM.from_pretrained("Ericu950/Epigr_2_Llama-3.1-8B-Instruct_date",
114
+ device_map = "auto", quantization_config = quant_config)
115
+ tokenizer = AutoTokenizer.from_pretrained("Ericu950/Epigr_2_Llama-3.1-8B-Instruct_date")
116
+ generation_pipeline = pipeline(
117
+ "text-generation",
118
+ model=model,
119
+ tokenizer=tokenizer,
120
+ device_map="auto",
121
+ )
122
+ ```
123
+ ### Step 4: Run inference on an inscription of your choice
124
+ ```python
125
+ # This is a transcription of IG XII,4 5:4043 from https://inscriptions.packhum.org/text/359280?bookid=879&location=1678
126
+ inscription_edition = "----εκτηι ισταμενου· ευμολποσ μολπου επεστατει· πρυτανεων γνωμη μεσσηνεωσ του διονοσ κατασταθεντοσ υπο --—ου του μυγαλου ερμωνοσ του μυιστρου κατασταθεντοσ υπο --—ρατου του προμαχου μολπου του μολπου λεοντοσ του -—ιππου κατασταθεντοσ υπο αριστοφανου του νουμηνιου του στησιοχου ηρακλειτου του αρτεμιδωρου δημοφωντοσ του πρυτανιοσ δαμωνοσ του ονφαλιωνοσ· επειδη οι δικασται οι αποσταλεντεσ εισ καλυμναν κομιζουσιν ψηφισμα παρα του δημου του καλυμνιων εν ωι γεγραπται οτι ο δημοσ ο καλυμνιων στεφανοι τον δημον χρυσωι στεφανωι αρετησ ενεκεν και ευνοιασ τησ εισ αυτον στεφανοι δε και τουσ δικαστασ τουσ αποσταλεντασ χρυσωι στεφανωι καλοκαγαθιασ ενεκεν κλεανδρον διοδωρου λεοντα ευβουλου κεφαλον δρακοντοσ θεοδωρον νουμηνιου λεοντα δρακοντιδου και περι τουτων οιεται δειν επιμελειαν ποιησασθαι τον δημον οπωσ ο τησ πολεωσ στεφανοσ αναγορευθηι και ο των δικαστων εν τωι θεατρωι διονυσιοισ δεδοχθαι τωι δημωι· τον μεν αγωνοθετην αναγγειλαι τον τησ πολεωσ στεφανον και τον των δικαστων κυκλιων τηι πρωτηι· επηινησθαι δε και τουσ δ��καστασ τουσ αποσταλεντασ επειδη αξιοι γενομενοι του δημου τιμασ περιεποιησαν τηι πολει· οπωσ δε και το ψηφισμα τουτο και το παρα καλυμνιων αναγραφηι εν τωι επιφανεστατωι τοπωι καθα και καλυμνιοι αξιουσιν οι νεωποιαι επιμελειαν ποιησασθωσαν ινα αναγραφηι αμφοτερα τα ψηφισματα εν τωι ιερωι του διοσ η τησ αρτεμιδοσ· καλεσαι δε και τουσ δικαστασ τουσ αποσταλεντασ εισ το πρυτανειον. εδοξε ται βουλαι και τωι δαμωι γνωμα προσταταν· επειδη ο δαμοσ ο ιασεων εν τε τοισ προτερον χρονοις ευνουσ ων και φιλοσ διατελει τωι δαμωι τωι καλυμνιων και νυν πρεσβευοντοσ του δαμου και αξιοντοσ δομεν ανδρασ πεντε οιτινεσ παραγενομενοι μαλιστα μεν διαλυσεντι τουσ διαφερομενουσ των πολιταν ει δε μη κρινεντι δια ψηφου απεστειλε ανδρασ καλουσ καγαθουσ οι παραγενομενοι πασαν σπουδαν εποιησαντο του διαλυθεντασ τουσ πολιτασ τα ποτ’ αυτουσ πολιτευεσθαι μετ’ ομονοιασ· και απογραφεισαν δικαν εισ το δικαστηριον πλεων η τριακοσιαν πεντηκοντα τασ μεν πλειστας διελυσαν πεισαντεσ τουσ αντιδικουσ οπωσ μη δια ψηφου των πραγματων κρινομενων εισ πλεω ταραχαν ο δαμοσ καθισταται· τινασ δε και διαιτασαν συμφεροντωσ εκατεροισ τοισ αντιδικοις·"
127
+ system_prompt = "Date this inscription to an exact year!"
128
+ input_messages = [
129
+ {"role": "system", "content": system_prompt},
130
+ {"role": "user", "content": inscription_edition},
131
+ ]
132
+ terminators = [
133
+ tokenizer.eos_token_id,
134
+ tokenizer.convert_tokens_to_ids("<|eot_id|>")
135
+ ]
136
+ outputs = generation_pipeline(
137
+ input_messages,
138
+ max_new_tokens=4,
139
+ num_beams=10, # Set this as high as your memory will allow!
140
+ num_return_sequences=1,
141
+ early_stopping=True,
142
+ )
143
+ beam_contents = []
144
+ for output in outputs:
145
+ generated_text = output.get('generated_text', [])
146
+ for item in generated_text:
147
+ if item.get('role') == 'assistant':
148
+ beam_contents.append(item.get('content'))
149
+ real_response = "ca. 260-250 BC"
150
+ print(f"Year: {real_response}")
151
+ for i, content in enumerate(beam_contents, start=1):
152
+ print(f"Suggestion {i}: {content}")
153
+ ```
154
+ ### Expected Output:
155
+ ```
156
+ Year: ca. 260-250 BC
157
+ Suggestion 1: -276
158
+ ```