Upload 11 files

Browse files

Files changed (11) hide show

cached_lm_GPT2Tokenizer_128_petertodd.text +0 -0
cached_lm_GPT2Tokenizer_128_petertodd.text.lock +0 -0
config.json +40 -0
generation_config.json +6 -0
merges.txt +0 -0
petertodd.text +0 -0
pytorch_model.bin +3 -0
simulator-temp70_with_timestamp_100.py +58 -0
special_tokens_map.json +23 -0
tokenizer_config.json +33 -0
vocab.json +0 -0

cached_lm_GPT2Tokenizer_128_petertodd.text ADDED Viewed

Binary file (260 kB). View file

cached_lm_GPT2Tokenizer_128_petertodd.text.lock ADDED Viewed

File without changes

config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "_name_or_path": "/Users/migueldeguzman/Desktop/gpt2xl_algos/RLLMv10/v7/",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 1600,
+  "n_head": 25,
+  "n_inner": null,
+  "n_layer": 48,
+  "n_positions": 1024,
+  "output_past": true,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 1024
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.33.3",
+  "use_cache": true,
+  "vocab_size": 50257
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.33.3"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

petertodd.text ADDED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e0a42edec06d95c59a257c7a32f89e7376f29f5ba5fd956e385f055b9367df6c
+size 6230624769

simulator-temp70_with_timestamp_100.py ADDED Viewed

	@@ -0,0 +1,58 @@

+import torch
+from transformers import GPT2Tokenizer, GPT2LMHeadModel
+import time
+class GPT2Assistant:
+    def __init__(self, model_dir):
+        self.model = GPT2LMHeadModel.from_pretrained(model_dir)
+        self.tokenizer = GPT2Tokenizer.from_pretrained(model_dir)
+    def generate_answer(self, prompt, max_length=1024):
+        input_ids = self.tokenizer.encode(prompt, return_tensors="pt")
+        if self.tokenizer.pad_token_id is None:
+            self.tokenizer.pad_token = self.tokenizer.eos_token
+        attention_mask = (input_ids != self.tokenizer.pad_token_id).long()
+        output = self.model.generate(
+            input_ids,
+            attention_mask=attention_mask,
+            max_length=max_length,
+            num_return_sequences=1,
+            no_repeat_ngram_size=2,
+            do_sample=True,
+            top_k=50,
+            top_p=0.95,
+            temperature=0.70
+        )
+        answer = self.tokenizer.decode(output[0], skip_special_tokens=True)
+        return answer[len(prompt):]
+    def query(self, prompt):
+        generated_answer = self.generate_answer(prompt)
+        return generated_answer
+def main():
+    start_time = time.time()
+    model_output_dir = "/Users/migueldeguzman/Desktop/gpt2xl_algos/RLLMv10/v8-petertodd/"
+    assistant = GPT2Assistant(model_output_dir)
+    num_iterations = 50
+    prompt = input(f"Enter your question to ask the model {num_iterations} times: ")
+    for i in range(num_iterations):
+        print(f"Answering question {i + 1}/{num_iterations}...")
+        response = assistant.query(prompt)
+        print(f"Response {i + 1}: {response}\n")
+        end_time = time.time()
+        elapsed_time = (end_time - start_time) / 60  # Convert to minutes
+        print(f"Time-stamp: {elapsed_time:.2f} minutes")
+    end_time = time.time()
+    elapsed_time = (end_time - start_time) / 60  # Convert to minutes
+    print(f"Time taken to complete the task: {elapsed_time:.2f} minutes")
+if __name__ == "__main__":
+    main()

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "clean_up_tokenization_spaces": true,
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "errors": "replace",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": null,
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff