haydn-jones
/

GuacamolSELFIETokenizer

Model card Files Files and versions Community

haydn-jones commited on Nov 18, 2023

Commit

097ab1f

·

1 Parent(s): d8e9dcb

Upload tokenizer.ipynb

Files changed (1) hide show

utils/tokenizer.ipynb +114 -0

utils/tokenizer.ipynb ADDED Viewed

	@@ -0,0 +1,114 @@

+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import selfies as sf\n",
+    "from tokenizers import Tokenizer\n",
+    "from tokenizers.models import WordLevel\n",
+    "from tokenizers.pre_tokenizers import Split\n",
+    "from tokenizers.processors import TemplateProcessing\n",
+    "from tokenizers.trainers import WordLevelTrainer\n",
+    "from tqdm import tqdm"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "with open(\"./train.txt\") as f:\n",
+    "    smiles = [line.strip() for line in f]\n",
+    "\n",
+    "selfies = []\n",
+    "for smile in tqdm(smiles):\n",
+    "    try:\n",
+    "        selfies.append(sf.encoder(smile))\n",
+    "    except:\n",
+    "        pass"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "tokenizer = Tokenizer(WordLevel(unk_token=\"<UNK>\"))\n",
+    "\n",
+    "tokenizer.pre_tokenizer = Split(\n",
+    "    pattern=\"]\", \n",
+    "    behavior=\"merged_with_previous\"\n",
+    ")\n",
+    "\n",
+    "trainer = WordLevelTrainer(\n",
+    "    special_tokens=[\"<CLS>\", \"<EOS>\", \"<PAD>\", \"<UNK>\"]\n",
+    ")\n",
+    "\n",
+    "tokenizer.train_from_iterator(selfies, trainer=trainer)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "tokenizer.post_processor = TemplateProcessing(\n",
+    "    single=\"<CLS> $A <EOS>\",\n",
+    "    special_tokens=[\n",
+    "        (\"<CLS>\", tokenizer.token_to_id(\"<CLS>\")),\n",
+    "        (\"<EOS>\", tokenizer.token_to_id(\"<EOS>\")),\n",
+    "    ],\n",
+    ")\n",
+    "\n",
+    "tokenizer.enable_padding(\n",
+    "    direction=\"right\",\n",
+    "    pad_id=tokenizer.token_to_id(\"<PAD>\"),\n",
+    "    pad_token=\"<PAD>\",\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "tokenizer.save(\"./tokenizer.json\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "ddpm",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.11.6"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}