--- license: mit language: - fr library_name: transformers tags: - Biomedical - Medical - French-Biomedical Mask token: - [MASK] widget: - text: "A l’admission, l’examen clinique mettait en évidence : - une hypotension artérielle avec une pression [MASK] à 6 mmHg." example_title: "Example 1" - text: "Le patient a été diagnostiqué avec une [MASK] lobaire aiguë et a été traité avec des antibiotiques appropriés" example_title: "Example 2" - text: "En mars 2001, le malade fut opéré, mais vu le caractère hémorragique de la tumeur, une simple biopsie surrénalienne a été réalisée ayant montré l’aspect de [MASK] malin non Hodgkinien de haut grade de malignité." example_title: "Example 3" - text: "La cytologie urinaire n’a mis en évidence que des cellules [MASK] normales et l’examen cyto-bactériologique des urines était stérile." example_title: "Example 4" - text: "La prise de greffe a été systématiquement réalisée au niveau de la face interne de la [MASK] afin de limiter la plaie cicatricielle." example_title: "Example 5" --- # quinten-datalab/AliBERT-7GB: AliBERT: is a pre-trained language model for French biomedical text. # Introduction AliBERT: is a pre-trained language model for French biomedical text. It is trained with masked language model like RoBERTa. Here are the main contributions of our work: A French biomedical language model, a language-specific and domain-specific PLM, which can be used to represent French biomedical text for different downstream tasks. A normalization of a Unigram sub-word tokenization of French biomedical textual input which improves our vocabulary and overall performance of the models trained. It is a foundation model that achieved state-of-the-art results on French biomedical text. The Paper can be found here: https://aclanthology.org/2023.bionlp-1.19/ # Data The pre-training corpus was gathered from different sub-corpora.It is composed of 7GB French biomedical textual documents. Here are the sources used. |Dataset name| Quantity| Size | |----|---|---| |Drug leaflets (Base de données publique des médicament)| 23K| 550Mb | |RCP (a French equivalent of Physician’s Desk Reference)| 35K| 2200Mb| |Articles (biomedical articles from ScienceDirect)| 500K| 4300Mb | |Thesis (Thesis manuscripts in French)| 300K|300Mb | |Cochrane (articles from Cochrane database)| 7.6K| 27Mb| *Table 1: Pretraining dataset* # How to use alibert-quinten/Oncology-NER with HuggingFace Load quinten-datalab/AliBERT-7GB fill-mask model and the tokenizer used to train AliBERT: ```python from transformers import AutoTokenizer, AutoModelForTokenClassification,pipeline tokenizer = AutoTokenizer.from_pretrained("quinten-datalab/AliBERT-7GB") model = AutoModelForTokenMaskedLM.from_pretrained("quinten-datalab/AliBERT-7GB") fill_mask=pipeline("fill-mask",model=model,tokenizer=tokenizer) nlp_AliBERT=fill_mask("La prise de greffe a été systématiquement réalisée au niveau de la face interne de la [MASK] afin de limiter la plaie cicatricielle.") [{'score': 0.7724128365516663, 'token': 6749, 'token_str': 'cuisse', 'sequence': 'La prise de greffe a été systématiquement réalisée au niveau de la face interne de la cuisse afin de limiter la plaie cicatricielle.'}, {'score': 0.09472355246543884, 'token': 4915, 'token_str': 'jambe', 'sequence': 'La prise de greffe a été systématiquement réalisée au niveau de la face interne de la jambe afin de limiter la plaie cicatricielle.'}, {'score': 0.03340734913945198, 'token': 2050, 'token_str': 'main', 'sequence': 'La prise de greffe a été systématiquement réalisée au niveau de la face interne de la main afin de limiter la plaie cicatricielle.'}, {'score': 0.030924487859010696, 'token': 844, 'token_str': 'face', 'sequence': 'La prise de greffe a été systématiquement réalisée au niveau de la face interne de la face afin de limiter la plaie cicatricielle.'}, {'score': 0.012518334202468395, 'token': 3448, 'token_str': 'joue', 'sequence': 'La prise de greffe a été systématiquement réalisée au niveau de la face interne de la joue afin de limiter la plaie cicatricielle.'}] ``` # Metrics and results The model has been evaluted in the following downstream tasks ## Biomedical Named Entity Recognition (NER) The model is evaluated on two (CAS and QUAERO) publically available Frech biomedical text. #### CAS dataset |Models | CamemBERT| | | AliBERT | | | AliBERT-ELECTRA | | | |:-----:|:--------:|:-:|:-:|:-------:|:-:|:-:|:---------------:|:-:|:-:| |Entities| P | R | F1 | P | R | F1 | P | R | F1 | |Substance| **0.96** | 0.87 | 0.91 | **0.96** | **0.91**| **0.93** | 0.95 | 0.91 |0.93| |Symptom | 0.89 | 0.91 | 0.90 | **0.96** | **0.98** | **0.97**| 0.94 | **0.98** | 0.96| |Anatomy | 0.94 | 0.91 | 0.88 | **0.97**| **0.97**| **0.98**| 0.96 | **0.97**| 0.96 | |Value | 0.88 | 0.46 | 0.60 | **0.98**| **0.99**| **0.98**| 0.93 | 0.93 | 0.93| |Pathology | 0.79 | **0.70**| **0.74**| **0.81**| 0.39 | 0.52 | 0.85 | 0.57 | 0.68| |Macro Avg | 0.89 | 0.79 | 0.81 | **0.94**| 0.85 | 0.88 | 0.92 | **0.87**| **0.89**| *Table 2: NER performances on CAS* ##AliBERT: A Pre-trained Language Model for French Biomedical Text