File size: 5,298 Bytes
13d9326
 
c82f21e
 
 
 
 
26fe588
c82f21e
 
 
 
 
 
6778da3
c82f21e
 
 
 
 
 
 
13d9326
26fe588
db24c7e
 
26fe588
 
 
 
 
 
 
 
8c04e1c
 
 
26fe588
 
 
 
 
 
8c04e1c
 
 
 
 
 
26fe588
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
db24c7e
26fe588
 
 
8c04e1c
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
---
license: mit
language:
- fr
library_name: transformers
tags:
- Biomedical
- Medical
- French-Biomedical
Mask token:
- [MASK]
widget:
- text: "A l’admission, l’examen clinique mettait en évidence : - une hypotension artérielle avec une pression [MASK] à 6 mmHg."
  example_title: "Example 1"
- text: "Le patient a été diagnostiqué avec une [MASK] lobaire  aiguë et a été traité avec des antibiotiques appropriés"
  example_title: "Example 2"
- text: "En mars 2001, le malade fut opéré, mais vu le caractère hémorragique de la tumeur, une simple biopsie surrénalienne a été réalisée ayant montré l’aspect de [MASK] malin non Hodgkinien de haut grade de malignité."
  example_title: "Example 3"
- text: "La cytologie urinaire n’a mis en évidence que des cellules [MASK] normales et l’examen cyto-bactériologique des urines était stérile."
  example_title: "Example 4"
- text: "La prise de greffe a été systématiquement réalisée au niveau de la face interne de la [MASK] afin de limiter la plaie cicatricielle."
  example_title: "Example 5"
---

# quinten-datalab/AliBERT-7GB: AliBERT: is a pre-trained language model for French biomedical text. 


# Introduction

AliBERT: is a pre-trained language model for French biomedical text. It is trained with masked language model like RoBERTa.

Here are the main contributions of our work:
  A French biomedical language model, a language-specific and domain-specific PLM, which can be used to represent French biomedical text for different downstream tasks.
  A normalization of a Unigram sub-word tokenization of French biomedical textual input which improves our vocabulary and overall performance of the models trained.
  It is a foundation model that achieved state-of-the-art results on French biomedical text. 

The Paper can be found here: https://aclanthology.org/2023.bionlp-1.19/ 

# Data
The pre-training corpus was gathered from different sub-corpora.It is composed of 7GB French biomedical textual documents. Here are the sources used.

|Dataset name| Quantity| Size |
|----|---|---|
|Drug leaflets (Base de données publique des médicament)| 23K| 550Mb |
|RCP (a French equivalent of Physician’s Desk Reference)| 35K| 2200Mb|
|Articles (biomedical articles from ScienceDirect)| 500K| 4300Mb |
|Thesis (Thesis manuscripts in French)| 300K|300Mb |
|Cochrane (articles from Cochrane database)| 7.6K| 27Mb|
*Table 1: Pretraining dataset*

# How to use alibert-quinten/Oncology-NER with HuggingFace

Load quinten-datalab/AliBERT-7GB fill-mask model and the tokenizer used to train AliBERT:

```python
from transformers import AutoTokenizer, AutoModelForTokenClassification,pipeline

tokenizer = AutoTokenizer.from_pretrained("quinten-datalab/AliBERT-7GB")

model = AutoModelForTokenMaskedLM.from_pretrained("quinten-datalab/AliBERT-7GB")

fill_mask=pipeline("fill-mask",model=model,tokenizer=tokenizer)
nlp_AliBERT=fill_mask("La prise de greffe a été systématiquement réalisée au niveau de la face interne de la [MASK] afin de limiter la plaie cicatricielle.")

[{'score': 0.7724128365516663,
  'token': 6749,
  'token_str': 'cuisse',
  'sequence': 'La prise de greffe a été systématiquement réalisée au niveau de la face interne de la cuisse afin de limiter la plaie cicatricielle.'},
 {'score': 0.09472355246543884,
  'token': 4915,
  'token_str': 'jambe',
  'sequence': 'La prise de greffe a été systématiquement réalisée au niveau de la face interne de la jambe afin de limiter la plaie cicatricielle.'},
 {'score': 0.03340734913945198,
  'token': 2050,
  'token_str': 'main',
  'sequence': 'La prise de greffe a été systématiquement réalisée au niveau de la face interne de la main afin de limiter la plaie cicatricielle.'},
 {'score': 0.030924487859010696,
  'token': 844,
  'token_str': 'face',
  'sequence': 'La prise de greffe a été systématiquement réalisée au niveau de la face interne de la face afin de limiter la plaie cicatricielle.'},
 {'score': 0.012518334202468395,
  'token': 3448,
  'token_str': 'joue',
  'sequence': 'La prise de greffe a été systématiquement réalisée au niveau de la face interne de la joue afin de limiter la plaie cicatricielle.'}]
```

# Metrics and results
The model has been evaluted in the following downstream tasks

## Biomedical Named Entity Recognition (NER)
The model is evaluated on two (CAS and QUAERO) publically available Frech biomedical text.
#### CAS dataset
|Models | CamemBERT|   |   | AliBERT |   |   | AliBERT-ELECTRA |   |   |
|:-----:|:--------:|:-:|:-:|:-------:|:-:|:-:|:---------------:|:-:|:-:|
|Entities| P | R |  F1  | P |   R  |  F1  | P  |  R  |   F1 |
|Substance| **0.96** | 0.87 | 0.91 | **0.96** | **0.91**| **0.93** | 0.95  | 0.91 |0.93|
|Symptom  | 0.89 | 0.91 | 0.90 | **0.96** | **0.98** | **0.97**| 0.94 | **0.98** | 0.96|
|Anatomy | 0.94 | 0.91 | 0.88 | **0.97**| **0.97**| **0.98**| 0.96 | **0.97**| 0.96 |
|Value | 0.88 | 0.46 | 0.60 | **0.98**| **0.99**| **0.98**| 0.93 | 0.93 |	0.93|
|Pathology | 0.79 | **0.70**| **0.74**| **0.81**| 0.39 | 0.52 | 0.85	| 0.57 | 0.68|
|Macro Avg | 0.89   | 0.79 | 0.81 |  **0.94**| 0.85 | 0.88 |  0.92 |  **0.87**| **0.89**|
*Table 2: NER performances on CAS*

##AliBERT: A Pre-trained Language Model for French Biomedical Text