Qdonnars commited on
Commit
154cd40
1 Parent(s): 0e307f8

updates license, source description and prompt loi

Browse files
LICENSE.txt ADDED
@@ -0,0 +1,15 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ Project Spinoza License
2
+
3
+ This project, Spinoza, was developed by Ekimetrics, Reporters sans Frontières, and l'Alliance de la presse d'information générale, and funded by the French Ministry of Culture.
4
+ License: GNU General Public License v3.0
5
+
6
+ This project is licensed under the GNU General Public License, version 3.0 (GPL-3.0). A full copy of the GPL-3.0 license is available at https://www.gnu.org/licenses/gpl-3.0.en.html.
7
+ Key Provisions:
8
+
9
+ Any redistribution or reuse of the front-end interface of the Spinoza project must retain the footer that references the aforementioned organizations (Ekimetrics, Reporters sans Frontières, l'Alliance de la presse d'information générale) and the French Ministry of Culture.
10
+
11
+ The software includes components that rely on NVIDIA CUDA Runtime and other NVIDIA-specific packages. These packages impose constraints that restrict the software's deployment to environments running on NVIDIA GPUs, as is the case with similar platforms such as Hugging Face.
12
+
13
+ If this software or any of its components are made available outside the Spinoza repository, it is the responsibility of the person or organization making the software available to ensure compliance with all applicable licensing terms, including but not limited to, ensuring that all necessary legal conditions and technical constraints (such as deployment on NVIDIA hardware) are met.
14
+
15
+ By using, modifying, or redistributing this software, you agree to these terms.
assets/source_information.md CHANGED
@@ -1,26 +1,35 @@
1
- Here is a quick introduction to the sources of data accessed by the different agents.
2
-
3
- 1. **Science:** this tool is composed if IPCC and IPBES reports.
4
 
5
- 2. **Legal:** this tool is based on french law, it gathers 21 of the "codes" that were modified by "la loi climat" of 2021.
6
 
7
- 3. **Politic:** this tool is questioning the national french low carbon policy : SNBC.
8
 
9
- 4. **ADEME:** this tool is dedicated to ADEME data and we have selected various categories of reports :
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
10
 
11
- - Guides made available to the general public
12
- - Reports on experiences with new technologies
13
- - Studies and research on local impacts institutional documents (analyses requested by France & activity reports)
14
- - Sectoral transition plans for the industrial sectors with the highest emissions (glass, paper, cement, steel, aluminium, chemicals, sugar)
15
 
16
  <br>
17
 
18
- Here you can find some information on what the relevance score is. The relevance score is a measure used to evaluate the relevance of documents retrieved in relation to a given query in a vectorstore. When a document is stored as a vector, the relevance score indicates how close this document is to the query in terms of vector similarity.
19
 
20
- Here is how it generally works:
21
 
22
- - Vector Representation: Documents and the query are converted into vectors in a vector space.
23
- - Similarity Calculation: A similarity measure (such as the dot product or cosine distance) is used to compare the vectors of the documents with that of the query.
24
- - Relevance Score: The result of this comparison is the relevance score, which indicates how relevant each document is to the query.
25
 
26
- A higher score means that the document is more relevant to the query. This allows the retrieved documents to be ranked based on their relevance.
 
1
+ Voici une brève introduction aux sources de données accessibles par les différents agents.
 
 
2
 
3
+ 1. **Science** : cet outil est composé des rapports du GIEC et de l'IPBES.
4
 
5
+ 2. **Loi** : cet outil est basé sur le droit français et regroupe 21 des "codes" qui ont été modifiés par la "loi climat" de 2021.
6
 
7
+ 3. **Organismes Publics** : cet outil interroge la politique nationale française de la stratégie bas carbone (SNBC).
8
+
9
+ 4. **ADEME** : cet outil est dédié aux données de l'ADEME, et nous avons sélectionné différentes catégories de rapports :
10
+
11
+ - Guides mis à disposition du grand public
12
+ - Rapports d’expériences sur les nouvelles technologies
13
+ - Études et recherches sur les impacts locaux, documents institutionnels (analyses commandées par la France & rapports d'activité)
14
+ - Plans de transition sectoriels pour les secteurs industriels les plus émetteurs (verre, papier, ciment, acier, aluminium, chimie, sucre)
15
+
16
+ 5. **Presse** : En 2023, des centaines de milliers d'articles provenant de 212 titres de presse ont été analysés pour repérer ceux consacrés à la Transition Écologique. Une requête documentaire de plus de 300 mots-clés a permis de sélectionner les articles mentionnant ces termes dans le titre, le chapo, les intertitres ou plusieurs fois dans le texte. Les articles choisis étaient spécifiquement axés sur la transition écologique et non de simples mentions. Une fois dédupliqués et répartis proportionnellement entre les groupes de médias, des articles ont été tirés aléatoirement, sans se baser sur des critères de taille, de format ou de contenu pour arriver à un total de 28450 artivles
17
+
18
+ 6. **AFP** : Plus de 700 documents de l'AFP ont aussi été collectées :
19
+ - Repères et encadrés : Ces formats pédagogiques contiennent en moyenne entre 400 et 600 mots. Structurés en 3 à 5 sous-parties, leur objectif est d’expliquer de manière claire et concise un fait d’actualité.
20
+ - Dépêches : Ces articles sont rédigés par l’AFP et traitent de l’actualité en temps réel, selon une approche de pyramide inversée (les informations essentielles en premier). Leur longueur varie de quelques mots ("alerte") à environ 600 à 700 mots pour les articles plus détaillés ("papier général").
21
+ - Fact-checking : Vérification des faits en lien avec l’actualité.
22
+ - Papiers généraux
23
 
 
 
 
 
24
 
25
  <br>
26
 
27
+ Voici quelques informations sur ce qu’est le score de pertinence. Le score de pertinence est une mesure utilisée pour évaluer la pertinence des documents récupérés par rapport à une requête donnée dans un **vectorstore**. Lorsqu’un document est stocké sous forme de vecteur, le score de pertinence indique à quel point ce document est proche de la requête en termes de similarité vectorielle.
28
 
29
+ Voici comment cela fonctionne généralement :
30
 
31
+ - **Représentation vectorielle** : Les documents et la requête sont convertis en vecteurs dans un espace vectoriel.
32
+ - **Calcul de similarité** : Une mesure de similarité (comme le produit scalaire ou la distance cosinus) est utilisée pour comparer les vecteurs des documents avec celui de la requête.
33
+ - **Score de pertinence** : Le résultat de cette comparaison est le score de pertinence, qui indique à quel point chaque document est pertinent par rapport à la requête.
34
 
35
+ Un score plus élevé signifie que le document est plus pertinent pour la requête. Cela permet de classer les documents récupérés en fonction de leur pertinence.
spinoza_project/prompt_Loi.yaml CHANGED
@@ -7,70 +7,78 @@ role_instruction:
7
  ]
8
  type: "system"
9
 
 
 
 
 
 
 
 
 
 
 
10
  source_prompt:
11
  prompt:
12
  [
13
- "Here are some documents formatted as : Doc X \n textual content.",
14
  "<documents>",
15
  "{sources}",
16
  "</documents>",
17
  "",
18
- "Use the textual content as an absolute truth.",
19
- "Reference the source of each fact before saying it (ex: [doc 2] some fact from Doc 2).",
20
- "Use all the facts from the documents that are relevant to answer.",
21
- "Do not use facts that are not relevant.",
22
- "If you have no documents or they are not relevant, say you don't have enough context.",
23
  ]
24
  type: "instruction"
25
 
26
  question_answering_prompt:
27
  prompt:
28
  [
29
- "Answer the following question : {question}.",
30
- "Answer in French.",
31
- "When the answer concerned uses a specific article, build your answer like : according to the article [name of the article] and answer the question.",
32
- "If the answer could rely on multiple articles, use one bullet point per articles.",
33
- "When relevant quote the text from the source",
34
- "If the question is not related to law, say that you can't answer it based on the sources because the question is irrelevant.",
35
  ]
36
  type: "prompt"
37
-
38
  reformulation_prompt:
39
  prompt:
40
  [
41
- "Reformulate the following user message to be a short standalone question in English.",
42
- "The question should be able to question law text looking for environemental regulation.",
43
- "If relevant, use the conversation summary to add context",
44
- "If the question is too vague, just say it as it is",
45
  "",
46
  "Exemples:",
47
  "---",
48
- "user",
49
- "Applique t-on une taxe carbone ?",
50
  "",
51
- "assistant",
52
- "Is a carbon tax applied in the France?",
53
  "---",
54
- "user",
55
- "What obligation produce the product repairability index?",
56
  "",
57
- "assistant",
58
- "What are the legal requirements for product repairability index?",
59
  "---",
60
- "user",
61
- "Quelles obligations de faire un bilan carbone ?",
62
  "",
63
- "assistant",
64
- "When do I need to carry out a greenhouse gas emissions assessment?",
65
  "---",
66
- "user",
67
- "Quels enjeux autour de l'eau ?",
68
  "",
69
- "assistant",
70
- "What are the articles that regulate water consumtion and what does they say?",
71
  "---",
72
- "user",
73
  "{question}",
74
- "",
75
  ]
76
- type: prompt
 
7
  ]
8
  type: "system"
9
 
10
+ role_instruction:
11
+ prompt:
12
+ [
13
+ "You are Spinoza Fact Checker, an AI Assistant developed by Ekimetrics.",
14
+ "Your primary role is to provide factually accurate responses based solely on the documents provided.",
15
+ "You act as a legal expert, delivering structured, factual, concise, and sourced responses.",
16
+ "Always quote your sources by mentioning document titles and linked articles when applicable.",
17
+ ]
18
+ type: "system"
19
+
20
  source_prompt:
21
  prompt:
22
  [
23
+ "Below are several documents formatted as: Doc X \n textual content.",
24
  "<documents>",
25
  "{sources}",
26
  "</documents>",
27
  "",
28
+ "Treat the content of the provided documents as authoritative.",
29
+ "For each fact presented in your answer, reference the source explicitly (e.g., [Doc 2]: some fact from Doc 2).",
30
+ "Incorporate all relevant information from the documents to form a complete response.",
31
+ "Disregard any irrelevant facts or information that do not directly pertain to the question.",
32
+ "If no relevant documents are provided or if they lack sufficient context, state that you don't have enough context to answer.",
33
  ]
34
  type: "instruction"
35
 
36
  question_answering_prompt:
37
  prompt:
38
  [
39
+ "Respond to the following question: {question}.",
40
+ "Provide your answer in French.",
41
+ "If your response is based on a specific article, phrase it as follows: 'Selon l'article [name of the article], [answer].'",
42
+ "When the answer references multiple articles, structure the response with bullet points, each citing the corresponding article.",
43
+ "Quote text from the sources when relevant.",
44
+ "If the question is unrelated to legal matters, explicitly state that you cannot provide an answer based on the given sources.",
45
  ]
46
  type: "prompt"
 
47
  reformulation_prompt:
48
  prompt:
49
  [
50
+ "Reformulez le message de l'utilisateur en une question autonome et concise en français.",
51
+ "La question reformulée doit être claire et suffisamment précise pour interroger des textes juridiques concernant la réglementation environnementale.",
52
+ "Si pertinent, utilisez le résumé de la conversation pour ajouter du contexte.",
53
+ "Si la question est trop vague, reformulez-la telle qu'elle est sans faire d'hypothèses supplémentaires.",
54
  "",
55
  "Exemples:",
56
  "---",
57
+ "user:",
58
+ "Applique-t-on une taxe carbone?",
59
  "",
60
+ "assistant:",
61
+ "La taxe carbone est-elle appliquée en France?",
62
  "---",
63
+ "user:",
64
+ "Quelle obligation produit l'indice de réparabilité des produits?",
65
  "",
66
+ "assistant:",
67
+ "Quelles sont les exigences légales concernant l'indice de réparabilité des produits?",
68
  "---",
69
+ "user:",
70
+ "Quelles obligations de faire un bilan carbone?",
71
  "",
72
+ "assistant:",
73
+ "Quand doit-on réaliser un bilan des émissions de gaz à effet de serre?",
74
  "---",
75
+ "user:",
76
+ "Quels enjeux autour de l'eau?",
77
  "",
78
+ "assistant:",
79
+ "Quels articles réglementent la consommation d'eau et que stipulent-ils?",
80
  "---",
81
+ "user:",
82
  "{question}",
 
83
  ]
84
+ type: "prompt"