Avatar

FQuAD

French Question Answering Dataset

Illuin Technology

FQuAD

Recent advances in the field of language modeling have improved state-of-the-art results on many Natural Language Processing tasks. Among them, the Machine Reading Comprehension task has made significant progress. However, most of the results are essentially reported in English since labeled resources available in other languages, such as French, remain scarce. In the present work, we introduce the French Question Answering Dataset (FQuAD). FQuAD is French Native Reading Comprehension dataset that consists of 25,000+ questions created by higher education students on a set of Wikipedia articles. The dataset analysis, similar to SQuAD, is presented to evaluate the nature of the annotated questions and answers. To assess the quality of the dataset, a baseline model is trained which achieves a F1 score of 88.0% and an exact match ratio of 77.9% on the test set. In addition to that, a performance analysis based on the questions type and the influence of the number of training samples are explored.

Demo

You want to ask a question to our model ?

Please do it here , he will try to answer the best he can.

Feel free to get in touch with us, any feedback is welcome !

Dataset

Overview

Dataset Number of articles Number of paragraphs Samples
train 117 4921 20731
valid 18 768 3188
test 10 532 2189

Question & Answer samples from the dataset

Context: 
Des observations de 2015 par la sonde Dawn ont confirmé qu'elle possède une forme sphérique, à la différence des
corps plus petits qui ont une forme irrégulière. Sa surface est probablement composée d'un mélange de glace d'eau 
et de divers minéraux hydratés (notamment des carbonates et de l'argile), et de la matière organique a été décelée.
Il semble que Cérès possède un noyau rocheux et un manteau de glace. Elle pourrait héberger un océan d'eau liquide,
ce qui en fait une piste pour la recherche de vie extraterrestre. Cérès est entourée d'une atmosphère ténue 
contenant de la vapeur d'eau, dont deux geysers, ce qui a été confirmé le 22 janvier 2014 par l'observatoire 
spatial Herschel de l'Agence spatiale européenne.

Question: A quand remonte les observations faites par la sonde Dawn ?
Answer: 2015

Question: Qu’ont montré les observations faites en 2015 ?
Answer: elle possède une forme sphérique, à la différence des corps plus petits qui ont une forme irrégulière

Question: Quelle caractéristique possède Cérès qui rendrait la vie extraterrestre possible ?
Answer: un océan d’eau liquide

Download

The training and validation FQUAD datasets are available as of February 14, 2020, under the CC BY-NC-SA 3.0 license.

Publications

FQuAD: French Question Answering Dataset

We introduce FQuAD, a native French Question Answering Dataset. FQuAD contains 25,000+ question and answer pairs. Finetuning CamemBERT on FQuAD yields a F1 score of 88% and an exact match of 77.9%.

Examples

Context: 
Le réchauffement planétaire atteindra les 1,5 °C entre 2030 et 2052 si la température continue d'augmenter à ce rythme.
Le RS15 (rapport spécial sur le réchauffement climatique de 1,5 °C) résume, d'une part, les recherches existantes sur l'impact
qu'un réchauffement de 1,5 °C aurait sur la planète et, d'autre part, les mesures nécessaires pour limiter ce réchauffement
planétaire.

Même en supposant la mise en œuvre intégrale des mesures déterminées au niveau national soumises par les pays dans le cadre de
l'Accord de Paris, les émissions nettes augmenteraient par rapport à 2010, entraînant un réchauffement d'environ 3 °C d'ici 2100,
et davantage par la suite. En revanche, pour limiter le réchauffement au-dessous ou proche de 1,5 °C, il faudrait diminuer les
émissions nettes d'environ 45 % d'ici 2030 et atteindre 0 % en 2050. Même pour limiter le réchauffement climatique à moins de
2 °C, les émissions de CO2 devraient diminuer de 25 % d'ici 2030 et de 100 % d'ici 2075.

Les scénarios qui permettraient une telle réduction d'ici 2050 ne permettraient de produire qu'environ 8 % de l'électricité
mondiale par le gaz et 0 à 2 % par le charbon (à compenser par le captage et le stockage du dioxyde de carbone). Dans ces filières,
les énergies renouvelables devraient fournir 70 à 85 % de l'électricité en 2050 et la part de l'énergie nucléaire est modélisée
pour augmenter. Il suppose également que d'autres mesures soient prises simultanément : par exemple, les émissions autres que le
CO2 (comme le méthane, le noir de carbone, le protoxyde d'azote) doivent être réduites de manière similaire, la demande énergétique
reste inchangée, voire réduite de 30 % ou compensée par des méthodes sans précédentes d'élimination du dioxyde de carbone à mettre
au point, tandis que de nouvelles politiques et recherches permettent d'améliorer l'efficacité de l'agriculture et de l'industrie.

Question:  Quand risquons nous d'atteindre un réchauffement à 1.5 degrés?

Answer: entre 2030 et 2052



Question:  Quels sont les gaz à effet de serre autres que le CO2?

Answer: méthane, le noir de carbone, le protoxyde d'azote)



Question:  Quelles recherches sont résumées dans ce rapport ?

Answer: les recherches existantes sur l'impact qu'un réchauffement de 1,5 °C aurait sur la planète



Question:  Comment améliorer l'efficacité de l'industrie ?

Answer: de nouvelles politiques et recherches



Question:  Quelles sont les conséquences d'un scénario limitant le réchauffement à 1,5 degrés ?

Answer: diminuer les émissions nettes d'environ 45 % d'ici 2030 et atteindre 0 % en 2050.


Question:  Quelle part d'énergie doit être fournie par le renouvelable pour respecter l'accord ?

Answer: 70 à 85 %


Question:  Quelle source d'énergie sera limitée à une production de 8 \% si les émissions maximales sont respectées ?

Answer: gaz

Contact

Feel free to contact us through Illuin’s contact form .