Présentation

DAPHNÉ : Découverte dans les bAses Prosopographiques Historiques de coNnaissancEs

Projet de recherche collaborative. Financement ANR : DEFI 8 – Sociétés innovantes, intégrantes et adaptatives. Axe 7 – La Révolution numérique : rapport au savoir et à la culture

Les historiens disposent de nombreuses bases de données prosopographiques, collections de fiches recensant le cursus des individus, les lieux fréquentés, leur production scientifique ou littéraire, etc. Ces bases, dont l’objet est l’étude de groupes sociaux, soutiennent une méthodologie consistant à émettre puis à confirmer des hypothèses. Ce travail implique la fouille manuelle de milliers de fiches dans un contexte de données hétérogènes, incertaines/floues et souvent incomplètes, qu’il s’agisse du lieu, de la date, des individus et, plus généralement, de l’ensemble du contexte.

Face à cette situation, les objectifs du projet DAPHNE sont i) d’automatiser l’extraction des connaissances sur lesquelles s’appuient les historiens, ii) d’étudier la formalisation du processus de validation des recherches historiques sur ce type de corpus et de caractériser dans quelle mesure ce processus est calculatoire, iii) d’introduire la prise en compte de la qualité des données et enfin iv) de proposer une plateforme intégrant les résultats obtenus.

Toutes les phases du projet exigent une collaboration étroite entre historiens et informaticiens du consortium et déboucheront sur des résultats scientifiques en histoire comme en informatique.

Résultats

Le projet a jusqu’à présent débouché sur plusieurs contributions majeures. Nous avons ainsi proposé une approche conceptuelle pour la conception d’une base de données prosopographique englobant la notion d’incertitude [EGC18,HICSS19]. Contrairement aux approches antérieures, le processus de conception développé permet d’intégrer des points de vue divergents tels qu’exprimés dans la communauté de la prosopographie. Ce travail nous a permis de modéliser un processus de création de connaissances en histoire [DESRITS19] ainsi qu’un modèle d’élaboration des faits et des hypothèses historiques [EGC20,ER20]. Ces approches ont été validées sur les bases prosopographiques du consortium.

Alors que l’idée originale était de trouver un modèle générique des données prosopographiques en intégrant la notion d’incertitude, il est rapidement apparu intéressant d’essayer de comprendre et modéliser le processus du chercheur en histoire : comment sont établis les faits (plus ou moins avérés), comment sont élaborées les hypothèses, comment est estimée et éventuellement réévaluée la crédibilité d’une source, la certitude d’un fait… Nos premiers travaux ont conduit à 2 publications mais ce travail est crucial pour l’aboutissement d’un projet ambitieux en humanités numériques. Cette approche pourra par ailleurs être étendue ensuite à d’autres domaines des sciences humaines et sociales.

La troisième contribution majeure est le développement d’une interface (https://agorajs.github.io)

 permettant de mettre en évidence et de comparer les différents parcours des individus [GD19]. Elle permet au travers de différentes vues de la plus globale à la plus précise et de différents mécanismes d’interaction, de sélectionner des individus, d’afficher leur parcours au cours des années, de rechercher les personnes qu’elles ont pu côtoyer aussi bien du point de vue temporel que spatial tout en prenant en compte les différents types d’événements intervenus au cours de leur vie (e.g. naissance, obtention de diplôme, enseignement, retraite, congés, …) [JGAA20].  

Nous avons également proposé des techniques d’extraction de connaissance afin d’extraire l’incertitude présente dans les données. Une approche détectant la présence d’incertitude a été proposée et implantée, et une deuxième approche permettant de quantifier le degré d’incertitude est en cours de développement. Par ailleurs une technique d’agrégation de factoïdes prenant en considération l’incertitude, permettant de renforcer ou d’affaiblir la crédibilité en une information, voire une source, a également été proposée.

Enfin, l’entreprise nantaise Ouestware est actuellement en train d’intégrer nos différentes contributions, à savoir un module de chargement semi-automatique des bases prosopographiques dans la plateforme suivant le schéma conceptuel générique proposé, un module de détection et quantification de l’incertitude, un module d’agrégation des factoïdes et un module de visualisation des parcours des individus.