Modèles de fondation intégrés pour les Bibliothèque, Archives et Musées – FINLAM
La transformation numérique des bibliothèques qui repose depuis plus de 20 ans sur la technologie des OCR (Optical Character Recognition), fait face à certaines limitations tant en termes de qualité, du fait de la diversité des collections et des limitations de la technologie OCR, qu’en termes de valeur ajoutée, par manque de structuration et d’indexation de haut niveau. L’extraction des entités nommées est encore peu utilisée car elle mobilise les technologies de traitement du langage, peu adaptables jusque récemment. Plus généralement, l'indexation sémantique des collections est peu développée et intégrée aux métadonnées documentaires. Nous proposons de développer des modèles multimodaux (texte-image) pour l’extraction d’information dans les collections de documents numérisés au sein des bibliothèques et services d’archives. La littérature montre que les travaux dans cette direction sont encore peu développés, et qu’ils visent essentiellement le traitement des documents commerciaux (factures, etc.). Le programme de travail proposé s’appuie sur l’expertise du LITIS pour étudier les architectures multimodales les plus pertinentes afin d’intégrer les connaissances langagières des grands modèles de langage développés récemment et étudier les modalités de spécialisation/adaptation de ces modèles conjointement à l’apprentissage d’un encodeur optique générique, en bénéficiant des collections annotées disponibles à la BnF. L’interaction avec l’utilisateur sera considérée selon différents scénarios de requêtes fermées et ouvertes. TEKLIA mobilisera son expertise pour préparer les données et mener les expériences d’intégration de modèles et de déploiement de sa chaîne de production sur certains corpus ciblés. Des scénarios spécifiques d’interaction avec l’utilisateur seront proposés, mis en œuvre, et donneront lieu à des expérimentations originales menées en collaboration avec les agents et les usagers de la BnF. La BnF aura en charge l’évaluation de performances des solutions proposées quantitativement et qualitativement en termes d’ergonomie, d’utilisabilité et d’acceptabilité par les usagers.
Coordination du projet
Thierry Paquet (Laboratoire d'Informatique Traitement de l'Information et des Systèmes)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
LITIS Laboratoire d'Informatique Traitement de l'Information et des Systèmes
TEKLIA TEKLIA
BnF Bibliothèque nationale de France
Aide de l'ANR 599 336 euros
Début et durée du projet scientifique :
septembre 2023
- 42 Mois