Flash Info
TSIA - Giga-modèles - Thématiques Spécifiques en Intelligence Artificielle (Giga-modèles pour le traitement automatique du langage naturel et des données multimodales)

Modèles de fondation intégrés pour les Bibliothèque, Archives et Musées – FINLAM

Résumé de soumission

La transformation numérique des bibliothèques qui repose depuis plus de 20 ans sur la technologie des OCR (Optical Character Recognition), fait face à certaines limitations tant en termes de qualité, du fait de la diversité des collections et des limitations de la technologie OCR, qu’en termes de valeur ajoutée, par manque de structuration et d’indexation de haut niveau. L’extraction des entités nommées est encore peu utilisée car elle mobilise les technologies de traitement du langage, peu adaptables jusque récemment. Plus généralement, l'indexation sémantique des collections est peu développée et intégrée aux métadonnées documentaires. Nous proposons de développer des modèles multimodaux (texte-image) pour l’extraction d’information dans les collections de documents numérisés au sein des bibliothèques et services d’archives. La littérature montre que les travaux dans cette direction sont encore peu développés, et qu’ils visent essentiellement le traitement des documents commerciaux (factures, etc.). Le programme de travail proposé s’appuie sur l’expertise du LITIS pour étudier les architectures multimodales les plus pertinentes afin d’intégrer les connaissances langagières des grands modèles de langage développés récemment et étudier les modalités de spécialisation/adaptation de ces modèles conjointement à l’apprentissage d’un encodeur optique générique, en bénéficiant des collections annotées disponibles à la BnF. L’interaction avec l’utilisateur sera considérée selon différents scénarios de requêtes fermées et ouvertes. TEKLIA mobilisera son expertise pour préparer les données et mener les expériences d’intégration de modèles et de déploiement de sa chaîne de production sur certains corpus ciblés. Des scénarios spécifiques d’interaction avec l’utilisateur seront proposés, mis en œuvre, et donneront lieu à des expérimentations originales menées en collaboration avec les agents et les usagers de la BnF. La BnF aura en charge l’évaluation de performances des solutions proposées quantitativement et qualitativement en termes d’ergonomie, d’utilisabilité et d’acceptabilité par les usagers.

Coordination du projet

Thierry Paquet (Laboratoire d'Informatique Traitement de l'Information et des Systèmes)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenariat

LITIS Laboratoire d'Informatique Traitement de l'Information et des Systèmes
TEKLIA TEKLIA
BnF Bibliothèque nationale de France

Aide de l'ANR 599 336 euros
Début et durée du projet scientifique : septembre 2023 - 42 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter