Projet transversal : corpus et bases de données
Coordination : Christian Chanard et Amina Mettouchi
Echéance : 2018 et au-delà
Participants : tous les membres du laboratoire
Programme
A) Mise en place et diffusion de bonnes pratiques
A partir des réflexions déjà existantes (cf. CLARIN, IRCOM etc.), mise en place de bonnes pratiques pour la linguistique de terrain concernant :
- l’enregistrement des données audio/vidéo sur le terrain : critères de choix du matériel, formats standards audio et vidéo, formation à la prise de son/d’image
- le type d’information à recueillir/fournir pour chaque enregistrement, pour permettre l'échange des données : exploitation dans divers cadres (linguistique, anthropologie, littérature, etc.) des corpus
- questions éthiques et juridiques
B) Gestion des corpus et bases de données
Création des conditions d’un archivage pérenne (géré par l’intermédiaire de TGE-Adonis/Cines)
C) Aspects scientifiques
- Finalités scientifiques et choix d’annotation : un corpus, pour quoi faire ? Que coder, pour obtenir quoi ? Peut-on définir un « corpus minimal » pour la linguistique de terrain / l’anthropologie / la sociolinguistique / la littérature / la typologie ?
- Problèmes de comparabilité entre corpus de différentes langues : comment trouver une solution à l’irréductibilité des langues entre elles (quel est le statut des catégories dites ‘comparatives’ ou ‘universelles’), etc.
- Articulation/couplage entre corpus et bases de données : réflexion sur les bases scientifiques de cette articulation (préalable aux questions techniques d’interopérabilité).
Corpus=archives de ressources : audio, vidéo, textes, métadonnées
Base de données=organisation des données en tables pour rendre leur exploitation efficace (par exemple indexation des annotations pour faciliter des requêtes complexes)
D) Valorisation des corpus
En lien avec l’UPS 2259 : création de documentaires, présentation des langues avec cartes, échantillons etc.
Retour vers les communautés : création de sites pour les communautés (avec leur participation), avec une réflexion sur les outils, le site d’hébergement, etc.
Livrables spécifiques au projet transversal
- Création et développement d’un outil de gestion de corpus qui permettra l'ajout de ressources (audio, vidéo, textes annotés) avec leurs métadonnées, la mise à jour des textes et métadonnées existants, et d'établir les liens entre métadonnées et ressources.
- Création et développement d'un navigateur (type IMDI-browser du MPI) qui rendra accessibles et consultables sous différents modes les données existantes (métadonnées, audio, vidéo, textes).
- Elaboration d’une charte de consultation et d'exploitation développée en transversal avec les trois Programmes.