Gestion de bases de données textuelles


Présentation de TOOLBOX

Gestion de base de données textuelles

Toolbox est un logiciel de gestion de bases de données textuelles édité par la SIL. Il est le successeur du logiciel Shoebox dont il reprend toutes les fonctionnalités en ajoutant la gestion de l'encodage Unicode. Il permet la saisie, l'affichage, la recherche, le tri, le filtrage, l'impression... de fiches constituées de textes structuré en champs. Plusieurs bases peuvent être ouvertes en même temps et des liens peuvent s'établir entre elles. Il est particulièrement adapté à la gestion de fiches lexicales pouvant comporter de nombreux champs choisis en fonction des besoins et pouvant éventuellement être répétés au sein d'une même fiche (sous-entrée, différents sens, plusieurs phrases illustratives avec traduction...).

Mais son utilisation ne se limite pas à ce type de données. On peut ainsi gérer avec Toolbox une base de notes anthropologiques ou ethnologiques, de contes découpés en phrases annotées, ou encore de proverbes traduits et commentés, et pourquoi pas son carnet d'adresses et ses références bibliographiques...

Annotation automatisée et interactive de texte

En plus de la gestion de fiches, le logiciel présente une autre fonctionnalité : l'annotation automatisée et interactive de texte.

En partant d'un texte tapé directement dans Toolbox, ou bien saisi dans un traitement de texte puis importé, des lignes d'annotations (découpage morphologique, catégorie grammaticale des morphèmes, définition terme à terme dans la langue cible) sont insérées par le logiciel, à partir des données du lexique. Tout terme nouveau fait l'objet de la création d'une nouvelle fiche dans le lexique. Un segmenteur morphologique, s'appuyant sur la recherche d'affixes et l'utilisation de règles de transformations morphophonologiques ponctuelles, propose un découpage qui peut être corrigé a posteriori par l'utilisateur.

L'interaction entre le lexique et le texte permet d'annoter des phrases tout en enrichissant le lexique. Ces phrases annotées pourront ensuite servir à l'illustration d'entrées du dictionnaire. L'annotation automatisée et interactive de phrases en liaison avec le dictionnaire s'avère être un outil d'aide à l'analyse morphologique intéressant car cela permet de mettre en évidence des règles et de constater leurs (dis)fonctionnements. (Cependant, Toolbox n'a pas de capacité d'analyse morphosyntaxique. Il travaille simplement au niveau du mot, sans rien savoir de la structure de la phrase dans la langue étudiée. Néanmoins la catégorie grammaticale d'un morphème peut servir à lever une ambiguïté entre des homonymes.)

Génération de dictionnaire

A partir des fiches lexicales, Toolbox est capable de produire un dictionnaire bilingue ou trilingue en générant un fichier dans le format RTF directement récupérable dans un logiciel de traitement de texte. Il suffit pour cela d'utiliser un type de lexique dont les champs sont prédéfinis : MDF.

Si l'on préfère utiliser des champs personnalisés, le format texte du fichier généré par Toolbox autorise son importation dans d'autres logiciels de mise en forme. Ainsi le logiciel SFConverter permet d'associer à chaque champ un style et une ponctuation spécifique ainsi que l'attachement de texte devant et derrière le contenu des champs, et crée un fichier RTF qui pourra ensuite être importé dans Word et retravaillé si besoin est.

Le fonctionnement de Toolbox

Les bases de données générées par Toolbox sont de simples fichiers texte structurés par des étiquettes de champs et donc récupérables dans n'importe quel traitement de texte. Les différents champs sont repérés par des étiquettes appelés marqueurs de champ, comme \cg pour le champ catégorie grammaticale par exemple. Le contenu d'un champ est ainsi constitué de tout le texte situé après l'étiquette du champ, jusqu'au marqueur de champ suivant. Le début d'une fiche est repéré par un marqueur particulier appelé marqueur d'enregistrement, spécifié lors du paramétrage du type de base de données. L'ensemble des champs à partir d'un marqueur d'enregistrement et jusqu'au marqueur d'enregistrement suivant constituent une fiche. Le logiciel présente les fiches une à une, les étiquettes de champ séparées de leur contenu.

Afin de ne pas avoir à refaire tout le paramétrage des différents champs à chaque nouvelle base de données créée, Toolbox utilise des fichiers de Types de base de donnée et des fichiers d'Encodages de langues, réutilisables dans différentes configurations.

Enfin, Toolbox utilise une notion de Projet afin de pouvoir retrouver des configurations de travail différentes à partir de plusieurs bases de données. Pour cela, il tient à jour des fichiers de Projet.

Projet

Un projet dans Toolbox, c'est un espace de travail. Pour concrétiser cette notion, un fichier spécifique à chaque projet (nom_du_projet.prj) tient à jour :

Type de bases de données

Un type de base de donnée, c'est essentiellement la structure de la base. Comme différents types de BdD nous aurons par exemple des lexiques, des notes anthropologiques ou des collections de textes à interaligner. Cette structure est enregistrée dans un fichier d'extension .typ qui pourra être utilisé dans différents projets. Il comprend :

Encodage de langue

Pour transcrire une langue dans un système alphabétique, il faut en définir les caractéristiques d'encodage. L'Encodage d'une langue consiste en un fichier d'extension .lng contenant les paramètres suivants :

Toolbox peut partager des paramètres de configuration entre différents projets. Ainsi un nouveau projet utilisant une langue déjà définie pourra réutiliser un encodage sans avoir à le redéfinir. Un nouveau lexique pourra utiliser la structure d'un précédent lexique. Mais contrairement à Shoebox qui privilégiait la centralisation des fichiers de paramétrages dans un dossier unique, Toolbox privilégie l'indépendance des projets.

Comment démarrer rapidement ?

Créer un nouveau projet

Un utilitaire a été ajouté lors de l'installation de Toolbox. Il permet de créer un dossier contenant les paramètres standards (type de base de donnée standard, encodage standard) pour gérer une base de données lexicales et une base de données de textes à interaligner. Ce paramétrage peut ensuite être adapté en fonction des besoins.

Un dossier Toolbox est créé en dessous du dossier 'Bambara'. Ce dossier contiendra un sous-dossier Settings qui comportera tous les fichiers de configuration standards, ainsi que le fichier du projet lui-même qui aura le nom standard Toolbox Project.prj dont un raccourci sera placé sur le bureau.

Pour démarrer votre projet, double-cliquez sur le raccourci du bureau. Toolbox s'ouvre. Le nom de votre projet s'affiche en bas, à droite dans la fenêtre d'état de Toolbox. Deux bases de données ont été créées (Texts.txt et Dictionary.txt qui apparaît deux fois) dans le dossier d'installation de Toolbox. Ces bases peuvent être renommées en allant dans ce dossier avec l'exporateur Windows.

Si vous souhaitez personnaliser votre projet en changeant le nom du projet et des bases de données :
  • Dans le menu Projet, Faites Enregistrer sous, donnez un nouveau nom au projet et vérifiez son emplacement puis faites Enregistrer
  • Pour chacune des bases de données, Allez dans le menu Fichier et Faites Enregistrer sous, donnez un nouveau nom (avec l'extension .db) à la base de données, vérifiez son emplacement et faites Enregistrer
  • Pour enregistrer cette nouvelle configuration, Faites Fichier, Enregistrer tout
  • Sur le bureau, Cliquez avec le bouton de droite sur l'icône Toolbox Project
    Dans l'onglet Raccourci, remplacez la cible Toolbox Project.prj par le nouveau nom de votre projet.
  • Renommez le raccourci en cliquant avec le bouton de droite sur son étiquette et en choisissant Renommer

Remarque: si vous renommez ces bases, la prochaine fois que vous ouvrirez votre projet, Toolbox ne retrouvera pas les anciens fichiers. Il faudra ouvrir les fichiers nouvellement renommés. D'autre part les paramètres d'interalignement et de destination de saut seront à reconfigurer.

Créer votre première base de données

Un projet Toolbox, c'est un espace de travail, l'écran, dans lequel s'ouvrent des bases de données. Une base de données Toolbox est un long fichier texte constitué de toutes les fiches saisies, structuré par des marqueurs de champs. Le marqueur de champ qui délimite les fiches est appelé marqueur d'enregistrement. Pour créer une nouvelle base de données, faites

Toolbox vous demande alors de sélectionner le type de base de données que vous voulez créer. En cliquant sur la petite flèche à droite de la fenêtre de type vous pouvez sélectionner un type déjà existant, en fonction de la base de données que vous voulez créer.

Remarque : Le type MDF est spécialement adapté à la création de dictionnaire. Il présente un nombre très important de champs prédéfinis sensés résoudre (presque) tous les cas de figure. L'intégration à Toolbox d'un outil de formatage conçu pour le type MDF permet de générer automatiquement un dictionnaire dans une présentation standard, ainsi qu'un index inverse.

Si vous n'avez pas encore de Type de BdD approprié, vous devrez en définir un.

Votre nouvelle base est créée. Vous constatez que le marqueur d'enregistrement est bien affiché sur la gauche de l'écran, et le curseur clignote en attente d'entrée pour cette première fiche.

Créer de nouveaux champs

Pour ajouter un champ dans une base de données

Une fenêtre déroulante s'ouvre, affichant les marqueurs disponibles et une cellule vide dans laquelle vous pouvez

Si vous venez de créer un nouveau type de base de données, seul le marqueur d'enregistrement existe pour l'instant. Une fenêtre vous avertit alors que votre champ n'existe pas encore dans ce type de base, et vous propose de l'ajouter à la liste,

Une fois entré, le champ se retrouve dans la colonne de gauche de la fenêtre de saisie, et le curseur de l'autre côté de la barre de séparation, prêt à la saisie du contenu. Vous pouvez ainsi créer au fur et à mesure les champs dont vous avez besoin.

Remplacer, Supprimer un marqueur de champ

Pour renommer ou supprimer un marqueur de champ,

La liste déroulante des marqueurs apparaît. Pour choisir un autre marqueur

Pour supprimer le marqueur et fusionner son contenu avec le champ précédent

Afficher les marqueurs ou le nom des champs

Dans la fenêtre de saisie, Toolbox permet de choisir entre l'affichage des marqueurs

ou l'affichage des noms de champs correspondants

ou encore l'affichage des deux,

Définir un encodage de langue (Ordres de tri, Police, Clavier)

Une fois les champs créés, les données peuvent être saisies chacune à sa place. Mais si vous travaillez avec des langues autres que l'anglais, il reste à définir la liste des caractères que vous souhaitez utiliser, l'ordre dans lequel vous voulez que les fiches se présentent, et la police qui devra être utilisée pour représenter ces caractères. Si vous avez lancé avant Toolbox le logiciel de gestion de clavier virtuel Keyman sur PC ou Silkey sur Mac, vous pourrez également associer un clavier particulier à cet encodage.

Chaque champ peut se voir affecter un encodage de langue différent.

Pour créer ou modifier un encodage de langue,

Une liste des encodages existants se présente. Pour rajouter un encodage personnalisé,

Par défaut, Toolbox choisit un encodage Unicode (UTF-8). Si vous choisissez un encodage non-Unicode (police 8-bits spéciale)

Toolbox permet de définir différents ordres alphabétiques pour une même langue, par exemple un ordre alphabétique orthographique ou un ordre alphabétique phonologique. Pour définir un ordre alphabétique personnalisé,

Si vous voulez ajouter un ordre alphabétique

Autrement, pour modifier l'ordre alphabétique américain Added créé par défaut

Remarque: Les caractères susceptibles de porter des diacritiques devront tous être listés avec leurs diacritiques dans l'ordre de tri pour être retrouvés lors d'une recherche ou d'un saut.

Affecter un encodage de langue à un champ

Pour affecter un encodage de langue à un champ

La fenêtre de propriétés des marqueurs s'ouvre

Le contenu du champ devrait s'afficher dans la police définie dans l'encodage choisi. Plusieurs champs peuvent se voir affecter le même encodage. Leur contenu apparaîtra donc à l'écran avec la même police. Il est possible de demander un enrichissement (couleur, gras ou italique...) de cette police pour un champ particulier afin de le mettre en relief, tout en conservant les autres attributs (ordre, classes...) de son encodage. Pour cela, dans la fenêtre de propriétés du marqueur

Le bouton en dessous devient actif

Créer une nouvelle fiche

Les fiches nouvellement créées s'ajoutent à la fin du fichier, c'est à l'affichage que les fiches sont présentées dans l'ordre voulu. Il n'est donc pas nécessaire de se placer sur la fiche précédente pour insérer un nouvel enregistrement.

Définir un modèle de fiche

Pour définir une fiche type qui présentera les champs voulus à chaque nouvelle création de fiche

Un message vous dit que cette fiche servira de modèle,

Lorsque vous créez une nouvelle fiche, la fiche type vierge apparaît. Si vous voulez qu'un champ particulier s'affiche systématiquement avec un contenu déterminé (par exemple un champ auteur de la fiche contenant votre nom), vous devrez créer une fiche modèle contenant les champs vierges voulus, et le(s) champ(s) avec l'information fixe. Pour cela, dans le message qui apparaîtra après la commande Base de données/Modèle

Remplir automatiquement un champ avec la date du jour

Pour que la date du jour s'insère automatiquement dans chaque fiche nouvellement créée ou modifiée

Remarque :La date n'est insérée ou mise à jour par Toolbox qu'à la sortie de la fiche, ou à l'enregistrement de la base (Fichier/Enregistrer). Cette datation n'est pas rétroactive, les fiches précédemment créées ne seront pas mises à jour, sauf si elles sont modifiées par la suite.

Contrôler le contenu d'un champ

Il est possible de demander à Toolbox de vérifier si le contenu d'un champ est autorisé. Pour cela il faut définir les données permises dans ce champ. Ces valeurs permises peuvent être saisies à la main, une à une, ou bien être rassemblées à partir du contenu actuel du champ en question. Il faut au préalable définir les propriétés des données du champ.

Définir les propriétés des données d'un champ

Définir les valeurs permises d'un champ

Si vous avez déjà une liste prête

Par la suite, toute valeur nouvelle saisie dans ce champ fera l'objet d'un message permettant de l'inclure ou non dans la liste. (Remarque: ce n'est qu'en sortant de la fiche que la vérification s'opère)

Rassembler les valeurs d'un champ

Lorsque des données ont été saisies sans restriction sur leur contenu, il est possible par la suite de créer une liste des valeurs autorisées en rassemblant les contenus d'un champ.

Dans cette liste ainsi constituée, les valeurs non autorisées pourront ensuite être supprimées.

Vérifier la cohérence de la base

Dans le menu Vérification, si l'option Vérification pendant l'édition est cochée (par défaut), Toolbox vérifie automatiquement la cohérence des données dès qu'on quitte la fiche en cours. Ceci concerne les propriétés des champs, leurs valeurs permises et les destinations de saut. Si cette option est décochée, vous pouvez lancer ce contrôle au besoin.

Si un champ contient une valeur non permise, une fenêtre propose de remplacer cette valeur par une valeur autorisée choisie dans la liste :

Ou bien de rajouter cette valeur à la liste :

Naviguer dans la base de données

Consulter la base

Afficher le contenu d'une base sous la forme d'une liste

Pour voir toutes les fiches d'une base dans une seule fenêtre,

Chaque ligne représente une fiche, avec le champ d'enregistrement affiché par défaut. Cette liste peut être imprimée.

Choisir les champs affichés en mode liste (Index)

Pour faire apparaître sur chaque ligne d'autres champs de la fiche, en colonnes, faites

Pour régler la largeur des colonnes

Pour ouvrir une fiche

Afficher plusieurs fiches d'une même base

En mode saisie, chaque base de données ouverte présente une fenêtre avec la fiche en cours. Pour voir une autre fiche de la même base, tout en conservant la première ouverte, il faut dupliquer la base. Pour cela, faites

Une fenêtre identique à la première apparaît avec le même intitulé, suivi de :2. Il s'agit là de la même base de données vue dans 2 fenêtres différentes. Pour voir les deux fenêtres l'une en dessous de l'autre, faites

ou l'une à côté de l'autre

Chaque fenêtre est indépendante et peut afficher n'importe quelle fiche. On peut faire plusieurs duplications d'une base (en fait la base n'est pas dupliquée, c'est son affichage qui l'est), chaque fenêtre dupliquée se voit affecter un numéro.

Trier les fiches suivant un autre champ, Index

Par défaut, Toolbox trie les fiches suivant le champ d'enregistrement. Si vous voulez voir les fiches ordonnées suivant le contenu d'un autre champ (par exemple le champ définition pour un lexique inverse), Faites :

Lorsque vous parcourez la base avec le bouton Enregistrement suivant, la base affiche dorénavant les enregistrements dans l'ordre du champ choisi.

Remarque: si vous êtes en affichage en liste, vous pouvez changer le champ de tri en cliquant directement sur l'entête de sa colonne.

Remarque : dans le cas, par exemple, où un lexème comporterait plusieurs définitions, un tri par le champ définition fera apparaître un nombre plus important de fiches qu'au départ (voir la fenêtre d'état), car chaque définition fera alors l'objet d'une fiche.

Si vous passez en mode Index, la colonne du marqueur d'enregistrement (la première si vous n'avez pas changé l'affichage) n'est plus ordonnée correctement, l'ordre étant reporté maintenant sur la colonne d'affichage du champ choisi pour le tri.

Si vous voulez voir le champ de tri dans la colonne de gauche, allez dans :

Ou bien, si le champ de tri était déjà affiché dans la colonne de droite,

Il est ainsi possible d'afficher l'équivalent d'un Index inverse, sans pour autant que la base de données ne soit modifiée: il ne s'agit que d'un affichage différent de la même base. En dupliquant une base de données (Fenêtre/Dupliquer) il est possible d'avoir simultanément la même base de données triée dans une fenêtre suivant un champ et dans l'autre suivant un autre champ.

Ordonner les fiches par suffixes

Rechercher des données

Il y a trois types de recherche possibles :

Rechercher porte exclusivement sur le début du champ d'enregistrement ou du champ de tri primaire.

Retrouver recherche les occurrences n'importe où dans un champ donné, ou dans tous les champs d'une langue donnée. Retrouver permet d'insérer dans la séquence recherchée des classes, c'est-à-dire des ensembles génériques de caractères.

Sauter Vers recherche sur le début de n'importe quel champ défini dans la Destination de Saut (voir plus loin).

Rechercher

Pour rechercher dans la base en cours, une fiche dont vous connaissez au moins le début de la clé d'enregistrement (ou bien le contenu du champ de tri si la base est triée suivant un autre champ), faites:

le marqueur du champ de tri courant s'affiche dans la ligne en dessus de la fenêtre de saisie du mot recherché

La fiche correspondant à la recherche s'ouvre. S'il y a plusieurs enregistrements satisfaisant à la recherche, une fenêtre les affiche en liste

Retrouver

Lorsque vous voulez rechercher dans la base toutes les occurrences d'une séquence donnée, faites :

Si vous avez défini des Classes vous pouvez les insérer dans la séquence recherchée en les mettant entre crochets (par ex: [V]j[V] pour rechercher toutes les occurrences de j entre deux voyelles, si la classe [V] a été définie comme l'ensemble des voyelles de votre langue)

Vous pouvez rechercher soit dans un champ donné :

soit dans tous les champs d'une langue donnée :

La recherche peut porter sur l'enregistrement en cours (la fiche) seulement

ou bien sur toute la base, ou sur la base filtrée, si un filtre est actuellement appliqué

Lorsque vous lancez la recherche le curseur se positionne sur la prochaine occurrence trouvée dans le texte de la base. Pour aller à la prochaine occurrence,

La fenêtre affichant la dernière recherche effectuée peut être déroulée pour sélectionner une précédente recherche, avant de la lancer avec le bouton de recherche.

Sauter Vers - Sauter-Insérer - Destination de Saut

Par défaut Sauter Vers fonctionne comme Rechercher, en recherchant par le début du champ d'enregistrement ou de tri primaire.

Destination de saut

On entend par Destination de saut un lien établi entre l'origine d'un saut et sa destination, c'est-à-dire vers quel endroit - quelles bases de données, quels champs - Toolbox doit rechercher la séquence faisant l'objet d'une demande de saut (Alt/j). Plusieurs destinations peuvent être définies suivant le champ de départ du saut. 

Pour définir une Destination de Saut :

Dans l'encadré Source, la liste de gauche présente les champs de la base de départ, d'où l'on souhaite pouvoir partir pour un saut

Dans l'encadré Destination, la liste de gauche présente les bases de données ouvertes dans le projet.

Vous pouvez ainsi continuer à ajouter des champs de recherche pour une même base de données et pour d'autres bases de données.

Dorénavant la commande Sauter Vers effectuera la recherche de la séquence sélectionnée dans tous les champs et bases de données définies dans Destination de Saut pour le champ de départ du saut. Toolbox affichera la liste des enregistrements trouvés répondant à la recherche. S'il n'y a qu'un résultat, il ouvrira automatiquement la fiche correspondante, le curseur se positionnant dans le champ où la séquence aura été retrouvée.

Si aucun enregistrement ne correspond à la recherche, un message le signalant permet d'insérer un nouvel enregistrement dans l'une des bases définie dans  la Destination de Saut.

Une destination peut être définie comme destination primaire pour les champs qui n'ont pas de destination de saut spécifique.

Cette destination sera également une destination secondaire pour un champ dont la destination primaire n'aura pas abouti.

Sauter-Insérer

La commande Sauter-Insérer ouvre automatiquement une fiche si aucun enregistrement ne correspond à la recherche effectuée et qu'il n'y a qu'une base, ou bien offre le choix de la base d'insertion, s'il y en a plusieurs dans le Destination de Saut.

Définir des Classes de caractères

Il est possible de définir des classes génériques regroupant des caractères par affinités. Elles pourront ensuite être utilisées avec les fonctions Edition/Retrouver et Base de données/Filtrer. Ainsi on peut définir la classe [V] des voyelles, [C] des consonnes, ou encore [VH] la classe des voyelles à ton haut. Les classes sont liées à un encodage de langue puisqu'un même caractère peut avoir différentes valeurs suivant la langue où il apparaît. Pour définir une classe, faites

Un certain nombre de classes prédéfinies apparaissent

Vous pouvez créer vos propres classes en modifiant (Modifier) une classe présélectionnée, en copiant (Copier) une classe déjà existante et en la modifiant, ou simplement en en ajoutant (Ajouter) une nouvelle;

Les Jokers

Trois variables prédéfinies que nous appellerons Jokers peuvent servir dans les filtres et la commande Retrouver. Ce sont

Filtrer la base

Le filtrage d'une base de données consiste à réduire l'affichage de la base aux seuls enregistrements correspondant au critère voulu défini dans le filtre. Pour construire un filtre, faites :

Il existe quatre types de filtres pouvant être combinés entre eux par des opérateurs logiques : ET, OU, NON, AVEC éventuellement groupés par des parenthèses. Les classes définies dans les différents encodages de langues peuvent être insérées dans les séquences recherchées, ainsi que les jokers [#], [...], [?]

Filtre de type "Marqueur/Séquence"

Il s'agit ici de sélectionner les enregistrements contenant une séquence donnée dans un champ donné.

Vous pouvez ajouter un opérateur logique (ET, OU...) et définir d'autres critères du même type ou d'un type différent pour ce filtre. lorsque vous avez fini

Pour appliquer un filtre à la base, déroulez la liste Pas de filtre dans la barre d'outils et sélectionnez votre filtre. Le nombre d'enregistrements accessibles s'en trouvera réduit. Pour revenir à la base complète, faites de même et choisissez Pas de filtre.

Filtre de type "Marqueur/Date"

Ce filtrage porte sur un champ contenant une date.

Filtre de type "Langue/Séquence"

Ce filtre porte sur le contenu de n'importe quel champ affecté d'un encodage de langue donnée.

Filtre de type "Non-unique"

Ce filtre isole les enregistrements dont le contenu du champ d'enregistrement (ou de tri primaire) apparaît plus d'une fois dans la base de données. Il permet d'isoler les doublons, ou les homonymes.

Les opérateurs logiques

Un filtre complexe peut être constitué de plusieurs lignes de filtrage combinées par des opérateurs logiques.

trouvera les enregistrements ou "de" est préposition mais pas article indéfini.

recherche les dérivés nominaux commençant par "ka" ou finissant par "an"

Exploiter les données

Corpus, Liste de mots, Concordance

Pour pouvoir établir la liste des mots apparaissant dans un ou plusieurs champs, ou établir une liste de concordance pour une séquence particulière dans une (ou plusieurs) base(s) de données, il faut au préalable définir le corpus de recherche.

La liste des fichiers du répertoire en cours s'affiche dans la fenêtre du milieu.

Pour remonter dans la hiérarchie des répertoires

Pour voir le contenu d'un répertoire,

Pour rajouter un fichier à la liste

Pour modifier la liste des fichiers du corpus

Il reste à sélectionner les champs à partir desquels la liste des mots va être compilée

Afin de repérer la provenance des mots trouvés dans les différentes bases, on peut définir trois niveaux de références grâce à trois marqueurs

Faire la liste des mots d'un champ

Cette commande crée une liste des mots trouvés dans les champs et les bases de données définis dans la corpus choisi. (Les bases de données dans lesquelles la recherche des mots se fera n'ont pas nécessairement besoin d'être ouvertes dans Toolbox pour ce traitement.) Une base de données au format Toolbox sera créée avec comme marqueur d'enregistrement \w pour le mot, le marqueur \c contenant le nombre d'occurrences trouvées (le champ \cz est identique à \c mais dans un format permettant un tri croissant) et le marqueur \r contenant les références pour localiser les occurrences dans le corpus.

La base de données des mots trouvés dans le corpus s'affiche automatiquement en mode liste. Pour trier cette liste par nombre d'occurrences croissant, faites

Faire une liste de concordance

Cette commande crée une liste de concordances pour la séquence recherchée dans le corpus choisi. (Les bases de données dans lesquelles la recherche se fera n'ont pas nécessairement besoin d'être ouvertes dans Toolbox pour ce traitement.) Une base de données au format Toolbox sera créée avec comme marqueur d'enregistrement \conctar pour le mot contenant la séquence recherchée, le marqueur \concbef contenant le contexte précédent, \concaft contenant le contexte suivant et \concref les références pour localiser les occurrences dans le corpus. Après avoir défini le corpus (voir plus haut), faites

La base de données des mots trouvés dans le corpus s'affiche automatiquement en mode liste.

Impression, Exportation des fiches

Imprimer des fiches

Il est possible d'imprimer directement l'enregistrement en cours ou bien toute la base de données (filtrée éventuellement). Pour cela faites

Vous pouvez vérifier votre mise en page, puis imprimer

Imprimer l'Index

Exporter des fiches en format SF, RTF, MDF

Toolbox permet l'exportation des enregistrements suivant deux formats: le format standard SF avec marqueurs qui sert principalement à créer une sous-base à partir d'une base filtrée, ou éventuellement une base ordonnée suivant un autre champ. Le format RTF qui sert à mettre en forme les données afin de les importer dans un logiciel de traitement de texte. L'exportation MDF génère un dictionnaire entièrement formaté suivant un standard prédéfini.

Exportation en format Standard

Cette exportation en format texte permet de sélectionner les champs à exporter, pour simplifier une base par exemple, ou encore de créer une index inverse. Ces fichiers pourront ensuite être réimportés dans Toolbox.

Si vous avez choisi l'option d'exportation Les enregistrements courants avec la base triée suivant un autre champ que celui d'enregistrement, une fenêtre vous le rappelle

Ce ficher peut par la suite être ouvert dans Toolbox, en lui affectant le type correspondant au marqueur d'enregistrement.

Exportation en RTF

Ce format d'échange développé par Microsoft permet à Toolbox d'exporter le contenu d'une base de données sous une forme enrichie. Les marqueurs disparaissent et le contenu de chaque champ se voit affecté d'un style correspondant au nom du marqueur. Ce fichier une fois importé dans un logiciel de traitement de texte, verra chaque contenu affecté des paramètres de formatage définis pour chacun de ces styles.

Si vous avez coché Ouvrir le document dans le traitement de texte, le fichier RTF créé s'ouvrira dans votre logiciel de traitement de texte.

Exportation d'un dictionnaire en format MDF

Le format MDF (Formateur de Dictionnaire Multilingue) est un format spécifique de base de données dont les champs prédéfinis sont traités à l'exportation pour produire un dictionnaire entièrement formaté en RTF, avec insertion de ponctuation entre les contenus des différents champs, de texte devant le contenu de certains champs (par ex. Syn. pour le champ synonyme, voir pour le champ renvoi...), rappel de la première et dernière entrée de la page en entête, multicolonnage, etc.

Remarque: Pour pouvoir exporter une base à travers l'outil de formatage MDF, il faut qu'au départ cette base ait été créée suivant le type MDF.

Le format MDF permet l'utilisation de 4 langues dans le dictionnaire final Vernaculaire, Langue 1 (international), Langue 2 (national), Régionale et une transcription phonétique. Le choix du public destinataire se fait dans la fenêtre Audience.

Le dictionnaire peut être bilingue ou trilingue. Dans Format

Différentes options sont paramétrables, comme la liste des champs à exporter...

Il peut arriver qu'une entrée de base de données doive figurer dans le dictionnaire sous une forme de surface complète, dans ce cas l'entrée lexicale \lx sera suivie de la forme de citation \lc qui sera la forme qui apparaîtra dans le dictionnaire (par exemple \lx -hilu, \lc na-hilu produira une entrée na-hilu). Certains choix peuvent alors être faits dans

Si vous avez choisi l'option Ouvrir le document dans le traitement de texte, le fichier RTF créé s'ouvrira dans votre logiciel de traitement de texte. Pour terminer la mise en page

Importation de fiches ou de texte

Les bases de données générées par Toolbox étant de simples fichiers texte délimités par des marqueurs en début de ligne, tout fichier texte ayant cette structure peut être ouvert dans Toolbox. D'autre part Toolbox incorpore un interpréteur de script CCT , par lequel certaines tâches comme le découpage d'un texte en phrases numérotées et étiquetées avec des marqueurs appropriés permettent l'importation de texte sous forme de fiches.

Importer des fiches

Pour importer des données provenant d'un autre logiciel, il faudra commencer par les exporter, depuis ce logiciel, dans un format texte délimité par des tabulations, ce que savent faire tous les logiciels de gestion de base de données. Soit par exemple ces données tabulées
baaNsaillie, arête
bràNbouillon de gousses de néré

Si cela n'a pu se faire directement à l'exportation, il faudra rajouter devant le contenu de chaque cellule le marqueur approprié du format Toolbox (\xx suivi d'un espace). Pour cela, on ouvrira ce fichier dans un logiciel de traitement de textes. On aura intérêt à convertir le fichier précédent en tableau et à écrire une macro pour insérer les marqueurs dans chaque colonne.
\lx baa\ps N\def saillie, arête
\lx brà\ps N\def bouillon de gousses de néré

Ensuite, il faudra reconvertir ce tableau en texte puis remplacer les marques de tabulation par des marques de paragraphes et enregistrer ce fichier en format Texte seulement (sous Word, ne pas oublier de mettre le nom du fichier entre guillemets si vous ne voulez pas qu'il rajoute l'extension .txt)

\lx baa
\ps N
\def saillie, arête
\lx brà
\ps N
\def bouillon de gousses de néré

Ce fichier texte peut maintenant  être ouvert dans votre projet Toolbox par

Comme Toolbox ne peut pas deviner que \lx est la marqueur d'enregistrement - celui qui délimite les fiches - il vous demandera d'associer à ce fichier un Type de base de données. S'il existe un type de base de données ayant \lx comme marqueur d'enregistrement, il suffira de le choisir. Sinon, il faudra ajouter un type avec \lx comme marqueur d'enregistrement, comme décrit précédemment, et l'affecter à ce fichier. Toolbox interprétera alors correctement le fichier et isolera les fiches. La seule transformation du fichier d'origine consiste en l'insertion en début de fichier d'une ligne du genre

\_sh v3.0 400 MDF 4.0

qui permettra par la suite à Toolbox de connaître le type du fichier (ici MDF 4.0). Le fichier d'origine sera conservé sous son nom initial mais avec l'extension .ORI

Importer du texte dans Toolbox

Toolbox peut importer du texte provenant d'une autre application, et créer soit une fiche par phrase, soit une seule fiche contenant tout le texte découpé en phrases. Dans les deux cas, un champ de référence est ajouté, contenant le numéro de la phrase par rapport au texte d'origine.

Quelques préliminaires dans le traitement de texte d'origine

Vous voulez faire une fiche par texte

Ce fichier n'étant pas encore estampillé Toolbox, une fenêtre vous demande de lui attacher un type de base de données.

Un message vous précisera que le fichier d'origine sera conservé sous le nom initial, avec l'extension .ori (pour original)

Une fiche est créée avec le champ \name contenant le nom que vous avez donné au texte, un champ \t pour chaque phrase du texte, précédé d'un champ \ref contenant le nom du texte + le numéro de la phrase. Le découpage en phrases a été fait par la recherche du point, du point d'exclamation ou du point d'interrogation. (On peut rajouter le point-virgule ou tout autre marque en éditant le fichier Textprep.cct ).

Vous voulez faire une fiche par phrase

Ce fichier n'étant pas encore estampillé Toolbox, une fenêtre vous demande de lui attaché un type de base de données.

Un message vous précisera que le fichier d'origine sera conservé sous le nom initial, avec l'extension .ori (pour original)

Une fiche est créée par phrase avec le champ \ref contenant le nom que vous avez donné au texte + le numéro de la phrase et un champ \t contenant la phrase. Le découpage en phrases a été fait par la recherche du point, du point d'exclamation ou du point d'interrogation. (On peut rajouter le point-virgule ou tout autre marque en éditant le fichier Textprep.cct).

Autre méthode: Copier/Coller et Segmentation de texte

Dans une base de données de type 'Text' (marqueur d'enregistrement \id, marqueur de référence de phrase \ref), vous pouvez également faire directement un copier-coller d'un texte (issu de Word par exemple) dans le champ texte (marqueur de phrase \tx) d'un nouvel enregistrement.

Ensuite, pour segmenter ce texte en phrases dans la même fiche

Le découpage est fait. Vous pouvez intervenir sur ce découpage si deux phrases doivent être réunies ou au contraire si une phrase doit être coupée en deux. Dans le premier cas, supprimez le champ référence entre les deux phrases à réunir. Dans le deuxième cas, rajoutez un champ référence entre les deux segments de la phrase découpée. Pour renuméroter, faites: Par la suite cette fiche pourra être exportée en format standard dans un fichier Ce fichier pourra ensuite être ouvert dans Toolbox sous un type de base de données dont le marqueur d'enregistrement sera \ref. Ainsi chaque phrase fera maintenant l'objet d'une fiche individuelle dans la nouvelle base de données.

Création d'un index inverse

A la place du dictionnaire, Toolbox peut produire un index

MDF produira l'index Langue 1/Vernaculaire avec une audience Langue 1

MDF produira l'index Langue 2/Vernaculaire avec une audience Langue 2

L'exportation peut porter sur une partie de la base de données grâce à l'utilisation d'un filtre prédéfini

Si vous avez choisi l'option Ouvrir le document dans le traitement de texte, le fichier RTF créé s'ouvrira dans votre logiciel de traitement de texte. Pour terminer la mise en page