5.2. Opposition d’un groupe A et d’un groupe B
5.2.1. Affichage cartographique
5.2.2. Définition d’un groupe A et B dans l’IU
5.3. Recherches dans le corpusD
5.3.1. Cibles et types de recherche
5.3.2. Cibles : avantages et inconvénients
5.3.3.2. Recherche par expressions régulières
5.4. Résultats de la recherche
5.4.1. Objectif : nettoyer le résultat de la recherche
5.4.2. Affichage des informations
5.4.2.2. Affichage des étymons
5.4.3. Sélection des lemmes et formes
5.4.4. Envoi à la cartographie
5.5. Affichage des cartes géographiques
5.5.1. Contenu : couleurs, données
L’interface utilisateur (IU) permet de rechercher dans le corpusD des données qui intéressent l’utilisateur, puis d’éliminer les items indésirables dans les résultats de la recherche. La distribution géographique des données ainsi définies est ensuite affichée dans l’espace de l’afr.
5.2. Opposition d’un groupe A et d’un groupe B
5.2.1. Affichage cartographique
Le principe de l’AD80 autant que de l’AD87, repris par l’ADE22, est que les cartes affichent, pour chaque segment géographique, le contraste entre deux groupes de données au moyen d’une distinction graphique. Dans l’AD87, il s’agit d’une hachure / d’un grisage progressif qui distingue différents niveaux de pourcentage des formes du groupe de référence (groupe A). Dans l’ADE22, ces niveaux sont indiqués par des couleurs (voir section 6).
Ainsi la carte no 53 de l’AD87 oppose, pour l’adverbe nient, les formes avec ni- (nient, niant, niens etc., groupe A) aux formes dont le n- n’est pas suivi de i (neant, noiant, neiant etc., groupe B). Cette carte est reproduite sous (29).
L’occurrence du groupe A en pourcentage de la totalité des occurrences A+B est affichée en six paliers pour chaque segment géographique : 0-10%, 10-30%, 30-50%, 50-70%, 70-90% et 90-100%. Le chiffre exact du pourcentage est par ailleurs placé au centre de chaque segment (?? indique qu’il n’y a pas de données pour le segment en question). L’occurrence du groupe B s’en déduit : elle est le complémentaire de ce pourcentage.
(29) | carte no 53 de l’AD87 |
5.2.2. Définition d’un groupe A et B dans l’IU
Pour chaque affichage cartographique, l’utilisateur de l’ADE22 doit ainsi définir deux groupes de données, A et B, dont il souhaite contraster la distribution diatopique.
La structuration globale de l’IU est basée sur cette opposition entre les groupes A et B. On voit sous (30) les trois zones principales de la page recherche : l’utilisateur procède à des recherches dans le corpusD en formulant des requêtes dans la partie supérieure, puis envoie les résultats, selon son choix, dans le groupe A ou le groupe B. Ce choix s’opère au moyen des deux boutons placés sous la fenêtre input qui reçoit la requête : celle-ci étant définie, la recherche est lancée en cliquant ou bien sur « ajouter recherche au groupe A » ou bien sur « ajouter recherche au groupe B ».
(30) | IU : les trois zones principales | |
Il est à noter que l’affichage des résultats dans un groupe donné est cumulatif : chaque nouvelle recherche ajoute ses résultats à ceux qui le cas échéant sont déjà présents dans le groupe de destination. Cela permet de croiser des requêtes différentes, ou encore de couper des requêtes complexes en étapes.
Les données affichées dans chacun des groupes s’effacent au moyen du bouton rouge « effacer ».
5.3. Recherches dans le corpusD
5.3.1. Cibles et types de recherche
L’IU permet de faire des recherches dans trois types de données :
- les formes afr. au nombre de 98.230
- les lemmes afr. au nombre de 56.562 (dont 25,9% vrais et 74,1% faux, voir section 4.5)
- les étymons présents dans 11.482 lignes
L’IU permet, pour chacune de ces trois cibles, de faire deux types de recherche :
- par liste input : une liste d’items
- par expressions régulières input : une formule comprenant des jokers etc. (voir infra)
Les trois cibles et deux types de recherche sont donc librement combinables. La copie d’écran sous (31) montre les trois boutons à gauche qui sélectionnent la cible (étymons, lemmes, formes) et les deux boutons à droite qui définissent le type de recherche (liste, expressions régulières). La valeur sélectionnée apparaît en marron foncé.
(31) | IU : cibles et types de recherche |
Enfin, les recherches dans les étymons se font ou bien en prenant en compte la quantité vocalique (ā,ē,ī,ō,ū,ȳ sont alors distincts de a,e,i,o,u,y), ou bien sans la prendre en compte (la recherche ne connaît que a,e,i,o,u,y). L’utilisateur choisit entre ces options au moyen de deux boutons, « avec quantité » et « sans quantité », qui apparaissent lorsque le bouton « étymons » est choisi.
(31) | IU : recherche dans les étymons avec et sans quantité |
La recherche avec quantité exécute la requête dans la colonne « étymon quantité » du corpusD, alors que la recherche est effectuée dans la colonne « FEW » au cas où l’utilisateur a choisi « sans quantité » (voir section 4.8.5).
Ainsi la recherche « ^bō » (« ^ » signifie « début de mot, voir section 5.3.3.2) dans les étymons au moyen d’expressions régulières et avec quantité ne retournera que bōs, bōja et bōlen, alors que la recherche « ^bo » donnera également *botan, *botina, bonus, botellus, etc.
Il est à noter que pour les mots germaniques, la notation des voyelles longues (traditionnelle au moyen d’un accent circonflexe) a été ramenée à la convention latine par macron : ainsi frk. hâppia (> hache) par exemple est hāppia dans le CorpusD, ce qui permet de rechercher les quantités latine et germanique en même temps (voir section 4.8.4) : la requête « ^hā » retourne frk. hāppia et lat. hāmus.
Enfin, une recherche dans les étymons au moyen d’expressions régulières (voir (37)) retourne la chaîne de caractères spécifié, ainsi que tout sur-ensemble de celle-ci : la requête (sans quantité) « vigilare » affiche ainsi vigilare, mais également *exvigilare (qui contient le terme recherché). Ou encore, la recherche « finire » retourne finire ainsi que definire.
5.3.2. Cibles : avantages et inconvénients
Une recherche par forme a l’avantage de l’exhaustivité : on est certain qu’aucun item présent dans le corpus qui correspond à la requête ne sera raté. Elle a l’inconvénient de l’imprécision, en input et en output. S’agissant du premier, pour pouvoir formuler la requête, il faut connaître toutes les apparences sous lesquelles les formes recherchées peuvent apparaître. Ainsi si on ne sait pas par avance que l’infinitif du verbe abaisser survient, outre sous la forme abaissier, également en tant que abaisier, abaissier, abassier, abesser et abessier, la recherche ratera ces formes. Ensuite l’imprécision caractérise également le résultat : une recherche dans les formes au moyen d’une expression régulière produira beaucoup de bruit, i.e. de formes indésirables, qu’il va falloir éliminer à la main (voir section 5.4.3). Cela peut s’avérer fastidieux lorsque le résultat comporte plusieurs dizaines, voire centaines ou milliers de lignes.
Une recherche par lemme circonscrit ces deux problèmes : la lemmatisation est faite précisément pour atteindre toutes les apparences grammaticales et graphiques d’un mot donné, et le volume du résultat d’une recherche sera moindre. Son inconvénient est le fait que ses avantages dépendent de la qualité de la lemmatisation. Car en cas de lemmatisation incomplète ou empreinte d’erreurs, la recherche ratera des formes contenues dans le corpus. Or aucune lemmatisation automatique n’est parfaite, et la lemmatisation qui a créé les lemmes du corpusD n’a pu trouver des lemmes Frolex (vrais lemmes) que pour 57,6% des formes (voir section 4.5). Par conséquent, une recherche par lemme ne concernera que 57,6% des formes : les 42,4% non lemmatisés seraient ignorés. Afin d’éviter cela, les formes non lemmatisées ont été promues au statut de lemme (faux lemmes, voir section 4.5) et pourront donc être trouvées lors d’une recherche par lemme. Mais l’avantage de la lemmatisation est perdu pour ces formes : elles feront figure de plusieurs lemmes distincts même si en réalité elles représentent le même mot.
Ainsi toutes et seulement les formes verbales présentant la suite « abandon » ont été associées au lemme abandonner (verbe), mais il existe également des formes de ce verbe dont la voyelle radicale est ou : abandoune (3sg présent), abandouna (3sg passé simple), abandounee (part. passé). Elles ne sont pas associées au lemme abandonner puisque Frolex ne les connaît pas. Au sein du corpusD, elles ont été promues au statut de lemme (faux lemmes), ce qui fait que la recherche de l’expression régulière « abando » dans les lemmes les trouvera (alors que la requête « abandon » les ignorera). Mais comme l’affichage des résultats est toujours par lemme, le vrai lemme abandonner (qui englobe 28 formes grammaticalement et/ou graphiquement distincts) apparaîtra sur une ligne (et ses 28 formes dans la fenêtre réservée aux formes, voir section 5.4.2), alors que les formes en ou, considérées comme des (faux) lemmes, occuperont trois lignes (avec une seule forme pour chacun dans l’espace formes). Les faux lemmes sont signalés par la mention « (forme) » à leur droite.
(32) | IU : affichage vrais et faux lemmes |
Enfin, s’agissant de la recherche dans les étymons, bien évidemment la différence entre formes et lemmes n’existe pas. Tous les étymons sont des entrées dans les dictionnaires FEW, Gaffiot, GGHF et Köbler – donc des lemmes.
Afin de circonvenir les faiblesses respectives des différents type de recherche, l’utilisateur peut les combiner, i.e. les exécuter successivement : les résultats d’une requête envoyés dans le groupe A ou B s’ajoutent à ce qu’il s’y trouve déjà (mais sans créer de doublons). On peut donc d’abord envoyer le résultat d’une recherche dans les lemmes au groupe A, et ensuite y ajouter le résultat d’une recherche dans les formes, ou l’inverse. Soit le projet d’identifier toutes les formes qui proviennent de lat. k+a en position forte secondaire, i.e. lat. C(v)ca. La recherche de l’expression régulière « [aeiou]ca$ » dans l’étymon retourne un certain nombre de mots tels grān(i)ca, hut(i)ca, man(i)ca, nat(i)ca, nav(i)ca, pert(i)ca, mais *exrad(ī)cāre (> esrachier) manque à l’appel. Sachant que l’aboutissement afr. du latin -C(v)cāre sont des formes en ‑chier / ‑gier, on peut lancer une recherche de l’expression régulière « chier$ » dans les formes et l’ajouter aux résultats de la précédente. L’afr. esrachier < *exrad(ī)cāre cette fois s’y trouve. L’ensemble de la première et de la seconde recherche apparaît alors dans le même groupe et peut être envoyé à l’affichage cartographique.
La recherche par liste ne nécessite guère d’explications : l’utilisateur fournit une liste d’items qui seront recherchés dans la cible définie. Il peut ou bien les taper à la main directement dans la fenêtre de la requête (en blanc), ou bien les recopier depuis le presse-papier (copier-coller depuis une autre application).
L’IU accepte deux types d’input : les items peuvent apparaître sur des lignes différentes, ou être séparés par un espace sur une seule ligne. Sous (31), une recherche par liste dans les formes est définie, et les quatre formes recherchées sont disposées chacune sur une ligne à part. L’input « grange granges granche granches » aura le même effet.
5.3.3.2. Recherche par expressions régulières
La recherche par expressions régulières permet de définir des formules qui renvoient à un ensemble d’items à rechercher, ou restreignent la recherche à certains items.
Les expressions régulières permettent la définition d’une très grande variété de requêtes et peuvent rapidement devenir assez complexes. Les nombreux symboles et leur syntaxe sont détaillés sur la page dédiée du langage de programmation utilisé, python. Voici sous (33) les plus courants et plus utiles, qui devraient combler la grande majorité des utilisateurs.
(33) | expressions régulières : symboles les plus courants et utiles | |
a. | ^ indique le début d’item. La requête « ^venir » retournera seulement les items commençant par « venir », dans le cas d’une recherche dans les lemmes, seulement venir. La même recherche sans ^ en revanche retournera également advenir, convenir, devenir, etc. |
|
b. | $ indique la fin d’item. La requête « entre$ » retourne seulement les items se terminant par « entre », dans le cas d’une recherche dans les lemmes, seulement entre et ventre. La même recherche sans $ en revanche retournera également entrevoir, entrebaiser, endementres, entreférir, etc. |
|
c. | [ ] les caractères entre crochets sont recherchés alternativement. La requête « ^p[aeiou]s$ » retourne tous les items qui commencent par p, se terminent par s et présentent entre ces deux consonnes l’une des cinq voyelles contenues entre les crochets. Soit, pour une recherche dans les lemmes, pas, pis et pos. |
|
d. | |
« ou » logique, à utiliser entre parenthèses « (…) ». Donc la requête « (a|b|c) » retourne toute séquence de caractères qui contient ou bien « a », ou bien « b », ou bien « c ». La différence avec les crochets […] expliqués sous (33c) est le fait de pouvoir inclure des items plus longs qu’un seul caractère : la requête « ^(p|b|ch)and » retournera tous les mots qui commencent par pand-, band- ou chand-. Les crochets n’auraient pas permis la recherche alternative de « p » et « ch » puisque les deux caractères de « ch » auraient été interprétés séparément. Les crochets […] et | peuvent être combinés, mais uniquement au sein de parenthèses : « ^([pb]|ch)and » est strictement équivalent à « ^(p|b|ch)and ». |
|
e. | . (point)
indique n’importe quel caractère. La requête « ^ch.n » retourne tous les items qui commencent par ch, suivi d’un caractère quelconque, suivi de n, suivi ou non d’autres caractères. Dans le cas d’une recherche dans les lemmes, sont retournés chêne, chancel, chanson, chenal, changer, etc. La répétition de « . » produit la recherche d’une suite de caractères quelconques, d’une longueur égale au nombre de « . ». Ainsi la requête « ^l..ge$ » retourne tous les items qui commencent par l, suivi de deux caractères quelconques, suivis par ge. Dans le cas d’une recherche par lemmes, lange, large, linge, longe, liege et liège sont ainsi retournés. |
|
f. | * n’existe pas dans les expressions régulières utilisées par l’ADE22. D’ordinaire, ce symbole a la valeur de « n’importe quelle suite de caractères, de n’importe quelle longueur ». Il n’existe pas dans les expressions régulières python utilisées ici puisque le principe retenu est que l’input à la requête est recherché n’importe où au sein des cibles, i.e. retournera les items qui le possèdent en leur sein, qu’il soit précédé ou suivi d’autres caractères. Ainsi la requête « range » retournera tous les items qui comportent cette suite de caractères : pour les lemmes, entre autres items étrange, arranger, déranger, franger, ranger, range. En revanche la requête « ^range » ne retourne que range et ranger.En somme, la logique du symbole * est de considérer que l’input de la requête est borné par le premier et le dernier caractère et rien au-delà, à gauche ou à droite, n’est recherché. Si on souhaite étendre la recherche à gauche ou à droite, il faut ajouter * à l’extrémité de l’input. Ici la logique est l’inverse : par défaut l’input est recherché sans bornage à gauche et à droite, et si l’on souhaite restreindre la recherche aux items qui commencent ou terminent l’input, il faut l’indiquer par ^ et $, respectivement. |
Il existe également des jokers, i.e. des symboles qui renvoient à plusieurs caractères. Par exemple, « V » recherche toute voyelle, i.e. équivaut à [aeiouyèéùëüïàêâûîô]. Ainsi la requête en expressions régulières « ^pVs$ » retourne pas, pis et pos et est donc strictement équivalente à « ^p[aeiouyèéùëüïàêâûîô]s$ ».
Les jokers sont définis par nous, mais sur demande peuvent être modifiés, ou de nouveaux items peuvent être ajoutés : contactez-nous (voir à propos).
Nous avons choisi le principe d’affecter des lettres majuscules aux jokers : « C » recherche toute consonne, « V » toute voyelle, « L » toute liquide, etc. Cela suppose qu’il n’existe pas de caractères majuscules dans le corpusD – ce qui est le cas pour les formes et lemmes. Mais il existe des majuscules dans les étymons (Ægyptus, Corduba, Dīāna, Langobardus, etc., voir section 4.8.4). Elles sont restituées à l’affichage des résultats, mais on ne peut les rechercher : la requête traitera tout caractère majuscule en tant que joker. Afin de rechercher des mots à majuscules, il convient donc de remplacer la majuscule par la minuscule correspondante : la requête « ^cord » affichera « Corduba ».
Les caractères des jokers sont choisis de manière intuitive : « V » pour voyelle, O pour obstruante, L pour liquide etc. Ces appellations intuitives ne sont pas possibles pour « toute voyelle brève » et « toute voyelle longue », toutefois : nous avons ainsi affecté Y à la première, Z à la seconde classe.
La liste des jokers qui est opérationnelle actuellement apparaît sous (34).
(34) liste des jokers | |||
joker | appellation | recherche | |
a. | V | toute voyelle | [aeiouyèéùëüïàêâûîôæœÿāēīōūȳ] |
b. | Y | toute voyelle brève (étymon) | [aeiouyèéùëüïàêâûîôæœÿ] |
c. | Z | toute voyelle longue (étymon) | [āēīōūȳ] |
d. | C | toute consonne | ([bcçdfghjklmnpqrstvwxz]|ch|qu) |
e. | O | toute obstruante | ([bcçdfghjkpqstvwxz]|ch|qu) |
f. | L | toute liquide | [rl] |
g. | N | toute nasale | [mn] |
h. | S | toute sonante | [rlmn] |
Les digraphes sont gérés par les jokers : C représente toute consonne, y compris ch et qu, tout comme O recherche toute obstruante, incluant ch et qu. Ainsi « ^caCer » retourne caler, caver, caverne mais également cacher. De même « ^Cand$ » produit mand, gand mais également quand.
Il est à noter, enfin, que l’IU affiche les résultats de la recherche par lemme, i.e. en plaçant chaque lemme distinct sur une ligne à part. Il considère ainsi distincts des items dans les situations suivantes :
1. | homonymes I : forme à lemmes multiples Cas d’une forme donnée qui est associée à plusieurs lemmes. Lorsqu’elle fait partie des résultats de la recherche, elle est affichée autant de fois (i.e. sur autant de lignes) qu’il y a de lemmes associés. Ainsi la recherche de l’expression régulière ^fuis$ dans les formes retourne deux lignes qui correspondent aux deux lemmes associés à la forme fuis : fuir et être. |
2. | homonymes II : item à catégories grammaticales multiples Cas d’un item donnée (forme ou lemme) qui représente plusieurs catégories grammaticales. Lorsqu’il fait partie des résultats de la recherche, il est affiché autant de fois (i.e. sur autant de lignes) qu’il y a de catégories grammaticales associées. Ainsi la recherche de l’expression régulière ^pas$ dans les lemmes retourne trois lignes qui correspondent à pas (adverbe), pas (nom commun) et pas (verbe). |
5.4. Résultats de la recherche
5.4.1. Objectif : nettoyer le résultat de la recherche
Selon le choix de l’utilisateur (bouton « ajouter recherche au groupe A/B »), les résultats de la recherche sont envoyés dans la fenêtre du groupe A ou dans celle du groupe B. Ces fenêtres apparaissent sous l’espace recherche (voir (30)) et ont le même fonctionnement. Elles sont séparées en deux parties affichant les lemmes à gauche (lemmes A/B), les formes associées à chaque lemme à droite (formes A/B).
Au-delà de l’affichage des résultats, l’objectif est de permettre à l’utilisateur de faire son marché en leur sein : les requêtes auront produit des lemmes et formes qu’il voudra en effet inclure dans ce qui est envoyé à la cartographie, mais également du bruit, i.e. des objets qui ne l’intéressent pas, ou même qu’il ne faut surtout pas inclure dans l’envoi à l’affichage diatopique. Il s’agit donc, dans chacun des deux groupes A et B, de faire le ménage manuellement en éliminant ce qui ne doit pas aller à la cartographie.
On est ici dans un équilibre difficile entre d’une part la recherche automatique qui pour ne rien rater voudra être formulée de manière large, d’autre part le bruit dans les résultats qui sera d’autant plus volumineux que la recherche sera imprécise. A recherche précise, le risque de rater des données, mais un travail manuel de nettoyage limité. A recherche imprécise, le risque d’inclure beaucoup de bruit, suivi d’un nettoyage manuel laborieux et chronophage. Le tout sachant qu’une recherche peut facilement produire plusieurs dizaines, voire centaines de lemmes, chacun potentiellement associé à plusieurs dizaines de formes.
Le pari de l’IU est de laisser l’utilisateur juge de la quantité de travail qu’il souhaite investir et de la propreté des données envoyées à la cartographie.
5.4.2. Affichage des informations
Dans les groupes A/B, l’affichage des données se fait toujours par lemme, i.e. un lemme par ligne. Chaque ligne montre d’abord le lemme, ensuite l’étymon sans quantité vocalique associé ( (colonne « étymon (sans quant., FEW) », enfin l’étymon avec quantité vocalique (colonne « étymon avec quantité ») correspondant. Un clic sur un lemme affiche, dans la fenêtre des formes à droite, toutes les formes qui lui sont associées.
On voit sous (35) le résultat de la recherche « Cge$ » (donc, compte tenu du joker C, identique à « [bcçdfghjklmnpqrstvwxz]ge$ ») dans les lemmes. L’idée est d’identifier les lemmes en ‑Cge, dans le dessein d’en sélectionner ceux qui proviennent d’un étymon en ‑C(v)ca (ka en position forte secondaire: grān(i)ca > grange).
(35) | IU : fonctionnement de la fenêtre des groupes A/B |
Le nombre de lemmes est indiqué en haut à gauche de la fenêtre des lemmes (179 sous (35)), et le nombre de formes associées à un lemme apparaît tout à fait à droite de cette fenêtre : sous (35), le lemme sélectionné (en jaune) porte la mention (6/6), qui indique qu’il contient 6 formes, visibles dans la fenêtre des formes à droite. Lors d’une recherche par forme, il peut arriver que seules certaines formes d’un lemme correspondent aux critères. Le lemme sera affiché, mais il n’apparaîtra dans le fenêtre des formes que celles qui ont été retournées par la requête. Par exemple trois sur six : (3/6). Enfin, le nombre d’occurrences d’une forme est mentionné à droite de la fenêtre des formes : sous (35), la forme grainge existe une seule fois dans le corpusD, alors que la forme granche survient 11 fois et la forme grange compte 19 occurrences.
Il faut encore compter avec le fait qu’une recherche dans les formes peut retourner des lemmes qui ne correspondent pas aux critères de la requête : l’affichage se faisant toujours par lemme et les formes demeurant invisibles (sauf à cliquer sur le lemme), un lemme est affiché lorsqu’il contient au moins une forme correspondant à la requête. Une des formes d’un lemme peut donc conduire à l’affichage du lemme, dont le corps ne satisfait pas aux critères de la recherche. Ainsi la requête « ^grai » dans les formes produit des lemmes tels grain, graille, graisle etc., mais également grange puisque ce lemme contient la forme grainge.
D’autres précisions fournies sont la catégorie grammaticale des lemmes (à leur droite, en gris, ici nomcom pour tous les lemmes montrés) ainsi que le codeD pour les formes que l’on peut afficher en cliquant sur « codes Dees » en gris sous la forme. Enfin, les vrais et faux lemmes (voir section 4.5) sont distingués : les derniers sont suivis de la mention « (forme) », alors que les premiers n’affichent rien (voir (32)).
5.4.2.2. Affichage des étymons
L’affichage des étymons fonctionne de la manière suivante. Il a été expliqué en section 4.8 qu’il existe deux colonnes dans le corpusD, l’une contenant les formes du FEW qui ne notent pas la quantité, l’autre les formes de trois dictionnaires qui marquent la quantité : le Gaffiot, la GGHF et le Köbler. La fenêtre des lemmes affiche ces deux colonnes : « étymon (sans quant., FEW) », suivie de « étymon avec quantité ».
Une recherche dans les formes et lemmes affiche le contenu des deux colonnes, et lorsqu’il n’existe pas d’étymon associé à un lemme, « absent ». Les deux colonnes sont donc identiques, sauf en ce qui concerne la quantité. Ainsi sous (35) le lemme « échange » affiche cambiare dans la colonne sans quantité, et cambiāre dans la colonne avec quantité.
La colonne avec quantité fournit, à droite de chaque forme, le dictionnaire source, entre parenthèses et en gris. Ainsi sous (37), la forme exspīrāre a été fournie par le Gaffiot (G), exsūcāre vient de la GGHF et *exsartum est dû au Köbler (K). [attention, il y aura encore les 181 formes germaniques du FEW avec quantité, et elles seront marquées « FEW »]
Enfin, les deux colonnes affichant les étymons montrent parfois un ou plusieurs points d’interrogation associé à ceux-ci : c’est le cas par exemple de ?fabula / fābula ?(G) sous (36). Cela signifie que l’alignement avec le lemme n’est pas sûr selon la base lexicale Frolex (voir section 4.7) : Frolex indique ainsi le degré d’incertitude que la forme FEW correspond réellement au lemme. Dans notre exemple, les auteurs de Frolex ont estimé que le lemme afr. flavel remonte au lat. fābula, mais n’en sont pas sûrs. Puisque toutes les formes avec quantité sont basées sur un alignement avec les formes FEW de Frolex (voir section 4.8), les points d’interrogation sont reproduits dans la colonne des étymons avec quantité.
(36) | IU : étymons avec point d’interrogation |
La recherche dans les étymons se présente comme suit (les généralités et conventions graphiques sont expliquées en section 4.8). Une requête avec quantité (bouton « avec quantité » activé) affiche les résultats uniquement dans la colonne « étymon avec quantité », comme sous (37).
(37) | IU : recherche avec quantité dans les étymons |
Une recherche sans quantité affiche les résultats dans la colonne sans quantité, mais fournit également, pour l’appréciation de l’utilisateur qui le souhaite, la forme avec quantité lorsqu’elle existe (toutes les formes FEW sans quantité n’ont pas trouvé de correspondant dans les trois dictionnaires qui notent la quantité, voir section 4.8.5). Ainsi sous (38) la quantité des deux premiers lemmes est inconnue, alors que celle des deux derniers est fournie par le Gaffiot.
(38) | IU : recherche sans quantité dans les étymons |
5.4.3. Sélection des lemmes et formes
Un lemme ou une forme sont transmises à la cartographie lorsque la boîte qui se trouve à leur gauche est bleue et cochée. Par défaut, la boîte de tous les items issus d’une recherche, lemmes comme formes, est cochée. Une boîte est décochée lorsqu’elle reçoit un clic. Il est également possible de se déplacer au sein des fenêtres par les touches du clavier, indiquées juste au-dessus du groupe A (voir (39)) : flèches pour changer de ligne, tab pour aller de de la fenêtre des lemmes à celle des formes (et retour), « s » pour cocher ou décocher un lemme ou une forme sélectionnée.
Le statut d’un lemme commande celui de toutes ses formes : le fait de décocher un lemme décoche toutes les formes qu’il contient. A l’inverse, cocher un lemme sélectionne toutes ses formes. Au sein d’un lemme, les formes peuvent être cochées ou décochées individuellement. Le compteur à droite de la fenêtre des lemmes (x/y) indique la totalité des formes associées (y) et le nombre de formes sélectionnées (x). Sous (39), le compteur du lemme grange indique (5/6) puisqu’une forme, granche, a été décochée ; celui de frange et serorge indique zéro car le lemme entier a été décoché.
Enfin, le bouton « tout » en haut à droite des fenêtres lemme et forme permet de cocher tous les items de la fenêtre, et le bouton « rien », de les décocher.
(39) | IU : sélection des items envoyés à la cartographie |
Sous (39), la sélection des lemmes et formes a été effectuée en fonction de l’objectif de la recherche : identifier tous et seulement les items qui instancient l’évolution lat. ‑C(v)ca > afr. ‑Cge. Parmi les lemmes affichés par la recherche « Cge$ » dans les étymons, forge et grange répondent aux critères, mais non frange et serorge, dont le -ge ne provient pas d’une vélaire, et qui sont donc décochés. Au sein des formes du lemme grange, grainge et grange répondent à ce patron, alors que granche ne s’y conforme pas (la vélaire aboutit à la sourde ch).
5.4.4. Envoi à la cartographie
L’utilisateur construit le contenu des groupes A et B par les deux moyens exposés supra : une ou plusieurs requêtes (dont les résultats se cumulent), puis la sélection au sein des résultats en décochant les items indésirables.
Lorsqu’il juge que le contenu des groupes est définitif, il envoie l’ensemble des données sélectionnées à la cartographie pour l’affichage diatopique en cliquant sur le bouton « afficher la distribution sur la carte » qui se trouve sous le groupe B (voir (39)).
Il est à noter que les lemmes ne sont qu’une béquille pour le confort de la recherche automatique et de la sélection manuelle : seules les formes sélectionnées sont envoyées à l’affichage cartographique, qui ne connaît point les lemmes.
Enfin, le bouton « exporter dans fichier Excel », situé également sous le groupe B (voir (39)), permet de télécharger un fichier xlsx qui contient les items actuellement sélectionnés, groupés en A et B, ainsi que leurs propriétés, y compris les 107 colonnes géographiques (voir section 4.4). En somme, il s’agit de ce qui est prêt à l’envoi à la cartographie, et l’utilisateur souhaitera peut-être en avoir le panorama complet avant de déclencher la transmission. Le tableau (40) montre un aperçu du fichier exporté.
(40) | IU : fichier export xlsx des items sélectionnés | |||||||||||
group | form_
only |
id | form | catgram | lemma | dees_codes | total_
occurrences |
multiple
_lemmas |
r1 | … | ||
0 | a | 0 | 53778 | grange | nomcom | grange | (‘006’, ‘005’) | 19 | 0 | 0 | ||
1 | a | 0 | 53779 | granges | nomcom | grange | (‘008’, ‘007’) | 5 | 0 | 0 | ||
2 | b | 0 | 53752 | granche | nomcom | granche | (‘006’, ‘005’) | 11 | 0 | 0 | ||
3 | b | 0 | 53753 | granche | nomcom | grange | (‘006’, ‘005’) | 11 | 1 | 0 | ||
4 | b | 0 | 53754 | granches | nomcom | grange | (‘007’,) | 1 | 0 | 0 | ||
5.5. Affichage des cartes géographiques
Après avoir en bas de l’interface utilisateur cliqué sur « afficher la distribution sur la carte », une nouvelle fenêtre s’affiche, comme sous (41).
(41) | fenêtre cartographique: premier affichage |
L’affichage dépend des dimensions de l’écran utilisé et si celui-ci est rectangulaire (plutôt que carré), le cadrage va de l’Atlantique jusqu’en Hongrie, le territoire de l’afr. apparaissant en petit au milieu. Après avoir choisi les réglages (expliqués infra), le cadrage sur le territoire de l’afr. s’opère en cliquant sur le bouton bleu (flèches en diagonale dans les deux sens) en haut à droite de la carte : la carte s’affiche en plein écran, i.e. sans les éléments du navigateur, et sans les boutons de réglage. On peut alors centrer l’affichage sur le territoire de l’afr. en cliquant sur le bouton bleu « E » en haut à gauche de la carte, puis en ajustant avec le zoom manuel (boutons bleus « + » et « – » en haut à gauche). La carte apparaît alors de la façon montrée sous (42).
(42) | fenêtre cartographique: affichage plein écran |
Pour quitter le mode plein écran afin de faire réapparaître les boutons de réglage, appuyer sur « échapper ». Certes il serait plus confortable si les boutons de réglage étaient affichés également sur la carte plein écran – cela figure dans le cahier des améliorations à apporter.
S’agissant des boutons de réglage montrés sous (41), on peut d’abord choisir en haut à gauche l’affichage par R ou par sR. Sous ces boutons, on peut choisir deux jeux de couleurs, expliquées infra.
En affichage sR on peut, en bas à gauche de l’écran sous « options avancées », choisir de prendre en compte pour l’affichage les données des sR englobantes (« dispatcher les sR englobantes dans les autres sR) ou non (« ignorer les sR englobantes »). Par défaut les sR englobantes sont prises en compte (voir section 3.3.2 concernant la notion de sR englobante) et il s’agit là de la distribution la plus complète. Les sR englobantes représentant des données que l’équipe de Dees n’a pas su localiser plus précisément qu’à une R, les ignorer permet de voir seulement les données qui ont réellement été localisées à une sR.
Enfin, le bouton « nouvelle recherche » en haut à droite permet d’afficher la fenêtre des requêtes directement, au cas où la carte donne de nouvelles idées à l’usager : ainsi plusieurs cartes peuvent facilement être juxtaposées.
5.5.2. Contenu : couleurs, données
L’affichage géographique pratiqué dans l’AD87 a été décrit (et illustré par une carte) en section 5.2.1. L’AD87 affiche, au centre de chaque segment géographique, le pourcentage que représentent les occurrences du groupe A (par rapport au total des occurrences de ce segment). Le groupe B représente le complément. Afin de visualiser les différentes proportions, l’AD87 connaît six manières graphiques différentes qu’un segment géographique peut revêtir (hachures différentes, le livre était en noir et blanc) : 0-10%, 10-30%, 30-50%, 50-70%, 70-90% et 90-100%.
L’ADE22 pratique le même affichage (des pourcentages du groupe A), mais ajoute quatre graphies qu’un segment géographique peut revêtir. Les dix graphies différentes sont détaillées sous (43). L’utilisateur peut choisir deux jeux de couleurs : une couleur de base qui est dégradée en six versions du plus clair (pourcentage bas) au plus foncé (pourcentage haut), ou deux couleurs de base dégradées en trois versions chacune (les deux extrêmes foncés, le milieu clair).
(43) | liste des dix graphies qu’un segment géographique peut revêtir | |||
descriptif | jeu de couleur #1
une couleur dégradée |
jeu de couleur #1
deux couleurs dégradées |
||
a. | absence de données dans la base de données | damier gris | damier gris | |
b. | absence de données pour la requête (mais présence dans la base de données) | hachure grise | hachure grise | |
c. | 0% | blanc | blanc | |
d. | 1-9% | vert clair | rose foncé | |
10-29% | vert … | rose moyen | ||
30-49% | vert … | rose clair | ||
50-69% | vert … | vert clair | ||
70-89% | vert … | vert moyen | ||
90-99% | vert foncé | vert foncé | ||
e. | 100% | vert foncé avec hachures | vert foncé avec hachures |
En l’absence de données (43a,b), le pourcentage n’est pas affiché : « 0% » est réservé au cas où le segment contient des données et la requête en retourne, mais que le groupe A n’en possède pas.
Enfin, en positionnant la souris sur un segment géographique, les propriétés de celui-ci s’affichent : intitulé, pourcentage, nombre d’occurrences du groupe A, nombre d’occurrences du groupe B.
La carte affiche le nombre d’occurrences des formes (et non pas des lemmes). Pour l’instant le seul calcul qui est opéré concerne les sR englobantes (voir section 3.3.2).
Nous envisageons de proposer une pondération les résultats bruts par le nombre de sR portant des données et le volume textuel contribué par chaque sR: une sR avec 200 mots ne pèse peut-être pas de la mème manière qu’une sR contribuant 5000 mots. Le calcul pour une telle pondération est décrit ici :
van Reenen, Pieter, Margit Rem & Evert Wattel 2009. The Localization of Medieval Texts of Unknown Provenance. Studies in English and European Historical Dialectology, edited by M. Dossena & Roger Lass, 19-66. Bern: Peter Lang.
Wattel, Evert & Pieter van Reenen 1995. Visualisation of extrapolated social-geographical data. Cahier Vereniging voor Geschiedenis en informatica 9: 253-262.
Wattel, Evert & Pieter van Reenen 2011. Probabilistic maps. Language and Space. An International Handbook of Linguistic Variation. Volume 2: Language Mapping, edited by Alfred Lameli, Roland Kehrein & Stefan Rabanus, 495-505. Berlin: de Gruyter.