4. CorpusD: genèse de la base de données

4.1. Fichiers d’origine

4.2. Les 200 textes du corpusD

4.3. CorpusD v1 : un mot par ligne

4.4. CorpusD v2 : lignes uniques avec 107 colonnes géographiques

4.5. CorpusD v3 : introduction de la colonne lemme

4.6. Propriétés du corpusD v3

4.7. CorpusD v4 : introduction d’une colonne « étymon » (FEW)

4.8. CorpusD v5 (définitive) : introduction de la quantité vocalique

4.8.1. Dictionnaires fournissant la quantité : Gaffiot, GGHF, Köbler

4.8.2. Préparation du Gaffiot pour l’alignement avec le FEW (infinitifs)

4.8.3. Quantité dans le Gaffiot (1934) (papier) et le Gaffiot (2016) (électronique)

4.8.4. Conventions graphiques adoptées

4.8.5. Résultat numérique de l’alignement

4.9. CorpusD: récapitulatif des propriétés


4.1. Fichiers d’origine

Nous avons choisi de partir sur les fichiers Dees d’origine qui sont parvenus à la postérité sur des disquettes (voir section 1.5) et que Piet van Reenen nous a fournis en 2017-18. Il a pris goût à l’idée de raviver l’AD87 et nous a accompagnés avec beaucoup d’entrain et de bienveillance autant qu’il pouvait. Il nous a également transmis des documents dactylographiés des années 80 dont notamment la nomenclature géographique de Dees (voir section 3.1) et la clef du code Dees (voir section 4.5). Composé de trois chiffres, celui-ci est apposé à chaque mot des textes numérisés par Dees et note les informations grammaticales (nom, verbe, etc.).

Le format des fichiers informatiques contenus sur ces disquettes est montré sous (13) (l’exemple est pris sur le texte sully2). Il est à noter que Dees avait déjà supprimé toute ponctuation.

(13) format des fichiers Dees sur disquette : début du texte sully2

sully2  seignors_003 preveire_003 ceste_155 parole_005 ne_319
sully2  *fut_553 pas_004 dite_582 solement_311 a_301 mon_162
sully2  seignor_002 saint_022 3pere_012 quar_331 a_301 nos_441 ce_341
sully2  *devom_514 nos_441 entendre_592 *fut_553 ele_471
sully2  autresi_311 dite_582 qui_600 *somes_514 en_319 luc_002 de_301 lui_434
sully2  en_301 terre_006 e_331 qui_600 *avom_514
sully2  les_108 oailles_008 damerede_002 a_301 pestre_592 ceu_341
sully2  *est_513 son_162 pople_002 a_301 governer_592 e_331 a_301
sully2  conseiller_592 en_301 cest_152 secle_002 e_331 qui_600 *avom_514
sully2  a_301 faire_592 le_102 son_172 mester_002 de_301
sully2  lier_592 les_108 2armes_008 e_331 d_301 assoudre_592 e_331 de_301
sully2  conduire_592 en_301 la_106 gloire_006 durable_026

 

Chaque ligne correspond à une ligne dans l’original et débute avec l’identifiant que Dees a attribué aux 200 textes (ici sully2). Les mots sont suivis du codeD et le cas échéant annotés de *, qui indique qu’il s’agit d’un verbe conjugué (ce qui est redondant avec le codeD).

 

4.2. Les 200 textes du corpusD

Sur les 200 textes sélectionnés par Dees pour l’AD87 (voir section 1.4), nous avons pu disposer de 199 sous format numérique Dees en provenance des disquettes. Un seul texte, ren1 dans l’appellation Dees, était absent des disquettes tout autant que du NCA. Ce texte a été numérisé par OCR et vérifié par T. Scheer en juillet 2021 à partir de l’édition indiquée dans l’AD87. Il a ensuite été lemmatisé par T. Prémat en décembre 2021 (procédure TXM, Lavrentiev et al. 2017), et le codeD des mots a été reconstruit à partir des catégories grammaticales (POS) produites par la lemmatisation.

La liste des 200 textes comporte deux onglets : le premier fournit, pour chaque texte, l’id corpusD (nom donné par Dees), la localisation géographique (R, sR, ssR), le nombre de mots, la correspondance NCA, l’édition et la datation AD87. Le second présente les textes par R, sR, ssR : quels textes comportant combien de mots représentent chacune des R, sR et ssR ?

 

4.3. CorpusD v1 : un mot par ligne

Le premier fichier a été construit en mettant les mots individuels avec leur codeD (i.e. toutes les instances de X_abc) et le texte d’appartenance sur une ligne individuelle. Divers nettoyages ont également été opérés à cette étape : des lignes ne contenant que des caractère numériques (1., 2., etc.) ou des chiffres romains (III, XX, XL, C, etc.) ont été éliminées. Le résultat est la première version du corpusD, contenant 2.214.196 mots sur autant de lignes. Il est à noter que l’information concernant les retours de chariot est perdue suite à cette opération.

Un extrait du texte sully2 montré supra apparaît sous (14). Chaque mot – que dorénavant on appellera forme – est complémenté par les codes qui identifient la localisation géographique du texte auquel il appartient : région (R), sous-région (sR) et sous-sous-région (ssR). Ces codes sont ceux utilisés par Dees pour l’AD80 et l’AD87 (voir section 3.1).

(14) corpusD v1 : 2.214.196 mots, autant de lignes

ID forme code_dees text région srégion ssrégion
1 seignors 003 sully2 r1 sr2 ssr13
2 preveire 003 sully2 r1 sr2 ssr13
3 ceste 155 sully2 r1 sr2 ssr13
4 parole 005 sully2 r1 sr2 ssr13
5 ne 319 sully2 r1 sr2 ssr13
6 fut 553 sully2 r1 sr2 ssr13
7 pas 004 sully2 r1 sr2 ssr13
8 dite 582 sully2 r1 sr2 ssr13
9 solement 311 sully2 r1 sr2 ssr13
10 a 301 sully2 r1 sr2 ssr13
11 mon 162 sully2 r1 sr2 ssr13

4.4. CorpusD v2 : lignes uniques avec 107 colonnes géographiques

La v1 du corpusD a ensuite été réduite à ses lignes uniques. Cela confond en une seule ligne les différentes occurrences d’une forme qui ont le même code D et surviennent dans un texte donné ou dans des textes différents. Sont ainsi réunies en une seule ligne les 16 occurrences de la forme abaie « abbaye » portant le codeD 006 qui existent dans le texte poit, les trois occurrences de cette paire forme / codeD qui existent dans le texte martin3, les deux occurrences du texte martin 2, les cinq occurrences du texte lac et ainsi de suite.

La mémoire du nombre d’occurrences que représente une ligne unique est inscrite dans des nouvelles colonnes qui notent les divisions géographiques représentées par des textes : 25 régions, 41 sous-régions et 41 sous-sous-régions (voir section 3.2). Un total de 107 colonnes est donc ajouté au corpusD. La forme abaie / codeD = 006 ainsi porte, sur sa ligne, une inscription de 18 occurrences en R2, cinq en R13, deux en R19, dix-sept en sR4, trois en sR 10, cinq en ssR 130, une en ssR195 et ainsi de suite, pour un total de 61 occurrences dans le corpusD. La ligne abaie / codeD = 006 est montrée sous (15).

(15) corpusD v2: lignes uniques avec 107 colonnes géographiques

forme codeD total r1 r2 r13 r19 r21 sr4 sr10 sr59 ssr130 ssr195 ssr210
abaie 006 61 0 18   5   2 3 17   3   3 5   1   3
abaie 513 2 0 0   0   0 2 0   0   2 0   0   2

L’homonyme abaie qui est la 3sg ind. présent du verbe aboyer « aboyer » (ou du verbe abéer « rester bouche bée, désirer », voir infra) demeure sur une ligne distincte comme montré sous (15), puisqu’il a un codeD différent, 513 (renvoyant à « verbe présent indicatif 3e »).

La réduction du corpusD aux lignes uniques élimine donc l’information sur les textes : il n’est désormais plus possible de savoir de quel texte proviennent les occurrences d’une forme.

 

4.5. CorpusD v3 : introduction de la colonne lemme

La lemmatisation sert à relier les variantes d’un même objet sous une appellation unique. Par exemple, les différentes formes d’un verbe (« je pars, tu pars, il part, nous partons, vous partez, ils partent, parti, partir, partant, je partais, il partirait » etc.) seront réunies sous un seul lemme, qui sera appelé « partir ». Ainsi lors d’une recherche automatique, il suffira de rechercher le lemme « partir » et la machine fournira toutes les formes qui lui sont associées. Il en va de même pour les formes sg-pl des noms et d’autres regroupements encore.

Cette fonction de la lemmatisation est bien sûr utile pour le corpusD, où le verbe « aboyer » par exemple survient en tant que abaisse (impératif sg), abaisse (3sg ind. prés.), abaissent (3pl ind. prés.), abaissoit (3sg imparfait), abaissat (3sg imparfait subjonctif), abaissa (3e passé simple), abaissié (part. passé. masc. sg), abaissiez (part. passé. masc. pl), abaissier (infinitif) etc.

Mais dans le cas des textes afr., la lemmatisation est encore utile pour une autre raison : les graphies d’une même forme grammaticale montrent une grande variation. Pour en donner une idée : Dees (1980 : x) rapporte que pour les chartes du 13e siècle, « de trente jusqu’à soixante graphies différentes pour un seul et même mot est chose courante », et ailleurs fait état de 115 graphies différentes pour « (je) veux » (Dees 1988 : 142). Cette variation est imprédictible et rend les recherches impossibles. Ainsi le succès d’une requête telle que « donne-moi toutes les formes du verbe aboyer » suppose-t-elle que tous les variants graphiques de toutes les formes grammaticales soient reliés au lemme aboyer.

Le tableau sous (16) donne une idée de la variation graphique importante qui est présente dans les textes du corpusD, au sujet du verbe entrer.

(16) variation graphique d’une même forme grammaticale (verbe entrer)

  variant 1 variant 2 variant 3 variant 4
impératif pluriel « vous » entreis entreiz entrés entrez
imparfait 3sg entroit entrot entrout  
imparfait subj. 3sg entraist entrasse entrast  
participe passe masculin sg entré entreit entret  

Deux équipes ont travaillé sur la lemmatisation de l’afr. : Achim Stein à Stuttgart a entraîné le logiciel de lemmatisation TreeTagger sur le corpus d’afr. NCA (Stein 2003, 2008), et à l’ENS Lyon Alexei Lavrentiev a implémenté dans la plateforme TXM un lemmatiseur basé sur le lexique FROLEX (Lavrentiev et al. 2017). Au lieu de faire lemmatiser le corpusD par l’une ou l’autre de ces deux ces méthodes, nous avons décidé de le lemmatiser sur la base du lexique FROLEX et du codeD seuls. Nous ne sommes pas sûrs que cela fût le meilleur choix : nous l’évaluerons en fin de section.

Le fichier frolex-3.0 contient une colonne avec 1,06 millions de formes lemmatisées, alignée avec une colonne donnant le lemme et une autre fournissant la catégorie grammaticale (msd_cattex_conv2). Nous avons comparé les formes du corpusD avec les formes du lexique frolex-3.0 et en cas de coïncidence inscrit le lemme frolex dans la nouvelle colonne « lemme » du corpusD. Cela produit une bonne quantité d’alignements ambigus : une forme peut représenter plusieurs lemmes, comme par exemple abaie, alignée dans frolex avec les lemmes abbaye (NOMcom), aboyer (VER) et abéer « rester bouche bée, désirer » (VER). Le codeD permet de désambiguïser certains alignements multiples, alors que d’autres demeurent ambigus. Ainsi il existe dans le corpusD deux abaie : l’un porte le codeD 006 (nom commun), l’autre le codeD 513 (verbe). Mais le codeD n’est pas en mesure de désambiguïser au sein des verbes : abaie « aboyer » porte le codeD 513 autant que abaie « abéer ».

Piet van Reenen nous avait envoyé la clef du codeD (dont une version est également publiée dans van Reenen & Schøsler 2000 : 35-37) que nous avons pu aligner avec les catégories grammaticales frolex. Une version très grossière de la table de correspondance que nous en avons tirée apparaît sous (17) (la version complète est ici). On y voit que la nomenclature Dees a une granularité beaucoup plus fine que les catégories grammaticales frolex. Ceci encore sans compter que la clef du codeD dont nous disposons est incomplète : nous ne savons pas à quoi renvoient les codesD absents dans la clef, ni ce que représentent les distinctions fines représentées par les « x » : 02x renvoie à 020, 021, 022, …, 029, etc.

(17) table de correspondance codeD – cat. gramm. Frolex (abrégée) (« x » renvoie à n’importe quel chiffre entre 0 et 9 : 02x = 020, 021, 022, …, 029)

codeD conv2 (Frolex)
00x- nom commun nomcom
01x- nom propre nompro
02x- adjectif, 03x- nombre cardinal, 04x- nombre ordinal apd
15x adjectif démonstratif, 16x adjectif possessif, 18x adjectif indéfini apd
10x article défini, 14x article indéfini, 20x article défini non suivi de nom det
301 préposition pre
112 de+le, 114 de+la, 118 de+les, 122 a+le, 124 a+la, 128 a+les, 132 en+le, 134 en+la, 138 en+les pre
17x pronom/adjectif possessif li tons nons le son plazer pro
25x pronom démonstratif, 27x pronom possessif, 28x pronom indéfini pro
311 adverbe, 319 adverbes du type en y ne adv
321 interjection inj
331 conjonction coordination, 600 conjonction subordination con
341 pronom indéfini pro
411-484 pronom personnel pro
502-594 verbe ver

C’est ainsi que deux colonnes ont été ajoutées au corpusD : lemme et cat.gramm., cette dernière contenant la catégorie grammaticale frolex.

Il demeure alors des lignes qui ne sont différentes que par le codeD. Le tableau (18) montre quelques exemples.

(18) lignes différentes uniquement par le codeD

  forme cat.gram. codeD lemme
1. abaie nomcom 005 abbaye
  abaie nomcom 006 abbaye
2. abbe nomcom 001 abbé
  abbe nomcom 002 abbé
  abbe nomcom 003 abbé
3. acceptable apd 021 acceptable
  acceptable apd 022 acceptable
  acceptable apd 027 acceptable
4. abandonne ver 513 abandonner
  abandonne ver 523 abandonner
5. abati ver 551 abattre
  abati ver 553 abattre

Les différences sont toujours au sein d’une catégorie donnée : 001 à 009 sont des sous-types de noms communs, et 020 à 029 des sous-types d’adjectifs dont nous ne savons pas à quoi ils renvoient (voir clef du codeD). Au sein des verbes, 513 est une 3sg ind. prés., alors que 523 représente une 3sg subj. prés. Nous avons décidé de fusionner ces lignes en reportant l’ensemble des codesD, acceptant ainsi, notamment pour les verbes, une certaine perte d’information. Ceci dans l’intérêt d’une meilleure lisibilité des résultats de recherche dans le corpus, dont l’inflation des lignes affichées rend laborieuse la sélection manuelle des formes à retenir (voir section 5.4, il peut s’agir de plusieurs centaines, voire milliers de lignes).

Le tableau (18) est ainsi réduit au tableau (19).

(19) fusion des lignes différentes uniquement par le codeD

  forme cat.gram. codeD lemme
1. abaie nomcom 005, 006 abbaye
2. abbe nomcom 001, 003, 003 abbé
3. acceptable apd 021, 022, 027 acceptable
4. abandonne ver 513, 523 abandonner
5. abati ver 551, 553 abattre

L’ensemble de ces opérations produit la v3 du corpusD, qui comporte 98.230 lignes, et donc autant de formes différentes (même forme, même cat. gram.). Sur ces 98.230 formes, 56.562 (soit 57,6%) ont reçu un lemme frolex. On dira qu’il s’agit de vrais lemmes.

41.668 (42,4%) formes sont donc restées sans lemme frolex : ou bien parce qu’aucune forme frolex n’y correspond, ou alors parce que la forme frolex correspondante elle-même n’a pas de lemme dans le fichier frolex (<no_lemma>). L’absence de lemme pour une forme est gênante puisque cette forme sera invisible lorsque l’utilisateur fera une recherche dans les lemmes. Pour cette raison, les formes sans lemme ont été promues au statut de lemme, et on dira qu’il s’agit de faux lemmes. Ainsi la forme aaisse (codeD = 502) n’existe pas dans frolex et donc n’a pas de lemme ; par conséquent elle est inscrite dans la colonne lemme du corpusD, et ses forme et lemme seront donc identiques. Cela fait que toutes les formes du corpusD ont désormais un lemme, vrai (57,6%) ou faux (42,4%).

Le corpus conserve la mémoire de cette opération, i.e. distingue entre vrais et faux lemmes. Une nouvelle colonne « triché » indique « faux » pour les vrais lemmes, « vrai » pour les faux lemmes. Le tableau (20) produit quelques exemples.

(20) corpusD avec faux lemmes

forme catgram code_dees lemma triché
aaise ver (‘511’, ‘522’, ‘513’) aaise vrai
aaisiez ver (‘581’,) aaiser faux
aaisié ver (‘580’,) aaiser faux
herbegastes ver (‘555’,) herbegastes vrai
herbegiee ver (‘582’,) herbegiee vrai
herbegiees ver (‘583’,) herbegiees vrai
herbegier ver (‘592’,) héberger faux
herbega ver (‘553’,) herbegier faux

On voit que les faux lemmes du tableau sont facilement identifiables manuellement : les formes aaisiez et aaisié montrent que la forme aaise a toutes les chances d’être comme elles une forme conjuguée du verbe / lemme aaiser. Il se trouve simplement que frolex ne connaît pas la forme conjuguée aaise. De même pour les formes herbegastes, herbegiee et herbegiees, sans lemme, mais qui au vu des formes herbegier et herbega dont le (vrai) lemme est le verbe héberger / herbegier relève certainement de ce même lemme. Ici encore les formes sans lemme sont simplement inconnues par frolex.

Certes tous les cas où les lemmes font défaut ne se résolvent pas aussi facilement en comparant les formes voisines. Mais de toute façon le travail manuel qu’aurait supposé une telle comparaison n’a pas été soutenable avec les moyens du projet. CorpusD est donc laissé dans cet état, i.e. avec des faux lemmes, en espérant peut-être un jour pouvoir faire mieux. La distinction entre vrais et faux lemmes est restituée à l’utilisateur dans tous les résultats de recherche et lui permettra de juger.

En résumé, la lemmatisation par alignement avec Frolex, suivie d’une désambiguïsation par le codeD, produit les résultats montrés, qui ne sont guère satisfaisants : 42,4% des formes demeure sans lemme. Il faudrait apprécier ce que la lemmatisation par les méthodes d’A. Stein d’une part, d’A. Lavrentiev d’autre part produit : le taux de succès sera certainement plus élevé (bien que TXM à Lyon utilise également Frolex pour l’alignement des formes).

 

4.6. Propriétés du corpusD v3

La structure de la v3 du CorpusD (98.230 lignes et autant de paires forme / cat. gram. différentes) est montrée sous (20), et de manière plus complète sous (21) où il est rappelé que chaque ligne contient les effectifs afférents aux 107 divisions géographiques.

Le tableau (21) montre plus particulièrement la gestion des lemmes multiples : ils y apparaissent collectivement dans la colonne lemme. Dans le vrai corpus implémenté sur le serveur, pour des raisons techniques, il y a autant de lignes qu’il y a de lemmes multiples : la ligne de la forme aage par exemple existe trois fois à l’identique, sauf pour la colonne lemme, chacun des trois lemmes possibles ayant donc sa propre ligne. Cela produit un fichier de 110.815 lignes.

(21) corpusD v3 : extraits avec lemmes multiples

forme catgram codeD lemme triché tot. R1
fuis ver (‘551’, ‘552’, ‘511’, ‘581’, ‘502’, ‘512’) fuir, être faux 23 0  
aage nomcom (‘002’, ‘006’, ‘001’) âge, ëage, âgé faux 169 1  
franceis nomcom (‘002’, ‘003’, ‘001’, ‘004’) françois, français faux 36 0  
fremer ver (‘592’,) fermer, fremer faux 12 0  
freor nomcom (‘006’, ‘005’) frayeur, frëor faux 15 0  
fresche apd (‘025’, ‘026’) frois, frais faux 42 0  
fud ver (‘553’,) estre, être faux 82 0  

On voit que les lemmes multiples peuvent représenter des lemmes réellement distincts, comme pour la forme fuis (dont le sens, « fuir » ou « être », ne peut être désambiguïsé ni par le codeD ni par la cat.gram. : il s’agit d’un verbe conjugué). Mais très souvent la distinction faite, venant de frolex, est factice, opposant la graphie afr. à la graphie moderne : frëor et frayeur, frois et frais, estre et être sont ainsi pour frolex deux lemmes différents. Il s’agit là de décisions prises par frolex dont on peut douter du bien-fondé, mais qui sont donc répercutées dans le corpusD.

Il a été mentionné que la proportion des faux lemmes par rapport aux formes est de 42,4% (41.668 lignes sur 98.230). Les faux lemmes se déclinent de la façon montrée sous (22). Les lemmes uniques sont au nombre de 54.362 (soit 55,3% des 98.230 lignes = formes), qui se répartissent en 14.087 vrais (soit 25,9%) et 40.275 faux lemmes (soit 74,1%).

(22) corpusD v3 : analyse des faux lemmes

codeD catgram détail   nb
000-009 mot contenu nom commun   10.642
020-029   adjectif   3.103
311, 319   adverbe   1.725
502-594   verbe   19.128
010-019 nom propre     5.543
030-310, 331-484, 600 mot grammatical nombre ordinal, cardinal, article, démonstratif, pronom, possessif, préposition, adj. indéfini, interjection, conjonction   1.527
    Tot.   41.668

La lemmatisation étant sans objet pour les noms propres et d’un intérêt très limité pour les mots grammaticaux (dont les formes et variants graphiques sont en petit nombre), le problème des formes avec faux lemme se pose surtout pour les mots contenu, soit 35,2% (34.598 lignes sur 98.230).

Enfin, revenons sur la perte d’information causée par la fusion, après lemmatisation, des lignes qui ne sont distinctes que par leur codeD, illustrée sous (18) et (19). 16.617 lignes (soit 16,9% des 98.230 lignes du corpus) présentent davantage qu’un codeD : elles sont issues de la fusion de plusieurs lignes qui n’étaient distinctes que par leur codeD. Le tableau sous (23) en propose une analyse plus fine et quantifiée.

(23) corpusD v3 : analyse des lignes contenant plus d’un codeD

codeD catgram détail   nb
000-009 mot contenu nom commun   7.064
020-029   adjectif   2.454
311, 319   adverbe   13
502-594   verbe   5.115
010-019 nom propre     1.288
030-310, 331-484, 600 mot grammatical nombre ordinal, cardinal, article, démonstratif, pronom, possessif, préposition, adj. indéfini, interjection, conjonction   683
    Tot.   16.617

L’observation principale, rassurante, n’apparaît pas dans ce tableau toutefois : la variation du codeD au sein d’une ligne est toujours circonscrite au sein de la catégorie grammaticale montrée. Ainsi une ligne représentant un nom commun peut avoir deux, cinq ou 17 codeD (17 étant le maximum) : tous seront compris entre 000 et 009. Et il en va de même pour les autres catégories. Rappelons que nous ne savons pas à quoi renvoient les variations 00x, 01x, 02x, 03x, 04x, 14x, 15x etc. La perte d’information est donc circonscrite dans un espace d’une granularité très fine que dans la majorité des cas de toute façon nous ne maîtrisons pas. Seul le cas des verbes est d’un autre calibre : ici une ligne peut confondre 580 (participe) et 592 (infinitif) ou encore 563 (futur) et 592 (infinitif). Mais ces cas sont également très minoritaires au sein des verbes, où la variation majoritaire est au sein des infinitifs (591, 592), au sein des participes (585, 586) et ainsi de suite.

Le fichier recensant la totalité des 16.617 cas où une ligne contient plus d’un codeD est disponible ici, ce qui permet au lecteur de se faire sa propre opinion.

 

4.7. CorpusD v4 : introduction d’une colonne « étymon » (FEW)

A présent, le corpusD v3 permet de faire des recherches dans les formes et dans les lemmes. Mais en phonétique historique, il est également utile de pouvoir faire des recherches dans les étymons dont les formes/lemmes afr. sont l’aboutissement. Si par exemple on cherche à opposer en diatopie les aboutissements en [ʒ] et en [ʃ] résultant d’un k+a latin placé en position forte secondaire, donc lat. C(v)ka (grān(i)ca > grange, granche), une recherche dans les formes ou les lemmes de l’afr. n’apportera rien ou alors beaucoup de bruit. Une recherche de l’expression régulière C(v)ka dans les étymons en revanche fournira le matériel souhaité de manière plus précise.

Il existe des dictionnaires numérisés du latin (FEW, Gaffiot, Köbler, voir infra), mais l’alignement avec les formes ou lemmes de l’afr. est difficile. A notre connaissance, il n’existe, en version électronique, que dans la base lexicale Frolex, dans le second fichier fourni qui s’appelle clfrolex-3.0 et comporte les lemmes frolex (au nombre de 102.559) alignés avec les entrées de plusieurs dictionnaires de l’afr. (TL, DEAF, DMF, GDF, GDC, AND et d’autres), ainsi que les entrées du FEW (von Wartburg 1946-2003), qui sont en latin.

Le FEW n’indique pas la quantité vocalique des étymons sauf, la plupart du temps, pour les infinitifs en ‑āre, et ailleurs de manière erratique, assez souvent erronée d’ailleurs. Il sera encore question de la quantité à l’étape suivante décrite en section 4.8 : ici il suffit de noter que la question ne se pose pas puisque frolex ne note pas la quantité latine présente dans le FEW : ainsi par exemple frolex rend l’entrée FEW minūtiare (sic) par minutiare. Mais frolex a repris la quantité vocalique des entrées germaniques du FEW, notée par l’accent circonflexe : il restitue par exemple FEW frk. hâring fidèlement par hâring (> hareng). La quantité latine, mais non germanique, est ainsi absente des formes FEW introduites à cette étape de la construction du corpus.

Nous avons donc aligné la colonne « lemme » du corpusD v3 avec la colonne « lemme » de clfrolex-3.0 : en cas de coïncidence, la forme FEW de la ligne frolex est inscrite sur la ligne du corpusD dans une nouvelle colonne « FEW ». Le succès de cet alignement est toutefois bien relatif. D’une part, un peu plus de la moitié des lemmes frolex seulement a un correspondant FEW : c’est le cas de 58.533 d’entre eux, soit 57% (desquels il faudra encore soustraire les 1012 cas où le FEW répond, mais par « o.i. », i.e. origine inconnue). D’autre part, si les vrais lemmes du corpusD proviennent de frolex et donc y ont un correspondant, les faux lemmes (42,4% du corpusD, voir section 4.7) n’auront pas de correspondant parmi les lemmes frolex.

Enfin, il est à noter que clfrolex-3.0 contient les astérisques marquant les formes reconstruites dans le FEW ainsi que dans la colonne FEW un ou plusieurs points d’interrogation qui indiquent le degré d’incertitude que la forme FEW correspond réellement au lemme frolex. CorpusD enregistre ces deux informations dans deux colonnes à part et les restitue à l’utilisateur dans les résultats des recherches. En revanche, clfrolex-3.0 n’a pas repris l’information concernant l’origine latine, germanique ou autre que le FEW propose. Frk. hûrt est donc autant une forme dans la colonne FEW que lat. adjutare, sans marque distinctive.

L’alignement avec le FEW a produit un résultat pour 11.482 lemmes (même lemme, même cat. gram.) du corpusD, à qui un étymon FEW a donc été accolé. Cela représente 81,5 % des vrais lemmes (14.087) du corpusD, ce qui est un bon résultat. Il s’agit seulement de 21,1% du nombre total (54.362) des lemmes du corpusD, mais il a été mentionné qu’il n’est pas attendu que les faux lemmes s’alignent (il y a eu seulement deux cas sur les 11.482  réussites d’alignement où un faux lemme a trouvé un correspondant FEW).

 

4.8. CorpusD v5 (définitive) : introduction de la quantité vocalique

4.8.1. Dictionnaires fournissant la quantité : Gaffiot, GGHF, Köbler

La dernière étape de la construction du corpusD est l’introduction de la quantité vocalique dans l’étymon. La tradition, suivie par l’ADE 22, note les voyelles longues par le macron : ā, ē, ī, ō, ū, ȳ sont les versions longues de a, e, i, o, u, y. L’introduction de la quantité autorisera des recherches prenant en compte la longueur vocalique, et permet indirectement de calculer la place de l’accent, absent des graphies latines.

A cette fin, nous avons aligné les formes FEW avec trois dictionnaires qui indiquent la longueur des étymons : le Gaffiot, l’index de la GGHF et le Köbler, tous trois disponibles en version électronique. Le Gaffiot a été numérisé, revu et augmenté par G. Gréco en 2016 (annonce, format json, format pdf). L’index lexical de la partie phonétique historique de la Grande Grammaire Historique du Français (GGHF, Prévost, Marchello-Nizia, Combettes & Scheer (éd) 2020) n’existe qu’en version électronique, tout comme le Köbler (Köbler 2010, Lateinisches Abkunfts- und Wirkungswörterbuch).

Les trois dictionnaires sont assez complémentaires : le Gaffiot concerne le latin classique (et seulement les formes attestées), quand la GGHF contient également des formes reconstruites. Enfin, le Köbler couvre, outre le latin classique, le latin médiéval et propose également des formes reconstruites. Celles-ci ainsi que les formes médiévales sont grandement utiles puisque le FEW en contient en nombre.

Ainsi à la colonne « FEW (étymon sans quantité) » s’est ajouté la nouvelle colonne « étymon quantité » par l’alignement hiérarchique avec les trois dictionnaires mentionnés : d’abord les formes du Gaffiot ont été introduites au cas où elles coïncident avec la forme FEW, ensuite les entrées FEW demeurés sans correspondant Gaffiot ont été alignées avec la GGHF et enfin, les entrées FEW qui n’ont toujours pas de correspondant avec quantité ont été alignées avec le Köbler.

Chacune de ces opérations d’alignement est basée sur la colonne sans quantité des dictionnaires, i.e. les entrées où [ā,ē,ī,ō,ū,ȳ] ont été remplacés par [a,e,i,o,u,y] : en cas de coïncidence de l’entrée FEW et de la forme de cette colonne, la forme avec quantité des dictionnaires a été inscrite dans la nouvelle colonne « étymon quantité » du CorpusD v5.

 

4.8.2. Préparation du Gaffiot pour l’alignement avec le FEW (infinitifs)

Un écueil était le fait que la forme de citation pour les verbes utilisée par le FEW est l’infinitif, alors que le Gaffiot fonctionne avec la forme canonique de la première personne du singulier (la GGHF et Köbler utilisent comme le FEW l’infinitif). Il a donc fallu préparer le Gaffiot pour l’alignement, de sorte que pour chaque verbe, l’entrée comportant la forme en ‑ō soit remplacée par l’infinitif. Le Gaffiot fournit l’infinitif dans les spécifications grammaticales des verbes, mais l’extraction automatique de cette information n’est pas tout à fait triviale étant donné qu’elle ne se trouve pas toujours au même endroit, et que le Gaffiot, pour certains verbes secondaires (considérés dialectaux, idiosyncratiques à un auteur, etc.), pratique des renvois à la forme principale sans donner les spécifications grammaticales (qui pour le reste ne sont pas toujours connues lorsque, par exemple, un verbe n’est connu que par son infinitif en ‑ere (qui peut correspondre à ‑ere ou ‑ēre).

La conversion des entrées verbales en infinitifs a été opérée automatiquement, suivie d’un contrôle manuel en fonction d’indices d’incertitude. Cette méthode a identifié, et mise à l’infinitif, 8523 entrées verbales sur les 72.163 entrées que compte le Gaffiot. Le résultat a été déposé, au sein du fichier Gaffiot, dans une nouvelle colonne « Gaffiot_inf » qui comporte, pour les verbes, l’infinitif, et pour les autres entrées, la copie du Gaffiot d’origine. Cette colonne riche de la quantité vocalique a ensuite été doublée d’une colonne identique mais sans quantité, qui a servi pour l’alignement avec le FEW.

 

4.8.3. Quantité dans le Gaffiot (1934) (papier) et le Gaffiot (2016) (électronique)

La version électronique du Gaffiot qui a été préparée durant de longues années sous la direction de Gérard Gréco n’est pas une simple reproduction électronique de l’original papier. Dans la préface de la version pdf du Gaffiot (2016), G. Gréco avertit que « cet ouvrage n’est plus le Gaffiot de 1934 » et énumère les modifications apportées : correction et normalisation des références citées ; correction et complétion des longueurs vocaliques ; correction des références mortes ou circulaires ; correction des erreurs manifestes signalées dans la littérature ; ajout de quelques développements.

Ensuite à la page 14 du pdf, Mark De Wilde explique le détail concernant la quantité vocalique :

« L’indication de la longueur des voyelles a été considérablement révisée dans cette édition.

Dans le Gaffiot 1934, seules les voyelles d’une syllabe ouverte (et encore à l’exclusion des majuscules) portent une marque de longueur, avec plusieurs omissions importantes, comme la désinence -ī ou le -ō final (nom. sing. des racines sur -n [gén. -ōnis et -ĭnis] ; 1ʳᵉ pers. sing. du présent) – pour n’en citer que quelques-unes. En outre, une autre lacune évidente a été comblée, celle des longueurs dans les syllabes fermées, où une voyelle est suivie par au moins deux consonnes — les quantités dites cachées parce que la quantité de la syllabe (longue « par position ») masque la longueur de la voyelle. Toutes les voyelles longues dans cette catégorie ont été soigneusement notées. »

De Wilde explique ensuite que lors des modifications apportées par rapport au Gaffiot (1934), les longueurs vocaliques ont été déterminées à l’aide de Allen (1978), Pinkster (2014), Ernout (2001) et de Vaan (2008).

L’usager est donc avisé ici que la quantité Gaffiot qui apparaît dans l’ADE 22 est celle du Gaffiot (2016) et non pas celle du Gaffiot (1934).

 

4.8.4. Conventions graphiques adoptées

L’ADE 22 note la longueur vocalique (ā, ē, ī, ō, ū, ȳ), mais non la brévité, classiquement indiquée par le signe ˘ surmontant les voyelles (ă, ĕ, ĭ, ŏ, ŭ) (et, dans le Gaffiot 2016, par ÿ pour y bref). Ainsi les voyelles portant le signe de brévité ont été remplacées par les voyelles sans diacritique (ă, ĕ, ĭ, ŏ, ŭ, ÿ > a, e, i, o, u, y), ce qui fait que les voyelles des étymons dans l’ADE 22 sont brèves sauf lorsqu’elles sont surmontées du macron. Cette convention s’applique également aux caractères majuscules (le Gaffiot, et donc l’ADE 22, note Āfrica, mais Arduenna).

La même convention est appliquée aux étymons germaniques (et d’autres provenances encore, arabe, perse, etc.) : ici le FEW note la longueur vocalique, selon la tradition, par un accent circonflexe (par exemple frk. hâppia > hache, frk. rîki > riche, etc.). Afin d’être à même de rechercher toutes les voyelles longues de la même manière, nous avons aligné la notation des étymons germaniques sur celle des étymons latin : â, ê, î, ô, û ont été remplacés, dans la colonne FEW, par ā, ē, ī, ō, ū.

Les voyelles æ, œ (dont le latin ne connaît pas de version longue ) sont notées en tant que telles, æ et œ (plutôt que ae et oe). Il est à noter toutefois que ae et oe existent dans le corpusD dans les cas où ils ne représentent pas æ, œ, comme dans Pharisaeus, poeta > poète ou des étymons germaniques tels mndl. broec > bruec.

Les majuscules contenues dans les différents dictionnaires sont conservées dans le corpusD ainsi qu’à l’affichage lorsque les résultats des recherches sont montrés (Ægyptus, Corduba, Dīāna, Langobardus, etc.), mais l’usager ne peut spécifiquement rechercher des majuscules : lors d’une requête, toutes les majuscules sont traitées en tant que minuscules (la requête « corduba » trouvera et affichera « Corduba », et la requête « Corduba » n’est pas possible). La raison en est la présence des jokers dans les requêtes (voir l’explication en section 5.3.3.2). Il existe dans le corpusD 127 entrées à majuscule.

Enfin, il a été mentionné à la section 4.7 que Frolex a repris l’astérisque présent dans le FEW, et cette information se retrouve donc associée à la colonne FEW du corpusD. Il est à noter qu’assez souvent l’information concernant le caractère reconstruit d’une forme donnée est conflictuelle dans les différents dictionnaires. Ainsi une forme astérisquée dans le FEW est couramment présente dans le Gaffiot (qui ne contient que des formes attestées), ou non-astérisquée dans la GGHF ou le Köbler : tel imputāre, astérisqué dans le FEW mais présent dans le Gaffiot. Le cas inverse où le FEW donne une forme pour attestée mais la GGHF ou Köbler l’astérisquent existe également : *minūtiāre (GGHF) vs. minutiare (FEW).

La convention appliquée dans le CorpusD est de toujours fidèlement reprendre l’information contenue dans les divers dictionnaires : la colonne FEW (sans quantité) reprend les astérisques du FEW, et la colonne qui note l’étymon avec sa quantité inclut celle du dictionnaire qui a fourni la forme en question (GGHF, Köbler).

Ainsi lors de l’affichage des résultats de la recherche qui propose l’étymon avec et sans quantité, le même étymon peut apparaître astérisqué dans sa variante avec quantité, mais sans astérisque dans sa variante sans quantité (ou l’inverse).

 

4.8.5. Résultat numérique de l’alignement

Le résultat de ces divers alignements est le suivant. Le corpusD v4 contient 11.482 lignes, qui représentent autant de paires lemme – cat.gram. uniques auxquelles une forme FEW a pu être associée (voir section 4.7). Sur ces 11.482 lignes, 8.147 (71%) ont trouvé un correspondant dans le Gaffiot, 692 (6%) dans la GGHF et 862 (7,5%) dans le Köbler. Le succès de l’alignement avec les trois dictionnaires à quantité est donc globalement de 84,5% (9.701 lignes sur 11.482) : autant de lignes ont trouvé une forme latine distinguant les voyelles longues et brèves. Ce résultat est assez satisfaisant.

Il faut encore à cela ajouter 181 cas où la forme FEW, bien que n’ayant trouvé de correspondant dans les trois dictionnaires à quantité, comporte elle-même une ou plusieurs voyelles longues. Il a été mentionné en section 4.7 que Frolex n’a pas repris les (rares) quantités latines notées par le FEW, mais qu’il restitue la quantité des mots germaniques du FEW. Ainsi sur les 1.781 lignes (15,5%) du corpusD v4 qui n’ont pu être alignées avec une forme des trois dictionnaires à quantité, 181 comportent une forme germanique à quantité. Il se trouve donc au total dans le corpusD 9.882 lignes (86,1% des lignes à forme FEW) qui notent la quantité.

L’ensemble de ces informations a été incorporé dans le corpusD en deux colonnes : l’une donnant la forme FEW (sans quantité, 11.482 lignes), l’autre la forme avec quantité si disponible (9.882 lignes), sinon la forme FEW sans quantité (1.781-181 = 1600 lignes). Enfin, une troisième colonne identifie le dictionnaire qui a fourni la forme (Gaffiot, GGHF, Köbler, FEW) et une quatrième colonne, s’il la donne astérisquée ou non.

L’utilisateur reçoit l’ensemble de cette information dans les résultats de ses recherches sous la forme de deux colonnes : « étymon (sans quant., FEW) » (avec astérisque et points d’interrogation) et « étymon (avec quantité) ». Cette dernière fournit les formes avec quantité ainsi que leur provenance (G, GGHF, K). L’affichage des résultats des recherches se faisant par lemmes, l’ensemble des informations concernant un étymon est aligné à son lemme.

Le tableau sous (25) montre cette organisation des données dans le corpusD v5, ne mentionnant que le lemme et l’information concernant l’étymon associée.

(25) corpusD v5 : avec étymons (FEW, Gaffiot, GGHF, Köbler)    
catgram lemme FEW astérisque FEW point
d’interr.
FEW
étymon quantité dictionnaire quantité astérisque étymon quantité
ver aancrer ancora faux faux ancora G faux
ver aatir hatjan vrai faux hatjan GGHF vrai
ver abahir batare faux faux batāre GGHF vrai
nomcom abaissement bassiare vrai faux bassiāre GGHF vrai
ver abosmer abominari faux faux abōminārī G faux
ver abouter botan vrai faux botan FEW vrai
nomcom abusion abusio faux faux abūsiō G faux
ver accompagner companio faux faux compānio K faux
ver accrocher krok vrai faux krōk FEW vrai
nomcom adjectif adjectivum faux faux adjectīvum K faux
nomcom bise bisjo vrai faux bīsjo FEW vrai
nomcom amenuisement minutiare faux faux minūtiāre GGHF vrai
nomcom apparoit apparescere vrai vrai appārēscere G faux

 

4.9. CorpusD: récapitulatif des propriétés

Les tableaux (26) à (29) réunissent les chiffres pertinents mentionnés qui caractérisent le corpusD.

(26) corpusD (définitf) : volume
a. 200 textes représentant 2.214.196 mots
b. réduits à 98.230 formes uniques (même mot, même cat.gram.)

 

(27) lemmatisation des 98.230 formes uniques
a. méthode : alignement avec les formes Frolex du fichier frolex-3.0, inscription des lemmes Frolex associés dans le corpusD. Puis désambiguïsation par le codeD, comparé à la cat.gram. Frolex.
b. résultat
 
  • 1. 56.562 formes (soit 57,6%) ont reçu un lemme Frolex (vrais lemmes)
  • les 41.668 (42,4%) formes restées sans lemme Frolex ont été promues au statut de lemme (faux lemmes)
  • nombre de lemmes uniques : 54.362
  • dont 14.087 (soit 25,9%) sont des vrais lemmes, et 40.275 (soit 74,1%) des faux lemmes

 

(28) alignement lemmes – étymons du FEW
a. méthode : alignement des lemmes du corpusD avec les lemmes Frolex du fichier clfrolex-3.0, inscription des formes FEW dans le corpusD.
b. résultat
 
  • 11.482 lignes (même cat.gram. – lemme), soit 21,1% des 54.362 lemmes du corpusD, ont reçu une forme FEW.
  • mais seuls les vrais lemmes peuvent trouver une forme FEW : les faux lemmes ne sont pas des lemmes Frolex et par conséquent ne trouveront pas de correspondant parmi les lemmes Frolex et, partant, d’alignement avec une forme FEW.
  • ainsi, parmi les 11.482 lignes qui ont reçu une forme FEW, seuls deux sont des faux lemmes.
  • les 11.482 lignes alignées avec une forme FEW représentent 81,5% des vrais lemmes (au nombre de 14.087) du corpusD.

 

(29) alignement FEW – dictionnaires à quantité
a. méthode : alignement des formes FEW du corpusD avec les entrées (sans quantité vocalique) des dictionnaires Gaffiot, GGHF et Köbler, inscription des formes avec quantité vocalique fournies par ces dictionnaires dans le corpusD. Alignement hiérarchique: d’abord avec le Gaffiot, puis alignement des lignes restantes avec la GGHF, enfin alignement des lignes toujours restantes avec le Köbler.
b. résultats
  1. étant donné les 11.482 lignes possédant une forme FEW qui sont présentes dans le corpusD,
    8147 (71%) ont trouvé un correspondant dans le Gaffiot
    692 (6%) dans la GGHF
    862 (7,5%) dans le Köbler
    181 (1,6%) ont une forme FEW à quantité (mots germaniques)
  2. cela a donc fourni des étymons avec quantité venant de des quatre dictionnaires à 9.882 lignes du CorpusD (soit 86,1% des 11.482 lignes à forme FEW). 
  3. les 1600 lignes à forme FEW restantes (13,9%) n’ont pas de version avec quantité.