1. Le projet d’A. Dees


1.1. Origine et motivation

Lorsque Anthonij Dees écrit sa thèse qui sera soutenue en 1971, la doctrine victorieuse concernant la variation constatée dans les textes de l’afr. aux 12e et 13e siècles est celle de la koinè, ou de ce que l’on appellera la scripta. Suite au travail de Remacle (1948) sur une charte wallone (Liège) de 1236, elle avait dans l’après-guerre conquis le milieu médiéviste. Unanimement acceptée et encensée par la critique qui croit y voir la clôture définitive d’un débat philologique qui a occupé les esprits depuis le 19e siècle, l’idée est que les textes ne reflètent plus une variation dialectale qui a existé mais à partir du 12e siècle cède le pas à l’expansion d’un français écrit supra-régional. Ainsi « les auteurs wallons du moyen âge n’avaient pas voulu écrire du wallon, mais du ‘français' » (Gossen 1976 : 20, paraphrasant Jules Feller). Voici comment Dees (1984) décrit cette idée :

« ne suffit-il pas, pour expliquer des mélanges incohérents de formes dialectales, de supposer que le texte a été exposé à l’influence de plusieurs dialectes différents ? Compte tenu de la nature particulière du texte littéraire, qui ne reste pas nécessairement confiné dans son pays de naissance, une telle supposition n’a évidemment rien d’impossible ; aussi n’a-t-on pas manqué de faire fréquemment appel à cette solution commode pour expliquer les incohérences qui se présentent. Une théorie de portée générale est venue légitimer l’aspect hétéroclite de textes particuliers : au XIIIe siècle les influences qu’exercent les dialectes les uns sur les autres, se multiplieraient et notamment la langue du Centre exercerait, au moins depuis le XIIIe siècle, une influence profonde sur les dialectes voisins et périphériques. C’est à peine si on ose encore parler de dialectes, terme qu’il vaudrait mieux remplacer par celui de scripta ou de français régional pour bien faire comprendre que les copistes de cette époque ont pour idéal d’imiter, sans y réussir toujours, le modèle de la capitale. Ainsi, sur le plan de la langue écrite, les dialectes seraient nettement en recul devant une langue nationale qui cherche à s’imposer. » (Dees 1984 : 102 sq.)

L’étude des scriptae est depuis devenu une discipline établie (Gossen 1979, Lodge 2008), mais A. Dees n’a pas voulu croire qu’une influence supra-régionale eût enseveli la variation dialectale, que la variation présente dans les textes des 12e et 13e siècles ne révélât rien sur la diatopie. C’est ainsi qu’en 1985 il explique la motivation et l’origine du projet qui l’aura occupé toute sa vie (Dees 1985). Il écrit en 1987 :

« [L]a supposition qu’un français écrit commun serait en train de se répandre sur le domaine d’oïl dès avant 1300 est incompatible avec la constatation empirique que toute une série de caractéristiques régionales se révèlent parfaitement intactes, lorsqu’on les étudie dans un vaste ensemble de chartes. » (Dees 1987 : vii)

« [P]lusieurs arguments […] invitent à conclure que l’existence d’un français écrit commun correspond à une invention moderne plutôt qu’à une réalité observable du 13e siècle. » (Dees 1987 : xi)

Dees a donc entrepris d’abord la démonstration que les textes du 12e et 13e siècles recèlent bel et bien une fine variation diatopique (dès sa thèse en 1971), ensuite la création d’un instrument qui permette de la mesurer avec précision. Le propos de l’ADE22 est de reconstruire cet instrument, perdu dans la transmission inter-générationnelle et les vicissitudes numériques (voir section 2), pour le rendre librement accessible.

Produits de cet instrument qui lui-même est toujours demeuré invisible pour le grand public, deux atlas ont été publiés par Dees : l’atlas des chartes du 13e siècle en 1980 (Dees 1980, infra appelé AD80), puis en 1987 l’atlas des textes littéraires (Dees 1987, infra AD87).

 

1.2. Localisation des textes dans le temps et l’espace

Dees est ainsi le fondateur de la dialectologie moderne de l’afr. L’instrument qu’il a créé pour in fine produire des cartes géographiques qui affichent la variation diatopique a supposé un travail philologique et informatique pendant de longues années, entrepris depuis 1971 avec le concours de Piet van Reenen (ce dont Dees 1992 : 24 sqq. et van Reenen &Schøsler 2000 : 26 sq. font le récit). Classifiant et sélectionnant des textes dont la localisation dans l’espace et dans le temps peut inspirer quelque confiance, ce travail a produit deux corpus : celui des chartes à la base de l’AD80, et celui des textes littéraires qui a fondé l’AD87. Le traitement de l’énorme masse de données était déjà à l’époque, avec les moyens technologiques que l’on imagine, géré par ordinateur : les corpus étaient entièrement numérisés, et chaque mot était associé à un code à trois chiffres (qui note la catégorie grammaticale), le code Dees dont il sera encore question infra (voir section 4.5).

Dès sa conception, Dees avait prévu les étapes de son projet qui, à l’issue de quelques 15 années de labeur, allait aboutir à l’AD87. L’obstacle majeur lorsque l’on veut faire la dialectologie de l’état ancien d’une langue qui ne nous est parvenue que sous forme écrite est la localisation des textes : localisation dans le temps et dans l’espace. Car on ne peut aller dans un village pour enregistrer les locuteurs.

Dees rencontre cet obstacle en misant sur un type de textes particulier, les chartes. D’une part elles sont d’ordinaire datées : une vente de biens, une loi, un jugement etc. ont une date, importante pour les usagers d’alors. D’autre part leur localisation dans l’espace est souvent explicite dans le document (une vente a lieu à un endroit), et le scripteur est soumis à beaucoup moins de mobilité géographique que pour d’autres types de textes : les ecclésiastiques et auteurs littéraires voyageaient beaucoup et quand bien même un texte puisse être localisé dans l’espace (un monastère par exemple), on ne sait jamais quelle était l’origine géographique de celui qui l’a écrit. Dans le cas des chartes, le scripteur a davantage de chances d’être originaire de la zone géographique dans laquelle le document est localisé. Dees (1984 : 106-108) explique cette démarche et indique qu’en ce point il ne fait que suivre le pionnier de la dialectologie de l’afr., Gustave Fallot, qui en 1839 écrit :

« je ne me suis pas servi, pour la distinction des dialectes de la langue d’oïl, des textes d’ouvrages, parce que les lieux où les livres ont été composés sont presque toujours incertains et ne peuvent guère être déterminés qu’à l’aide de conjectures. Je me suis procuré […] un assez grand nombre de chartes en langage vulgaire du XIIIe siècle. […] Ce n’est qu’après un long usage de ces solides ressources que j’ai entrepris de classer les textes littéraires avec quelque assurance. » Fallot (1839 : 32 sq.)

Ainsi l’AD80 est basé sur 3.300 chartes comportant près d’un million de mots (Dees 1992 : 24, van Reenen & Schøsler 2000 : 38) et qui sont localisées dans 87 points géographiques (« points d’enquête », voir section 3.2).

 

1.3. Des chartes aux textes littéraires

Pour l’AD80, Dees a choisi 268 phénomènes (issus de quelques 300 initialement considérés, Dees 1984 : 110) qui lui paraissaient pertinents et informatifs pour son propos de caractériser la variation diatopique en fonction des 87 points « d’enquête » qui constituent le maillage géographique de l’AD80. Il a ensuite annoté chaque texte pour chacun de ces phénomènes : le pronom nous apparaît-il sous la forme nous ou nos (phénomène no 13) ? Le mot seigneur est-il écrit seigneur ou seignor (phénomène 187) ? Le participe passé de faire le rencontre-t-on sous la forme fait ou fet (phénomène 259) ? Et ainsi de suite. Cela a donné les 268 cartes lexicales publiées dans l’AD80 (cartes no 1 à 268).[1]

Ayant ainsi caractérisé les 87 points géographiques en fonction de leur affinité avec les 268 phénomènes choisis, Dees a annoté les textes littéraires qu’il s’agissait de localiser en fonction de ces 268 phénomènes. Il a ensuite calculé, pour chacun des 87 points géographiques, la distance entre leurs valeurs pour les 268 phénomènes et celles du texte littéraire à localiser.[2] En 1980 lorsque l’AD87 n’était encore qu’à l’état de projet, Dees montre le résultat de sa procédure de localisation : l’AD80 contient en appendice deux cartes qui localisent d’une part les chartes d’Arras selon cette méthode (sous (1)), d’autre part un texte littéraire (sous (2)).

(1) AD80 (p. 371) : test de localisation des chartes d’Arras par les 268 phénomènes

 

 

(2) AD80 (p. 370) : localisation d’un texte littéraire par les 268 phénomènes

Un nouveau texte à localiser possède ses valeurs pour les 268 phénomènes classificateurs (en pourcentage de leur survenance). L’alignement de celles-ci avec les valeurs d’une matrice faite de 87×268 points dans le but de calculer la distance avec chacun des 87 points géographiques n’est pas une mince affaire mathématiquement parlant. L’algorithme que Dees a utilisé pour faire ce calcul est aujourd’hui perdu : Hans Goebl a cherché à le reconstruire à partir de l’héritage papier de Dees (voir section 1.5) – sans succès (Goebl 2011 : 668f, Goebl & Smečka 2016, 2017). Mais nous disposons tout de même d’une description assez détaillée de cet algorithme, certes en prose et qui ne mentionne pas tous les détails, fournie par Dees & de Vries (1979) et Dees (1984 : 111-114).

En se basant sur un calcul au moyen de cet algorithme, Dees détermine, pour un texte candidat à la localisation, un indice de fiabilité pour chacun des 87 points géographiques. En 1980, celui-ci allait de -100 (basse fiabilité) à +100 (haute fiabilité) : pour une localité donnée, la probabilité que le texte à localiser y ait son origine est d’autant plus forte que l’indice se rapproche de 100, et d’autant plus faible qu’il s’approche de -100.

Pour le texte littéraire sous (2) par exemple, le score le plus élevé (94) identifie la Somme / Pas-de-Calais en tant qu’origine la plus probable. On voit également que cette probabilité décroît au fur et à mesure que l’on s’éloigne de cette région, pour atteindre sa valeur la plus négative (-28) à l’opposé de l’espace dialectal en Vendée.

Dees adjuge donc la localisation d’un texte candidat à l’endroit qui présente le plus fort indice de fiabilité : dans le cas du texte sous (2), l’origine retenue est donc la Somme / Pas-de-Calais, et il est accompagné de l’indice 94 indiquant la relative fiabilité de ce classement.

Cette méthode permet également de déterminer les origines géographiques multiples de textes dont la localisation est peu fiable. Ainsi Dees (1984 : 113 sq.) fait état de la version A de la Vie du pape Saint Grégoire qui par son indice le plus élevé se localise à La Rochelle en Charente Maritime. Mais cet indice, 62, est faible : il ne reflète que très imparfaitement les caractéristiques de La Rochelle définies par les chartes. Dees a alors isolé ceux des 268 critères qui présentent une forte dissemblance avec ce qui se pratique à La Rochelle, et a localisé ce sous-ensemble avec sa méthode. Le résultat identifie la Wallonie, à l’opposé du territoire, comme origine géographique. Ayant pu par ailleurs déterminer que la couche wallone du texte est la plus ancienne, Dees conclut que celui-ci provient de la Wallonie et a été transcrit et partiellement adapté au Sud-Ouest. Ainsi les indices faibles, en-dessous de 75 selon l’estimation de Dees (1986 : 512) (seuil in fine révisé à 70 pour l’AD87, voir section 1.4), identifient un texte en tant que mélange de plusieurs dialectes : écrit par exemple à un endroit, puis copié et adapté ailleurs, ou ayant eu plusieurs rédacteurs originaires de régions différentes.

Afin de tester la fiabilité de sa méthode de localisation, Dees y a soumis des centaines de chartes du 14e siècle dont l’origine géographique est connue, « et le résultat est presque invariablement très satisfaisant dans ce sens que l’ordinateur choisit exactement le point géographique donné » (Dees 1992 : 24).

Dans ce contexte, van Reenen & Schøsler (2000 : 27) font état du fait que certaines distributions géographiques établies par la méthode de localisation pour l’afr. subsistent jusqu’à nos jours dans les dialectes modernes.

Goebl (2011) et Goebl & Smečka (2016, 2017) ont pu refaire, par ordinateur, le calcul de localisation de 222 textes littéraires à partir des données fournies par les liasses papier de l’héritage Dees (voir section 1.5). Ils confirment le succès et la grande fiabilité des calculs et localisations qu’a opérés l’équipe Dees dans les années 80.

Fort de cet instrument qui permet la localisation des textes dans l’espace, Dees (1986 : 512 sq.) prend sa revanche sur Louis Remacle et son analyse de la charte liégeoise de 1236, ainsi que sur la notion de scripta enfantée par eux : sa méthode localise ladite charte précisément à Liège, avec un coefficient de 96.

« L’argumentation de Remacle, si ingénieusement malveillante et partiale à l’égard de la fameuse charte liégeoise de 1236, est un étonnant déraillement méthodologique, qui ne mérite pas d’être pris au sérieux. Faute de pouvoir développer ici les objections qu’il convient d’opposer à l’apriorisme anti-wallon de Remacle, je montrerai au moins les résultats de la localisation de la charte de 1235 [erreur : 1236], dont l’interprétation erronée l’a amené à propager cette notion si parfaitement inutile de scripte wallonne (voir carte no.4). Ces résultats prouvent à l’évidence, je crois, que ce vénérable document n’est pas moins authentiquement liégeois que le Médicinaire par exemple. Il convient donc de le restituer, sans la moindre réserve, au patrimoine wallon dont il a été abusivement séparé. » Dees (1986 : 513, soulignement dans l’original)

Et Dees de conclure :

« Pour toute la période antérieure à 1300 l’ancien français n’existe que sous la forme de ses variantes locales et l’hypothèse d’une langue écrite nationale qui chercherait à s’imposer est une supposition chimérique et dangereuse. » Dees (1986 : 513)

 

1.4. CorpusD : les 200 textes de l’AD87

Pour l’AD87, Dees a travaillé sur 235 textes littéraires, qu’il a numérisés, annotés en fonction des 268 phénomènes, et pour lesquels il a calculé l’indice de fiabilité. En 1987, celui-ci a été ramené à une valeur entre 0 et 100 (plutôt qu’entre -100 et +100), et on l’appelle désormais le coefficient Dees.

Dees a décidé de ne retenir pour l’AD87 que les textes ayant un coefficient de 70 ou davantage. Cela définit le corpusD utilisé pour l’AD87, réduit à 200 textes. Les 35 textes non retenus (dont la liste, absente dans l’AD87, est fournie par van Reenen & Schøsler 2000 : 40-43) présentent un coefficient que Dees n’a pas jugé suffisant pour une localisation quelque peu fiable.

Nous avons pour les besoins de l’ADE22 reconstitué, à partir des fichiers Dees d’origine, le corpus informatique des 200 textes qui fondent l’AD87 : la construction de ce corpusD est décrite en section 4.2, où la liste des 200 textes avec les détails pertinents (édition, localisation, coeff. D, nombre de mots, etc.) est également fournie. Les 200 textes totalisent 2.214.196 mots.

 

1.5. Postérité de l’œuvre deesienne

Anthonij Dees est décédé en 2001 (Schøsler 2002 fait le travail nécrologique). Son héritage (académique) ainsi que de celui de son équipe est résumé par van Reenen & Schøsler (2000) et a ensuite pris des chemins tortueux décrits par Kunstmann & Stein (2007 : 9), Goebl 2011 et Goebl & Smečka (2016, 2017). On avait trouvé dans les caves de l’Université Libre d’Amsterdam sept cartons contenant 222 liasses papier fortes de 152 pages chacune et datées de 1983, qui ont servi à calculer la localisation de 222 textes littéraires pour l’AD87. Goebl & Smečka (2016 : 322, 2017) rapportent que lors du colloque organisé par Pierre Kunstmann et Achim Stein à Lauterbad en Forêt Noire en 2006, Piet van Reenen en a montré des extraits, disant que l’Université Libre allait tout détruire à moins qu’une âme intéressée ne se trouve pour conserver et exploiter les listings. Hans Goebl a levé la main et les sept cartons sont ainsi arrivés chez lui à Salzbourg. Goebl (2011 : 667ff) et Goebl & Smečka (2016 : 322, 2017 : 17ff) expliquent le détail de leur contenu et de ce qu’ils en ont pu comprendre et retirer (voir section 1.3).  

S’agissant de l’héritage numérique de Dees et de son équipe, il nous est parvenu de manière incomplète seulement. Piet van Reenen nous a expliqué en 2017 que la totalité des fichiers originaux était entreposé sur les serveurs de l’Université Libre d’Amsterdam, et qu’il les y croyait en paix. Jusqu’au jour où il a appris qu’à la faveur d’un changement de système d’exploitation, l’Université a détruit des données, sans avertissement (Goebl 2011 : 667 rapporte que cet événement est antérieur à 1997). P. van Reenen a alors cherché à sauvegarder ce qu’il pouvait, mais des pans entiers du travail original ont été perdus. C’est notamment vrai pour les chartes, dont van Reenen & Schøsler (2000 : 26) rapportent que la base de données ayant servi pour l’AD80 avait été par la suite complétée et élargie (anglo-normand, XIVe siècle, ils fournissent la liste de ces chartes pp. 38 sq.), ce qui a porté son volume d’un peu moins d’un million de mots initialement à 3,25 millions de mots. La destruction des fichiers informatiques a également causé la perte de la lemmatisation en fonction des entrées du Tobler-Lommatzsch qui a existé pour les textes littéraires et gérait également la grande variation des graphies de l’afr. : Dees (1984 : 114 sq., 1987 : xviii) l’évoque, mais elle n’est plus (Morin 2007 : 32).

L’héritage numérique qui a pu être sauvé a fondé le Nouveau Corpus d’Amsterdam (NCA) construit par Achim Stein à Stuttgart à partir de 2006 suite au colloque en Forêt Noire mentionné (Kunstmann & Stein 2007). Piet van Reenen a remis les fichiers à l’équipe de Stein sur sept disquettes, complémentées plus tard par d’autres fichiers retrouvés sur des disquettes chez Hans Wesdorp, le gendre d’A. Dees.

Le NCA n’a retenu que les textes littéraires de cet héritage (il existe également des fichiers contenant des chartes), au nombre de 299 dans sa version initiale. Il contient donc les 200 textes qui fondent l’AD87, les 35 textes écartés par Dees ainsi que d’autres textes encore qui se trouvaient sur les disquettes. Le NCA a donné lieu à de nombreux travaux (voir les contributions dans Kunstmann & Stein 2007, Gleßgen & Vachon 2013 et d’autres) et a nourri le traitement informatique des données et notamment la lemmatisation des textes en afr. (Stein 2003, 2008, Gleßgen & Stein 2005, Kunstmann & Stein 2006).

L’ADE22 est basé sur les fichiers Dees d’origine : la reconstitution des 200 textes du corpusD qui alimente l’interface utilisateur et la cartographie est expliquée en détail en sections 4.1 et 4.2.


[1] L’AD80 contient encore quelques cartes supplémentaires (no 269-282), mais qui ne sont pas de nature lexicale : ainsi la carte no 269 renseigne sur la présence ou l’absence d’un sujet exprimé.

[2] Morin (2007 : 31) rapporte que seuls 261 phénomènes ont en définitive été utilisés pour la classification des textes littéraires.