{"id":90,"date":"2022-03-10T12:53:32","date_gmt":"2022-03-10T11:53:32","guid":{"rendered":"http:\/\/atlasdees.unice.fr\/wordpress\/?page_id=90"},"modified":"2022-09-23T22:26:10","modified_gmt":"2022-09-23T20:26:10","slug":"4-corpusd-genese-de-la-base-de-donnees","status":"publish","type":"page","link":"http:\/\/atlasdees.unice.fr\/wordpress\/?page_id=90","title":{"rendered":"4. CorpusD: gen\u00e8se de la base de donn\u00e9es"},"content":{"rendered":"<p><a href=\"http:\/\/atlasdees.unice.fr\/wordpress\/?page_id=90#T4.1\"><span style=\"font-size: 12pt;\">4.1. Fichiers d&rsquo;origine<\/span><\/a><\/p>\r\n<p><span style=\"font-size: 12pt;\"><a href=\"http:\/\/atlasdees.unice.fr\/wordpress\/?page_id=90#T4.2\">4.2. Les 200 textes du corpusD<\/a><\/span><\/p>\r\n<p><a href=\"http:\/\/atlasdees.unice.fr\/wordpress\/?page_id=90#T4.3\">4.3. CorpusD v1\u00a0: un mot par ligne<\/a><\/p>\r\n<p><a href=\"http:\/\/atlasdees.unice.fr\/wordpress\/?page_id=90#T4.4\">4.4. CorpusD v2\u00a0: lignes uniques avec 107 colonnes g\u00e9ographiques<\/a><\/p>\r\n<p><a href=\"http:\/\/atlasdees.unice.fr\/wordpress\/?page_id=90#T4.5\"><span style=\"font-size: 12pt;\">4.5. CorpusD v3\u00a0: introduction de la colonne lemme<\/span><\/a><\/p>\r\n<p><!-- \/wp:post-content -->\r\n\r\n<!-- wp:paragraph --><\/p>\r\n<p><a href=\"http:\/\/atlasdees.unice.fr\/wordpress\/?page_id=90#T4.6\">4.6. Propri\u00e9t\u00e9s du corpusD v3<\/a><\/p>\r\n<p><!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph --><\/p>\r\n<p><a href=\"http:\/\/atlasdees.unice.fr\/wordpress\/?page_id=90#T4.7\">4.7. CorpusD v4\u00a0: introduction d&rsquo;une colonne \u00ab\u00a0\u00e9tymon\u00a0\u00bb (FEW)<\/a><\/p>\r\n<p><!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph --><\/p>\r\n<p><a href=\"http:\/\/atlasdees.unice.fr\/wordpress\/?page_id=90#T4.8\">4.8. CorpusD v5 (d\u00e9finitive) : introduction de la quantit\u00e9 vocalique<\/a><\/p>\r\n<p style=\"padding-left: 40px;\"><a href=\"http:\/\/atlasdees.unice.fr\/wordpress\/?page_id=90#T4.8.1\">4.8.1. Dictionnaires fournissant la quantit\u00e9 : Gaffiot, GGHF, K\u00f6bler<\/a><\/p>\r\n<p style=\"padding-left: 40px;\"><a href=\"http:\/\/atlasdees.unice.fr\/wordpress\/?page_id=90#T4.8.2\">4.8.2. Pr\u00e9paration du Gaffiot pour l&rsquo;alignement avec le FEW (infinitifs)<\/a><\/p>\r\n<p style=\"padding-left: 40px;\"><a href=\"http:\/\/atlasdees.unice.fr\/wordpress\/?page_id=90#T4.8.3\">4.8.3. Quantit\u00e9 dans le Gaffiot (1934) (papier) et le Gaffiot (2016) (\u00e9lectronique)<\/a><\/p>\r\n<p style=\"padding-left: 40px;\"><a href=\"http:\/\/atlasdees.unice.fr\/wordpress\/?page_id=90#T4.8.4\">4.8.4. Conventions graphiques adopt\u00e9es<\/a><\/p>\r\n<p style=\"padding-left: 40px;\"><a href=\"http:\/\/atlasdees.unice.fr\/wordpress\/?page_id=90#T4.8.5\">4.8.5. R\u00e9sultat num\u00e9rique de l&rsquo;alignement<\/a><\/p>\r\n<p><a href=\"http:\/\/atlasdees.unice.fr\/wordpress\/?page_id=90#T4.9\">4.9. CorpusD: r\u00e9capitulatif des propri\u00e9t\u00e9s<\/a><\/p>\r\n<p><!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph --><\/p>\r\n<hr \/>\r\n<p style=\"font-size: 17px;\"><span style=\"font-size: 14pt;\">4.1. Fichiers d&rsquo;origine<\/span><\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>Nous avons choisi de partir sur les fichiers Dees d&rsquo;origine qui sont parvenus \u00e0 la post\u00e9rit\u00e9 sur des disquettes (voir section 1.5) et que Piet van Reenen nous a fournis en 2017-18. Il a pris go\u00fbt \u00e0 l&rsquo;id\u00e9e de raviver l&rsquo;AD87 et nous a accompagn\u00e9s avec beaucoup d&rsquo;entrain et de bienveillance autant qu&rsquo;il pouvait. Il nous a \u00e9galement transmis des documents dactylographi\u00e9s des ann\u00e9es 80 dont notamment la nomenclature g\u00e9ographique de Dees (voir section 3.1) et la clef du code Dees (voir section 4.5). Compos\u00e9 de trois chiffres, celui-ci est appos\u00e9 \u00e0 chaque mot des textes num\u00e9ris\u00e9s par Dees et note les informations grammaticales (nom, verbe, etc.).<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>Le format des fichiers informatiques contenus sur ces disquettes est montr\u00e9 sous (13) (l&rsquo;exemple est pris sur le texte sully2). Il est \u00e0 noter que Dees avait d\u00e9j\u00e0 supprim\u00e9 toute ponctuation.<\/p>\r\n<p>(13) format des fichiers Dees sur disquette\u00a0: d\u00e9but du texte sully2<\/p>\r\n<table style=\"width: 98.0854%;\" width=\"160\">\r\n<tbody>\r\n<tr>\r\n<td style=\"width: 8.50552%;\" width=\"80\">sully2<\/td>\r\n<td style=\"width: 415.718%;\" width=\"80\">\u00a0seignors_003 preveire_003 ceste_155 parole_005 ne_319<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 8.50552%;\">sully2<\/td>\r\n<td style=\"width: 415.718%;\">\u00a0*fut_553 pas_004 dite_582 solement_311 a_301 mon_162<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 8.50552%;\">sully2<\/td>\r\n<td style=\"width: 415.718%;\">\u00a0seignor_002 saint_022 3pere_012 quar_331 a_301 nos_441 ce_341<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 8.50552%;\">sully2<\/td>\r\n<td style=\"width: 415.718%;\">\u00a0*devom_514 nos_441 entendre_592 *fut_553 ele_471<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 8.50552%;\">sully2<\/td>\r\n<td style=\"width: 415.718%;\">\u00a0autresi_311 dite_582 qui_600 *somes_514 en_319 luc_002 de_301 lui_434<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 8.50552%;\">sully2<\/td>\r\n<td style=\"width: 415.718%;\">\u00a0en_301 terre_006 e_331 qui_600 *avom_514<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 8.50552%;\">sully2<\/td>\r\n<td style=\"width: 415.718%;\">\u00a0les_108 oailles_008 damerede_002 a_301 pestre_592 ceu_341<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 8.50552%;\">sully2<\/td>\r\n<td style=\"width: 415.718%;\">\u00a0*est_513 son_162 pople_002 a_301 governer_592 e_331 a_301<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 8.50552%;\">sully2<\/td>\r\n<td style=\"width: 415.718%;\">\u00a0conseiller_592 en_301 cest_152 secle_002 e_331 qui_600 *avom_514<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 8.50552%;\">sully2<\/td>\r\n<td style=\"width: 415.718%;\">\u00a0a_301 faire_592 le_102 son_172 mester_002 de_301<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 8.50552%;\">sully2<\/td>\r\n<td style=\"width: 415.718%;\">\u00a0lier_592 les_108 2armes_008 e_331 d_301 assoudre_592 e_331 de_301<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 8.50552%;\">sully2<\/td>\r\n<td style=\"width: 415.718%;\">\u00a0conduire_592 en_301 la_106 gloire_006 durable_026<\/td>\r\n<\/tr>\r\n<\/tbody>\r\n<\/table>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:shortcode \/-->\r\n\r\n<!-- wp:paragraph -->\r\n<p>&nbsp;<\/p>\r\n<p>Chaque ligne correspond \u00e0 une ligne dans l&rsquo;original et d\u00e9bute avec l&rsquo;identifiant que Dees a attribu\u00e9 aux 200 textes (ici sully2). Les mots sont suivis du codeD et le cas \u00e9ch\u00e9ant annot\u00e9s de *, qui indique qu&rsquo;il s&rsquo;agit d&rsquo;un verbe conjugu\u00e9 (ce qui est redondant avec le codeD).<\/p>\r\n<p>&nbsp;<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:heading -->\r\n<p><span style=\"font-size: 14pt; color: #000000;\"><a id=\"T4.2\"><\/a><a style=\"color: #000000;\">4.2. Les 200 textes du corpusD<\/a><\/span><\/p>\r\n<!-- \/wp:heading -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>Sur les 200 textes s\u00e9lectionn\u00e9s par Dees pour l&rsquo;AD87 (voir section 1.4), nous avons pu disposer de 199 sous format num\u00e9rique Dees en provenance des disquettes. Un seul texte, ren1 dans l&rsquo;appellation Dees, \u00e9tait absent des disquettes tout autant que du NCA. Ce texte a \u00e9t\u00e9 num\u00e9ris\u00e9 par OCR et v\u00e9rifi\u00e9 par T. Scheer en juillet 2021 \u00e0 partir de l&rsquo;\u00e9dition indiqu\u00e9e dans l&rsquo;AD87. Il a ensuite \u00e9t\u00e9 lemmatis\u00e9 par T. Pr\u00e9mat en d\u00e9cembre 2021 (proc\u00e9dure TXM, Lavrentiev et al. 2017), et le codeD des mots a \u00e9t\u00e9 reconstruit \u00e0 partir des cat\u00e9gories grammaticales (POS) produites par la lemmatisation.<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>La <a href=\"http:\/\/atlasdees.unice.fr\/wordpress\/wp-content\/uploads\/2022\/03\/liste-200-textes-AD87.xlsx\">liste des 200 textes<\/a> comporte deux onglets : le premier fournit, pour chaque texte, l&rsquo;id corpusD (nom donn\u00e9 par Dees), la localisation g\u00e9ographique (R, sR, ssR), le nombre de mots, la correspondance NCA, l&rsquo;\u00e9dition et la datation AD87. Le second pr\u00e9sente les textes par R, sR, ssR : quels textes comportant combien de mots repr\u00e9sentent chacune des R, sR et ssR ?<\/p>\r\n<p>&nbsp;<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:heading -->\r\n<p><span style=\"font-size: 14pt;\"><a id=\"T4.3\"><\/a>4.3. CorpusD v1\u00a0: un mot par ligne<\/span><\/p>\r\n<!-- \/wp:heading -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>Le premier fichier a \u00e9t\u00e9 construit en mettant les mots individuels avec leur codeD (i.e. toutes les instances de X_abc) et le texte d&rsquo;appartenance sur une ligne individuelle. Divers nettoyages ont \u00e9galement \u00e9t\u00e9 op\u00e9r\u00e9s \u00e0 cette \u00e9tape\u00a0: des lignes ne contenant que des caract\u00e8re num\u00e9riques (1., 2., etc.) ou des chiffres romains (III, XX, XL, C, etc.) ont \u00e9t\u00e9 \u00e9limin\u00e9es. Le r\u00e9sultat est la premi\u00e8re version du corpusD, contenant 2.214.196 mots sur autant de lignes. Il est \u00e0 noter que l&rsquo;information concernant les retours de chariot est perdue suite \u00e0 cette op\u00e9ration.<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph {\"style\":{\"typography\":{\"fontSize\":\"15px\"}}} -->\r\n<p style=\"font-size: 15px;\">Un extrait du texte sully2 montr\u00e9 supra appara\u00eet sous (14). Chaque mot \u2013 que dor\u00e9navant on appellera forme \u2013 est compl\u00e9ment\u00e9 par les codes qui identifient la localisation g\u00e9ographique du texte auquel il appartient\u00a0: r\u00e9gion (R), sous-r\u00e9gion (sR) et sous-sous-r\u00e9gion (ssR). Ces codes sont ceux utilis\u00e9s par Dees pour l&rsquo;AD80 et l&rsquo;AD87 (voir section 3.1).<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>(14) corpusD v1 : 2.214.196 mots, autant de lignes<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:table {\"style\":{\"typography\":{\"fontSize\":\"15px\"}}} -->\r\n<figure class=\"wp-block-table\" style=\"font-size: 15px;\">\r\n<table style=\"width: 73.9218%;\">\r\n<tbody>\r\n<tr>\r\n<td style=\"width: 5.35714%;\"><strong>ID<\/strong><\/td>\r\n<td style=\"width: 18.1548%;\"><strong>forme<\/strong><\/td>\r\n<td style=\"width: 20.5357%;\"><strong>code_dees<\/strong><\/td>\r\n<td style=\"width: 11.9048%;\"><strong>text<\/strong><\/td>\r\n<td style=\"width: 12.7976%;\"><strong>r\u00e9gion<\/strong><\/td>\r\n<td style=\"width: 14.5833%;\"><strong>sr\u00e9gion<\/strong><\/td>\r\n<td style=\"width: 63.3891%;\"><strong>ssr\u00e9gion<\/strong><\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 5.35714%;\">1<\/td>\r\n<td style=\"width: 18.1548%;\">seignors<\/td>\r\n<td style=\"width: 20.5357%;\">003<\/td>\r\n<td style=\"width: 11.9048%;\">sully2<\/td>\r\n<td style=\"width: 12.7976%;\">r1<\/td>\r\n<td style=\"width: 14.5833%;\">sr2<\/td>\r\n<td style=\"width: 63.3891%;\">ssr13<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 5.35714%;\">2<\/td>\r\n<td style=\"width: 18.1548%;\">preveire<\/td>\r\n<td style=\"width: 20.5357%;\">003<\/td>\r\n<td style=\"width: 11.9048%;\">sully2<\/td>\r\n<td style=\"width: 12.7976%;\">r1<\/td>\r\n<td style=\"width: 14.5833%;\">sr2<\/td>\r\n<td style=\"width: 63.3891%;\">ssr13<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 5.35714%;\">3<\/td>\r\n<td style=\"width: 18.1548%;\">ceste<\/td>\r\n<td style=\"width: 20.5357%;\">155<\/td>\r\n<td style=\"width: 11.9048%;\">sully2<\/td>\r\n<td style=\"width: 12.7976%;\">r1<\/td>\r\n<td style=\"width: 14.5833%;\">sr2<\/td>\r\n<td style=\"width: 63.3891%;\">ssr13<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 5.35714%;\">4<\/td>\r\n<td style=\"width: 18.1548%;\">parole<\/td>\r\n<td style=\"width: 20.5357%;\">005<\/td>\r\n<td style=\"width: 11.9048%;\">sully2<\/td>\r\n<td style=\"width: 12.7976%;\">r1<\/td>\r\n<td style=\"width: 14.5833%;\">sr2<\/td>\r\n<td style=\"width: 63.3891%;\">ssr13<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 5.35714%;\">5<\/td>\r\n<td style=\"width: 18.1548%;\">ne<\/td>\r\n<td style=\"width: 20.5357%;\">319<\/td>\r\n<td style=\"width: 11.9048%;\">sully2<\/td>\r\n<td style=\"width: 12.7976%;\">r1<\/td>\r\n<td style=\"width: 14.5833%;\">sr2<\/td>\r\n<td style=\"width: 63.3891%;\">ssr13<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 5.35714%;\">6<\/td>\r\n<td style=\"width: 18.1548%;\">fut<\/td>\r\n<td style=\"width: 20.5357%;\">553<\/td>\r\n<td style=\"width: 11.9048%;\">sully2<\/td>\r\n<td style=\"width: 12.7976%;\">r1<\/td>\r\n<td style=\"width: 14.5833%;\">sr2<\/td>\r\n<td style=\"width: 63.3891%;\">ssr13<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 5.35714%;\">7<\/td>\r\n<td style=\"width: 18.1548%;\">pas<\/td>\r\n<td style=\"width: 20.5357%;\">004<\/td>\r\n<td style=\"width: 11.9048%;\">sully2<\/td>\r\n<td style=\"width: 12.7976%;\">r1<\/td>\r\n<td style=\"width: 14.5833%;\">sr2<\/td>\r\n<td style=\"width: 63.3891%;\">ssr13<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 5.35714%;\">8<\/td>\r\n<td style=\"width: 18.1548%;\">dite<\/td>\r\n<td style=\"width: 20.5357%;\">582<\/td>\r\n<td style=\"width: 11.9048%;\">sully2<\/td>\r\n<td style=\"width: 12.7976%;\">r1<\/td>\r\n<td style=\"width: 14.5833%;\">sr2<\/td>\r\n<td style=\"width: 63.3891%;\">ssr13<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 5.35714%;\">9<\/td>\r\n<td style=\"width: 18.1548%;\">solement<\/td>\r\n<td style=\"width: 20.5357%;\">311<\/td>\r\n<td style=\"width: 11.9048%;\">sully2<\/td>\r\n<td style=\"width: 12.7976%;\">r1<\/td>\r\n<td style=\"width: 14.5833%;\">sr2<\/td>\r\n<td style=\"width: 63.3891%;\">ssr13<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 5.35714%;\">10<\/td>\r\n<td style=\"width: 18.1548%;\">a<\/td>\r\n<td style=\"width: 20.5357%;\">301<\/td>\r\n<td style=\"width: 11.9048%;\">sully2<\/td>\r\n<td style=\"width: 12.7976%;\">r1<\/td>\r\n<td style=\"width: 14.5833%;\">sr2<\/td>\r\n<td style=\"width: 63.3891%;\">ssr13<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 5.35714%;\">11<\/td>\r\n<td style=\"width: 18.1548%;\">mon<\/td>\r\n<td style=\"width: 20.5357%;\">162<\/td>\r\n<td style=\"width: 11.9048%;\">sully2<\/td>\r\n<td style=\"width: 12.7976%;\">r1<\/td>\r\n<td style=\"width: 14.5833%;\">sr2<\/td>\r\n<td style=\"width: 63.3891%;\">ssr13<\/td>\r\n<\/tr>\r\n<\/tbody>\r\n<\/table>\r\n<\/figure>\r\n<!-- \/wp:table -->\r\n\r\n<!-- wp:heading -->\r\n<p><span style=\"font-size: 14pt;\"><a id=\"T4.4\"><\/a>4.4. CorpusD v2\u00a0: lignes uniques avec 107 colonnes g\u00e9ographiques<\/span><\/p>\r\n<!-- \/wp:heading -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>La v1 du corpusD a ensuite \u00e9t\u00e9 r\u00e9duite \u00e0 ses lignes uniques. Cela confond en une seule ligne les diff\u00e9rentes occurrences d&rsquo;une forme qui ont le m\u00eame code D et surviennent dans un texte donn\u00e9 ou dans des textes diff\u00e9rents. Sont ainsi r\u00e9unies en une seule ligne les 16 occurrences de la forme <em>abaie<\/em> \u00ab\u00a0abbaye\u00a0\u00bb portant le codeD 006 qui existent dans le texte poit, les trois occurrences de cette paire forme \/ codeD qui existent dans le texte martin3, les deux occurrences du texte martin 2, les cinq occurrences du texte lac et ainsi de suite.<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>La m\u00e9moire du nombre d&rsquo;occurrences que repr\u00e9sente une ligne unique est inscrite dans des nouvelles colonnes qui notent les divisions g\u00e9ographiques repr\u00e9sent\u00e9es par des textes\u00a0: 25 r\u00e9gions, 41 sous-r\u00e9gions et 41 sous-sous-r\u00e9gions (voir section 3.2). Un total de 107 colonnes est donc ajout\u00e9 au corpusD. La forme <em>abaie<\/em> \/ codeD = 006 ainsi porte, sur sa ligne, une inscription de 18 occurrences en R2, cinq en R13, deux en R19, dix-sept en sR4, trois en sR 10, cinq en ssR 130, une en ssR195 et ainsi de suite, pour un total de 61 occurrences dans le corpusD. La ligne <em>abaie<\/em> \/ codeD = 006 est montr\u00e9e sous (15).<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>(15) corpusD v2: lignes uniques avec 107 colonnes g\u00e9ographiques<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:table {\"fontSize\":\"small\"} -->\r\n<figure class=\"wp-block-table has-small-font-size\">\r\n<table style=\"width: 101.477%;\">\r\n<tbody>\r\n<tr>\r\n<td style=\"width: 7.88991%;\"><strong>forme<\/strong><\/td>\r\n<td style=\"width: 8.44037%;\"><strong>codeD<\/strong><\/td>\r\n<td style=\"width: 6.23853%;\"><strong>total<\/strong><\/td>\r\n<td style=\"width: 2.93578%;\"><strong>r1<\/strong><\/td>\r\n<td style=\"width: 3.48624%;\"><strong>r2<\/strong><\/td>\r\n<td style=\"width: 2.20184%;\"><strong>\u2026<\/strong><\/td>\r\n<td style=\"width: 4.77064%;\"><strong>r13<\/strong><\/td>\r\n<td style=\"width: 2.20184%;\"><strong>\u2026<\/strong><\/td>\r\n<td style=\"width: 4.77064%;\"><strong>r19<\/strong><\/td>\r\n<td style=\"width: 4.77064%;\"><strong>r21<\/strong><\/td>\r\n<td style=\"width: 4.22018%;\"><strong>sr4<\/strong><\/td>\r\n<td style=\"width: 2.20184%;\"><strong>\u2026<\/strong><\/td>\r\n<td style=\"width: 6.05505%;\"><strong>sr10<\/strong><\/td>\r\n<td style=\"width: 2.20184%;\"><strong>\u2026<\/strong><\/td>\r\n<td style=\"width: 6.05505%;\"><strong>sr59<\/strong><\/td>\r\n<td style=\"width: 8.99083%;\"><strong>ssr130<\/strong><\/td>\r\n<td style=\"width: 2.20184%;\"><strong>\u2026<\/strong><\/td>\r\n<td style=\"width: 8.99083%;\"><strong>ssr195<\/strong><\/td>\r\n<td style=\"width: 2.20184%;\"><strong>\u2026<\/strong><\/td>\r\n<td style=\"width: 38.4523%;\"><strong>ssr210<\/strong><\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 7.88991%;\">abaie<\/td>\r\n<td style=\"width: 8.44037%;\">006<\/td>\r\n<td style=\"width: 6.23853%;\">61<\/td>\r\n<td style=\"width: 2.93578%;\">0<\/td>\r\n<td style=\"width: 3.48624%;\">18<\/td>\r\n<td style=\"width: 2.20184%;\">\u00a0<\/td>\r\n<td style=\"width: 4.77064%;\">5<\/td>\r\n<td style=\"width: 2.20184%;\">\u00a0<\/td>\r\n<td style=\"width: 4.77064%;\">2<\/td>\r\n<td style=\"width: 4.77064%;\">3<\/td>\r\n<td style=\"width: 4.22018%;\">17<\/td>\r\n<td style=\"width: 2.20184%;\">\u00a0<\/td>\r\n<td style=\"width: 6.05505%;\">3<\/td>\r\n<td style=\"width: 2.20184%;\">\u00a0<\/td>\r\n<td style=\"width: 6.05505%;\">3<\/td>\r\n<td style=\"width: 8.99083%;\">5<\/td>\r\n<td style=\"width: 2.20184%;\">\u00a0<\/td>\r\n<td style=\"width: 8.99083%;\">1<\/td>\r\n<td style=\"width: 2.20184%;\">\u00a0<\/td>\r\n<td style=\"width: 38.4523%;\">3<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 7.88991%;\">abaie<\/td>\r\n<td style=\"width: 8.44037%;\">513<\/td>\r\n<td style=\"width: 6.23853%;\">2<\/td>\r\n<td style=\"width: 2.93578%;\">0<\/td>\r\n<td style=\"width: 3.48624%;\">0<\/td>\r\n<td style=\"width: 2.20184%;\">\u00a0<\/td>\r\n<td style=\"width: 4.77064%;\">0<\/td>\r\n<td style=\"width: 2.20184%;\">\u00a0<\/td>\r\n<td style=\"width: 4.77064%;\">0<\/td>\r\n<td style=\"width: 4.77064%;\">2<\/td>\r\n<td style=\"width: 4.22018%;\">0<\/td>\r\n<td style=\"width: 2.20184%;\">\u00a0<\/td>\r\n<td style=\"width: 6.05505%;\">0<\/td>\r\n<td style=\"width: 2.20184%;\">\u00a0<\/td>\r\n<td style=\"width: 6.05505%;\">2<\/td>\r\n<td style=\"width: 8.99083%;\">0<\/td>\r\n<td style=\"width: 2.20184%;\">\u00a0<\/td>\r\n<td style=\"width: 8.99083%;\">0<\/td>\r\n<td style=\"width: 2.20184%;\">\u00a0<\/td>\r\n<td style=\"width: 38.4523%;\">2<\/td>\r\n<\/tr>\r\n<\/tbody>\r\n<\/table>\r\n<\/figure>\r\n<!-- \/wp:table -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>L&rsquo;homonyme <em>abaie<\/em> qui est la 3sg ind. pr\u00e9sent du verbe <em>aboyer<\/em> \u00ab\u00a0aboyer\u00a0\u00bb (ou du verbe <em>ab\u00e9er<\/em> \u00ab\u00a0rester bouche b\u00e9e, d\u00e9sirer\u00a0\u00bb, voir infra) demeure sur une ligne distincte comme montr\u00e9 sous (15), puisqu&rsquo;il a un codeD diff\u00e9rent, 513 (renvoyant \u00e0 \u00ab\u00a0verbe pr\u00e9sent indicatif 3e\u00a0\u00bb).<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>La r\u00e9duction du corpusD aux lignes uniques \u00e9limine donc l&rsquo;information sur les textes\u00a0: il n&rsquo;est d\u00e9sormais plus possible de savoir de quel texte proviennent les occurrences d&rsquo;une forme.<\/p>\r\n<p>&nbsp;<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:heading -->\r\n<p><span style=\"font-size: 14pt;\"><a id=\"T4.5\"><\/a>4.5. CorpusD v3\u00a0: introduction de la colonne lemme<\/span><\/p>\r\n<!-- \/wp:heading -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>La lemmatisation sert \u00e0 relier les variantes d&rsquo;un m\u00eame objet sous une appellation unique. Par exemple, les diff\u00e9rentes formes d&rsquo;un verbe (\u00ab\u00a0je pars, tu pars, il part, nous partons, vous partez, ils partent, parti, partir, partant, je partais, il partirait\u00a0\u00bb etc.) seront r\u00e9unies sous un seul lemme, qui sera appel\u00e9 \u00ab\u00a0partir\u00a0\u00bb. Ainsi lors d&rsquo;une recherche automatique, il suffira de rechercher le lemme \u00ab\u00a0partir\u00a0\u00bb et la machine fournira toutes les formes qui lui sont associ\u00e9es. Il en va de m\u00eame pour les formes sg-pl des noms et d&rsquo;autres regroupements encore.<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>Cette fonction de la lemmatisation est bien s\u00fbr utile pour le corpusD, o\u00f9 le verbe \u00ab\u00a0aboyer\u00a0\u00bb par exemple survient en tant que <em>abaisse<\/em> (imp\u00e9ratif sg), <em>abaisse<\/em> (3sg ind. pr\u00e9s.), <em>abaissent<\/em> (3pl ind. pr\u00e9s.), <em>abaissoit<\/em> (3sg imparfait), <em>abaissat<\/em> (3sg imparfait subjonctif), <em>abaissa<\/em> (3e pass\u00e9 simple), <em>abaissi\u00e9<\/em> (part. pass\u00e9. masc. sg), <em>abaissiez<\/em> (part. pass\u00e9. masc. pl), <em>abaissier<\/em> (infinitif) etc.<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>Mais dans le cas des textes afr., la lemmatisation est encore utile pour une autre raison\u00a0: les graphies d&rsquo;une m\u00eame forme grammaticale montrent une grande variation. Pour en donner une id\u00e9e\u00a0: Dees (1980\u00a0: x) rapporte que pour les chartes du 13<sup>e<\/sup> si\u00e8cle, \u00ab\u00a0de trente jusqu&rsquo;\u00e0 soixante graphies diff\u00e9rentes pour un seul et m\u00eame mot est chose courante\u00a0\u00bb, et ailleurs fait \u00e9tat de 115 graphies diff\u00e9rentes pour \u00ab\u00a0(je) veux\u00a0\u00bb (Dees 1988\u00a0: 142). Cette variation est impr\u00e9dictible et rend les recherches impossibles. Ainsi le succ\u00e8s d&rsquo;une requ\u00eate telle que \u00ab\u00a0donne-moi toutes les formes du verbe <em>aboyer<\/em>\u00a0\u00bb suppose-t-elle que tous les variants graphiques de toutes les formes grammaticales soient reli\u00e9s au lemme <em>aboyer<\/em>.<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>Le tableau sous (16) donne une id\u00e9e de la variation graphique importante qui est pr\u00e9sente dans les textes du corpusD, au sujet du verbe <em>entrer<\/em>.<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>(16) variation graphique d&rsquo;une m\u00eame forme grammaticale (verbe <em>entrer<\/em>)<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:table -->\r\n<figure class=\"wp-block-table\">\r\n<table style=\"width: 81.0297%;\">\r\n<tbody>\r\n<tr>\r\n<td style=\"width: 38.8781%;\">\u00a0<\/td>\r\n<td style=\"width: 15.9216%;\"><strong>variant 1<\/strong><\/td>\r\n<td style=\"width: 16.4021%;\"><strong>variant 2<\/strong><\/td>\r\n<td style=\"width: 14.2857%;\"><strong>variant 3<\/strong><\/td>\r\n<td style=\"width: 41.5264%;\"><strong>variant 4<\/strong><\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 38.8781%;\">imp\u00e9ratif pluriel \u00ab\u00a0vous\u00a0\u00bb<\/td>\r\n<td style=\"width: 15.9216%;\">entreis<\/td>\r\n<td style=\"width: 16.4021%;\">entreiz<\/td>\r\n<td style=\"width: 14.2857%;\">entr\u00e9s<\/td>\r\n<td style=\"width: 41.5264%;\">entrez<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 38.8781%;\">imparfait 3sg<\/td>\r\n<td style=\"width: 15.9216%;\">entroit<\/td>\r\n<td style=\"width: 16.4021%;\">entrot<\/td>\r\n<td style=\"width: 14.2857%;\">entrout<\/td>\r\n<td style=\"width: 41.5264%;\">\u00a0<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 38.8781%;\">imparfait subj. 3sg<\/td>\r\n<td style=\"width: 15.9216%;\">entraist<\/td>\r\n<td style=\"width: 16.4021%;\">entrasse<\/td>\r\n<td style=\"width: 14.2857%;\">entrast<\/td>\r\n<td style=\"width: 41.5264%;\">\u00a0<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 38.8781%;\">participe passe masculin sg<\/td>\r\n<td style=\"width: 15.9216%;\">entr\u00e9<\/td>\r\n<td style=\"width: 16.4021%;\">entreit<\/td>\r\n<td style=\"width: 14.2857%;\">entret<\/td>\r\n<td style=\"width: 41.5264%;\">\u00a0<\/td>\r\n<\/tr>\r\n<\/tbody>\r\n<\/table>\r\n<\/figure>\r\n<!-- \/wp:table -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>Deux \u00e9quipes ont travaill\u00e9 sur la lemmatisation de l&rsquo;afr.\u00a0: Achim Stein \u00e0 Stuttgart a entra\u00een\u00e9 le logiciel de lemmatisation TreeTagger sur le corpus d&rsquo;afr. NCA (Stein 2003, 2008), et \u00e0 l&rsquo;ENS Lyon Alexei Lavrentiev a impl\u00e9ment\u00e9 dans la plateforme TXM un lemmatiseur bas\u00e9 sur le lexique FROLEX (Lavrentiev<em> et al.<\/em> 2017). Au lieu de faire lemmatiser le corpusD par l&rsquo;une ou l&rsquo;autre de ces deux ces m\u00e9thodes, nous avons d\u00e9cid\u00e9 de le lemmatiser sur la base du lexique FROLEX et du codeD seuls. Nous ne sommes pas s\u00fbrs que cela f\u00fbt le meilleur choix\u00a0: nous l&rsquo;\u00e9valuerons en fin de section.<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>Le fichier frolex-3.0 contient une colonne avec 1,06 millions de formes lemmatis\u00e9es, align\u00e9e avec une colonne donnant le lemme et une autre fournissant la cat\u00e9gorie grammaticale (msd_cattex_conv2). Nous avons compar\u00e9 les formes du corpusD avec les formes du lexique frolex-3.0 et en cas de co\u00efncidence inscrit le lemme frolex dans la nouvelle colonne \u00ab\u00a0lemme\u00a0\u00bb du corpusD. Cela produit une bonne quantit\u00e9 d&rsquo;alignements ambigus\u00a0: une forme peut repr\u00e9senter plusieurs lemmes, comme par exemple <em>abaie<\/em>, align\u00e9e dans frolex avec les lemmes <em>abbaye<\/em> (NOMcom), <em>aboyer<\/em> (VER) et <em>ab\u00e9er<\/em> \u00ab\u00a0rester bouche b\u00e9e, d\u00e9sirer\u00a0\u00bb (VER). Le codeD permet de d\u00e9sambigu\u00efser certains alignements multiples, alors que d&rsquo;autres demeurent ambigus. Ainsi il existe dans le corpusD deux <em>abaie<\/em>\u00a0: l&rsquo;un porte le codeD 006 (nom commun), l&rsquo;autre le codeD 513 (verbe). Mais le codeD n&rsquo;est pas en mesure de d\u00e9sambigu\u00efser au sein des verbes\u00a0: <em>abaie<\/em> \u00ab\u00a0aboyer\u00a0\u00bb porte le codeD 513 autant que <em>abaie<\/em> \u00ab\u00a0ab\u00e9er\u00a0\u00bb.<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>Piet van Reenen nous avait envoy\u00e9 la clef du codeD (dont une version est \u00e9galement publi\u00e9e dans van Reenen &amp; Sch\u00f8sler 2000 : 35-37) que nous avons pu aligner avec les cat\u00e9gories grammaticales frolex. Une version tr\u00e8s grossi\u00e8re de la table de correspondance que nous en avons tir\u00e9e appara\u00eet sous (17) (la version compl\u00e8te est <a href=\"http:\/\/atlasdees.unice.fr\/wordpress\/wp-content\/uploads\/2022\/03\/codeD-correspondance-Frolex.xlsx\">ici<\/a>). On y voit que la nomenclature Dees a une granularit\u00e9 beaucoup plus fine que les cat\u00e9gories grammaticales frolex. Ceci encore sans compter que la clef du codeD dont nous disposons est incompl\u00e8te : nous ne savons pas \u00e0 quoi renvoient les codesD absents dans la clef, ni ce que repr\u00e9sentent les distinctions fines repr\u00e9sent\u00e9es par les \u00ab\u00a0x\u00a0\u00bb : 02x renvoie \u00e0 020, 021, 022, \u2026, 029, etc.<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>(17) table de correspondance codeD &#8211; cat. gramm. Frolex (abr\u00e9g\u00e9e) (\u00ab\u00a0x\u00a0\u00bb renvoie \u00e0 n&rsquo;importe quel chiffre entre 0 et 9 : 02x = 020, 021, 022, \u2026, 029)<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:table -->\r\n<figure class=\"wp-block-table\">\r\n<table style=\"width: 100%;\">\r\n<tbody>\r\n<tr>\r\n<td style=\"width: 83.1187%;\"><strong>codeD<\/strong><\/td>\r\n<td style=\"width: 16.8813%;\"><strong>conv2 (Frolex)<\/strong><\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 83.1187%;\">00x- nom commun<\/td>\r\n<td style=\"width: 16.8813%;\">nomcom<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 83.1187%;\">01x- nom propre<\/td>\r\n<td style=\"width: 16.8813%;\">nompro<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 83.1187%;\">02x- adjectif, 03x- nombre cardinal, 04x- nombre ordinal<\/td>\r\n<td style=\"width: 16.8813%;\">apd<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 83.1187%;\">15x adjectif d\u00e9monstratif, 16x adjectif possessif, 18x adjectif ind\u00e9fini<\/td>\r\n<td style=\"width: 16.8813%;\">apd<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 83.1187%;\">10x article d\u00e9fini, 14x article ind\u00e9fini, 20x article d\u00e9fini non suivi de nom<\/td>\r\n<td style=\"width: 16.8813%;\">det<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 83.1187%;\">301 pr\u00e9position<\/td>\r\n<td style=\"width: 16.8813%;\">pre<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 83.1187%;\">112 de+le, 114 de+la, 118 de+les, 122 a+le, 124 a+la, 128 a+les, 132 en+le, 134 en+la, 138 en+les<\/td>\r\n<td style=\"width: 16.8813%;\">pre<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 83.1187%;\">17x pronom\/adjectif possessif li tons nons le son plazer<\/td>\r\n<td style=\"width: 16.8813%;\">pro<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 83.1187%;\">25x pronom d\u00e9monstratif, 27x pronom possessif, 28x pronom ind\u00e9fini<\/td>\r\n<td style=\"width: 16.8813%;\">pro<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 83.1187%;\">311 adverbe, 319 adverbes du type en y ne<\/td>\r\n<td style=\"width: 16.8813%;\">adv<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 83.1187%;\">321 interjection<\/td>\r\n<td style=\"width: 16.8813%;\">inj<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 83.1187%;\">331 conjonction coordination, 600 conjonction subordination<\/td>\r\n<td style=\"width: 16.8813%;\">con<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 83.1187%;\">341 pronom ind\u00e9fini<\/td>\r\n<td style=\"width: 16.8813%;\">pro<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 83.1187%;\">411-484 pronom personnel<\/td>\r\n<td style=\"width: 16.8813%;\">pro<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 83.1187%;\">502-594 verbe<\/td>\r\n<td style=\"width: 16.8813%;\">ver<\/td>\r\n<\/tr>\r\n<\/tbody>\r\n<\/table>\r\n<\/figure>\r\n<!-- \/wp:table -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>C&rsquo;est ainsi que deux colonnes ont \u00e9t\u00e9 ajout\u00e9es au corpusD\u00a0: lemme et cat.gramm., cette derni\u00e8re contenant la cat\u00e9gorie grammaticale frolex.<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>Il demeure alors des lignes qui ne sont diff\u00e9rentes que par le codeD. Le tableau (18) montre quelques exemples.<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>(18) lignes diff\u00e9rentes uniquement par le codeD<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:table -->\r\n<figure class=\"wp-block-table\">\r\n<table style=\"width: 62.6649%;\">\r\n<tbody>\r\n<tr>\r\n<td style=\"width: 5.11721%;\">\u00a0<\/td>\r\n<td style=\"width: 33.3686%;\"><strong>forme<\/strong><\/td>\r\n<td style=\"width: 19.1781%;\"><strong>cat.gram.<\/strong><\/td>\r\n<td style=\"width: 15.0685%;\"><strong>codeD<\/strong><\/td>\r\n<td style=\"width: 27.169%;\"><strong>lemme<\/strong><\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 5.11721%;\">1.<\/td>\r\n<td style=\"width: 33.3686%;\">abaie<\/td>\r\n<td style=\"width: 19.1781%;\">nomcom<\/td>\r\n<td style=\"width: 15.0685%;\">005<\/td>\r\n<td style=\"width: 27.169%;\">abbaye<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 5.11721%;\">\u00a0<\/td>\r\n<td style=\"width: 33.3686%;\">abaie<\/td>\r\n<td style=\"width: 19.1781%;\">nomcom<\/td>\r\n<td style=\"width: 15.0685%;\">006<\/td>\r\n<td style=\"width: 27.169%;\">abbaye<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 5.11721%;\">2.<\/td>\r\n<td style=\"width: 33.3686%;\">abbe<\/td>\r\n<td style=\"width: 19.1781%;\">nomcom<\/td>\r\n<td style=\"width: 15.0685%;\">001<\/td>\r\n<td style=\"width: 27.169%;\">abb\u00e9<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 5.11721%;\">\u00a0<\/td>\r\n<td style=\"width: 33.3686%;\">abbe<\/td>\r\n<td style=\"width: 19.1781%;\">nomcom<\/td>\r\n<td style=\"width: 15.0685%;\">002<\/td>\r\n<td style=\"width: 27.169%;\">abb\u00e9<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 5.11721%;\">\u00a0<\/td>\r\n<td style=\"width: 33.3686%;\">abbe<\/td>\r\n<td style=\"width: 19.1781%;\">nomcom<\/td>\r\n<td style=\"width: 15.0685%;\">003<\/td>\r\n<td style=\"width: 27.169%;\">abb\u00e9<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 5.11721%;\">3.<\/td>\r\n<td style=\"width: 33.3686%;\">acceptable<\/td>\r\n<td style=\"width: 19.1781%;\">apd<\/td>\r\n<td style=\"width: 15.0685%;\">021<\/td>\r\n<td style=\"width: 27.169%;\">acceptable<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 5.11721%;\">\u00a0<\/td>\r\n<td style=\"width: 33.3686%;\">acceptable<\/td>\r\n<td style=\"width: 19.1781%;\">apd<\/td>\r\n<td style=\"width: 15.0685%;\">022<\/td>\r\n<td style=\"width: 27.169%;\">acceptable<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 5.11721%;\">\u00a0<\/td>\r\n<td style=\"width: 33.3686%;\">acceptable<\/td>\r\n<td style=\"width: 19.1781%;\">apd<\/td>\r\n<td style=\"width: 15.0685%;\">027<\/td>\r\n<td style=\"width: 27.169%;\">acceptable<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 5.11721%;\">4.<\/td>\r\n<td style=\"width: 33.3686%;\">abandonne<\/td>\r\n<td style=\"width: 19.1781%;\">ver<\/td>\r\n<td style=\"width: 15.0685%;\">513<\/td>\r\n<td style=\"width: 27.169%;\">abandonner<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 5.11721%;\">\u00a0<\/td>\r\n<td style=\"width: 33.3686%;\">abandonne<\/td>\r\n<td style=\"width: 19.1781%;\">ver<\/td>\r\n<td style=\"width: 15.0685%;\">523<\/td>\r\n<td style=\"width: 27.169%;\">abandonner<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 5.11721%;\">5.<\/td>\r\n<td style=\"width: 33.3686%;\">abati<\/td>\r\n<td style=\"width: 19.1781%;\">ver<\/td>\r\n<td style=\"width: 15.0685%;\">551<\/td>\r\n<td style=\"width: 27.169%;\">abattre<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 5.11721%;\">\u00a0<\/td>\r\n<td style=\"width: 33.3686%;\">abati<\/td>\r\n<td style=\"width: 19.1781%;\">ver<\/td>\r\n<td style=\"width: 15.0685%;\">553<\/td>\r\n<td style=\"width: 27.169%;\">abattre<\/td>\r\n<\/tr>\r\n<\/tbody>\r\n<\/table>\r\n<\/figure>\r\n<!-- \/wp:table -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>Les diff\u00e9rences sont toujours au sein d&rsquo;une cat\u00e9gorie donn\u00e9e\u00a0: 001 \u00e0 009 sont des sous-types de noms communs, et 020 \u00e0 029 des sous-types d&rsquo;adjectifs dont nous ne savons pas \u00e0 quoi ils renvoient (voir clef du codeD). Au sein des verbes, 513 est une 3sg ind. pr\u00e9s., alors que 523 repr\u00e9sente une 3sg subj. pr\u00e9s. Nous avons d\u00e9cid\u00e9 de fusionner ces lignes en reportant l&rsquo;ensemble des codesD, acceptant ainsi, notamment pour les verbes, une certaine perte d&rsquo;information. Ceci dans l&rsquo;int\u00e9r\u00eat d&rsquo;une meilleure lisibilit\u00e9 des r\u00e9sultats de recherche dans le corpus, dont l&rsquo;inflation des lignes affich\u00e9es rend laborieuse la s\u00e9lection manuelle des formes \u00e0 retenir (voir section 5.4, il peut s&rsquo;agir de plusieurs centaines, voire milliers de lignes).<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>Le tableau (18) est ainsi r\u00e9duit au tableau (19).<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>(19) fusion des lignes diff\u00e9rentes uniquement par le codeD<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:table -->\r\n<figure class=\"wp-block-table\">\r\n<table style=\"width: 68.5754%; height: 138px;\">\r\n<tbody>\r\n<tr style=\"height: 23px;\">\r\n<td style=\"width: 5.14653%; height: 23px;\">\u00a0<\/td>\r\n<td style=\"width: 19.62%; height: 23px;\"><strong>forme<\/strong><\/td>\r\n<td style=\"width: 18.5417%; height: 23px;\"><strong>cat.gram.<\/strong><\/td>\r\n<td style=\"width: 25.625%; height: 23px;\"><strong>codeD<\/strong><\/td>\r\n<td style=\"width: 30.8334%; height: 23px;\"><strong>lemme<\/strong><\/td>\r\n<\/tr>\r\n<tr style=\"height: 23px;\">\r\n<td style=\"width: 5.14653%; height: 23px;\">1.<\/td>\r\n<td style=\"width: 19.62%; height: 23px;\">abaie<\/td>\r\n<td style=\"width: 18.5417%; height: 23px;\">nomcom<\/td>\r\n<td style=\"width: 25.625%; height: 23px;\">005, 006<\/td>\r\n<td style=\"width: 30.8334%; height: 23px;\">abbaye<\/td>\r\n<\/tr>\r\n<tr style=\"height: 23px;\">\r\n<td style=\"width: 5.14653%; height: 23px;\">2.<\/td>\r\n<td style=\"width: 19.62%; height: 23px;\">abbe<\/td>\r\n<td style=\"width: 18.5417%; height: 23px;\">nomcom<\/td>\r\n<td style=\"width: 25.625%; height: 23px;\">001, 003, 003<\/td>\r\n<td style=\"width: 30.8334%; height: 23px;\">abb\u00e9<\/td>\r\n<\/tr>\r\n<tr style=\"height: 23px;\">\r\n<td style=\"width: 5.14653%; height: 23px;\">3.<\/td>\r\n<td style=\"width: 19.62%; height: 23px;\">acceptable<\/td>\r\n<td style=\"width: 18.5417%; height: 23px;\">apd<\/td>\r\n<td style=\"width: 25.625%; height: 23px;\">021, 022, 027<\/td>\r\n<td style=\"width: 30.8334%; height: 23px;\">acceptable<\/td>\r\n<\/tr>\r\n<tr style=\"height: 23px;\">\r\n<td style=\"width: 5.14653%; height: 23px;\">4.<\/td>\r\n<td style=\"width: 19.62%; height: 23px;\">abandonne<\/td>\r\n<td style=\"width: 18.5417%; height: 23px;\">ver<\/td>\r\n<td style=\"width: 25.625%; height: 23px;\">513, 523<\/td>\r\n<td style=\"width: 30.8334%; height: 23px;\">abandonner<\/td>\r\n<\/tr>\r\n<tr style=\"height: 23px;\">\r\n<td style=\"width: 5.14653%; height: 23px;\">5.<\/td>\r\n<td style=\"width: 19.62%; height: 23px;\">abati<\/td>\r\n<td style=\"width: 18.5417%; height: 23px;\">ver<\/td>\r\n<td style=\"width: 25.625%; height: 23px;\">551, 553<\/td>\r\n<td style=\"width: 30.8334%; height: 23px;\">abattre<\/td>\r\n<\/tr>\r\n<\/tbody>\r\n<\/table>\r\n<\/figure>\r\n<!-- \/wp:table -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>L&rsquo;ensemble de ces op\u00e9rations produit la v3 du corpusD, qui comporte 98.230 lignes, et donc autant de formes diff\u00e9rentes (m\u00eame forme, m\u00eame cat. gram.). Sur ces 98.230 formes, 56.562 (soit 57,6%) ont re\u00e7u un lemme frolex. On dira qu&rsquo;il s&rsquo;agit de vrais lemmes.<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>41.668 (42,4%) formes sont donc rest\u00e9es sans lemme frolex\u00a0: ou bien parce qu&rsquo;aucune forme frolex n&rsquo;y correspond, ou alors parce que la forme frolex correspondante elle-m\u00eame n&rsquo;a pas de lemme dans le fichier frolex (&lt;no_lemma&gt;). L&rsquo;absence de lemme pour une forme est g\u00eanante puisque cette forme sera invisible lorsque l&rsquo;utilisateur fera une recherche dans les lemmes. Pour cette raison, les formes sans lemme ont \u00e9t\u00e9 promues au statut de lemme, et on dira qu&rsquo;il s&rsquo;agit de faux lemmes. Ainsi la forme <em>aaisse<\/em> (codeD = 502) n&rsquo;existe pas dans frolex et donc n&rsquo;a pas de lemme\u00a0; par cons\u00e9quent elle est inscrite dans la colonne lemme du corpusD, et ses forme et lemme seront donc identiques. Cela fait que toutes les formes du corpusD ont d\u00e9sormais un lemme, vrai (57,6%) ou faux (42,4%).<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>Le corpus conserve la m\u00e9moire de cette op\u00e9ration, i.e. distingue entre vrais et faux lemmes. Une nouvelle colonne \u00ab\u00a0trich\u00e9\u00a0\u00bb indique \u00ab\u00a0faux\u00a0\u00bb pour les vrais lemmes, \u00ab\u00a0vrai\u00a0\u00bb pour les faux lemmes. Le tableau (20) produit quelques exemples.<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>(20) corpusD avec faux lemmes<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:table -->\r\n<figure class=\"wp-block-table\">\r\n<table style=\"width: 74.2233%;\">\r\n<tbody>\r\n<tr>\r\n<td style=\"width: 21.5539%;\"><strong>forme<\/strong><\/td>\r\n<td style=\"width: 14.5363%;\"><strong>catgram<\/strong><\/td>\r\n<td style=\"width: 31.3283%;\"><strong>code_dees<\/strong><\/td>\r\n<td style=\"width: 21.5539%;\"><strong>lemma<\/strong><\/td>\r\n<td style=\"width: 40.6015%;\"><strong>trich\u00e9<\/strong><\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 21.5539%;\">aaise<\/td>\r\n<td style=\"width: 14.5363%;\">ver<\/td>\r\n<td style=\"width: 31.3283%;\">(&lsquo;511&rsquo;, &lsquo;522&rsquo;, &lsquo;513&rsquo;)<\/td>\r\n<td style=\"width: 21.5539%;\">aaise<\/td>\r\n<td style=\"width: 40.6015%;\">vrai<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 21.5539%;\">aaisiez<\/td>\r\n<td style=\"width: 14.5363%;\">ver<\/td>\r\n<td style=\"width: 31.3283%;\">(&lsquo;581&rsquo;,)<\/td>\r\n<td style=\"width: 21.5539%;\">aaiser<\/td>\r\n<td style=\"width: 40.6015%;\">faux<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 21.5539%;\">aaisi\u00e9<\/td>\r\n<td style=\"width: 14.5363%;\">ver<\/td>\r\n<td style=\"width: 31.3283%;\">(&lsquo;580&rsquo;,)<\/td>\r\n<td style=\"width: 21.5539%;\">aaiser<\/td>\r\n<td style=\"width: 40.6015%;\">faux<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 21.5539%;\">herbegastes<\/td>\r\n<td style=\"width: 14.5363%;\">ver<\/td>\r\n<td style=\"width: 31.3283%;\">(&lsquo;555&rsquo;,)<\/td>\r\n<td style=\"width: 21.5539%;\">herbegastes<\/td>\r\n<td style=\"width: 40.6015%;\">vrai<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 21.5539%;\">herbegiee<\/td>\r\n<td style=\"width: 14.5363%;\">ver<\/td>\r\n<td style=\"width: 31.3283%;\">(&lsquo;582&rsquo;,)<\/td>\r\n<td style=\"width: 21.5539%;\">herbegiee<\/td>\r\n<td style=\"width: 40.6015%;\">vrai<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 21.5539%;\">herbegiees<\/td>\r\n<td style=\"width: 14.5363%;\">ver<\/td>\r\n<td style=\"width: 31.3283%;\">(&lsquo;583&rsquo;,)<\/td>\r\n<td style=\"width: 21.5539%;\">herbegiees<\/td>\r\n<td style=\"width: 40.6015%;\">vrai<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 21.5539%;\">herbegier<\/td>\r\n<td style=\"width: 14.5363%;\">ver<\/td>\r\n<td style=\"width: 31.3283%;\">(&lsquo;592&rsquo;,)<\/td>\r\n<td style=\"width: 21.5539%;\">h\u00e9berger<\/td>\r\n<td style=\"width: 40.6015%;\">faux<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 21.5539%;\">herbega<\/td>\r\n<td style=\"width: 14.5363%;\">ver<\/td>\r\n<td style=\"width: 31.3283%;\">(&lsquo;553&rsquo;,)<\/td>\r\n<td style=\"width: 21.5539%;\">herbegier<\/td>\r\n<td style=\"width: 40.6015%;\">faux<\/td>\r\n<\/tr>\r\n<\/tbody>\r\n<\/table>\r\n<\/figure>\r\n<!-- \/wp:table -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>On voit que les faux lemmes du tableau sont facilement identifiables manuellement\u00a0: les formes <em>aaisiez<\/em> et <em>aaisi\u00e9<\/em> montrent que la forme <em>aaise<\/em> a toutes les chances d&rsquo;\u00eatre comme elles une forme conjugu\u00e9e du verbe \/ lemme <em>aaiser<\/em>. Il se trouve simplement que frolex ne conna\u00eet pas la forme conjugu\u00e9e <em>aaise<\/em>. De m\u00eame pour les formes <em>herbegastes<\/em>, <em>herbegiee<\/em> et <em>herbegiees<\/em>, sans lemme, mais qui au vu des formes <em>herbegier<\/em> et <em>herbega<\/em> dont le (vrai) lemme est le verbe <em>h\u00e9berger<\/em> \/ <em>herbegier<\/em> rel\u00e8ve certainement de ce m\u00eame lemme. Ici encore les formes sans lemme sont simplement inconnues par frolex.<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>Certes tous les cas o\u00f9 les lemmes font d\u00e9faut ne se r\u00e9solvent pas aussi facilement en comparant les formes voisines. Mais de toute fa\u00e7on le travail manuel qu&rsquo;aurait suppos\u00e9 une telle comparaison n&rsquo;a pas \u00e9t\u00e9 soutenable avec les moyens du projet. CorpusD est donc laiss\u00e9 dans cet \u00e9tat, i.e. avec des faux lemmes, en esp\u00e9rant peut-\u00eatre un jour pouvoir faire mieux. La distinction entre vrais et faux lemmes est restitu\u00e9e \u00e0 l&rsquo;utilisateur dans tous les r\u00e9sultats de recherche et lui permettra de juger.<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>En r\u00e9sum\u00e9, la lemmatisation par alignement avec Frolex, suivie d&rsquo;une d\u00e9sambigu\u00efsation par le codeD, produit les r\u00e9sultats montr\u00e9s, qui ne sont gu\u00e8re satisfaisants\u00a0: 42,4% des formes demeure sans lemme. Il faudrait appr\u00e9cier ce que la lemmatisation par les m\u00e9thodes d&rsquo;A. Stein d&rsquo;une part, d&rsquo;A. Lavrentiev d&rsquo;autre part produit\u00a0: le taux de succ\u00e8s sera certainement plus \u00e9lev\u00e9 (bien que TXM \u00e0 Lyon utilise \u00e9galement Frolex pour l&rsquo;alignement des formes).<\/p>\r\n<p>&nbsp;<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:heading -->\r\n<p><span style=\"font-size: 12pt;\"><a id=\"T4.6\"><\/a><span style=\"font-size: 14pt;\">4.6. Propri\u00e9t\u00e9s du corpusD v3<\/span><\/span><\/p>\r\n<!-- \/wp:heading -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>La structure de la v3 du CorpusD (98.230 lignes et autant de paires forme \/ cat. gram. diff\u00e9rentes) est montr\u00e9e sous (20), et de mani\u00e8re plus compl\u00e8te sous (21) o\u00f9 il est rappel\u00e9 que chaque ligne contient les effectifs aff\u00e9rents aux 107 divisions g\u00e9ographiques.<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>Le tableau (21) montre plus particuli\u00e8rement la gestion des lemmes multiples\u00a0: ils y apparaissent collectivement dans la colonne lemme. Dans le vrai corpus impl\u00e9ment\u00e9 sur le serveur, pour des raisons techniques, il y a autant de lignes qu&rsquo;il y a de lemmes multiples\u00a0: la ligne de la forme <em>aage<\/em> par exemple existe trois fois \u00e0 l&rsquo;identique, sauf pour la colonne lemme, chacun des trois lemmes possibles ayant donc sa propre ligne. Cela produit <a href=\"http:\/\/tscheer.free.fr\/ADE22\/formes-lemmes_110k.xlsx\">un fichier<\/a> de 110.815 lignes.<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>(21) corpusD v3 : extraits avec lemmes multiples<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:table -->\r\n<figure class=\"wp-block-table\">\r\n<table style=\"width: 99.7183%;\">\r\n<tbody>\r\n<tr>\r\n<td style=\"width: 9.54003%;\"><strong>forme<\/strong><\/td>\r\n<td style=\"width: 10.3918%;\"><strong>catgram<\/strong><\/td>\r\n<td style=\"width: 37.3169%;\"><strong>codeD<\/strong><\/td>\r\n<td style=\"width: 18.9813%;\"><strong>lemme<\/strong><\/td>\r\n<td style=\"width: 8.58977%;\"><strong>trich\u00e9<\/strong><\/td>\r\n<td style=\"width: 6.08815%;\"><strong>tot.<\/strong><\/td>\r\n<td style=\"width: 4.268%;\"><strong>R1<\/strong><\/td>\r\n<td style=\"width: 21.9566%;\"><strong>\u2026<\/strong><\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 9.54003%;\">fuis<\/td>\r\n<td style=\"width: 10.3918%;\">ver<\/td>\r\n<td style=\"width: 37.3169%;\">(&lsquo;551&rsquo;, &lsquo;552&rsquo;, &lsquo;511&rsquo;, &lsquo;581&rsquo;, &lsquo;502&rsquo;, &lsquo;512&rsquo;)<\/td>\r\n<td style=\"width: 18.9813%;\">fuir, \u00eatre<\/td>\r\n<td style=\"width: 8.58977%;\">faux<\/td>\r\n<td style=\"width: 6.08815%;\">23<\/td>\r\n<td style=\"width: 4.268%;\">0<\/td>\r\n<td style=\"width: 21.9566%;\">\u00a0<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 9.54003%;\">aage<\/td>\r\n<td style=\"width: 10.3918%;\">nomcom<\/td>\r\n<td style=\"width: 37.3169%;\">(&lsquo;002&rsquo;, &lsquo;006&rsquo;, &lsquo;001&rsquo;)<\/td>\r\n<td style=\"width: 18.9813%;\">\u00e2ge, \u00ebage, \u00e2g\u00e9<\/td>\r\n<td style=\"width: 8.58977%;\">faux<\/td>\r\n<td style=\"width: 6.08815%;\">169<\/td>\r\n<td style=\"width: 4.268%;\">1<\/td>\r\n<td style=\"width: 21.9566%;\">\u00a0<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 9.54003%;\">franceis<\/td>\r\n<td style=\"width: 10.3918%;\">nomcom<\/td>\r\n<td style=\"width: 37.3169%;\">(&lsquo;002&rsquo;, &lsquo;003&rsquo;, &lsquo;001&rsquo;, &lsquo;004&rsquo;)<\/td>\r\n<td style=\"width: 18.9813%;\">fran\u00e7ois, fran\u00e7ais<\/td>\r\n<td style=\"width: 8.58977%;\">faux<\/td>\r\n<td style=\"width: 6.08815%;\">36<\/td>\r\n<td style=\"width: 4.268%;\">0<\/td>\r\n<td style=\"width: 21.9566%;\">\u00a0<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 9.54003%;\">fremer<\/td>\r\n<td style=\"width: 10.3918%;\">ver<\/td>\r\n<td style=\"width: 37.3169%;\">(&lsquo;592&rsquo;,)<\/td>\r\n<td style=\"width: 18.9813%;\">fermer, fremer<\/td>\r\n<td style=\"width: 8.58977%;\">faux<\/td>\r\n<td style=\"width: 6.08815%;\">12<\/td>\r\n<td style=\"width: 4.268%;\">0<\/td>\r\n<td style=\"width: 21.9566%;\">\u00a0<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 9.54003%;\">freor<\/td>\r\n<td style=\"width: 10.3918%;\">nomcom<\/td>\r\n<td style=\"width: 37.3169%;\">(&lsquo;006&rsquo;, &lsquo;005&rsquo;)<\/td>\r\n<td style=\"width: 18.9813%;\">frayeur, fr\u00ebor<\/td>\r\n<td style=\"width: 8.58977%;\">faux<\/td>\r\n<td style=\"width: 6.08815%;\">15<\/td>\r\n<td style=\"width: 4.268%;\">0<\/td>\r\n<td style=\"width: 21.9566%;\">\u00a0<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 9.54003%;\">fresche<\/td>\r\n<td style=\"width: 10.3918%;\">apd<\/td>\r\n<td style=\"width: 37.3169%;\">(&lsquo;025&rsquo;, &lsquo;026&rsquo;)<\/td>\r\n<td style=\"width: 18.9813%;\">frois, frais<\/td>\r\n<td style=\"width: 8.58977%;\">faux<\/td>\r\n<td style=\"width: 6.08815%;\">42<\/td>\r\n<td style=\"width: 4.268%;\">0<\/td>\r\n<td style=\"width: 21.9566%;\">\u00a0<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 9.54003%;\">fud<\/td>\r\n<td style=\"width: 10.3918%;\">ver<\/td>\r\n<td style=\"width: 37.3169%;\">(&lsquo;553&rsquo;,)<\/td>\r\n<td style=\"width: 18.9813%;\">estre, \u00eatre<\/td>\r\n<td style=\"width: 8.58977%;\">faux<\/td>\r\n<td style=\"width: 6.08815%;\">82<\/td>\r\n<td style=\"width: 4.268%;\">0<\/td>\r\n<td style=\"width: 21.9566%;\">\u00a0<\/td>\r\n<\/tr>\r\n<\/tbody>\r\n<\/table>\r\n<\/figure>\r\n<!-- \/wp:table -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>On voit que les lemmes multiples peuvent repr\u00e9senter des lemmes r\u00e9ellement distincts, comme pour la forme <em>fuis<\/em> (dont le sens, \u00ab\u00a0fuir\u00a0\u00bb ou \u00ab\u00a0\u00eatre\u00a0\u00bb, ne peut \u00eatre d\u00e9sambigu\u00efs\u00e9 ni par le codeD ni par la cat.gram.\u00a0: il s&rsquo;agit d&rsquo;un verbe conjugu\u00e9). Mais tr\u00e8s souvent la distinction faite, venant de frolex, est factice, opposant la graphie afr. \u00e0 la graphie moderne\u00a0: <em>fr\u00ebor<\/em> et <em>frayeur<\/em>, <em>frois<\/em> et <em>frais<\/em>, <em>estre<\/em> et <em>\u00eatre<\/em> sont ainsi pour frolex deux lemmes diff\u00e9rents. Il s&rsquo;agit l\u00e0 de d\u00e9cisions prises par frolex dont on peut douter du bien-fond\u00e9, mais qui sont donc r\u00e9percut\u00e9es dans le corpusD.<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>Il a \u00e9t\u00e9 mentionn\u00e9 que la proportion des faux lemmes par rapport aux formes est de 42,4% (41.668 lignes sur 98.230). Les faux lemmes se d\u00e9clinent de la fa\u00e7on montr\u00e9e sous (22). Les lemmes uniques sont au nombre de 54.362 (soit 55,3% des 98.230 lignes = formes), qui se r\u00e9partissent en 14.087 vrais (soit 25,9%) et 40.275 faux lemmes (soit 74,1%).<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>(22) corpusD v3 : analyse des faux lemmes<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:table -->\r\n<figure class=\"wp-block-table\">\r\n<table style=\"width: 73.103%;\">\r\n<tbody>\r\n<tr>\r\n<td style=\"width: 11.731%;\"><strong>codeD<\/strong><\/td>\r\n<td style=\"width: 19.0272%;\"><strong>catgram<\/strong><\/td>\r\n<td style=\"width: 32.1888%;\"><strong>d\u00e9tail<\/strong><\/td>\r\n<td style=\"width: 1.95695%;\">\u00a0<\/td>\r\n<td style=\"width: 8.05735%;\"><strong>nb<\/strong><\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 11.731%;\">000-009<\/td>\r\n<td style=\"width: 19.0272%;\">mot contenu<\/td>\r\n<td style=\"width: 32.1888%;\">nom commun<\/td>\r\n<td style=\"width: 1.95695%;\">\u00a0<\/td>\r\n<td style=\"width: 8.05735%;\">10.642<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 11.731%;\">020-029<\/td>\r\n<td style=\"width: 19.0272%;\">\u00a0<\/td>\r\n<td style=\"width: 32.1888%;\">adjectif<\/td>\r\n<td style=\"width: 1.95695%;\">\u00a0<\/td>\r\n<td style=\"width: 8.05735%;\">3.103<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 11.731%;\">311, 319<\/td>\r\n<td style=\"width: 19.0272%;\">\u00a0<\/td>\r\n<td style=\"width: 32.1888%;\">adverbe<\/td>\r\n<td style=\"width: 1.95695%;\">\u00a0<\/td>\r\n<td style=\"width: 8.05735%;\">1.725<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 11.731%;\">502-594<\/td>\r\n<td style=\"width: 19.0272%;\">\u00a0<\/td>\r\n<td style=\"width: 32.1888%;\">verbe<\/td>\r\n<td style=\"width: 1.95695%;\">\u00a0<\/td>\r\n<td style=\"width: 8.05735%;\">19.128<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 11.731%;\">010-019<\/td>\r\n<td style=\"width: 19.0272%;\">nom propre<\/td>\r\n<td style=\"width: 32.1888%;\">\u00a0<\/td>\r\n<td style=\"width: 1.95695%;\">\u00a0<\/td>\r\n<td style=\"width: 8.05735%;\">5.543<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 11.731%; vertical-align: top;\">030-310, 331-484, 600<\/td>\r\n<td style=\"width: 19.0272%; vertical-align: top;\">mot grammatical<\/td>\r\n<td style=\"width: 32.1888%; vertical-align: top;\">nombre ordinal, cardinal, article, d\u00e9monstratif, pronom, possessif, pr\u00e9position, adj. ind\u00e9fini, interjection, conjonction<\/td>\r\n<td style=\"width: 1.95695%; vertical-align: top;\">\u00a0<\/td>\r\n<td style=\"width: 8.05735%; vertical-align: top;\">1.527<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 11.731%;\">\u00a0<\/td>\r\n<td style=\"width: 19.0272%;\">\u00a0<\/td>\r\n<td style=\"width: 32.1888%;\"><strong>Tot.<\/strong><\/td>\r\n<td style=\"width: 1.95695%;\">\u00a0<\/td>\r\n<td style=\"width: 8.05735%;\"><strong>41.668<\/strong><\/td>\r\n<\/tr>\r\n<\/tbody>\r\n<\/table>\r\n<\/figure>\r\n<!-- \/wp:table -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>La lemmatisation \u00e9tant sans objet pour les noms propres et d&rsquo;un int\u00e9r\u00eat tr\u00e8s limit\u00e9 pour les mots grammaticaux (dont les formes et variants graphiques sont en petit nombre), le probl\u00e8me des formes avec faux lemme se pose surtout pour les mots contenu, soit 35,2% (34.598 lignes sur 98.230).<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>Enfin, revenons sur la perte d&rsquo;information caus\u00e9e par la fusion, apr\u00e8s lemmatisation, des lignes qui ne sont distinctes que par leur codeD, illustr\u00e9e sous (18) et (19). 16.617 lignes (soit 16,9% des 98.230 lignes du corpus) pr\u00e9sentent davantage qu&rsquo;un codeD\u00a0: elles sont issues de la fusion de plusieurs lignes qui n&rsquo;\u00e9taient distinctes que par leur codeD. Le tableau sous (23) en propose une analyse plus fine et quantifi\u00e9e.<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>(23) corpusD v3 : analyse des lignes contenant plus d&rsquo;un codeD<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:table -->\r\n<figure class=\"wp-block-table\">\r\n<table style=\"width: 75.6768%;\">\r\n<tbody>\r\n<tr>\r\n<td style=\"width: 11.8741%;\"><strong>codeD<\/strong><\/td>\r\n<td style=\"width: 18.8841%;\"><strong>catgram<\/strong><\/td>\r\n<td style=\"width: 33.0472%;\"><strong>d\u00e9tail<\/strong><\/td>\r\n<td style=\"width: 2.65189%;\">\u00a0<\/td>\r\n<td style=\"width: 9.07911%;\"><strong>nb<\/strong><\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 11.8741%;\">000-009<\/td>\r\n<td style=\"width: 18.8841%;\">mot contenu<\/td>\r\n<td style=\"width: 33.0472%;\">nom commun<\/td>\r\n<td style=\"width: 2.65189%;\">\u00a0<\/td>\r\n<td style=\"width: 9.07911%;\">7.064<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 11.8741%;\">020-029<\/td>\r\n<td style=\"width: 18.8841%;\">\u00a0<\/td>\r\n<td style=\"width: 33.0472%;\">adjectif<\/td>\r\n<td style=\"width: 2.65189%;\">\u00a0<\/td>\r\n<td style=\"width: 9.07911%;\">2.454<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 11.8741%;\">311, 319<\/td>\r\n<td style=\"width: 18.8841%;\">\u00a0<\/td>\r\n<td style=\"width: 33.0472%;\">adverbe<\/td>\r\n<td style=\"width: 2.65189%;\">\u00a0<\/td>\r\n<td style=\"width: 9.07911%;\">13<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 11.8741%;\">502-594<\/td>\r\n<td style=\"width: 18.8841%;\">\u00a0<\/td>\r\n<td style=\"width: 33.0472%;\">verbe<\/td>\r\n<td style=\"width: 2.65189%;\">\u00a0<\/td>\r\n<td style=\"width: 9.07911%;\">5.115<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 11.8741%;\">010-019<\/td>\r\n<td style=\"width: 18.8841%;\">nom propre<\/td>\r\n<td style=\"width: 33.0472%;\">\u00a0<\/td>\r\n<td style=\"width: 2.65189%;\">\u00a0<\/td>\r\n<td style=\"width: 9.07911%;\">1.288<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 11.8741%; vertical-align: top;\">030-310, 331-484, 600<\/td>\r\n<td style=\"width: 18.8841%; vertical-align: top;\">mot grammatical<\/td>\r\n<td style=\"width: 33.0472%; vertical-align: top;\">nombre ordinal, cardinal, article, d\u00e9monstratif, pronom, possessif, pr\u00e9position, adj. ind\u00e9fini, interjection, conjonction<\/td>\r\n<td style=\"width: 2.65189%; vertical-align: top;\">\u00a0<\/td>\r\n<td style=\"width: 9.07911%; vertical-align: top;\">683<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 11.8741%;\">\u00a0<\/td>\r\n<td style=\"width: 18.8841%;\">\u00a0<\/td>\r\n<td style=\"width: 33.0472%;\"><strong>Tot.<\/strong><\/td>\r\n<td style=\"width: 2.65189%;\">\u00a0<\/td>\r\n<td style=\"width: 9.07911%;\"><strong>16.617<\/strong><\/td>\r\n<\/tr>\r\n<\/tbody>\r\n<\/table>\r\n<\/figure>\r\n<!-- \/wp:table -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>L&rsquo;observation principale, rassurante, n&rsquo;appara\u00eet pas dans ce tableau toutefois\u00a0: la variation du codeD au sein d&rsquo;une ligne est toujours circonscrite au sein de la cat\u00e9gorie grammaticale montr\u00e9e. Ainsi une ligne repr\u00e9sentant un nom commun peut avoir deux, cinq ou 17 codeD (17 \u00e9tant le maximum)\u00a0: tous seront compris entre 000 et 009. Et il en va de m\u00eame pour les autres cat\u00e9gories. Rappelons que nous ne savons pas \u00e0 quoi renvoient les variations 00x, 01x, 02x, 03x, 04x, 14x, 15x etc. La perte d&rsquo;information est donc circonscrite dans un espace d&rsquo;une granularit\u00e9 tr\u00e8s fine que dans la majorit\u00e9 des cas de toute fa\u00e7on nous ne ma\u00eetrisons pas. Seul le cas des verbes est d&rsquo;un autre calibre\u00a0: ici une ligne peut confondre 580 (participe) et 592 (infinitif) ou encore 563 (futur) et 592 (infinitif). Mais ces cas sont \u00e9galement tr\u00e8s minoritaires au sein des verbes, o\u00f9 la variation majoritaire est au sein des infinitifs (591, 592), au sein des participes (585, 586) et ainsi de suite.<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>Le fichier recensant la totalit\u00e9 des 16.617 cas o\u00f9 une ligne contient plus d&rsquo;un codeD est disponible <a href=\"http:\/\/atlasdees.unice.fr\/wordpress\/wp-content\/uploads\/2022\/03\/lignes-avec-plus-dun-codeD.xlsx\">ici<\/a>, ce qui permet au lecteur de se faire sa propre opinion.<\/p>\r\n<p>&nbsp;<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:heading -->\r\n<p><span style=\"font-size: 12pt;\"><a id=\"T4.7\"><\/a><span style=\"font-size: 14pt;\">4.7. CorpusD v4\u00a0: introduction d&rsquo;une colonne \u00ab\u00a0\u00e9tymon\u00a0\u00bb (FEW)<\/span><\/span><\/p>\r\n<!-- \/wp:heading -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>A pr\u00e9sent, le corpusD v3 permet de faire des recherches dans les formes et dans les lemmes. Mais en phon\u00e9tique historique, il est \u00e9galement utile de pouvoir faire des recherches dans les \u00e9tymons dont les formes\/lemmes afr. sont l&rsquo;aboutissement. Si par exemple on cherche \u00e0 opposer en diatopie les aboutissements en [\u0292] et en [\u0283] r\u00e9sultant d&rsquo;un k+a latin plac\u00e9 en position forte secondaire, donc lat. C(v)ka (gr\u0101n(i)ca &gt; <em>grange<\/em>, <em>granche<\/em>), une recherche dans les formes ou les lemmes de l&rsquo;afr. n&rsquo;apportera rien ou alors beaucoup de bruit. Une recherche de l&rsquo;expression r\u00e9guli\u00e8re C(v)ka dans les \u00e9tymons en revanche fournira le mat\u00e9riel souhait\u00e9 de mani\u00e8re plus pr\u00e9cise.<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>Il existe des dictionnaires num\u00e9ris\u00e9s du latin (FEW, Gaffiot, K\u00f6bler, voir infra), mais l&rsquo;alignement avec les formes ou lemmes de l&rsquo;afr. est difficile. A notre connaissance, il n&rsquo;existe, en version \u00e9lectronique, que dans la base lexicale Frolex, dans le second fichier fourni qui s&rsquo;appelle clfrolex-3.0 et comporte les lemmes frolex (au nombre de 102.559) align\u00e9s avec les entr\u00e9es de plusieurs dictionnaires de l&rsquo;afr. (TL, DEAF, DMF, GDF, GDC, AND et d&rsquo;autres), ainsi que les entr\u00e9es du FEW (von Wartburg 1946-2003), qui sont en latin.<\/p>\r\n<p>Le FEW n&rsquo;indique pas la quantit\u00e9 vocalique des \u00e9tymons sauf, la plupart du temps, pour les infinitifs en \u2011\u0101re, et ailleurs de mani\u00e8re erratique, assez souvent erron\u00e9e d&rsquo;ailleurs. Il sera encore question de la quantit\u00e9 \u00e0 l&rsquo;\u00e9tape suivante d\u00e9crite en section 4.8 : ici il suffit de noter que la question ne se pose pas puisque frolex ne note pas la quantit\u00e9 latine pr\u00e9sente dans le FEW : ainsi par exemple frolex rend l&rsquo;entr\u00e9e FEW min\u016btiare (sic) par minutiare. Mais frolex a repris la quantit\u00e9 vocalique des entr\u00e9es germaniques du FEW, not\u00e9e par l&rsquo;accent circonflexe : il restitue par exemple FEW frk. h\u00e2ring fid\u00e8lement par h\u00e2ring (&gt; <em>hareng<\/em>). La quantit\u00e9 latine, mais non germanique, est ainsi absente des formes FEW introduites \u00e0 cette \u00e9tape de la construction du corpus.<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>Nous avons donc align\u00e9 la colonne \u00ab\u00a0lemme\u00a0\u00bb du corpusD v3 avec la colonne \u00ab\u00a0lemme\u00a0\u00bb de clfrolex-3.0\u00a0: en cas de co\u00efncidence, la forme FEW de la ligne frolex est inscrite sur la ligne du corpusD dans une nouvelle colonne \u00ab\u00a0FEW\u00a0\u00bb. Le succ\u00e8s de cet alignement est toutefois bien relatif. D&rsquo;une part, un peu plus de la moiti\u00e9 des lemmes frolex seulement a un correspondant FEW\u00a0: c&rsquo;est le cas de 58.533 d&rsquo;entre eux, soit 57% (desquels il faudra encore soustraire les 1012 cas o\u00f9 le FEW r\u00e9pond, mais par \u00ab\u00a0o.i.\u00a0\u00bb, i.e. origine inconnue). D&rsquo;autre part, si les vrais lemmes du corpusD proviennent de frolex et donc y ont un correspondant, les faux lemmes (42,4% du corpusD, voir section 4.7) n&rsquo;auront pas de correspondant parmi les lemmes frolex.<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>Enfin, il est \u00e0 noter que clfrolex-3.0 contient les ast\u00e9risques marquant les formes reconstruites dans le FEW ainsi que dans la colonne FEW un ou plusieurs points d&rsquo;interrogation qui indiquent le degr\u00e9 d&rsquo;incertitude que la forme FEW correspond r\u00e9ellement au lemme frolex. CorpusD enregistre ces deux informations dans deux colonnes \u00e0 part et les restitue \u00e0 l&rsquo;utilisateur dans les r\u00e9sultats des recherches. En revanche, clfrolex-3.0 n&rsquo;a pas repris l&rsquo;information concernant l&rsquo;origine latine, germanique ou autre que le FEW propose. Frk. h\u00fbrt est donc autant une forme dans la colonne FEW que lat. adjutare, sans marque distinctive.<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:paragraph -->\r\n<p>L&rsquo;alignement avec le FEW a produit un r\u00e9sultat pour 11.482 lemmes (m\u00eame lemme, m\u00eame cat. gram.) du corpusD, \u00e0 qui un \u00e9tymon FEW a donc \u00e9t\u00e9 accol\u00e9. Cela repr\u00e9sente 81,5 % des vrais lemmes (14.087) du corpusD, ce qui est un bon r\u00e9sultat. Il s&rsquo;agit seulement de 21,1% du nombre total (54.362) des lemmes du corpusD, mais il a \u00e9t\u00e9 mentionn\u00e9 qu&rsquo;il n&rsquo;est pas attendu que les faux lemmes s&rsquo;alignent (il y a eu seulement deux cas sur les 11.482 \u00a0r\u00e9ussites d&rsquo;alignement o\u00f9 un faux lemme a trouv\u00e9 un correspondant FEW).<\/p>\r\n<p>&nbsp;<\/p>\r\n<!-- \/wp:paragraph -->\r\n\r\n<!-- wp:heading -->\r\n<p><span style=\"font-size: 12pt;\"><a id=\"T4.8\"><\/a><span style=\"font-size: 14pt;\">4.8. CorpusD v5 (d\u00e9finitive) : introduction de la quantit\u00e9 vocalique<br \/><\/span><\/span><\/p>\r\n<p><span style=\"font-size: 14pt;\"><!-- \/wp:heading -->\r\n\r\n<!-- wp:paragraph --><\/span><\/p>\r\n<p><a id=\"T4.8.1\"><\/a>4.8.1. Dictionnaires fournissant la quantit\u00e9 : Gaffiot, GGHF, K\u00f6bler<\/p>\r\n<p>La derni\u00e8re \u00e9tape de la construction du corpusD est l&rsquo;introduction de la quantit\u00e9 vocalique dans l&rsquo;\u00e9tymon. La tradition, suivie par l&rsquo;ADE 22, note les voyelles longues par le macron\u00a0: \u0101, \u0113, \u012b, \u014d, \u016b, \u0233 sont les versions longues de a, e, i, o, u, y. L&rsquo;introduction de la quantit\u00e9 autorisera des recherches prenant en compte la longueur vocalique, et permet indirectement de calculer la place de l&rsquo;accent, absent des graphies latines.<\/p>\r\n<p>A cette fin, nous avons align\u00e9 les formes FEW avec trois dictionnaires qui indiquent la longueur des \u00e9tymons : le Gaffiot, l&rsquo;index de la GGHF et le K\u00f6bler, tous trois disponibles en version \u00e9lectronique. Le Gaffiot a \u00e9t\u00e9 num\u00e9ris\u00e9, revu et augment\u00e9 par G. Gr\u00e9co en 2016 (<a href=\"http:\/\/gerardgreco.free.fr\/spip.php?article43&amp;lang=fr\">annonce<\/a>, format <a href=\"https:\/\/github.com\/Gaffiot\/digital-gaffiot-json\">json<\/a>, format <a href=\"http:\/\/gerardgreco.free.fr\/spip.php?article43&amp;lang=fr\">pdf<\/a>). L&rsquo;<a href=\"http:\/\/www.unice.fr\/scheer\/tobweb\/GGHF%20Index%20lexical.htm\">index lexical<\/a> de la partie phon\u00e9tique historique de la Grande Grammaire Historique du Fran\u00e7ais (<a href=\"https:\/\/www.degruyter.com\/view\/title\/320435?language=en\">GGHF<\/a>, Pr\u00e9vost, Marchello-Nizia, Combettes &amp; Scheer (\u00e9d) 2020) n&rsquo;existe qu&rsquo;en version \u00e9lectronique, tout comme le K\u00f6bler (K\u00f6bler 2010, <a href=\"http:\/\/www.koeblergerhard.de\/Latein2\/LAWVorwort2.html\">Lateinisches Abkunfts- und Wirkungsw\u00f6rterbuch<\/a>).<\/p>\r\n<p>Les trois dictionnaires sont assez compl\u00e9mentaires\u00a0: le Gaffiot concerne le latin classique (et seulement les formes attest\u00e9es), quand la GGHF contient \u00e9galement des formes reconstruites. Enfin, le K\u00f6bler couvre, outre le latin classique, le latin m\u00e9di\u00e9val et propose \u00e9galement des formes reconstruites. Celles-ci ainsi que les formes m\u00e9di\u00e9vales sont grandement utiles puisque le FEW en contient en nombre.<\/p>\r\n<p>Ainsi \u00e0 la colonne \u00ab\u00a0FEW (\u00e9tymon sans quantit\u00e9)\u00a0\u00bb s&rsquo;est ajout\u00e9 la nouvelle colonne \u00ab\u00a0\u00e9tymon quantit\u00e9\u00a0\u00bb par l&rsquo;alignement hi\u00e9rarchique avec les trois dictionnaires mentionn\u00e9s\u00a0: d&rsquo;abord les formes du Gaffiot ont \u00e9t\u00e9 introduites au cas o\u00f9 elles co\u00efncident avec la forme FEW, ensuite les entr\u00e9es FEW demeur\u00e9s sans correspondant Gaffiot ont \u00e9t\u00e9 align\u00e9es avec la GGHF et enfin, les entr\u00e9es FEW qui n&rsquo;ont toujours pas de correspondant avec quantit\u00e9 ont \u00e9t\u00e9 align\u00e9es avec le K\u00f6bler.<\/p>\r\n<p>Chacune de ces op\u00e9rations d&rsquo;alignement est bas\u00e9e sur la colonne sans quantit\u00e9 des dictionnaires, i.e. les entr\u00e9es o\u00f9 [\u0101,\u0113,\u012b,\u014d,\u016b,\u0233] ont \u00e9t\u00e9 remplac\u00e9s par [a,e,i,o,u,y]\u00a0: en cas de co\u00efncidence de l&rsquo;entr\u00e9e FEW et de la forme de cette colonne, la forme avec quantit\u00e9 des dictionnaires a \u00e9t\u00e9 inscrite dans la nouvelle colonne \u00ab\u00a0\u00e9tymon quantit\u00e9\u00a0\u00bb du CorpusD v5.<\/p>\r\n<p>&nbsp;<\/p>\r\n<p><a id=\"T4.8.2\"><\/a>4.8.2. Pr\u00e9paration du Gaffiot pour l&rsquo;alignement avec le FEW (infinitifs)<\/p>\r\n<p>Un \u00e9cueil \u00e9tait le fait que la forme de citation pour les verbes utilis\u00e9e par le FEW est l&rsquo;infinitif, alors que le Gaffiot fonctionne avec la forme canonique de la premi\u00e8re personne du singulier (la GGHF et K\u00f6bler utilisent comme le FEW l&rsquo;infinitif). Il a donc fallu pr\u00e9parer le Gaffiot pour l&rsquo;alignement, de sorte que pour chaque verbe, l&rsquo;entr\u00e9e comportant la forme en <em>\u2011\u014d<\/em> soit remplac\u00e9e par l&rsquo;infinitif. Le Gaffiot fournit l&rsquo;infinitif dans les sp\u00e9cifications grammaticales des verbes, mais l&rsquo;extraction automatique de cette information n&rsquo;est pas tout \u00e0 fait triviale \u00e9tant donn\u00e9 qu&rsquo;elle ne se trouve pas toujours au m\u00eame endroit, et que le Gaffiot, pour certains verbes secondaires (consid\u00e9r\u00e9s dialectaux, idiosyncratiques \u00e0 un auteur, etc.), pratique des renvois \u00e0 la forme principale sans donner les sp\u00e9cifications grammaticales (qui pour le reste ne sont pas toujours connues lorsque, par exemple, un verbe n&rsquo;est connu que par son infinitif en <em>\u2011ere<\/em> (qui peut correspondre \u00e0 <em>\u2011ere<\/em> ou <em>\u2011\u0113re<\/em>).<\/p>\r\n<p>La conversion des entr\u00e9es verbales en infinitifs a \u00e9t\u00e9 op\u00e9r\u00e9e automatiquement, suivie d&rsquo;un contr\u00f4le manuel en fonction d&rsquo;indices d&rsquo;incertitude. Cette m\u00e9thode a identifi\u00e9, et mise \u00e0 l&rsquo;infinitif, 8523 entr\u00e9es verbales sur les 72.163 entr\u00e9es que compte le Gaffiot. Le r\u00e9sultat a \u00e9t\u00e9 d\u00e9pos\u00e9, au sein du fichier Gaffiot, dans une nouvelle colonne \u00ab\u00a0Gaffiot_inf\u00a0\u00bb qui comporte, pour les verbes, l&rsquo;infinitif, et pour les autres entr\u00e9es, la copie du Gaffiot d&rsquo;origine. Cette colonne riche de la quantit\u00e9 vocalique a ensuite \u00e9t\u00e9 doubl\u00e9e d&rsquo;une colonne identique mais sans quantit\u00e9, qui a servi pour l&rsquo;alignement avec le FEW.<\/p>\r\n<p>&nbsp;<\/p>\r\n<p><a id=\"T4.8.3\"><\/a>4.8.3. Quantit\u00e9 dans le Gaffiot (1934) (papier) et le Gaffiot (2016) (\u00e9lectronique)<\/p>\r\n<p>La version \u00e9lectronique du Gaffiot qui a \u00e9t\u00e9 pr\u00e9par\u00e9e durant de longues ann\u00e9es sous la direction de G\u00e9rard Gr\u00e9co n&rsquo;est pas une simple reproduction \u00e9lectronique de l&rsquo;original papier. Dans la pr\u00e9face de la <a href=\"http:\/\/gerardgreco.free.fr\/spip.php?article43&amp;lang=fr\">version pdf<\/a> du Gaffiot (2016), G. Gr\u00e9co avertit que \u00ab\u00a0cet ouvrage n\u2019est plus le Gaffiot de 1934\u00a0\u00bb et \u00e9num\u00e8re les modifications apport\u00e9es : correction et normalisation des r\u00e9f\u00e9rences cit\u00e9es ; correction et compl\u00e9tion des longueurs vocaliques ; correction des r\u00e9f\u00e9rences mortes ou circulaires ; correction des erreurs manifestes signal\u00e9es dans la litt\u00e9rature ; ajout de quelques d\u00e9veloppements.<\/p>\r\n<p>Ensuite \u00e0 la page 14 du pdf, Mark De Wilde explique le d\u00e9tail concernant la quantit\u00e9 vocalique\u00a0:<\/p>\r\n<p>\u00ab\u00a0L\u2019indication de la longueur des voyelles a \u00e9t\u00e9 consid\u00e9rablement r\u00e9vis\u00e9e dans cette \u00e9dition.<\/p>\r\n<p>Dans le Gaffiot 1934, seules les voyelles d\u2019une syllabe ouverte (et encore \u00e0 l\u2019exclusion des majuscules) portent une marque de longueur, avec plusieurs omissions importantes, comme la d\u00e9sinence -\u012b ou le -\u014d final (nom. sing. des racines sur -n [g\u00e9n. -\u014dnis et -\u012dnis] ; 1\u02b3\u1d49 pers. sing. du pr\u00e9sent) \u2013 pour n\u2019en citer que quelques-unes. En outre, une autre lacune \u00e9vidente a \u00e9t\u00e9 combl\u00e9e, celle des longueurs dans les syllabes ferm\u00e9es, o\u00f9 une voyelle est suivie par au moins deux consonnes \u2014 les quantit\u00e9s dites cach\u00e9es parce que la quantit\u00e9 de la syllabe (longue \u00ab par position \u00bb) masque la longueur de la voyelle. Toutes les voyelles longues dans cette cat\u00e9gorie ont \u00e9t\u00e9 soigneusement not\u00e9es.\u00a0\u00bb<\/p>\r\n<p>De Wilde explique ensuite que lors des modifications apport\u00e9es par rapport au Gaffiot (1934), les longueurs vocaliques ont \u00e9t\u00e9 d\u00e9termin\u00e9es \u00e0 l&rsquo;aide de Allen (1978), Pinkster (2014), Ernout (2001) et de Vaan (2008).<\/p>\r\n<p>L&rsquo;usager est donc avis\u00e9 ici que la quantit\u00e9 Gaffiot qui appara\u00eet dans l&rsquo;ADE 22 est celle du Gaffiot (2016) et non pas celle du Gaffiot (1934).<\/p>\r\n<p>&nbsp;<\/p>\r\n<p><a id=\"T4.8.4\"><\/a>4.8.4. Conventions graphiques adopt\u00e9es<\/p>\r\n<p>L&rsquo;ADE 22 note la longueur vocalique (\u0101, \u0113, \u012b, \u014d, \u016b, \u0233), mais non la br\u00e9vit\u00e9, classiquement indiqu\u00e9e par le signe \u02d8 surmontant les voyelles (\u0103, \u0115, \u012d, \u014f, \u016d) (et, dans le Gaffiot 2016, par \u00ff pour y bref). Ainsi les voyelles portant le signe de br\u00e9vit\u00e9 ont \u00e9t\u00e9 remplac\u00e9es par les voyelles sans diacritique (\u0103, \u0115, \u012d, \u014f, \u016d, \u00ff &gt; a, e, i, o, u, y), ce qui fait que les voyelles des \u00e9tymons dans l&rsquo;ADE 22 sont br\u00e8ves sauf lorsqu&rsquo;elles sont surmont\u00e9es du macron. Cette convention s&rsquo;applique \u00e9galement aux caract\u00e8res majuscules (le Gaffiot, et donc l&rsquo;ADE 22, note \u0100frica, mais Arduenna).<\/p>\r\n<p>La m\u00eame convention est appliqu\u00e9e aux \u00e9tymons germaniques (et d&rsquo;autres provenances encore, arabe, perse, etc.)\u00a0: ici le FEW note la longueur vocalique, selon la tradition, par un accent circonflexe (par exemple frk. h\u00e2ppia &gt; hache, frk. r\u00eeki &gt; riche, etc.). Afin d&rsquo;\u00eatre \u00e0 m\u00eame de rechercher toutes les voyelles longues de la m\u00eame mani\u00e8re, nous avons align\u00e9 la notation des \u00e9tymons germaniques sur celle des \u00e9tymons latin\u00a0: \u00e2, \u00ea, \u00ee, \u00f4, \u00fb ont \u00e9t\u00e9 remplac\u00e9s, dans la colonne FEW, par \u0101, \u0113, \u012b, \u014d, \u016b.<\/p>\r\n<p>Les voyelles \u00e6, \u0153 (dont le latin ne conna\u00eet pas de version longue ) sont not\u00e9es en tant que telles, \u00e6 et \u0153 (plut\u00f4t que ae et oe). Il est \u00e0 noter toutefois que ae et oe existent dans le corpusD dans les cas o\u00f9 ils ne repr\u00e9sentent pas \u00e6, \u0153, comme dans Pharisaeus, poeta &gt; po\u00e8te ou des \u00e9tymons germaniques tels mndl. broec &gt; bruec.<\/p>\r\n<p>Les majuscules contenues dans les diff\u00e9rents dictionnaires sont conserv\u00e9es dans le corpusD ainsi qu&rsquo;\u00e0 l&rsquo;affichage lorsque les r\u00e9sultats des recherches sont montr\u00e9s (\u00c6gyptus, Corduba, D\u012b\u0101na, Langobardus, etc.), mais l&rsquo;usager ne peut sp\u00e9cifiquement rechercher des majuscules : lors d&rsquo;une requ\u00eate, toutes les majuscules sont trait\u00e9es en tant que minuscules (la requ\u00eate \u00ab\u00a0corduba\u00a0\u00bb trouvera et affichera \u00ab\u00a0Corduba\u00a0\u00bb, et la requ\u00eate \u00ab\u00a0Corduba\u00a0\u00bb n&rsquo;est pas possible). La raison en est la pr\u00e9sence des jokers dans les requ\u00eates (voir l&rsquo;explication en section 5.3.3.2). Il existe dans le corpusD 127 entr\u00e9es \u00e0 majuscule.<\/p>\r\n<p>Enfin, il a \u00e9t\u00e9 mentionn\u00e9 \u00e0 la section 4.7 que Frolex a repris l&rsquo;ast\u00e9risque pr\u00e9sent dans le FEW, et cette information se retrouve donc associ\u00e9e \u00e0 la colonne FEW du corpusD. Il est \u00e0 noter qu&rsquo;assez souvent l&rsquo;information concernant le caract\u00e8re reconstruit d&rsquo;une forme donn\u00e9e est conflictuelle dans les diff\u00e9rents dictionnaires. Ainsi une forme ast\u00e9risqu\u00e9e dans le FEW est couramment pr\u00e9sente dans le Gaffiot (qui ne contient que des formes attest\u00e9es), ou non-ast\u00e9risqu\u00e9e dans la GGHF ou le K\u00f6bler : tel <em>imput\u0101re<\/em>, ast\u00e9risqu\u00e9 dans le FEW mais pr\u00e9sent dans le Gaffiot. Le cas inverse o\u00f9 le FEW donne une forme pour attest\u00e9e mais la GGHF ou K\u00f6bler l&rsquo;ast\u00e9risquent existe \u00e9galement\u00a0: <em>*min\u016bti\u0101re<\/em> (GGHF) vs. <em>minutiare<\/em> (FEW).<\/p>\r\n<p>La convention appliqu\u00e9e dans le CorpusD est de toujours fid\u00e8lement reprendre l&rsquo;information contenue dans les divers dictionnaires\u00a0: la colonne FEW (sans quantit\u00e9) reprend les ast\u00e9risques du FEW, et la colonne qui note l&rsquo;\u00e9tymon avec sa quantit\u00e9 inclut celle du dictionnaire qui a fourni la forme en question (GGHF, K\u00f6bler).<\/p>\r\n<p>Ainsi lors de l&rsquo;affichage des r\u00e9sultats de la recherche qui propose l&rsquo;\u00e9tymon avec et sans quantit\u00e9, le m\u00eame \u00e9tymon peut appara\u00eetre ast\u00e9risqu\u00e9 dans sa variante avec quantit\u00e9, mais sans ast\u00e9risque dans sa variante sans quantit\u00e9 (ou l&rsquo;inverse). <\/p>\r\n<p>&nbsp;<\/p>\r\n<p><a id=\"T4.8.5\"><\/a>4.8.5. R\u00e9sultat num\u00e9rique de l&rsquo;alignement<\/p>\r\n<p>Le r\u00e9sultat de ces divers alignements est le suivant. Le corpusD v4 contient 11.482 lignes, qui repr\u00e9sentent autant de paires lemme &#8211; cat.gram. uniques auxquelles une forme FEW a pu \u00eatre associ\u00e9e (voir section 4.7). Sur ces 11.482 lignes, 8.147 (71%) ont trouv\u00e9 un correspondant dans le Gaffiot, 692 (6%) dans la GGHF et 862 (7,5%) dans le K\u00f6bler. Le succ\u00e8s de l&rsquo;alignement avec les trois dictionnaires \u00e0 quantit\u00e9 est donc globalement de 84,5% (9.701 lignes sur 11.482)\u00a0: autant de lignes ont trouv\u00e9 une forme latine distinguant les voyelles longues et br\u00e8ves. Ce r\u00e9sultat est assez satisfaisant.<\/p>\r\n<p>Il faut encore \u00e0 cela ajouter 181 cas o\u00f9 la forme FEW, bien que n&rsquo;ayant trouv\u00e9 de correspondant dans les trois dictionnaires \u00e0 quantit\u00e9, comporte elle-m\u00eame une ou plusieurs voyelles longues. Il a \u00e9t\u00e9 mentionn\u00e9 en section 4.7 que Frolex n&rsquo;a pas repris les (rares) quantit\u00e9s latines not\u00e9es par le FEW, mais qu&rsquo;il restitue la quantit\u00e9 des mots germaniques du FEW. Ainsi sur les 1.781 lignes (15,5%) du corpusD v4 qui n&rsquo;ont pu \u00eatre align\u00e9es avec une forme des trois dictionnaires \u00e0 quantit\u00e9, 181 comportent une forme germanique \u00e0 quantit\u00e9. Il se trouve donc au total dans le corpusD 9.882 lignes (86,1% des lignes \u00e0 forme FEW) qui notent la quantit\u00e9.<\/p>\r\n<p>L&rsquo;ensemble de ces informations a \u00e9t\u00e9 incorpor\u00e9 dans le corpusD en deux colonnes\u00a0: l&rsquo;une donnant la forme FEW (sans quantit\u00e9, 11.482 lignes), l&rsquo;autre la forme avec quantit\u00e9 si disponible (9.882 lignes), sinon la forme FEW sans quantit\u00e9 (1.781-181 = 1600 lignes). Enfin, une troisi\u00e8me colonne identifie le dictionnaire qui a fourni la forme (Gaffiot, GGHF, K\u00f6bler, FEW) et une quatri\u00e8me colonne, s&rsquo;il la donne ast\u00e9risqu\u00e9e ou non.<\/p>\r\n<p>L&rsquo;utilisateur re\u00e7oit l&rsquo;ensemble de cette information dans les r\u00e9sultats de ses recherches sous la forme de deux colonnes\u00a0: \u00ab\u00a0\u00e9tymon (sans quant., FEW)\u00a0\u00bb (avec ast\u00e9risque et points d&rsquo;interrogation) et \u00ab\u00a0\u00e9tymon (avec quantit\u00e9)\u00a0\u00bb. Cette derni\u00e8re fournit les formes avec quantit\u00e9 ainsi que leur provenance (G, GGHF, K). L&rsquo;affichage des r\u00e9sultats des recherches se faisant par lemmes, l&rsquo;ensemble des informations concernant un \u00e9tymon est align\u00e9 \u00e0 son lemme.<\/p>\r\n<p>Le tableau sous (25) montre cette organisation des donn\u00e9es dans le corpusD v5, ne mentionnant que le lemme et l&rsquo;information concernant l&rsquo;\u00e9tymon associ\u00e9e.<\/p>\r\n<table style=\"width: 104.132%;\" width=\"640\">\r\n<tbody>\r\n<tr>\r\n<td style=\"width: 10.2644%;\" width=\"80\">(25)<\/td>\r\n<td style=\"width: 64.6967%;\" colspan=\"5\" width=\"400\">corpusD v5 : avec \u00e9tymons (FEW, Gaffiot, GGHF, K\u00f6bler)<\/td>\r\n<td style=\"width: 13.2193%;\" width=\"80\">\u00a0<\/td>\r\n<td style=\"width: 24.3472%;\" width=\"80\">\u00a0<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 10.2644%;\">catgram<\/td>\r\n<td style=\"width: 16.1742%;\">lemme<\/td>\r\n<td style=\"width: 13.5303%;\">FEW<\/td>\r\n<td style=\"width: 11.5086%;\">ast\u00e9risque FEW<\/td>\r\n<td style=\"width: 9.79782%;\" width=\"80\">point <br \/>d&rsquo;interr. <br \/>FEW<\/td>\r\n<td style=\"width: 13.6858%;\">\u00e9tymon quantit\u00e9<\/td>\r\n<td style=\"width: 13.2193%;\" width=\"80\">dictionnaire quantit\u00e9<\/td>\r\n<td style=\"width: 24.3472%;\">ast\u00e9risque \u00e9tymon quantit\u00e9<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 10.2644%;\">ver<\/td>\r\n<td style=\"width: 16.1742%;\">aancrer<\/td>\r\n<td style=\"width: 13.5303%;\">ancora<\/td>\r\n<td style=\"width: 11.5086%;\">faux<\/td>\r\n<td style=\"width: 9.79782%;\">faux<\/td>\r\n<td style=\"width: 13.6858%;\">ancora<\/td>\r\n<td style=\"width: 13.2193%;\">G<\/td>\r\n<td style=\"width: 24.3472%;\">faux<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 10.2644%;\">ver<\/td>\r\n<td style=\"width: 16.1742%;\">aatir<\/td>\r\n<td style=\"width: 13.5303%;\">hatjan<\/td>\r\n<td style=\"width: 11.5086%;\">vrai<\/td>\r\n<td style=\"width: 9.79782%;\">faux<\/td>\r\n<td style=\"width: 13.6858%;\">hatjan<\/td>\r\n<td style=\"width: 13.2193%;\">GGHF<\/td>\r\n<td style=\"width: 24.3472%;\">vrai<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 10.2644%;\">ver<\/td>\r\n<td style=\"width: 16.1742%;\">abahir<\/td>\r\n<td style=\"width: 13.5303%;\">batare<\/td>\r\n<td style=\"width: 11.5086%;\">faux<\/td>\r\n<td style=\"width: 9.79782%;\">faux<\/td>\r\n<td style=\"width: 13.6858%;\">bat\u0101re<\/td>\r\n<td style=\"width: 13.2193%;\">GGHF<\/td>\r\n<td style=\"width: 24.3472%;\">vrai<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 10.2644%;\">nomcom<\/td>\r\n<td style=\"width: 16.1742%;\">abaissement<\/td>\r\n<td style=\"width: 13.5303%;\">bassiare<\/td>\r\n<td style=\"width: 11.5086%;\">vrai<\/td>\r\n<td style=\"width: 9.79782%;\">faux<\/td>\r\n<td style=\"width: 13.6858%;\">bassi\u0101re<\/td>\r\n<td style=\"width: 13.2193%;\">GGHF<\/td>\r\n<td style=\"width: 24.3472%;\">vrai<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 10.2644%;\">ver<\/td>\r\n<td style=\"width: 16.1742%;\">abosmer<\/td>\r\n<td style=\"width: 13.5303%;\">abominari<\/td>\r\n<td style=\"width: 11.5086%;\">faux<\/td>\r\n<td style=\"width: 9.79782%;\">faux<\/td>\r\n<td style=\"width: 13.6858%;\">ab\u014dmin\u0101r\u012b<\/td>\r\n<td style=\"width: 13.2193%;\">G<\/td>\r\n<td style=\"width: 24.3472%;\">faux<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 10.2644%;\">ver<\/td>\r\n<td style=\"width: 16.1742%;\">abouter<\/td>\r\n<td style=\"width: 13.5303%;\">botan<\/td>\r\n<td style=\"width: 11.5086%;\">vrai<\/td>\r\n<td style=\"width: 9.79782%;\">faux<\/td>\r\n<td style=\"width: 13.6858%;\">botan<\/td>\r\n<td style=\"width: 13.2193%;\">FEW<\/td>\r\n<td style=\"width: 24.3472%;\">vrai<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 10.2644%;\">nomcom<\/td>\r\n<td style=\"width: 16.1742%;\">abusion<\/td>\r\n<td style=\"width: 13.5303%;\">abusio<\/td>\r\n<td style=\"width: 11.5086%;\">faux<\/td>\r\n<td style=\"width: 9.79782%;\">faux<\/td>\r\n<td style=\"width: 13.6858%;\">ab\u016bsi\u014d<\/td>\r\n<td style=\"width: 13.2193%;\">G<\/td>\r\n<td style=\"width: 24.3472%;\">faux<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 10.2644%;\">ver<\/td>\r\n<td style=\"width: 16.1742%;\">accompagner<\/td>\r\n<td style=\"width: 13.5303%;\">companio<\/td>\r\n<td style=\"width: 11.5086%;\">faux<\/td>\r\n<td style=\"width: 9.79782%;\">faux<\/td>\r\n<td style=\"width: 13.6858%;\">comp\u0101nio<\/td>\r\n<td style=\"width: 13.2193%;\">K<\/td>\r\n<td style=\"width: 24.3472%;\">faux<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 10.2644%;\">ver<\/td>\r\n<td style=\"width: 16.1742%;\">accrocher<\/td>\r\n<td style=\"width: 13.5303%;\">krok<\/td>\r\n<td style=\"width: 11.5086%;\">vrai<\/td>\r\n<td style=\"width: 9.79782%;\">faux<\/td>\r\n<td style=\"width: 13.6858%;\">kr\u014dk<\/td>\r\n<td style=\"width: 13.2193%;\">FEW<\/td>\r\n<td style=\"width: 24.3472%;\">vrai<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 10.2644%;\">nomcom<\/td>\r\n<td style=\"width: 16.1742%;\">adjectif<\/td>\r\n<td style=\"width: 13.5303%;\">adjectivum<\/td>\r\n<td style=\"width: 11.5086%;\">faux<\/td>\r\n<td style=\"width: 9.79782%;\">faux<\/td>\r\n<td style=\"width: 13.6858%;\">adject\u012bvum<\/td>\r\n<td style=\"width: 13.2193%;\">K<\/td>\r\n<td style=\"width: 24.3472%;\">faux<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 10.2644%;\">nomcom<\/td>\r\n<td style=\"width: 16.1742%;\">bise<\/td>\r\n<td style=\"width: 13.5303%;\">bisjo<\/td>\r\n<td style=\"width: 11.5086%;\">vrai<\/td>\r\n<td style=\"width: 9.79782%;\">faux<\/td>\r\n<td style=\"width: 13.6858%;\">b\u012bsjo<\/td>\r\n<td style=\"width: 13.2193%;\">FEW<\/td>\r\n<td style=\"width: 24.3472%;\">vrai<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 10.2644%;\">nomcom<\/td>\r\n<td style=\"width: 16.1742%;\">amenuisement<\/td>\r\n<td style=\"width: 13.5303%;\">minutiare<\/td>\r\n<td style=\"width: 11.5086%;\">faux<\/td>\r\n<td style=\"width: 9.79782%;\">faux<\/td>\r\n<td style=\"width: 13.6858%;\">min\u016bti\u0101re<\/td>\r\n<td style=\"width: 13.2193%;\">GGHF<\/td>\r\n<td style=\"width: 24.3472%;\">vrai<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 10.2644%;\">nomcom<\/td>\r\n<td style=\"width: 16.1742%;\">apparoit<\/td>\r\n<td style=\"width: 13.5303%;\">apparescere<\/td>\r\n<td style=\"width: 11.5086%;\">vrai<\/td>\r\n<td style=\"width: 9.79782%;\">vrai<\/td>\r\n<td style=\"width: 13.6858%;\">app\u0101r\u0113scere<\/td>\r\n<td style=\"width: 13.2193%;\">G<\/td>\r\n<td style=\"width: 24.3472%;\">faux<\/td>\r\n<\/tr>\r\n<\/tbody>\r\n<\/table>\r\n<p>&nbsp;<\/p>\r\n<p><span style=\"font-size: 14pt;\"><a id=\"T4.9\"><\/a>4.9. CorpusD: r\u00e9capitulatif des propri\u00e9t\u00e9s<\/span><\/p>\r\n<p>Les tableaux (26) \u00e0 (29) r\u00e9unissent les chiffres pertinents mentionn\u00e9s qui caract\u00e9risent le corpusD.<\/p>\r\n<table style=\"width: 68.3684%;\" width=\"464\">\r\n<tbody>\r\n<tr>\r\n<td style=\"width: 8.65801%;\" width=\"30\">(26)<\/td>\r\n<td style=\"width: 95.2649%;\" width=\"434\">corpusD (d\u00e9finitf)\u00a0: volume<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 8.65801%;\">a.<\/td>\r\n<td style=\"width: 95.2649%;\">200 textes repr\u00e9sentant 2.214.196 mots<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 8.65801%;\">b.<\/td>\r\n<td style=\"width: 95.2649%;\">r\u00e9duits \u00e0 98.230 formes uniques (m\u00eame mot, m\u00eame cat.gram.)<\/td>\r\n<\/tr>\r\n<\/tbody>\r\n<\/table>\r\n<p>&nbsp;<\/p>\r\n<table style=\"width: 89.2422%;\" width=\"464\">\r\n<tbody>\r\n<tr>\r\n<td style=\"width: 5.37172%;\" width=\"30\">(27)<\/td>\r\n<td style=\"width: 130.343%;\" width=\"434\">lemmatisation des 98.230 formes uniques<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 5.37172%; vertical-align: top;\" width=\"30\">a.<\/td>\r\n<td style=\"width: 130.343%;\" width=\"434\">m\u00e9thode\u00a0: alignement avec les formes Frolex du fichier frolex-3.0, inscription des lemmes Frolex associ\u00e9s dans le corpusD. Puis d\u00e9sambigu\u00efsation par le codeD, compar\u00e9 \u00e0 la cat.gram. Frolex.<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 5.37172%;\" width=\"30\">b.<\/td>\r\n<td style=\"width: 130.343%;\" width=\"434\">r\u00e9sultat<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 5.37172%;\">\u00a0<\/td>\r\n<td style=\"width: 130.343%;\" width=\"434\">\r\n<ul>\r\n<li>1. 56.562 formes (soit 57,6%) ont re\u00e7u un lemme Frolex (vrais lemmes)<\/li>\r\n<li>les 41.668 (42,4%) formes rest\u00e9es sans lemme Frolex ont \u00e9t\u00e9 promues au statut de lemme (faux lemmes)<\/li>\r\n<li>nombre de lemmes uniques\u00a0: 54.362<\/li>\r\n<li>dont 14.087 (soit 25,9%) sont des vrais lemmes, et 40.275 (soit 74,1%) des faux lemmes<\/li>\r\n<\/ul>\r\n<\/td>\r\n<\/tr>\r\n<\/tbody>\r\n<\/table>\r\n<p>&nbsp;<\/p>\r\n<table style=\"width: 91.3978%;\" width=\"464\">\r\n<tbody>\r\n<tr>\r\n<td style=\"width: 5.43158%; vertical-align: top;\">(28)<\/td>\r\n<td style=\"width: 133.568%;\">alignement lemmes &#8211; \u00e9tymons du FEW<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 5.43158%; vertical-align: top;\" width=\"30\">a.<\/td>\r\n<td style=\"width: 133.568%;\" width=\"434\">m\u00e9thode\u00a0: alignement des lemmes du corpusD avec les lemmes Frolex du fichier clfrolex-3.0, inscription des formes FEW dans le corpusD.<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 5.43158%;\" width=\"30\">b.<\/td>\r\n<td style=\"width: 133.568%;\" width=\"434\">r\u00e9sultat<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 5.43158%;\">\u00a0<\/td>\r\n<td style=\"width: 133.568%;\">\r\n<ul>\r\n<li>11.482 lignes (m\u00eame cat.gram. &#8211; lemme), soit 21,1% des 54.362 lemmes du corpusD, ont re\u00e7u une forme FEW.<\/li>\r\n<li>mais seuls les vrais lemmes peuvent trouver une forme FEW\u00a0: les faux lemmes ne sont pas des lemmes Frolex et par cons\u00e9quent ne trouveront pas de correspondant parmi les lemmes Frolex et, partant, d&rsquo;alignement avec une forme FEW.<\/li>\r\n<li>ainsi, parmi les 11.482 lignes qui ont re\u00e7u une forme FEW, seuls deux sont des faux lemmes.<\/li>\r\n<li>les 11.482 lignes align\u00e9es avec une forme FEW repr\u00e9sentent 81,5% des vrais lemmes (au nombre de 14.087) du corpusD.<\/li>\r\n<\/ul>\r\n<\/td>\r\n<\/tr>\r\n<\/tbody>\r\n<\/table>\r\n<p>&nbsp;<\/p>\r\n<table style=\"width: 88.0022%;\" width=\"366\">\r\n<tbody>\r\n<tr>\r\n<td style=\"width: 6.54825%;\" width=\"41\">(29)<\/td>\r\n<td style=\"width: 163.507%;\" colspan=\"3\" width=\"325\">alignement FEW &#8211; dictionnaires \u00e0 quantit\u00e9<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 6.54825%; vertical-align: top;\">a.<\/td>\r\n<td style=\"width: 163.507%;\" colspan=\"3\">m\u00e9thode\u00a0: alignement des formes FEW du corpusD avec les entr\u00e9es (sans quantit\u00e9 vocalique) des dictionnaires Gaffiot, GGHF et K\u00f6bler, inscription des formes avec quantit\u00e9 vocalique fournies par ces dictionnaires dans le corpusD. Alignement hi\u00e9rarchique: d&rsquo;abord avec le Gaffiot, puis alignement des lignes restantes avec la GGHF, enfin alignement des lignes toujours restantes avec le K\u00f6bler.<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 6.54825%; vertical-align: top;\">b.<\/td>\r\n<td style=\"width: 163.507%;\" colspan=\"3\">r\u00e9sultats<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 6.54825%; vertical-align: top;\">\u00a0<\/td>\r\n<td style=\"width: 3.47048%; vertical-align: top;\">1.<\/td>\r\n<td style=\"width: 160.036%;\" colspan=\"2\">\u00e9tant donn\u00e9 les 11.482 lignes poss\u00e9dant une forme FEW qui sont pr\u00e9sentes dans le corpusD,<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 6.54825%;\">\u00a0<\/td>\r\n<td style=\"width: 3.47048%; vertical-align: top;\">\u00a0<\/td>\r\n<td style=\"width: 3.73403%;\">\u2013<\/td>\r\n<td style=\"width: 156.302%;\">8147 (71%) ont trouv\u00e9 un correspondant dans le Gaffiot<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 6.54825%;\">\u00a0<\/td>\r\n<td style=\"width: 3.47048%; vertical-align: top;\">\u00a0<\/td>\r\n<td style=\"width: 3.73403%;\">\u2013<\/td>\r\n<td style=\"width: 156.302%;\">692 (6%) dans la GGHF<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 6.54825%;\">\u00a0<\/td>\r\n<td style=\"width: 3.47048%; vertical-align: top;\">\u00a0<\/td>\r\n<td style=\"width: 3.73403%;\">\u2013<\/td>\r\n<td style=\"width: 156.302%;\">862 (7,5%) dans le K\u00f6bler<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 6.54825%;\">\u00a0<\/td>\r\n<td style=\"width: 3.47048%; vertical-align: top;\">\u00a0<\/td>\r\n<td style=\"width: 3.73403%;\">\u2013<\/td>\r\n<td style=\"width: 156.302%;\">181 (1,6%) ont une forme FEW \u00e0 quantit\u00e9 (mots germaniques)<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 6.54825%;\">\u00a0<\/td>\r\n<td style=\"width: 3.47048%; vertical-align: top;\">2.<\/td>\r\n<td style=\"width: 160.036%;\" colspan=\"2\">cela a donc fourni des \u00e9tymons avec quantit\u00e9 venant de des quatre dictionnaires \u00e0 9.882 lignes du CorpusD (soit 86,1% des 11.482 lignes \u00e0 forme FEW).\u00a0<\/td>\r\n<\/tr>\r\n<tr>\r\n<td style=\"width: 6.54825%;\">\u00a0<\/td>\r\n<td style=\"width: 3.47048%; vertical-align: top;\">3.<\/td>\r\n<td style=\"width: 160.036%;\" colspan=\"2\">les 1600 lignes \u00e0 forme FEW restantes (13,9%) n&rsquo;ont pas de version avec quantit\u00e9.<\/td>\r\n<\/tr>\r\n<\/tbody>\r\n<\/table>\r\n<p>&nbsp;<\/p>\r\n<p>&nbsp;<\/p>\r\n<!-- \/wp:paragraph -->","protected":false},"excerpt":{"rendered":"<p>4.1. Fichiers d&rsquo;origine 4.2. Les 200 textes du corpusD 4.3. CorpusD v1\u00a0: un mot par ligne 4.4. CorpusD v2\u00a0: lignes uniques avec 107 colonnes g\u00e9ographiques 4.5. CorpusD v3\u00a0: introduction de la colonne lemme 4.6. Propri\u00e9t\u00e9s du corpusD v3 4.7. CorpusD v4\u00a0: introduction d&rsquo;une colonne \u00ab\u00a0\u00e9tymon\u00a0\u00bb (FEW) 4.8. CorpusD v5 (d\u00e9finitive) : introduction de la quantit\u00e9 [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"footnotes":""},"class_list":["post-90","page","type-page","status-publish","hentry"],"_links":{"self":[{"href":"http:\/\/atlasdees.unice.fr\/wordpress\/index.php?rest_route=\/wp\/v2\/pages\/90","targetHints":{"allow":["GET"]}}],"collection":[{"href":"http:\/\/atlasdees.unice.fr\/wordpress\/index.php?rest_route=\/wp\/v2\/pages"}],"about":[{"href":"http:\/\/atlasdees.unice.fr\/wordpress\/index.php?rest_route=\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"http:\/\/atlasdees.unice.fr\/wordpress\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"http:\/\/atlasdees.unice.fr\/wordpress\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=90"}],"version-history":[{"count":30,"href":"http:\/\/atlasdees.unice.fr\/wordpress\/index.php?rest_route=\/wp\/v2\/pages\/90\/revisions"}],"predecessor-version":[{"id":327,"href":"http:\/\/atlasdees.unice.fr\/wordpress\/index.php?rest_route=\/wp\/v2\/pages\/90\/revisions\/327"}],"wp:attachment":[{"href":"http:\/\/atlasdees.unice.fr\/wordpress\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=90"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}