FEC - Folia Electronica Classica (Louvain-la-Neuve) - Numéro 1 - janvier-juin 2001


Les approches statistiques du Projet ITINERA ELECTRONICA : présentation et résultats

par

Jean Schumacher*

Responsable de l'informatique à la Faculté de Philosophie et Lettres


Plan

  • 1. Introduction
  • 2. Les approches statistiques
    • 2.1. Préliminaires
    • 2.2. Contenu des approches statistiques
      • 2.2.1. La composition des formes
      • 2.2.2. Les fréquences d'attestation et le calcul des écarts
      • 2.2.3. Les cooccurrences
      • 2.2.4. Les longueurs de phrases
      • 2.2.5. L'enrichissement du vocabulaire
      • 2.2.6. La mise en évidence d'un fait de langue
      • 2.2.7. La comparaison de vocabulaires
    • 2.3. Les procédures
      • 2.3.1. Mise en oeuvre en ligne
        • 2.3.1.1. L'environnement informatique
        • 2.3.1.2. Le Login ou code d'accès
        • 2.3.1.3. La sélection d'une oeuvre ou d'un extrait textuel - le lancement d'une application
      • 2.3.2. Mise en oeuvre hors-ligne
  • 3. Conclusion
  • 4. Notes

1. Introduction 

Le Projet ITINERA ELECTRONICA (1) veut être une source vive d'environnements éducatifs interactifs au bénéfice de l'enseignement et de l'apprentissage des langues, des littératures et des cultures classiques, spécialement le latin.

Le serveur éducatif, en appui de ce projet, renferme ainsi des enseignements, des apprentissages (sous forme de parcours didactiques), des recherches lexicographiques, des applications informatiques (applications d'essai et approches statistiques), des banques et des bases de données textuelles, de la documentation informatisée (actualités, salon de lecture, travaux, supplément pédagogique (2).

Parmi les réalisations informatiques du projet, les applications d'essai permettent de faire des analyses linguistiques de façon interactive via la Toile : description lexicographique de base (lemmatisation), analyses morphologique, syntaxique et stylistique. Outils de travail en ligne : un Lexique de base du latin ainsi qu'un Précis grammatical.

Les résultats de ces essais d'analyse linguistique avec recours aux outils électroniques peuvent être communiqués à des tiers - des enseignants, par exemple, - sous la forme d'un document annexé à un courrier électronique. Les analyses faites viennent enrichir, après vérification, un Thesaurus des formes déjà analysées qui sera utilisé pour pourvoir d'analyses, sur la base d'une comparaison, des formes latines d'un nouveau texte qui vient en examen.

Les approches statistiques, objet de la présente publication, portent exclusivement sur les formes d'un texte ; elles ne reposent dès lors pas sur une analyse philologique préalable. Ainsi, les particules enclitiques -ne, -ue, -cum, par exemple, ne sont pas enlevées des formes auxquelles elles sont attachées. Les détacher reviendrait à faire une première analyse du texte : conditione, par exemple, peut être l'association de conditio + ne mais aussi représenter l'ablatif singulier du lemme conditio, ionis.

Maintenir ces associations telles quelles est de nature à fausser les résultats des analyses statistiques qui vont être opérées mais seulement de façon négligeable comme le prouvent les expérimentations faites.


2. Les approches statistiques 

2.1 Préliminaires

Les approches statistiques du Projet ITINERA ELECTRONICA relèvent de ce qu'il est convenu d'appeler la statistique lexicale ou encore l'informatique textuelle (3).

La statistique lexicale substitue à l'approche linéaire d'un texte, - dont la lecture est le moyen d'investigation -, une approche verticale basée sur des données et des relevés qui traversent tout le texte. Le corpus - oeuvre ou ensemble d'oeuvres - est organisé en base de données textuelles qui, au travers des questionnements et des consultations dont elle peut faire l'objet, offre au lecteur - enquêteur la possibilité d'une inspection, voire d'une maîtrise globale du texte.

La statistique lexicale primaire - ou de base - s'intéresse aux formes d'un texte ou d'un corpus de textes, à leur composition (en caractères - lettres de l'alphabet), à leurs attestations, à leur fréquence d'emploi et, au-delà, à la richesse, à la spécificité, à l'accroissement et à l'évolution d'un vocabulaire d'auteur.

L'objectif de ces statistiques de base est d'aider à la détermination du profil linguistique d'un auteur par le biais de touches successives et progressives dont la convergence est de nature à dévoiler les pratiques d'écriture de l'auteur examiné.

 

2.2 Contenu des approches statistiques

2.2.1 La composition des formes

Quatre approches : le calcul du nombre de caractères par forme, la répartition des caractères suivant les lettres de l'alphabet, les relevés des consonnes redoublées et des récurrences phoniques.

Exemple : HORACE, Odes I,1 (Maecenas atauis edite regibus... ; 180 formes au total), III,1 (Odi profanum uolgus et arceo... ; 204 formes), III,30 (Exegi monumentum aere perennius... ; 80 formes) et IV,4 (Qualem ministrum fulminis alitem... ; 332 formes) :

  • formes les plus longues, respectivement : condicionibus (13 caractères), Achaemeniumque (14), innumerabilis (13) et penetralibus (12) ;

  • longeurs les plus fréquemment attestées, respectivement : formes de 7 caractères (25,5 % du vocabulaire des formes), formes de 5 caractères (18,13 %), formes de 6 caractères (17,5 %) et formes de 8 caractères (16,8 %) ;

  • lettres de l'alphabet les plus fréquemment employées, respectivement : «s» (94 emplois), «u» (85 x), «e» (37 x) et «e» (144 x) ;

  • lettre figurant le plus souvent en début de mot, respectivement : «s» (22 emplois), «s» (22 x), «a» et «p» (10 x), «p» (36 x) ;

  • consonnes redoublées, respectivement : «ll» et «rr» (4 emplois), «ll» (3 x), «nn» (3 x) et «ll» (5 x) ;

  • récurrences phoniques, respectivement : «er» (26 emplois), «en» (22 x), «um» (12 x) et «er» (44 x).

Les données présentées ci-dessus concernent des oeuvres considérées de façon isolée à chaque fois. Ces résultats n'ont qu'une valeur indicative, peu probante en soi.

L'application de ces statistiques à l'ensemble des Odes d'Horace ainsi qu'à des corpus d'autres poètes est de nature à confirmer ces premiers résultats et peut éventuellement servir aussi à différencier les auteurs entre eux.

Corpus traités : les Odes d'Horace (13.700 formes), les Métamorphoses d'Ovide (77.078 formes) et les Fables de Phèdre (11.696 formes) :

  • formes les plus longues, respectivement : 14, 17 et 15 caractères ;

  • longueurs les plus fréquemment attestées, respectivement : formes de 5 caractères (18,40 %, Horace), 5 caractères (17,49 %, Ovide) ; 6 et 5 caractères (15,89 et 15,36 %, Phèdre) ;

  • lettres de l'alphabet les plus fréquemment employées, respectivement : «u» (5.303 emplois), «t» (4.752) et «a» (4.544) pour Horace ; «e» (32.736 emplois), «t» (28.488) et «a» (28.178) pour Ovide ; «u» (4.617 emplois), «t» (4.194) et «a» (3.816) pour Phèdre ;

  • lettre figurant le plus souvent en début de mot, respectivement : «p» (1.259 emplois), «a» (1.102) et «s» (1.044) chez Horace ; «a» (6.663 emplois), «s» (6.659) et «p» (6.562) chez Ovide ; «s» (1.095 emplois), «i» (989) et «c» (960) chez Phèdre ;

  • consonnes redoublées, respectivement : «ll», «rr» et «ss» dans Horace ; «ll», «ss» et, nettement moins fréquemment, «rr» dans Ovide ; «ll», «ss» et, loin derrière, «rr» pour Phèdre.

Constatations : Pour Horace, les résultats observés isolément se trouvent confirmés globalement (consonnes redoublées et début des mots) ou du moins partiellement (lettre la plus fréquente). La comparaison des vocabulaires d'Horace, d'Ovide et de Phèdre au niveau élémentaire où elle est pratiquée ici fait (déjà) apparaître une différenciation chez Phèdre en ce qui concerne mots les plus fréquemment utilisés (d'après leurs lettres à l'initiale) : mots commençant par «p, a, s» chez Horace et Ovide mais commençant par «s, i, c» chez Phèdre. Des analyses du vocabulaire utilisé par ces auteurs devront montrer si la particularité relevée par cette première statistique se trouve confirmée par et dans le choix des mots.

2.2.2 Les fréquences d'attestation et le calcul des écarts

Les dénombrements effectués portent sur le nombre de fois où chaque forme est attestée dans le corpus analysé ainsi que sur le calcul d'une fréquence d'attestation théorique ; la comparaison entre cette norme d'attestation théorique et la fréquence d'apparition réelle produit des écarts soit positifs soit négatifs. L'observation de ces écarts permet de faire ressortir - lorsque les populations prises en compte ont un volume statistiquement critique - d'une part le vocabulaire thématique d'une oeuvre (écarts positifs significatifs) et, d'autre part, le vocabulaire délaissé ou moins recherché (écarts négatifs).

Exemple : LUCRECE, De la nature des choses, Lv. 1
Résultats des dénombrements :

  • Nombre total de formes : 7.243 ;

  • Nombre total de formes différentes : 2.700 ;

  • Fréquence d'attestation théorique pour chaque forme : 7.243 : 2.700 = 2,6 ;

  • Formes présentant les écarts positifs les plus élevés par rapport à cette norme théorique : et (+ 128,4), in (+ 114,4), quod (+ 85,4), etc.

Ce sont les mots de liaison (conjonctions, prépositions, adverbes, etc.) qui ont les écarts les plus élevés. La quintessence, cependant, de cette approche statistique réside du cÙté des écarts les plus élevés frappant les mots pleins (ou sémantiques ou significatifs) : substantifs, adjectifs, verbes, etc.

Le choix préférentiel de l'auteur pour l'un ou l'autre mot plein, mis en lumière par un nombre d'emplois largement supérieur à la norme d'attestation théorique, peut être un indicateur d'une ligne directrice, d'une thématique qui traverse l'oeuvre de part en part.

Ainsi, dans le premier livre du De la nature des choses de Lucrèce, ce sont les formes res (écart positif de + 64,4), rebus (+ 60,4), rerum (+ 48,4), corpora (+ 44,4), ratione (+37,4), inane (+31,4) etc. qui trustent les surplus d'apparition.

Dans la Guerre de Catilina de Salluste (10.668 formes et 3.946 formes différentes) les écarts les plus élevés pour des mots significatifs concernent res (+ 42,3), rem (+ 29,3), Catilina (+ 25,3), publicam (+ 22,3), animus (+ 21,3), imperium (+ 17,3), etc. Il n'en faut pas plus pour déduire que dans cette oeuvre il est question de la république, de Catilina et du pouvoir.

Un écart positif de +/- 20 points peut être considéré comme significatif ; dans les Odes d'Horace seule la forme mare obtient un écart tournant autour de cette valeur pivot : + 18,2. La mer aurait-elle une présence particulière dans ces Odes ?

Il est à remarquer que la comparaison des vocabulaires d'Horace et de Salluste est nettement à l'avantage d'Horace dont les Odes attestent 7.230 formes différentes pour 3.946 seulement dans l'oeuvre considérée de Salluste alors que le nombre total de formes est seulement un peu plus élevé chez Horace (13.700) que chez Salluste (10.668 formes). Ce qui revient à dire que le vocabulaire d'Horace est un vocabulaire neuf au travers de toutes les Odes - 72% du vocabulaire n'est attesté qu'à une ou deux reprises dans l'ensemble des Odes - alors que celui de Salluste est répétitif et d'une faible ampleur (à ne considérer que la Guerre de Catilina).

2.2.3 Les cooccurrences

Les dénombrements effectués dans le cadre de l'approche statistique traitent les formes, prises deux à deux dans l'ordre du texte, de manière à présenter en résultat dans un relevé les expressions, les syntagmes et les autres types d'associations de termes bien attestées.

Exemples :

TERENCE, Les Adelphes (9.092 formes au total). Quelques associations reviennent à plusieurs reprises : a me (6 apparitions), ad me (5), de quid (9), pater mi (9), mi pater (7), etc.

VIRGILE, Enéide, chants I à XII (60.515 formes) : ab alto (23 emplois), tum uero (22) , in armis (20), ad litora (19), ad sidera (17), pater Aeneas (16), per auras (16), pius Aeneas (16), pater Anchises (11), talia fatur (1), pater omnipotens (9), etc.

Ces expressions et/ou associations font partie des formulations préférées de l'auteur examiné. A côté des mots fétiches révélés par l'approche précédente, ces expressions relèvent de la mémoire (mentale) de leur auteur.

2.2.4 Les longueurs de phrases

Le dénombrement calcule le nombre de formes que comporte chaque phrase, dresse, en finale, un relevé de ces phrases et établit la moyenne des formes par phrase dans l'ensemble considéré. Les écarts par rapport à cette moyenne - phrases très longues ou très courtes - peuvent révéler des particularités linguistiques comme, par exemple, une harangue d'un chef de guerre juste avant le combat, harangue faite de phrases courtes et incisives et qui se trouve enclavée dans des développements historiques construits autour de phrases plus charpentées et structurées.

Exemple : SUETONE, Vie de Néron (7.841 formes , 310 phrases, longueur moyenne  : 25 formes par phrase) ou CICERON, De la nature des dieux, I, 1-10 (978 formes, 27 phrases, longueur moyenne : 36 formes par phrase).

Visiblement, dans un traité philosophique les développements semblent plus longs que dans une narration historique.

Chez Cicéron, la phrase la plus courte - 13 mots - est une question qui introduit un nouveau développement philosophique:

Quorum si uera sententia est, quae potest esse pietas, quae sanctitas, quae religio ? (chap. 1) ;

la phrase la plus longue, par contre, - 84 formes - rend « en une fois » les caractéristiques principales d'un mouvement philosophique en opposition avec celui qui vient d'être présenté :

Sunt autem alii philosophi, et hi quidem magni atque nobiles, qui deorum mente atque ratione omnem mundum administrari et regi censeant, neque uero id solum, sed etiam ab isdem hominum uitae consuli et prouideri; nam et fruges et reliqua, quae terra pariat, et tempestates ac temporum uarietates caelique mutationes, quibus omnia, quae terra gignat, maturata pubescant, a dis inmortalibus tribui generi humano putant, multaque, quae dicentur, in his libris colligunt, quae talia sunt, ut ea ipsa dei inmortales ad usum hominum fabricati paene uideantur. (chap. 4).

2.2.5 L'enrichissement du vocabulaire

Au travers de l'application il s'agit de mesurer l'apport de vocabulaire neuf tout au long d'une oeuvre découpée automatiquement et arbitrairement en tranches de 100 formes. La première tranche, celle qui ouvre l'oeuvre, est censée être la plus riche en vocabulaire puisque tout le vocabulaire est neuf car non encore utilisé. Au fur et à mesure de l'avancement dans l'oeuvre, le nombre de formes nouvelles, par rapport à celles déjà employées, va aller en s'amenuisant avec ici et là encore un « pic » de vocabulaire neuf. L'observation de ces « pics » est de nature à révéler des faits de langue : la description d'une situation particulière, l'emprunt textuel à un autre auteur, la poursuite de l'histoire du texte par une autre main, etc.

Exemple : SALLUSTE, Guerre de Catilina (10.668 formes réparties en 61 chapitres)  :

  • première tranche : 89 formes nouvelles (seules les formes cum, atque, est, sed, et, quam, alterum sont attestées plus d'une fois),

  • 2ième tranche : 74 formes nouvelles par rapport à celles de la tranche précédente,

  • 3ième tranche : 67 formes nouvelles par rapport à celles des 2 tranches précédentes,

  • à partir de la 10ième tranche : une stabilisation est observée : entre 40 et 55 formes nouvelles par tranche,

  • tranche 26 (chap. 17-18) : 51 formes nouvelles alors que la moyenne des tranches avoisinantes est de moins de 40 formes nouvelles par tranche ; explication : une énumération de personnages avec leurs noms complets,

  • tranche 50 (chap. 34) : 51 formes nouvelles, cf. tranche 26 ; explication : discours de Q. Marcius et contenu de plusieurs lettres de Catilina,

  • tranche 105 (chap. 59) : 41 formes nouvelles ; cf. tranches 26 et 50 ; explication : description du dispositif de bataille et harangue aux troupes.

2.2.6 La mise en évidence d'un fait de langue

Le fait de langue à traiter doit d'abord être marqué dans l'oeuvre sélectionnée.

Exemple : l'utilisation des verbes dans la Guerre des Gaules de César.

Chaque forme verbale est à entourer d'un symbole ($, par exemple) avec, en plus, entre parenthèses et à l'intérieur du syntagme délimité par les symboles, l'indication de la conjugaison à laquelle appartient la forme verbale (codes d'identification). Les quantifications et résultats obtenus se basent sur cette analyse préalable.

Exemple : CESAR, Guerre des Gaules, I, 1 :

(1) Gallos ab Aquitanis Garumna flumen, a Belgis Matrona et Sequana $ diuidit. (V3) $ Horum omnium fortissimi $ sunt (V6) $ Belgae,...

Dénombrement : Le livre I, chapitre premier renferme 30 formes verbales dont la majorité (11 formes ou 36,6 %) appartiennent à la 3ième conjugaison.

Cette application devrait très bien convenir à un travail de groupe et à l'observation de faits grammaticaux, de champs lexicaux ou thématiques ou encore d'approches stylistiques. L'observation peut porter sur une forme, sur une expression ou sur un ensemble de formes.

2.2.7 La comparaison de vocabulaires

L'application vise à déterminer, par le biais d'une comparaison des formes de deux textes, tant le vocabulaire commun à ces deux textes que les vocabulaires spécifiques ou propres à chacun d'entre eux. Ces textes peuvent être des oeuvres différentes d'un même auteur ou encore des oeuvres d'auteurs différents.

Cette approche doit permettre de caractériser des vocabulaires utilisés pour raconter une même histoire - exemple : l'affaire Catilina chez Cicéron et chez Salluste - mais peut aider aussi à déterminer l'attribution d'une oeuvre douteuse à un auteur donné.

Les résultats de comparaisons de vocabulaires déjà faites sont disponibles en ligne sous forme de tableaux au format HTML.

Exemples:

1. Deux éditoriaux de Claude IMBERT publiés dans le magazine Le POINT (22 décembre 2000: L'ère Clinton et 12 janvier 2001 : Le déclin du christianisme)

La comparaison des vocabulaires (des formes) indique que seules 99 formes sont communes et se retrouvent donc dans les 2 éditoriaux mais que ces 99 formes totalisent dans chacun des deux textes de l'ordre de 54  % du nombre total d'occurrences; en d'autres mots: avec 99 formes on construit env. 54 % du total des emplois des formes recensées.

Le premier éditorial compte 437 formes différentes pour 859 occurrences au total ; le deuxième: 405 formes différentes pour un total de 801 occurrences.

L'essentiel du vocabulaire des formes - respectivement 338 formes (ou 77,34 % du total des formes différentes) et 306 formes (ou 75,55 %) - est donc du vocabulaire propre ou spécifique à chacun des deux extraits. L'auteur semble donc choisir à chaque fois du vocabulaire neuf et approprié à chacun des sujets traités. Et la ratio entre vocabulaire commun et propre est respectée à chaque fois.

Des comparaisons similaires avec le vocabulaire d'autres éditoriaux sont venues confirmer ce fait. Par contre, une comparaison réalisée entre des textes d'éditorialistes de revues différentes a fait apparaître des répartitions plus différenciées entre les deux types de vocabulaire (commun et spécifique ou propre).

Cette approche est à considérer comme un point de départ, une première réflexion que des analyses plus approfondies doivent cerner de plus près quant à leur signification réelle.

2. La Guerre de Catilina de SALLUSTE et les Catilinaires de CICERON:

  • données statistiques: Guerre de Catilina: 3946 formes différentes pour un total de 10.668 occurrences; Catilinaires : 4.343 formes différentes pour 12.471 occurrences. 

  • vocabulaire commun: 1.269 formes différentes représentant respectivement 32,15 % et 29,21 % du total des formes différentes; ces 1.269 formes différentes totalisent respectivement 6.773 occurrences (63,48 % du total) et 8.230 occurrences (65,99 %) des oeuvres examinées.

  • vocabulaire propre (ou spécifique): l'examen rapide des 109 pages du relevé statistique fourni fait apparaître des lemmes spécifiques à chacune des deux oeuvres. 

    Le lemme est l'entrée de dictionnaire sous laquelle sont regroupées les différentes formes déclinées ou conjuguées de l'item envisagé. Comme l'approche statistique réalisée ici porte sur des formes et non pas sur des entrées de dictionnaire - il aurait fallu pour cela lemmatiser au préalable les deux oeuvres - , il a fallu vérifier dans ce relevé si pour une forme (d'un substantif, à titre d'exemple) déclarée propre à une des deux oeuvres, il n'y avait pas une forme déclinée à un autre cas dans le stock des formes communes, puis, dans celui des formes propres à l'autre oeuvre, avant de pouvoir donner à la forme examinée l'étiquette de forme spécifique à l'oeuvre envisagée.

    Un nombre d'attestations élevé pour une telle forme donne à la spécificité un poids supplémentaire car la grande majorité des formes dites propres ne sont en règle générale attestées qu'à une ou deux reprises. Cet examen a donné les résultats suivants :

  • mots outils spécifiques à la Guerre de Catilina de SALLUSTE: haud (12 attestations), postquam (25), sicuti (15), supra (8),

    mots outils spécifiques aux Catilinaires de CICERON: nec (9), num (8), quamquam (16), tibi (19), tu (26)

    mots significatifs (essentiellement des substantifs) spécifiques à la Guerre de Catilina de SALLUSTE : ambitio (4), ambitione (1), ambitionem (1) ; amicitia (2), amicitiam (1), amicitias (2) ; auaritia (9), auaritiam (1) ; Cato (6), Catoni (1), Catonis (1) ; Cicero (3), Cicerone (3), Ciceronem (4), Ciceroni (4), Ciceronis (4) ; Crasso (6), Crassum (3), Crassus (1) ; cupido (4), decoris (2), decus (3) ; discordia (1), discordias (1) ; diuite (1), diuites (1), diuitiae (6), diuitiarum (2), diuitias (8), diuitiis (5) ; eloquentia (1), eloquentiae (1) ; factione (1), factiones (1), factioni (1), factionis (1), factioso (1), factiosos (1), factiosus (1) ; feroces (1), ferociam (1), ferocis (1), ferocius (1), ferox (3) ; inculta (1), inculti (1), incultu (1) ; initio (8), initium (4) ; potentes (1), potentia (8), potentiam (1), potentium (1) ;

    mots significatifs (essentiellement des substantifs) spécifiques aux Catilinaires de CICERON : amentia (2), amentiae (1), amentiam (1) ; improbi (1), improbitati (1), improbum (2), inprobi (1), inprobis (1), inprobissimum (1), inprobitas (1), inproborum (3), inprobos (1), inprobus (2) ; interitu (2), interitum (2), interitus (1) ; internecione (1) ; latrocinio (3), latrocinium (3) ; lenitas (1), lenitate (2), lenitatem (1), lenitati (1) ; libertinorum (1), libertinum (1) ; naufragorum (1), naufragos (1) ; nudam (2), nudi (1), nudius (2) ; perditorum (6), perditos (1), perditus (2) ; perniciosa (1), perniciosam (1), perniciosos (1), perniciosum (1) ; perpetua (1), perpetuae (1), perpetuam (2), perpetuum (2) ; posteritatem (2), posteritatis (1) ; religio (1), religione (1) ; salua (2), salui (7), saluos (1) ; sanabo (1), sanare (2), sanari (2), sanaui (1) ; sempiterna (1), sempiternam (1), sempiternum (1) ; sicariorum (1), sicarius (1) ; singularem (1), singulari (2), singularibus (1) ; spiritu (1), spiritus (1) ; subsellia (1), subselliorum (2) ; supplicatio (3), supplicationem (2), supplicationibus (1) ; tabellae (2), tabellas (2) ; tabernas (1), tabernis (2) ; tecta (6), tectis (4) ; temeritate (1), temeritatem (1) ; uexatio (1), uexatione (1), uexationem (1) ; uxor (1), uxore (1), uxoris (1)

  •  

    Ces formes constituent autant de pistes à explorer en retournant au texte afin de découvrir - ou non - derrière la spécificité linguistique révélée par l'approche une particularité ou justification de contenu.

    Le recours à une autre approche statistique - les cooccurrences, par exemple, - permet d'observer que le perditorum, attesté 6 fois chez Cicéron, l'est 5 fois dans l'expression perditorum hominum (3) / hominum perditorum (2).

    L'ensemble des approches imaginées est susceptible, grâce à des éclairages différents et diversifiés, de lever le voile sur le vocabulaire et les artifices de composition d'un auteur.

    Remarque: les différentes listes produites permettent aussi de relever de manière aisée les coquilles introduites dans les textes suite à une lecture et reconnaissance optiques. Coquilles dont restent affublés bien des textes présents sous une version électronique dans les grands dépôts de textes à l'étranger.

     

2.3 Les procédures

Elles sont différentes suivant que l'application est mise en oeuvre en ligne ou hors-ligne.

À la date du 8 août 2001 toutes les approches statistiques sauf une (« la mise en évidence d'un fait de langue ») sont aussi disponibles hors-ligne.

2.3.1 Mise en oeuvre en ligne

2.3.1.1 L'environnement informatique

Côté utilisateur : un poste de travail (PC Pentium III ou IV ou Mac PowerMac G3 ou G4) connecté aux réseaux d'information et de communication (INTERNET ; via ligne téléphonique et modem, via ligne téléphonique ou câble de télédistribution et fournisseur d'accès, via INTRANET UCL et LAN, etc.), une liaison ouverte, un fureteur (ou fouineur) web du type NETSCAPE Communicator ou MS INTERNET EXPLORER ou encore OPERA dont les versions sont égales ou supérieures à la version 4.5

Côté serveur : un environnement serveur (machine serveur, serveur web, serveur d'applications, serveur de bases de données, serveur du courrier électronique, serveur de statistiques, etc.) ainsi que les applications approches statistiques.

Côté serveur de fichiers : des dépôts de textes latins comme celui de The Latin Library ou celui de The Latin Literature ou encore celui de la Bibliotheca Augustana ou, enfin, celui ouvert sur le serveur de la faculté POT-POURRI.

2.3.1.2 Le Login ou code d'accès

Les approches statistiques peuvent être exécutées autant de fois que l'on veut. Elles conviennent pour un travail de groupe ; une exécution peut s'étendre sur plusieurs sessions de travail ouvertes sur un poste de travail en salle didactique ou à la maison.

Il faut donc créer un environnement de travail personnalisé, réaliser des sauvegardes d'exécutions qui peuvent ainsi être rappelées en mémoire vive de l'ordinateur.

Le Login ou code d'accès concourt à la création d'un environnement et d'un portefeuille de réalisations personnalisés. Il se compose d'un nom d'utilisateur (ou de groupe) auquel est associé un mot de passe. Nom et mot de passe peuvent être librement déterminés par l'utilisateur.

Ce Login fait office de Sésame pour créer un environnement personnalisé et/ou pour accéder à un portefeuille déjà ouvert, à une réalisation en cours de traitement, à des travaux déjà terminés et sauvegardés.

2.3.1.3 La sélection d'une oeuvre ou d'un extrait textuel - le lancement d'une application

Il existe trois façons de soumettre des données à une approche statistique  :

  • Extraits de 500 à 1000 lignes de texte : les données peuvent être reprises en ligne dans un des dépôts de textes latins cités ci-dessus et placées via la procédure copier-coller dans le quadrilatère de sélection apparaissant dans la fenêtre d'affichage de l'application. Sur le serveur facultaire POT-POURRI se trouvent bien des textes, repris en règle générale à un des grands dépÙts de textes cités ci-dessus, mais ils y sont déjà « prêts à l'emploi » : l'uniformisation de la graphie «v» en «u» a déjà été faite, les notes et notices adventices dans une autre langue que le latin (anglais ou allemand) ont été enlevées, parfois un traitement des éléments de référenciation a été opéré également. L'application ne tient pas compte des chiffres, ni des signes spéciaux, ni des signes de ponctuation (sauf le point pour les longueurs de phrases).

  • Oeuvres dépassant 1000 lignes de texte : une liste d'oeuvres, placées sur le serveur facultaire, apparaît dans la fenêtre de sélection sous la forme d'une liste déroulante ; le surlignement d'une entrée de cette liste équivaut à la sélection de l'oeuvre en question.

  • Troisième possibilité (oeuvres de plus de 1000 lignes de texte) : via l'indication, dans la rubrique ad hoc de la fenêtre d'affichage, de l'adresse web complète de l'endroit où se trouve le fichier électronique de l'oeuvre à traiter.

    Exemple (Ovide, Métamorphoses) :
    http://pot-pourri.fltr.ucl.ac.be/files/AClassFTP/TEXTES/Ovide/ovid_met_tot.txt
    Les fichiers doivent être au format TEXTE (.TXT).

S'il n'y a pas lieu de procéder à un pré-traitement, comme pour les longueurs de phrases, le lancement de l'application et des dénombrements s'obtient en cliquant sur le bouton CALCULS.

Après un délai, dont la durée dépend et du volume des données à traiter et du débit des données au travers des lignes de communication, les relevés et les tableaux de répartition sont affichés à l'écran. Dans quelques cas, des tris ou des sélections complémentaires sont possibles sur la base des résultats déjà obtenus.

2.3.2 Mise en oeuvre hors-ligne (4)

Les enseignants et étudiants qui ont essayé de mettre en oeuvre les applications et les réalisations du Projet ITINERA ELECTRONICA ont fait part de difficultés rencontrées dues principalement à la faiblesse du débit des lignes de communications au travers desquelles les lancements d'applications et la réception des résultats ont lieu. Au point d'être mis dans l'impossibilité de pratiquer les environnements éducatifs élaborés.

Pour remédier à cet état des choses, qui devrait encore perdurer un certain temps, l'ouvrage a été remis sur le métier, une autre programmation a été envisagée et entreprise. Ainsi toutes les approches statistiques (sauf une) sont aussi disponibles hors-ligne.

Sur le serveur facultaire a été placé un dossier (5) au format comprimé comprenant l'application, son amorce d'installation ainsi que quelques textes témoins disponibles pour une utilisation immédiate.

Ce dossier est à télécharger sur le poste de travail de l'utilisateur. En cas de connexion via une ligne téléphonique et un modem à 56 Kbps, ce transfert peut prendre de 20 à 25 minutes. Une fois le dossier téléchargé, l'utilisateur doit procéder à sa décompression ainsi qu'au lancement (« setup ») de l'installation. L'installation crée une entrée ITINERA ELECTRONICA dans la liste des programmes disponibles sur le poste de travail. En double-cliquant sur cette entrée, le programme est activé, un fichier à traiter peut être sélectionné (au format .TXT) et les dénombrements peuvent être exécutés.

L'exécution peut se faire pour un texte ou extrait textuel latin mais aussi pour un texte relevant d'une langue moderne comme l'anglais, le français, l'allemand ou l'espagnol.

La version actuelle du programme occupe, lors de sa mise en oeuvre, de l'ordre de 3 Mégaoctets (Mo) de mémoire vive. Actuellement, l'application ne peut être exécutée que sur des postes de travail de type PC car l'environnement MS VISUAL BASIC, grâce auquel elle a été réalisée, n'existe pas (encore) pour les machines de la firme Apple.


3. Conclusion 

Lorsque la statistique lexicale a vu le jour dans les années 70 et que nous y avons recouru dans le cadre d'une thèse de doctorat consacrée à des études philologiques portant sur un auteur du moyen-âge latin belge, Sigebert de Gembloux (vers 1030-1112), les environnements informatiques s'appelaient ordinateur central (mainframe), centre de calcul, langage de programmation procédural et terminal d'accès. Le recours à un laboratoire d'informatique appliquée était incontournable pour encoder les données à traiter, pour y faire écrire les applications de traitement, pour le lancement des applications par lots, pour la collecte et l'examen des résultats après leur impression sur une imprimante centrale.

La micro-informatique est née dans les années 80 et a rendu l'utilisateur progressivement plus indépendant des machines centrales en lui permettant d'exécuter sur son poste de travail toute une série d'applications standardisées. Puis, dès le début des années 90, se sont répandus largement les réseaux de communication et INTERNET. Le nouvel ordinateur central est l'INTERNET. Et le monde (informatique) peut être considéré comme un village global et virtuel.

L'utilisateur peut aujourd'hui exécuter sur son poste de travail des applications qu'il a été télécharger quelque part. Il peut consulter et interroger des bases de données à distance et de façon interactive. L'architecture client-serveur répond à ces besoins nouveaux.

Le Projet ITINERA ELECTRONICA s'inscrit dans cette évolution. Il se veut un serveur éducatif à la disposition et au bénéfice des enseignants et étudiants en langues anciennes, spécialement le latin. Depuis deux ans des passerelles sont créées et activées. Des environnements éducatifs interactifs sont élaborés et mis à disposition. Ainsi en va-t-il des approches statistiques, jadis à la disposition de quelques rares chercheurs au travers d'un laboratoire, aujourd'hui à la disposition gratuite de toute la communauté des enseignants, étudiants et chercheurs. Disponibles en ligne et hors-ligne.

Le chercheur des années 70 aurait été comblé s'il avait pu disposer des facilités et des opportunités que le 21ième siècle offre à la génération actuelle de chercheurs. Mais qu'en est-il justement des chercheurs d'aujourd'hui ? Les instruments d'analyse sont à sa disposition sous la forme d'outils électroniques, mais c'est l'intérêt pour les langues anciennes qui paraît avoir fléchi.

 

Louvain-la-Neuve, le 8 août 2001

 

Jean Schumacher

<schumacher@sflt.ucl.ac.be>


 Notes

(1) Bibliographie récente : J. SCHUMACHER, ITINERA ELECTRONICA : un an après, dans : LATINTER, 9ième année, n. 2 - juin 2000, pp. 53-57 ; Alain MEURANT - Jacques POUCET - Jean SCHUMACHER, Outils électroniques et études classiques à Louvain-la-Neuve, dans A. CRISTOFORI - C. SALVATERRA - U. SCHMITZER, La rete di Arachne - Arachnes Netz, F. Steiner Verlag, 2000, pp. 81-100 ;
Réalisation informatique: L'environnement matériel et logiciel du Projet ITINERA ELECTRONICA est géré par l'Equipe informatique facultaire (Faculté de Philosophie et Lettres, Université catholique de Louvain à Louvain-la-Neuve); la programmation (applications en ligne et hors-ligne, etc..) est assurée par Boris MAROUTAEFF, informaticien de l'équipe. [Retour
]

(2) Adresse web (URL) : http://pot-pourri.fltr.ucl.ac.be/itinera [Retour]

(3) C. MULLER, Principes et méthodes de statistique lexicale, Paris, Champion, 1973 et C. MULLER, Initiation aux méthodes de la statistique linguistique, Paris, Champion, 1977. [Retour]

(4) Adresse web (URL) : http://pot-pourri.fltr.ucl.ac.be/itinera/Hors_ligne/default.htm [Retour]

(5) Adresse web (URL) : http://pot-pourri.fltr.ucl.ac.be/itinera/hors_ligne/itinera_2000.zip (8,8 Mo - version 2.0) [Retour]


FEC - Folia Electronica Classica (Louvain-la-Neuve) - Numéro 1 - janvier-juin 2001

<folia_electronica@fltr.ucl.ac.be>