La littérature au laboratoire, dirigé par Franco Moretti

Fruit du travail exploratoire du Literary Lab de l’université de Stanford, les articles réunis ici sous la direction de Franco Moretti présentent certains résultats de la récente critique computationnelle de la littérature. Cette approche scientifique, expérimentale et quantitative des faits littéraires revisite notamment le champ du roman anglais du XIX^e siècle pour interroger à nouveaux frais, au moyen d’algorithmes et de programmes, des notions aussi traditionnelles que celles de genre romanesque, de style, de voix ou d’unité thématique. L’enjeu semble avant tout méthodologique : les Humanités Numériques opèrent-elles une véritable révolution au sein des études littéraires, en nous offrant une compréhension à la fois plus large et plus détaillée des œuvres et de leur fonctionnement ?

Franco Moretti (dir.), La littérature au laboratoire. Trad. de l’anglais (États-Unis) par Valentine Lëys (avec la collaboration de: Alexandre Gefen, Philippe Roger, Jérôme David). Ithaque, 280 p., 26 €

Reconnu internationalement pour sa défense des Humanités Numériques, Franco Moretti développe depuis plusieurs années une lecture « à distance » (« distant reading ») de l’histoire de la littérature, usant d’outils informatiques et d’instruments empruntés à d’autres disciplines comme la géographie ou la théorie de l’évolution pour mesurer et interpréter de larges corpus. Né dans les années 2000, le Literary Lab poursuit cette démarche de recherche moderne, empirique et désormais collective, opérant un constant aller-retour entre programmations et discussions, calculs et concepts. Les résultats sont présentés dans des « plaquettes » (« pamphlets ») – formant les chapitres de l’ouvrage –, chacune pareille à un « essai scientifique composé comme une symphonie de Mahler », et qui, en plus de jouir d’une indépendance éditoriale par leur diffusion gratuite sur le site web du Literay Lab, articule les quatre niveaux d’analyse de cette nouvelle approche.

Les images, d’abord : l’ouvrage regorge de figures (diagrammes, dendrogrammes, captures d’écran, tableaux, nuages de points…), autant de visualisations des données empiriques qui constituent l’objet d’étude même de la critique computationnelle et remplacent les extraits d’œuvres de la microlecture traditionnelle. Les légendes, ensuite, permettent de préciser les méthodes utilisées et quelques traits saillants de ces représentations. Le texte, quant à lui, à la fois narratif et théorique, souligne le caractère exploratoire de la recherche en en relatant les étapes successives, les hypothèses, les tâtonnements, les surprises et les choix d’orientation, tout en tirant les conclusions qui s’imposent des découvertes ou des échecs, les reconceptualisations nécessaires et les pistes ouvertes. Enfin, les notes de bas de page, parfois envahissantes, mêlent travail académique, polémiques et spéculations. Pour un chercheur en sciences physiques, par exemple, l’enthousiasme suscité par la structure même de ces « plaquettes », exprimé par Moretti dans l’introduction, pourrait paraître étonnant. Mais on comprend que, comparée à la manière classique d’étudier la littérature (lire les œuvres « de près », sélectionner des passages-clé, construire seul une interprétation), les Humanités Numériques sont en réalité appelées à légitimer leur méthodologie tendancieusement positiviste et statistique, vivement critiquée : c’est notamment parce que l’article « Formalisme quantitatif » – le premier chapitre de l’ouvrage – s’est vu refuser par une revue « bien connue » que les membres du Literary Lab ont décidé de le publier eux-mêmes, en l’état.

Chaque chapitre est ainsi l’occasion de montrer comment fonctionne la critique computationnelle et en quoi l’« opérationnalisation » de certaines notions et questions récurrentes de la théorie littéraire s’avère finalement féconde, pertinente et prometteuse. Car s’il faut étudier la littérature à travers ce qui, en elle, est programmable par ordinateur, la question reste de savoir ce qu’apporte cette récolte de « big data » et surtout si elle modifie la conception même que nous avons de la littérature, de son histoire et de ses histoires. En effet, les Humanités Numériques se présentent comme une rupture franche avec le passé, et le Literary Lab semble avoir à cœur de renouveler radicalement notre compréhension des faits littéraires, adoptant un ton passionné et quasi-prophétique : la vie de laboratoire connaît des « moments magiques », des sortes de révélations, lors desquels le groupe « voit » des choses que l’individu seul ne perçoit pas ! Ce qui est surtout fascinant à observer dans ces pages, c’est « la manière dont une série de mesures quantitatives peut entrer en dialogue avec des concepts, jusqu’à les transformer lentement ». Dès lors, loin de réduire les œuvres à des chiffres, la critique computationnelle semble plutôt déboucher sur une vue synthétique de la galaxie littéraire : une « morpho-sociologie » fondée sur de robustes faits et consciente du caractère limité et spéculatif de ses conclusions.

En vérité, il semble difficile de résumer chacun de ses rapports d’expérimentations : les remarques générales se mêlent à la description fastidieuse des outils informatiques employés, des choix de corpus et des graphiques, suscitant des découvertes progressives, des changements d’orientation dans la recherche (parfois jusqu’à l’abandon du projet initial) et des méta-considérations sur l’intérêt même de ces trouvailles. Globalement, c’est la dimension intrigante et paradoxale des résultats empiriques qui semble guider en tous sens quelques conclusions d’ensemble, et défis à venir, dans un contexte qui apparaît comme la fraîche naissance d’une discipline. En ressortent deux types de contribution aux études littéraires : la « corroboration » de certaines thèses connues, permettant de vérifier par ailleurs la fiabilité des logiciels utilisés, et, plus substantiellement, la « mécanisation » de concepts centraux de la critique littéraire, devenant plus « réalistes » et plus précis. Au passage, les données empiriques offrent de réfuter certains aspects des théories littéraires classiques.

Arrêtons-nous sur le premier chapitre portant sur la question des genres romanesques, qui présente la première expérimentation du Literary Lab menée entre l’été 2008 et mars 2010, modèle des études suivantes. Le logiciel de marquage Docuscope, un « dictionnaire intelligent » listant plus de deux cents millions de mots anglais selon les cent une catégories linguistiques fonctionnelles du TAL (Types d’Actes de Langage), corrélé à une analyse factorielle non supervisée marquant la présence ou l’absence de certaines de ces catégories dans les textes, se révèle capable de classifier par genres les trente-six pièces de théâtre de Shakespeare sélectionnées au sein du corpus Chadwick-Healey, en ne commettant qu’un seul impair, négligeable et prévisible (les critiques eux-mêmes sont divisés). Dès lors, on peut en déduire qu’un ordinateur est bien capable de reconnaître les genres littéraires. Au-delà de cette corroboration, la découverte surprenante porte sur la base à partir de laquelle s’opère cette classification – rendue visible par l’emploi du logiciel Most Frequent Words (« les mots les plus fréquents ») comprenant quarante-quatre caractéristiques linguistiques et de ponctuation. En effet, si les critiques et Docuscope tombent d’accord pour ranger les mêmes œuvres dans le genre du roman gothique, les marqueurs signifiants sont différents : tandis que pour les premiers, ce sont des mots exprimant des thèmes ou des épisodes typiques, pour le programme ce sont des unités plus petites et presque insignifiantes (articles, conjonctions, signes de ponctuation, etc.) – le roman gothique se caractérisant notamment par son usage fréquent des prépositions de lieu.

Les résultats suggérant un niveau de profondeur insoupçonné, c’est donc la logique même des genres qu’il faut repenser : « comme les immeubles », les genres « possèdent des caractéristiques propres qui sont détectables à chaque échelle d’analyse ». Développant ainsi une approche relationnelle et différentielle au moyen d’une Analyse en Composante Principale, en rupture avec les théories classiques qui isolent et idéalisent chaque genre, les chercheurs se prennent à rêver à une cartographie totale du champ littéraire où les rapports génériques seraient spécifiés par deux variables, une variable stylistique et une variable linguistique. Ainsi, si cette première étude ne semble pas fondamentalement modifier notre connaissance actuelle des genres littéraires, elle suggère néanmoins une piste intéressante, à savoir l’existence d’une « corrélation directe entre l’échelle [d’analyse] et la différentiation des fonctions textuelles ». D’où s’élève le slogan des Humanité Numériques : « à échelles différentes, caractéristiques différentes ».

Deux études ultérieures développent cette hypothèse : le style à l’échelle de la phrase narrative à deux propositions (chapitre 2), le thème à l’échelle du paragraphe de fiction (chapitre 6). L’idée est que le lien entre les échelles et les fonctions textuelles n’est pas seulement épistémologique, mais proprement ontologique : la forme n’est pas plus ou moins visible selon l’échelle d’analyse, mais en dépend essentiellement. En ce sens, certains types de phrases semblent faire certains styles (les formes verbales progressives et modales caractérisent le roman de formation, notamment Middlemarch d’Eliot), tout comme « les paragraphes font le récit » : ils ne jouent pas le rôle ancillaire consistant à illustrer de grandes notions ou de petits motifs, mais façonnent l’intrigue en profondeur grâce à « l’interaction d’un petit nombre de thèmes dans le cadre d’un événement ordinaire » – statistiquement, trois ou quatre, les données empiriques montrant qu’ils ne possèdent que rarement cette unité thématique affirmée par les théories classiques.

Globalement, l’accent mis sur la notion d’échelle est un effet collatéral de cette « alliance du micro et du macro [qui] est devenue la marque de fabrique des Humanités Numériques ». En effet, à la question de savoir comment étudier la littérature, la critique computationnelle s’inspire de l’approche stylistique de Leo Spitzer tout en s’en éloignant : là où celui-ci estime que seuls comptent les détails et le tout, celle-là propose le paragraphe comme « une nouvelle échelle intermédiaire » bénéficiant d’une « position centrale unique dans l’économie du texte ». Après avoir suggéré que la quantification sur les phrases à deux propositions pourrait peut-être établir le « génome narratif » du territoire romanesque, nous voilà de nouveau à l’aube d’une révolution future : tout le roman en une phrase, toute la littérature en un paragraphe ! C’est sans doute l’un des défauts de cette approche : passer d’une posture légitime de réflexivité prudente à l’égard des interprétations et des problèmes de représentativité des corpus mesurés, à une attitude fervente et pleine de promesses, qui pousse les chercheurs à en vouloir plus – une preuve empirique de la dépendance entre syntaxe et sémantique, un bouleversement radical dans la connaissance de la littérature.

Quant à l’« opérationnalisation » de concepts classiques jugés trop vagues – ce processus par lequel ceux-ci peuvent être mesurés par des programmes –, elle est le principal enjeu des chapitres 3, 4 et 7 de l’ouvrage. Le personnage est ainsi remplacé par le concept d’« espace-personnage » au chapitre 3 : l’effet en est la décomposition des notions de « personnage principal » et « secondaire », respectivement en « conflit » et « soumission/médiation » dans l’espace dramatique abstrait, à partir de calculs empiriques du nombre de répliques dans les pièces de théâtre, couplés à une analyse en réseaux qui détermine le pourcentage de liens entre les protagonistes. Au chapitre 4, la question des « voix » du roman est analysée grâce au concept de « volume sonore », mesuré par la fréquence de verbes de parole forts, neutres ou faibles – en particulier dans le premier livre de L’Idiot et le troisième volume d’Orgueil et préjugés. La conclusion est double : le volume sonore semble jouer un rôle structural à la fois dans le roman et dans l’expérience émotionnelle des lecteurs, et l’évolution du roman anglais au XIX^e siècle se caractérise par une mise en sourdine de son intensité auditive, caractérisée par le triomphe de la forme « said ».

Enfin, le chapitre 7 compare certains traits du canon et de l’archive (dans le champ littéraire anglais du XIX^e siècle), aboutissant à une double substitution : au couple canon/archive correspond l’opposition entre registres « oral » et « écrit », qui explique la découverte surprenante de la plus grande diversité lexicale des archives, et la notion de « canon » est mesurée comme le résultat du rapport entre deux forces (« popularité » et « prestige »), elles-mêmes explicitées par le rapport entre deux institutions (« marché » et « école »). Ainsi, la critique computationnelle dévoile ses qualités autant que ses faiblesses : la mesure « rend certains concepts ‟réels” » et montre qu’il est pour ainsi dire possible de tester des abstractions théoriques, mais le lien entre quantification empirique et interprétation qualitative demeure problématique. Dit autrement, « la pertinence statistique semble étrangère à la pertinence critique ». Pourtant, tout en en étant conscients, les membres du Literary Lab ne peuvent s’empêcher de glisser hors de ce nouveau cercle herméneutique (« les concepts orientent les mesures, et les mesures appellent de nouveaux concepts ») en jugeant obsolètes les catégories traditionnelles des études littéraires.

Pour conclure, on pourrait estimer que les Humanités Numériques ont l’avantage de traiter de larges corpus de façon détaillée et objective, parvenant ainsi à mettre en évidence des traits textuels auxquels l’approche anthropocentrique ne saurait avoir accès. Et si elles ne modifient peut-être pas (encore) notre conception des œuvres, elles réforment clairement les objets et les méthodes des études littéraires : non seulement il n’est plus nécessaire de lire les textes, mais il n’y a même plus de textes ! En effet, le chapitre 8 montre que les textes sont remplacés par un corpus, objet « artificiel » créé par le chercheur à partir d’une mise entre parenthèses du contexte de production ou de réception, de l’intention de l’auteur et du sens de l’œuvre. Le but en est de révéler des « trames » (« patterns »), des formes répétées et variées à travers les œuvres, enracinées dans l’histoire de la littérature et des idées. De nouvelles compétences sont alors attendues de la part des critiques, et en particulier celles de programmateurs et d’analystes de graphes.

Dès lors, de nombreuses objections sont aujourd’hui adressées aux Humanités Numériques, à commencer par l’idée que l’approche quantitative n’est pas adéquate en sciences humaines, en vertu du caractère intentionnel de leurs objets, et plus particulièrement en littérature, compte tenu de la dimension évaluative de cet art, mêlant faits et valeurs. Il semble également que les résultats du traitement informatique des données puissent mener à des conclusions frisant la contradiction : par exemple, les formes verbales progressives sont interprétées comme typiques du devenir foisonnant de la jeunesse, en jeu dans le roman de formation (chapitre 2), et comme signes d’une « temporalité floue et informe » dans la monstrueuse « Banklangue » des rapports actuels de la Banque mondiale (chapitre 5). Une façon de rappeler qu’effectivement, dans les Humanités Numériques, si le « ‟numérique” soumet de nouvelles questions aux ‟humanités” », il a de toute évidence « besoin des Humanités pour donner sens à ses résultats ». Cela affaiblit également la viabilité du projet global : les faits syntaxico-sémantiques ne semblent pas pouvoir se passer du contexte pragmatique pour être compris de la plus adéquate des manières.

En fin de compte, les Humanités Numériques ne semblent pas non plus aussi innovantes et révolutionnaires qu’elles le professent : ne signent-elles pas en réalité la simple résurgence de la critique formaliste et structuraliste, couplée à une sociologie de la littérature ? Demeurons toutefois curieux du devenir de cette critique, en espérant que la rencontre entre sciences expérimentales et théories littéraires honorera certaines de ses promesses et favorisera ainsi, en agitant l’étendard si attrayant des nouvelles technologies, l’intérêt que nos sociétés devraient porter (qui en douterait ?) à la littérature.

Franco Moretti (dir.), La littérature au laboratoire. Trad. de l’anglais (États-Unis) par Valentine Lëys (avec la collaboration de: Alexandre Gefen, Philippe Roger, Jérôme David). Ithaque, 280 p., 26 €

Lire aussi le compte-rendu, par Richard Figuier, du livre de Marielle Macé, Styles.

Pour continuer...