FrancoMoretti2016-3

CONFERENCE – On analyse pas des milliers de textes comme on en analyse une poignée. L’abondance de données ne change pas seulement notre façon de les étudier, mais change notre objet d’étude lui-même. À l’occasion de sa conférence EPFL Patterns and Meaning, Franco Moretti revient ce 1er mars 2016 sur la question de l’analyse des grands corpus en littérature.
RESSOURCES – Retrouvez également la précédente ici : Franco Moretti: L’objet des humanités numériques, entre perspectives micro et macro (UNIL déc. 2014). Ainsi que deux ressources en ligne : Invisible objects (Moretti 2014) et Changes (Moretti 2014).

FrancoMoretti2016-2Cette conférence se positionne dans le champ des réflexions méta et a pour arrière-fond la question suivante, récurrente dans les milieux des sciences humaines et sociales confrontées aux révolutions technologiques : en quoi les humanités numériques peuvent-elles modifier notre façon de faire de la recherche au regard du changement que la numérisation d’archives et de textes apporte aujourd’hui ?

De l’abstraction

Citant Krzysztof Pomian, comme dans son The End of the Beginning (20061), Franco Moretti affirme que “personne n’a jamais vu les objets étudiés par les historiens contemporains […] et personne ne pourra jamais les voir parce qu’ils n’ont pas d’équivalents dans l’expérience vécue”.

La visualisation issue d’analyse de textes est une abstraction. Les algorithmes redéfinissent la littérature en ce qu’ils sélectionnent ce qui peut être étudié. Pendant des siècles, la lecture a été une condition pour l’étude de la littérature. Il serait fou de demander aux gens d’arrêter de lire, c’est l’essence de l’expérience littéraire, mais aujourd’hui les textes ne sont plus au centre de nos recherche, ils ont laissé leur place aux corpus.

Un corpus, ce n’est pas un très grand texte, c’est un autre objet. Personne n’écrit un corpus, il est artificiellement mis en place par un chercheur. Alors qu’un texte est fait pour s’adresser à un lecteur et véhiculer un sens, un corpus ne nous parle pas, il n’a pas de “sens”. C’est d’ailleurs un grand défi du computational criticism (terme préféré à digital humanities par Moretti) que de pousser le sens à la périphérie de la recherche en littérature, mais pour le remplacer par quoi ?

Des patterns aux formes

Style at the Scale of the Sentence

Style at the Scale of the Sentence2

La visualisation ci-contre cherche à visualiser la corrélation entre syntaxe et sémantique dans un corpus de phrases à 2 clauses (“as soon as the bell rang, I opened the door”), en particulier autour des termes indiquant une émotion ou un lieu. Ce que la plupart des chercheurs tenteraient de montrer dans une recherche de ce type, ce sont les éléments étonnants et inattendus, mais le but ici est de montrer des motifs (patterns, le grand mot-clé de notre temps, voir sa définition lors de sa conférence de 2014, et le passage d’un sens normatif à descriptif).

La partie des Literature studies qui est la plus affectée par la computation est évidemment l’étude des formes, des éléments répétés. Mais ce que nous représentons sous la forme de graphes n’est que l’ombre de la forme. Cette partie visible, qui n’apparaît d’ailleurs qu’avec ces méthodes, est la partie quantitative. On notera que tous les chercheurs qui étudient les fréquences stylistiques obtiendront toujours le même résultat puisque c’est un fait statistique. Mais les liens que nous faisons ensuite, les décisions d’interprétation, sont des éléments subjectifs. L’interprétation est une forme très spécifique d’activité scientifique: dans certaines sciences dures, elle prend un sens proche de la stricte observation, mais ce n’est pas le cas dans nos sciences humaines. Ici, l’algorithme produit un objet, une construction qui ne pourrait exister sans lui et qui nécessite une interprétation.

La racine de la forme, en littérature, n’est généralement pas issue du contenu mais de l’histoire de la langue. Moretti rappelle qu’on observe par exemple une radicalisation de l’expression des émotions libérées par la révolution française. Ou une modification de la spatialité et de la notion d’espace dans les textes due aux bouleversements de la révolution industrielle britannique.

De l’irrégularité

Franco MorettiEt si on retournait la question ? Alors qu’on s’est intéressé aux aspects visibles des patterns, de leur régularité, ceux-ci ne sont jamais parfait. Il y a de l’ordre, dans les patterns, mais pas la “beauté de Dieu” (Leo Spitzer et son “cercle philologique), ils sont trop hétérogènes pour être harmonieux. Quand on cherche des motifs, on ne voit finalement qu’eux, mais il y a aussi tous les éléments qui ne corroborent pas ces patterns, par exemple dans le graphique ci-dessus, des termes qui apparaissent manifestement un peu n’importe où.

Ce n’est pas une raison de renier l’étude des patterns, mais un encouragement à chercher aussi ce qui ne s’y exprime pas, le bruit, le désordre. Pour voir les motifs, il faut souvent nettoyer la visualisation du désordre. Mais une fois qu’on a vu l’ordre, on peut aussi retirer cet artifice et porter notre regard sur le bruit, qui porte aussi en lui une forme de connaissance (ne serait-ce que pour mesurer la quantité de désordre par rapport aux éléments qui confirment les patterns).

Quel est l’avenir d’une interprétation qui ne porte plus sur ce qui a du sens mais sur le désordre ? C’est une question que nous posent les nouveaux corpus d’archives numérisées : ils contiennent énormément de désordre. L’étude de ce bruit est une nouveauté parce que les études traditionnelles ne créaient pas un tel bruit (celui-ci dépendant évidemment du processus). Face à l’abondance de données, nos catégories interprétatives sont sous pression, elles doivent évoluer pour s’adapter à cette nouvelle situation. Cette dernière n’implique pas pour autant qu’il faille se passer de poser des hypothèses de recherche (il est – trop – à la mode de se laisser guider par les données) puisque ce sont ces hypothèses qui posent le cadre de notre modélisation.

  1. Moretti, The End of the Beginning”, New Left Review, 41., 2006, citant Pomian, L’Ordre du temps, Paris, 1984, p.31
  2. Allison, Gemma, Heuser, Moretti, Tevel and Yamboliev (2013) Style at the Scale of the Sentence