La linguistique textuelle à l’orée du numérique Jean-Marie Viprey

Download Report

Transcript La linguistique textuelle à l’orée du numérique Jean-Marie Viprey

La linguistique textuelle à
l’orée du numérique
Jean-Marie Viprey
Maison des Sciences de l’Homme de Franche-Comté
UMR Bases Corpus Langages CNRS-Nice
[email protected]
La linguistique textuelle à l’orée du numérique
Jean-Marie Viprey
1996 Thèse de IIIème cycle : Dynamique du vocabulaire des Fleurs du mal
Dir. : Jean Peytard
Jury : Jean-Michel Adam, Etienne Brunet, Claude Condé, Pierre Malandain, Jean-Philippe Massonie
2002 : HDR
Jury : Jean-Michel Adam, Claude Blum, Claude Condé, Georges Molinié, André Salem, Max Silberztein
•Linguistique informatique
•Linguistique textuelle
•Philologie
•Statistique
•Statistique textuelle
•Stylistique littéraire
_____________________________________________________________
Dir.Adjoint de l’Equipe d’Accueil 3817 Archives, Textes, Sciences des Textes (ATST)
Membre associé de l’EA 2181 Laboratoire de Sémio-linguistique, Didactique, Informatique (LASELDI)
Coordonnateur du pôle Archive, Bases, Corpus de la MSHE de Franche-Comté (USR CNRS)
En délégation (2007-8 -9?) au CNRS, UMR Bases Corpus Langages – Nice.
Lausanne, 2004 :
Sciences du Texte
et Analyse de Discours
Adam J.-M. & Heidmann U. (2005). Sciences du texte et analyse de
discours. Slatkine
J.-M. Adam, 2005 :
Introduction à l’
Analyse Textuelle du Discours
ATD
Adam J.-M. (1997). Linguistique textuelle : des genres de discours aux textes. Nathan
Adam J.-M. (2005). La linguistique textuelle : introduction à l’analyse textuelle des discours. Colin
Redéfinir le texte ?
Le texte [est-il] le véritable objet de la linguistique [?]
(Rastier Sens et textualité – 1989)
Rastier François 1989 : Sens et textualité, Paris, Hachette
Redéfinir le texte ?
Si oui, la linguistique textuelle n’aurait guère lieu d’être.
La linguistique serait constamment textuelle…
Le texte est-il l’objet de la linguistique textuelle ?
Redéfinir le texte ?
L’objet de la linguistique textuelle, telle qu’elle s’est développée
historiquement, c’est l’ énoncé suivi.
cf Halliday & Hasan, Weinrich, le premier Rastier, Adam 1999.
Le principal point d’appui de la LT historique, c’est la critique de la
linguistique de la phrase
cf Benveniste 1974.
Benveniste E. (1974) Problèmes de linguistique générale. Gallimard.
Redéfinir le texte ?
Malgré l’autorité de la tradition grammaticale,
tout engage la linguistique à prendre les textes
pour objet : elle affronte alors des phénomènes
d’une tout autre échelle, en vraie grandeur
pourrait-on dire.
Rastier (2001 : 13)
(souligné par nous)
Rastier François 2001 : Arts et sciences du texte, Paris, Seuil
Redéfinir le texte ?
[…] un texte est une suite linguistique empirique
attestée, produite dans une pratique sociale
déterminée, et fixée sur un support quelconque.
Rastier (2001 : 21)
Objectivité, écologie, empirie
Redéfinir le texte ?
Un texte est-il un « être » ?
Avons-nous intérêt à lui donner une
définition « ontique » ?
Par qui/quoi est-il « attesté » ?
Redéfinir le texte ?
Textuel(le)(s)
Textualité(s)
Dimension(s) textuelle(s)
Configuration(s) textuelle(s)
Redéfinir le texte ?
Déficit philologique
de l’Analyse du Discours
>>>>
Analyse Textuelle du Discours
Redéfinir le texte ?
Le texte serait un DISPOSITIF construit
pour être une voie d’accès au discours
qu’il matérialise, non pas a priori ou par
« production », mais par construction.
Redéfinir le texte ?
Ainsi, il n’est pas « produit » par le
discours. Il est construit en vue de
permettre un accès second à l’activité
discursive (accès répétable et/ou critique,
(re)mise en discours, ordinaire ou savante)
Redéfinir le texte ?
Adam à partir de 1999 et surtout de 2004
modifie le positionnement de la LT.
La phrase n’est pas un constituant du texte.
•Certains constituants ne sont pas des phrases, voire
pas des organisations verbales.
•Surtout : il y a (au moins) un palier intermédiaire.
Redéfinir le texte ?
Texte (étymologiquement parlant) :
assemblage, couture, configuration…
Redéfinir le texte ?
Texte (étymologiquement parlant) :
assemblage, couture, configuration…
de phrases ?
Redéfinir le texte ?
Texte (étymologiquement parlant) :
assemblage, couture, configuration…
de phrases ?
d’énoncés
(plurisémiotiques : miniatures, tableaux… )
Redéfinir le texte ?
Texte (étymologiquement parlant) :
assemblage, couture, configuration…
d’énoncés
eux-mêmes assemblés dans des documents
(plurisémiotiques : miniatures, tableaux, touches sonores des livres
pour enfants… notes de bas de pages, liens intertextuels, listes,
figures…)
Redéfinir le texte ?
Ainsi la séquence pourrait être considérée
comme un cas particulier, un type d’énoncé
(partie logico-rhétorique)
assemblé selon un type de modalité
(séquentielle).
Redéfinir le texte ?
Question fréquemment posée :
(dans l’optique lexicométrique, notamment)
« Le titre fait-il partie du texte ? Et les notes de bas de
page ?... »
Redéfinir le texte ?
Question fréquemment posée :
(dans l’optique lexicométrique, notamment)
« Le titre fait-il partie du texte ? Et les notes de bas de page ?...
- Oui, et du document aussi. Mais ce sont des
énoncés distincts. »
(comme peuvent l’être, selon les angles d’approche, les répliques
des personnages en discours direct, mais aussi des parties
successives que toute analyse est susceptible de distinguer)
(et nous ne sommes plus ici dans une optique
strictement lexicométrique !)
Redéfinir le texte ?
Les variantes…
En édition scientifique :
indication/indexation, dans l’appareil critique,
de lieux où deux documents divergent
variation « écrasée », décontextualisée
(cf Adam 2005, Paveau-Sarfaty 2006)
Redéfinir le texte ?
Les variantes…
En édition scientifique :
indication/indexation, dans l’appareil critique, de lieux où deux documents divergent
variation « écrasée », décontextualisée
« en droit » :
Mise en parallèle de N documents du texte
considéré, et observation de cette
variation en multi-contexte
Redéfinir le texte ?
Même chose à propos de tous les aspects
de cette variation ramifiée qu’est le texte :
réécritures, intertexte, traduction
bien sûr… mais aussi…
Redéfinir le texte ?
Même chose à propos de tous les aspects
de cette variation ramifiée qu’est le texte :
réécritures, intertexte, traduction
bien sûr… mais aussi…
transcription de l’oral, productions colingues
…sans oublier…
Redéfinir le texte ?
Même chose à propos de tous les aspects de
cette variation ramifiée qu’est le texte :
réécritures, intertexte, traduction
bien sûr… mais aussi…
transcription de l’oral, productions colingues
…sans oublier…
feuilleton, séries, rubriques de presse,
performances théâtrales, tests de lecture
…
Redéfinir le texte ?
Conclusion ?
Un texte serait une constellation de
documents eux-mêmes constitués d’
énoncés agencés.
Constellation ouverte.
Redéfinir le texte ?
Foucault (Dits et écrits – 1994 : 708)
« J’appellerai archive, non pas la totalité des
textes qui ont été conservés par une civilisation
[…] mais le jeu des règles qui déterminent dans
une culture l’apparition et la disparition des
énoncés, leur rémanence et leur effacement, leur
existence paradoxale d’événements et de
choses »
Cité par Paveau & Serfati (2005 : 199)
Redéfinir le texte ?
Foucault (Dits et écrits – 1994 : 708)
« J’appellerai archive, non pas la totalité des textes qui ont été conservés par une civilisation […]
mais le jeu des règles qui déterminent dans une culture l’apparition et la disparition des énoncés,
leur rémanence et leur effacement, leur existence paradoxale d’événements et de choses »
Cité par Paveau & Serfati (2005 : 199)
Où l’on peut lire (sans solliciter à l’excès) que le
texte ne vaut (en AD) qu’en tant qu’il
(recueille) sertit l’énoncé (authentique objet de la
quête de sens et d’histoire),
configure et archive ses rapports avec
l’ensemble des autres énoncés.
Paveau M.-A., Sarfati G.E. 2003 : Les grandes théories de la linguistique, Paris, Colin
Redéfinir le texte ?
TEXTE / CORPUS ?
Redéfinir le texte ?
TEXTE / CORPUS ?
TEXTE / BASE / CORPUS !
Redéfinir le texte ?
TEXTE / CORPUS ?
TEXTE / BASE / CORPUS !
Habert, Nazarenko, Salem ( 1997 : 11) :
Nous employons le mot corpus dans une acception
restreinte empruntée à J.Sinclair (1996 : 4) : « un corpus
est une collection de données langagières qui sont
sélectionnées et organisées selon des critères
linguistiques explicites pour servir d’ échantillon du
langage ». […] A cette aune, nombre de ressources
textuelles perdent cette dénomination. Il s’agit souvent
de collections ou de rassemblements de textes
électroniques plutôt que de corpus à proprement parler.
Habert Benoît, Nazarenko Adeline, Salem André 1997 : Les linguistiques de corpus, Paris, Colin.
Redéfinir le texte ?
TEXTE / CORPUS ?
TEXTE / BASE / CORPUS !
Habert, Nazarenko, Salem
(Les linguistiques de corpus. 1997 : 11) :
Nous employons le mot corpus dans une acception
restreinte empruntée à J.Sinclair (1996 : 4) : « un corpus
est une collection de données langagières qui sont
sélectionnées et organisées selon des critères
linguistiques explicites pour servir d’ échantillon du
langage ». […] A cette aune, nombre de ressources
textuelles perdent cette dénomination. Il s’agit souvent
de collections ou de rassemblements de textes
électroniques plutôt que de corpus à proprement parler.
Redéfinir le texte ?
Le texte est donc un élément
constitutif d’archive, matérialisable
dans une base sous forme de
documents reliés abstraitement et/ou
matériellement.
Son principe constitutif est d’ordre
culturel (mythe, loi, rite, histoire,
biographie, didactique, etc…)
Redéfinir le texte ?
Le corpus est un prélèvement d’archive,
constitué d’énoncés.
Son principe constitutif est d’ordre
hypothético-déductif ou mieux dit réflexif
(Guilhaumou, Mayaffre)
Mayaffre D. (2002) « Les corpus réflexifs : entre architextualité et hypertextualité » in Corpus n°1.
Guilhaumou J. (2002) « Le corpus en analyse de discours. Perspective historique » ibid.
Revue Corpus en ligne : http://corpus.revues.org/sommaire49.html
Redéfinir le texte ?
La textualité ?
Redéfinir le texte ?
La textualité ?
L’ensemble des aspects de « cet »
agencement d’énoncés en un texte,
qui en font une unité cohésive et
cohérente
= texture (H & H) ?
Halliday m.a.k., Hasan Ruqaiya 1976 : Cohesion in English, London, Longman
Redéfinir le texte ?
La textualité ?
L’ensemble des aspects de « cet » agencement d’énoncés en un texte, qui
en font une unité cohésive et cohérente
= texture (H & H) ?
Oui, à condition d’en faire une lecture critique :
*Un texte n’est pas « directement » constitué de phrases
([…] If a passage of English containing more than one
sentence is perceived as a text […] C.i.E. : 2)
souligné par nous
Redéfinir le texte ?
La textualité ?
L’ensemble des aspects de « cet » agencement d’énoncés en un texte, qui
en font une unité cohésive et cohérente
= texture (H & H) ?
Oui, à condition d’en faire une lecture critique :
*Un texte n’est pas « directement » constitué de phrases ([…] If a passage of English containing
more than one sentence is perceived as a text […] C.i.E. : 2)
*La texture ne relève pas intrinsèquement des ressources propres à
une langue particulière
( What we are investigating […] are the resources that English has
for creating texture. ibid.)
souligné par nous
Redéfinir le texte ?
Excursus :
Langue et discours,
langue(s) et texte(s)
R.Balibar (1983, 85, 93)
Redéfinir le texte ?
La textualité ?
Les rapports entre les divers documents du texte relève
en droit de la textualité, tout autant que les rapports
entre énoncés dans l’hypothèse d’un texte « simple » (à
un document).
Redéfinir le texte ?
La textualité ?
Le texte ainsi défini est un champ.
Cela règle son rapport (multilatéral) à ses
unités de toute échelle et les rapports de
ces unités entre elles.
Redéfinir le texte ?
La textualité ?
Le texte ainsi défini est un champ.
Cela règle son rapport (multilatéral) à ses unités de toute échelle et les
rapports de ces unités entre elles.
C’est ce que, relisant Rastier (1989) nous
avons projeté d’appliquer aux unités de
très petite dimension, mots (Viprey 1997) et
« phonèmes » (Viprey 1998) notamment.
Redéfinir le texte ?
La textualité ?
Le texte ainsi défini est un champ.
Cela règle son rapport (multilatéral) à ses unités de toute échelle et les rapports de ces unités
entre elles.
Un mot (une occurrence) interagit certes avec l’énoncé
(perspective distributionnelle « classique », Harris).
Mais l’interaction productrice de sens s’exerce et
s’analyse au niveau du texte, comme « masse » et
comme « configuration ».
Redéfinir le texte ?
La textualité ?
Le texte ainsi défini est un champ.
Cela règle son rapport (multilatéral) à ses unités de toute échelle et les rapports de ces unités
entre elles.
Un mot (une occurrence) interagit certes avec l’énoncé (perspective distributionnelle
« classique », Harris).
Mais l’interaction productrice de sens s’exerce et s’analyse au niveau du texte, comme « masse »
et comme « configuration ».
C’est ce que nous avions cru pouvoir nommer texture, négligeant
l’emploi H&H et l’effet de traduction ; pour H&H texture désigne
l’ensemble des effets de champ :
The concept of TEXTURE is entirely appropriate to express the
property of ‘being a text’ (C.i.E. : 2)
Redéfinir le texte ?
La textualité ?
Le texte ainsi défini est un champ.
Cela règle son rapport (multilatéral) à ses unités de toute échelle et les rapports de ces unités
entre elles.
Un mot (une occurrence) interagit certes avec l’énoncé (perspective distributionnelle
« classique », Harris).
Mais l’interaction productrice de sens s’exerce et s’analyse au niveau du texte, comme « masse »
et comme « configuration ».
C’est ce que nous avions cru pouvoir nommer texture, négligeant l’emploi H&H et l’effet de
traduction ; pour H&H texture désigne l’ensemble des effets de champ :
The concept of TEXTURE is entirely appropriate to express the property of ‘being a text’ (C.i.E. : 2)
macro/méso/micro –textualité ?
Redéfinir le texte ?
Qu’est-ce qu’un texte à l’ère numérique ?
ou bien :
Que nous dit l’ère numérique du
statut du texte ?
Brève histoire (très orientée !) de l’informatisation des « textes »
[EXCURSUS]
A toute « origine », la discrétisation graphique.
cf Goody 1997 et 2007
Brève histoire (très orientée !) de l’informatisation des « textes »
Aux « origines » de l’informatique « moderne » : des
problèmes d’espace…
Codage sur un octet (8 bits) :
pas de distinction majuscules/minuscules, caractères
accentués/non accentués
perte de la disposition spatiale et de la mise en forme
des caractères
Brève histoire (très orientée !) de l’informatisation des « textes »
Mais aussi (surtout ?) :
élimination de tout élément de complexité textuelle :
« Choix » de l’édition
Délimitation texte / « péritexte » (élimination de ce dernier)
Valorisation de la seule surface graphique
De ce point de vue, « TLF » et « Saint-Cloud » - par exemple –
se rejoignent
(et l’ensemble des entreprises de l’époque)
Brève histoire (très orientée !) de l’informatisation des « textes »
Facteurs d’évolution :
[sur fond de l’évolution technologique]
* La demande liée au traitement de texte :
Mise en forme et interopérabilité > RTF
* La demande liée au Web et à l’hypertexte :
Navigabilité (viabilisation) > HTML, XML.
Brève histoire (très orientée !) de l’informatisation des « textes »
Facteurs d’évolution :
[sur fond de l’évolution technologique]
* La demande liée au traitement de texte :
Mise en forme et interopérabilité > RTF
* La demande liée au Web et à l’hypertexte :
Navigabilité (viabilisation) > HTML, XML.
Paradoxe : ces évolutions atteignent
TARDIVEMENT le domaine encore
inconstitué et innommé où vont se
rencontrer les sciences et techniques du
texte…
Brève histoire (très orientée !) de l’informatisation des « textes »
Facteurs d’évolution :
[sur fond de l’évolution technologique]
* La demande liée au traitement de texte :
Mise en forme et interopérabilité > RTF
* La demande liée au Web et à l’hypertexte :
Navigabilité (viabilisation) > HTML, XML.
Paradoxe : ces évolutions atteignent TARDIVEMENT le domaine encore inconstitué et innommé où vont se
rencontrer les sciences et techniques du texte…
Exemple : les immenses ressources des
grandes bibliothèques publiques sont
longtemps numérisées et mises en ligne
en mode image (PDF) à l’exclusion du
mode texte (Gallica-BNF).
Brève histoire (très orientée !) de l’informatisation des « textes »
Facteurs d’évolution :
[sur fond de l’évolution technologique]
* La demande liée au traitement de texte :
Mise en forme et interopérabilité > RTF
* La demande liée au Web et à l’hypertexte :
Navigabilité (viabilisation) > HTML, XML.
Paradoxe : ces évolutions atteignent TARDIVEMENT le domaine encore inconstitué et innommé où vont se
rencontrer les sciences et techniques du texte…
Exemple : les immenses ressources des grandes bibliothèques publiques sont longtemps numérisées et mises en
ligne en mode image (PDF) à l’exclusion du mode texte (Gallica-BNF).
et leur océrisation contrôlée n’est toujours
pas considérée comme une priorité des
politiques publiques.
Brève histoire (très orientée !) de l’informatisation des « textes »
Text Encoding Initiative (TEI)
http://www.tei-c.org/index.xml
Brève histoire (très orientée !) de l’informatisation des « textes »
Text Encoding Initiative (TEI)
Représentation XML exhaustive,
standardisée, cumulative,
interopérable, coopérative.
Brève histoire (très orientée !) de l’informatisation des « textes »
Un document TEI comporte :
Un en-tête (header) dédié aux métadonnées communes :
Instanciation, autorités, signatures, déclaration DTD
Un corps (body) dédié au stockage des énoncés et de
leurs annotations fines.
La répartition de l’annotation entre en-tête et corps est souple ;
de même que la segmentation du texte en documents TEI.
Brève histoire (très orientée !) de l’informatisation des « textes »
<title><w forme="Au" lemme="À_prep" ><w forme= lemme="le_artdef"
flex="ms">Au <w forme="Lecteur" lemme="lecteur_sm"
flex="s">Lecteur</title><BR><BR>
<verse><w forme="La" lemme="le_artdef" flex="fs">La <w forme="sottise"
lemme="sottise_sf" flex="s">sottise<pct forme="," lemme="vrgl">, <w
forme="l'" lemme="le_artdef" flex="xs">l'<w forme="erreur"
lemme="erreur_sf" flex="s">erreur<pct forme="," lemme="vrgl">, <w
forme="le" lemme="le_artdef" flex="ms">le <w forme="péché"
lemme="péché_sm" flex="s"><pct forme="," lemme="vrgl">, <w forme="la"
lemme="le_artdef" flex="fs">la <w forme="lésine" lemme="lésine_sf"
flex="s">lésine<pct forme="," lemme="vrgl">,<format d'appel de note vers
Pichon-Pléiade></verse>
Brève histoire (très orientée !) de l’informatisation des « textes »
Philologie numérique :
Préparation et établissement des documents TEI
décrivant un manuscrit (une paléographie), une édition,
une annotation, un ensemble de signets,
dans la perspective de leur intégration à un réseau de
documents pouvant :
-être reliés à la définition informatique (par adresses,
arborescente) d’un texte
-être critiqués et commentés par d’autres
-être identifiés (historicisés)
-… être explorés en corpus
Applications…
Pôle Archive, Bases, Corpus :
*Développement DIATAG : établissement et annotation de textes en français
moderne et contemporain
*Développement ASTARTEX : environnement d’analyse textuelle et
d’exploration assistée
*Ressources textuelles (acquisition + préparation) :
Base « Presse comtoise 1850-1950 »
Base « Aveux de détenus politiques en RD de Guinée sous Sékou Touré »
Base « Socialisme utopique – Proudhon, Fourier, Considérant… »
Base « Claudel – théâtre, poésie, correspondance »
Base « Presse vernaculaire contemporaine en Région – commandite Europe-Région »
Base « Littérature orale des phnong du Cambodge »
Base « Presse coloniale francophone en Indochine »
…
Applications…
Représentations de l’Europe à travers la presse
« vernaculaire » en Franche-Comté
historique :
La MSHE de Franche-Comté et ses tutelles financières;
le SGAR
Commandite / mise à l’épreuve :
« pourquoi notre région, copieusement arrosée de fonds
structurants européens, vote-t-elle à 57% ‘non’ au
referendum TCE de mai 2005 ? »
Applications…
Représentations de l’Europe à travers la presse « vernaculaire » en
Franche-Comté
historique :
La MSHE de Franche-Comté et ses tutelles financières; le SGAR
Commandite / mise à l’épreuve :
« pourquoi notre région, copieusement arrosée de fonds structurants européens, vote-t-elle à 57% ‘non’ au
referendum TCE de mai 2005 ? »
Notre réponse (proposition du pôle ABC) :
A côté d’un sondage classique d’opinion,
un volet d’ analyse du discours de presse.
Recueillir l’ensemble des publications déposées au dépôt légal
régional entre avril 2004 et mai 2006
Les océriser, les disposer en une base textuelle
Constituer un corpus d’étude et le soumettre à une analyse
exploratoire débouchant sur quelques conclusions
Inscrire cette opération dans une durée (suivi des représentations)
Applications… [excursus « qui n’a rien à voir ?...]
Bien souvent, dans le contexte universitaire
contemporain, les moyens réduits nous
conduisent à réduire (provisoirement) la base
projetée aux dimensions du corpus adapté à
l’enquête en cours (commande institutionnelle,
publication, thèse…)
Applications… [excursus « qui n’a rien à voir ?...]
Bien souvent, dans le contexte universitaire contemporain, les moyens
réduits nous conduisent à réduire (provisoirement) la base projetée aux
dimensions du corpus adapté à l’enquête en cours (commande
institutionnelle, publication, thèse…)
Ce n’est pas une raison pour le « théoriser ».
Applications…
Représentations de l’Europe à travers la
presse « vernaculaire » en Franche-Comté
corpus :
942 titres de presse déposés (base)
282 titres « filtrés » par mots-clés
692 articles de longueurs variables (corpus)
Applications…
Représentations de l’Europe à travers la presse
« vernaculaire » en Franche-Comté
corpus :
692 fichiers PDF océrisés, corrigés, instanciés
Applications…
Représentations de l’Europe à travers la presse
« vernaculaire » en Franche-Comté
corpus :
692 fichiers balisés « mot à mot » (pseudo xml)
Applications…
Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté
corpus :
316 500 « mots » (occurrences, tokens)
20 800 formes graphiques (types)
Opération de lemmatisation (étiquetage lexical et morphologique)
Alternance
d’applications automatiques de ressources (dictionnaires et scripts de
levée contextuelle d’ambiguïtés graphiques)
de phases de décision interactive pour les cas indécidables par automates
Maintenance et enrichissement des ressources linguistiques
(système DiaTag)
Applications…
Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté
corpus :
Applications…
Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté
corpus :
310 000 occurrences
13 800 lemmes (types)
Applications…
Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté
Une comparaison « exogène » : une base contemporaine (2002) de 5
quotidiens nationaux d’information générale sur 5 mois – 30 millions de
mots. Non lemmatisée.
Occurrences, puis écarts-réduits à l’équidistribution.
Muller Ch. (1992). Initiation aux méthodes de la statistique linguistique. Champion
Applications…
Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté
Une comparaison « endogène » : la distribution d’un item lexical repéré
comme « mot-clé » parmi les parties structurelles du corpus.
Perspective discursive. Ouvre sur l’interprétation.
Applications…
Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté
Le tableau de la distribution générale des vocables dans les sous-corpus par
groupes d’énonciateurs se présente comme suit.
L’Analyse Factorielle des Correspondances (AFC) permet de classer les
profils des lignes et des colonnes d’un tel tableau, et de projeter cette
classification en un nuage de points (ici, un nuage dans l’espace 3D d’une
boule, repris en planisphère).
Lebart L. & Salem A. (1994). Statistique textuelle. Dunod
Cibois Ph. (1994). L’Analyse factorielle. PUF
Applications…
Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté
Une comparaison « endogène » généralisée : la distribution d’un grand nombre d’items lexicaux
parmi les parties structurelles du corpus. (AFC projection 3 facteurs)
Applications…
Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté
Une comparaison « endogène » généralisée : la distribution d’un grand nombre d’items lexicaux
parmi les parties structurelles du corpus. Zoom.
PAUSE…
Structures textuelles non séquentielles.
Qu’est-ce que le vocabulaire (vs lexique) ?
Qu’est-ce qu’un vocable (vs lexème)
On peut « exprimer » le vocabulaire comme liste des
vocables (avec indication de leur fréquence).
On peut même utiliser ce « dictionnaire élémentaire »
comme répertoire (cliquable en hypertexte).
PAUSE…
Structures textuelles non séquentielles.
Qu’est-ce que le vocabulaire (vs lexique) ?
Qu’est-ce qu’un vocable (vs lexème)
On peut « exprimer » le vocabulaire comme liste des vocables (avec indication de leur fréquence).
On peut même utiliser ce « dictionnaire élémentaire » comme répertoire (cliquable en hypertexte).
Mais on peut aussi concevoir qu’un vocable est une série d’occurrences.
Il détermine une série de contextes (phrases e.g.)
Cette série de contextes est une espèce particulière
- et particulièrement intéressante de « sous-ensemble » textuel.
PAUSE…
Structures textuelles non séquentielles.
Qu’est-ce que le vocabulaire (vs lexique) ?
Qu’est-ce qu’un vocable (vs lexème)
Nous pouvons déterminer si, dans le contexte total – discontinu – d’un
vocable, tel autre vocable est significativement plus présent que dans
l’ensemble du texte.
(écart-réduit > 2)
PAUSE…
Structures textuelles non séquentielles.
Qu’est-ce que le vocabulaire (vs lexique) ?
Qu’est-ce qu’un vocable (vs lexème)
Nous pouvons déterminer, pour un vocable, quels
sont ses cooccurrents les plus forts.
(exemple : concurrence_SF)
PAUSE…
Structures textuelles non séquentielles.
Qu’est-ce que le vocabulaire (vs lexique) ?
Qu’est-ce qu’un vocable (vs lexème)
Nous pouvons généraliser cette observation, en comparant les profils de
cooccurrence des principaux vocables d’un ensemble textuel.
On recueille les données dans une matrice lignes/colonnes :
PAUSE…
Structures textuelles non séquentielles.
Qu’est-ce que le vocabulaire (vs lexique) ?
Qu’est-ce qu’un vocable (vs lexème)
L’Analyse Factorielle des Correspondances (AFC) permet de classer les
profils cooccurrentiels et de projeter cette classification en un nuage de
points (ici, un nuage dans l’espace 3D d’une boule, repris en planisphère)
PAUSE…
Structures textuelles non séquentielles.
Qu’est-ce que le vocabulaire (vs lexique) ?
Qu’est-ce qu’un vocable (vs lexème)
La proximité (angulaire) des points du nuage est une fonction approchée de
leur parenté de profil « (micro-)distributionnel ».
Cette proximité définit ce que nous nommons ISOTROPIE.
PAUSE…
Structures textuelles non séquentielles.
Qu’est-ce que le vocabulaire (vs lexique) ?
Qu’est-ce qu’un vocable (vs lexème)
L’ ISOTROPIE, rapport d’ équivalence distributionnelle au sens harrissien,
structure le vocabulaire en éclairant la signification (en contexte) d’items
lexicaux pluri-occurrents.
Elle donne à la fois un aperçu « thématique » sur l’ensemble et un aperçu
« sémantique » sur le détail.
Elle s’oppose conceptuellement à l’ ISOTOPIE, avec laquelle elle peut
opérationnellement être en rapport de complémentarité.
Est-ce réellement encore… une PAUSE ?
Structures textuelles non séquentielles.
Qu’est-ce que le vocabulaire (vs lexique) ?
Qu’est-ce qu’un vocable (vs lexème)
Plus sophistiqué.
On peut repérer dans le nuage les items sur-employés dans une partie
discursive du corpus. Ici, en bleu, les vocables privilégiés par les syndicats
d’agriculteurs (princ. Confédération Paysanne )
Est-ce réellement encore… une PAUSE ?
Structures textuelles non séquentielles.
Qu’est-ce que le vocabulaire (vs lexique) ?
Qu’est-ce qu’un vocable (vs lexème)
On peut même affecter 4 couleurs distinctes aux vocables privilégiés par les
4 principaux groupes énonciateurs.
Est-ce réellement encore… une PAUSE ?
Structures textuelles non séquentielles.
Qu’est-ce que le vocabulaire (vs lexique) ?
Qu’est-ce qu’un vocable (vs lexème)
Ce n’est pas toujours le cas, mais ici la structure isotropique est fortement
homologue de la répartition par groupes d’énonciateurs.
Ce fut même un élément-clé de notre rapport d’interprétation.
Révisons…
Profils micro-distributionnels
Révisons…
Profils micro-distributionnels
Comparaison par paires : deux profils voisins.
Révisons…
Profils micro-distributionnels
Comparaison par paires : deux profils opposés.
Révisons…
Analyse multidimensionnelle (AFC) de l’isotropie.
(plan des 2 premiers facteurs)
Avançons…
Une autre application : le lexique en discours.
Eléments de description lexicologique d’un vocable : REGARD,Nm
Balzac,
La Comédie humaine
Avançons…
Une autre application :
le lexique en discours.
Balzac,
La Comédie humaine
Viprey 2005A
Avançons…
Une autre application :
le lexique en discours.
Avançons…
Une autre application : le lexique en discours.
Eléments de description lexicologique différentielle d’un vocable :
REGARD,Nm éclairé par REGARDER,V
Balzac,
La Comédie humaine
Généralisons…
CONSTITUER, TRAITER… LIRE
LES [GRANDS] CORPUS ?
Un « grand » corpus, ce peut être des centaines de
millions de mots (étude d’un discours de presse)…
mais aussi bien 300 000 mots s’ils se répartissent dans
700 articles parfois très fastidieux (notre exemple au
service du SGAR de Franche-Comté).
Généralisons…
CONSTITUER, TRAITER… LIRE
LES [GRANDS] CORPUS ?
« Traiter » un grand corpus, c’est bien sûr une question
statistique. On fait monter ses régularités, ses
saillances, on le cartographie.
Cela, en vue d’une meilleure pénétration d’un discours.
La question souvent éludée en sciences humaines, c’est
le choix des attestations. L’expertise de l’expert se mord
un peu la queue…
Généralisons…
CONSTITUER, TRAITER… LIRE
LES [GRANDS] CORPUS ?
Certains logiciels prétendent extraire les phrases les
plus représentatives, fabriquer des résumés, le tout
automatiquement (« boîtes noires »).
L’ambition d’une ATD « outillée » est d’aider le chercheur
à explorer son corpus au plus près de ses compétences
et de ses hypothèses, par un « retour au texte » aussi
plénier que possible.
Par l’alternance des « états de texte » (plein texte,
dictionnaires, listes, cartes, formules de requête…)
Généralisons…
CONSTITUER, TRAITER… LIRE
LES [GRANDS] CORPUS ?
L’ambition d’une ATD « outillée » est de VIABILISER les
corpus en vue d’un travail constitutif, descriptif, réflexif et
interprétatif élargi et approfondi.
Cette ambition se rencontre avec le développement des
concepts et des techniques de l’ HYPERTEXTE, dont
HTML et XML sont les langages.
Hyperbase depuis quinze ans, Astartex-DiaTag plus
modestement, préfigurent cet environnement un peu
« intégral » où se rejoignent le philologue et l’herméneute.
Bibliographie…
La bibliographie est donnée en notes sur les diapositives, à l’exception des références de l’auteur,
qui suivent :
● 2008 avec Virginie Lethier (coordonnateurs) Semen n°25, Le Discours de presse au XIXème siècle :
pratiques socio-discursives émergentes. – Besançon, Presses Universitaires de Franche-Comté
● 2008 avec Virginie Lethier «Annotation linguistique de corpus : vers l’exhaustivité par la convialité.»
in JADT’09, 9èmes Journées internationales d'Analyse statistique des Données Textuelles. – Lyon, Presses
Universitaires de Lyon
● 2006 (coordonnateur) JADT’06 , 8èmes Journées internationales d'Analyse statistique des Données
Textuelles. – Besançon, Presses Universitaires de Franche-Comté.
● 2006 « Philologie numérique et herméneutique intégrative » in Sciences du texte et analyse de discours :
enjeux d’une interdisciplinarité dir. Jean-Michel Adam & Ute Heidman. – Genève : Slatkine (pp. 51-68)
● 2006 « About Labbé’s intertextual distance » in Journal of Quantitatie Linguistics vol.13 n° 2-3 AoûtDécembre 2006, Routledge (pp.164-284)
● 2006 « …un de ces syntagmes qui… » in Corpus n°5, Corpus et stylistique, 2006, CNRS-UNSA.
● 2006 « Quelle place pour les sciences des textes dans l’Analyse de Discours » in Semen n° 21
Catégories pour l’analyse du discours politique, Besançon, Presses Universitaires de Franche-Comté
(pp.167-182)
● 2006 « Ergonomiser la visualisation AFC dans un environnement d’exploration textuelle : une projection
‘géodésique’ » in JADT’06, 8èmes Journées internationales d'Analyse statistique des Données Textuelles. –
Besançon, Presses Universitaires de Franche-Comté.
● 2005 « Méthodes pour la lecture des corpus » in Sémantique et corpus dir. Anne Condamines. – Hermès
● 2005 « Structure non séquentielle du texte » in Langages n° 161, Unité(s) du texte dir. Dominique
Legallois. – Paris : Larousse. (pp. 65-82)
● 2002 Analyses textuelles et hypertextuelles des Fleurs du mal - Champion, Paris.
● 1997 Dynamique du vocabulaire des Fleurs du mal - Champion, Paris. (Prix International de la Fondation
Paul-Robert 1998).