Quantitative Text Typology Peter Grzybek & Ernst Stadlober -gewi.uni-graz.at/quanta Austrian Research Fund

Download Report

Transcript Quantitative Text Typology Peter Grzybek & Ernst Stadlober -gewi.uni-graz.at/quanta Austrian Research Fund

Peter Grzybek & Ernst Stadlober
Quantitative Text Typology
http://www-gewi.uni-graz.at/quanta
 http://quanta.uni-graz.at
Austrian Research Fund  Project #15485
Let‘s suppose there is …
… A Universe
of Texts
Is the Universe Structured ?
Or Can We Structure it ?
How Can the Text Universe Be Structured?
Corpus Analysis
(Re-)Construction
• of a norm
• of a standard
• of „language“
vs.
Text Analysis
Text
As a
Homogeneous Entity
„Text Mixture“
(„Quasi Text“)
Self-regulating System
Complete Text
What is a Text ?
• Complete novel, composed of books ?
• Complete book of a novel, consisting of several chapters ?
• Individual chapters ?
• Dialogical vs. narrative sequences within a text ?
Two Major Problems:
1.
Data Homogeneity
2.
Definition of Basic Analytical Units
Both problems relevant for quantitative approaches
WHY QUANTITATIVE APPROACHES ?
ASSUMPTION:
•
If a ‚text‘ is governed by synergetic processes, these processes
can and must be quantitatively described.
•
The descriptive models obtained for each ‚text‘, can be
compaired to each other, possibly resulting in one or more
general model(s).
•
Thus, a quantitative typology of texts can be obtained.
WHY WORD LENGTH ?
Synergetics In a Nutshell –
Frequencies and Dependencies
SENTENCE

Frequency

Frequency

Frequency
Length
↕
CLAUSE
Length
↕
WORD / LEXEME
Length
↕
SYLLABLE / MORPHEME Length
↕
PHONEME / GRAPHEME Length
Frequency
Frequency
Frequency
Frequency
Frequency
Word Length: Graphemes, Phonemes, Syllables, Morphemes,…
TYPES OF TEXT TYPOLOGIES
I. Qualitative
II. Quantitative-Qualitative
a. Tabula Rasa Principle (Clustering Methods)
b. A-priori  A-posteriori Principle
(Discrimination Methods)
Structuring the Text Universe
(Ia): Text Sorts
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Abänderungsvertrag
Abbestellung
Abbruchgenehmigung
Abdankungserklärung
Abecedarium
Abendblatt
Abendgebet
Abendgespräch
Abendnachrichten
Abendprogramm
Abendzeitung
Abenteuerroman
Aberkennung
Abfahrtsplan
Abfindungserklärung
Abgabebewilligung
Abgabeordnung
Abgangsmeldung
Abgangszeugnis
Abgeordnetenrede
…
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014
2015
2016
2017
2018
2019
2020
Lamento
Landesliste
Landsknechtslied
Landstreicherroman
Langzeitprogramm
Langzeitstudie
Lapidarium
Lastenausgleichsgesetz
Lastschriftzettel
Latrinengerücht
Latrinenparole
Laudatio
Laufzettel
Layout
Lead
Leaflet
Lebensversicherungsantrag
Lebensabriss
Lebensbericht
Lebensbeschreibung
…
3961
3962
3963
3964
3965
3966
3967
3968
3969
3970
3971
3972
3973
3974
3975
3976
3977
3978
3979
3980
Zustandsdrama
Zustellungsurkunde
Zustellvermerk
Zuzugsgenehmigung
Zwanziguhrnachrichten
Zweckmeldung
Zweiergespräch
Zwiegespräch
Zwischenbemerkung
Zwischenbericht
Zwischenbescheid
Zwischenfrage
Zwischenruf
Zwischenschein
Zwischenspiel
Zwischentest
Zwischentitel
Zwischenurteil
Zwischenzeugnis
Zyklenroman
…
Structuring the Text Universe
(Ib): Functional Styles
Funktionalstile
Stil der
Alltagsrede
(Umgangssprache)
wissenschaftlicher
Stil
offiziell- amtlicher
Stil des öffentlichen
Verkehrs
journalistischpublizistischer
Stil
künstlerischer
Stil
prosaisch
poetisch
dramatisch
In a qualitative approach, the text universe is structured with
regard to external (pragmatic) factors
(„with reference to the world“)
WORLD
OF
TEX TS
"WORLD"
• general communicative functions of language (functional styles)
• specific situational functions (text sorts)
Broad, General Narrow, specific
Categories
Few
Many
Items
heterogeneous homogeneous
included
tend to be
Top-Down
F U N C T I O N A L
S T Y L E
T E X T
S O R T S
            T E X T S             
Bottom-Up
Alltag
Wissenschaft
Administration
Journalistik
1
Privatbrief
Tagebucheintrag
Witz
2
Abstract
Aufsatz
Autorreferat
Diplomarbeit
Dissertation
Referat
Rezension
Tagungsbericht
3
Anleitung
Geschäftsbrief
Gesetzestext
Gutachten
Offener Brief
Parteitagsbeschluss
Predigt
Schreiben
Vertrag
Vortrag
4
Agenturmeldung
Auslandsbericht
Fachartikel
Feuilleton
Glosse
Kolumne
Kommentar
Kritik
Leserbrief
Meldung
Sportbericht
Wetterbericht
Zeitschriftenaufsatz
Zeitungsartikel
Prosa
5
Autobiographie
Biographie
Briefroman
Epilog
Erinnerungen
Erzählung
Fabel
Gleichnis
Kunstmärchen
Kurzroman
Legende
Mythos
Novelle
Roman
Sage
Schwank
Tagebuchroman
Volksmärchen
Kunst
Poesie
6
Elegie
Epos
Gedicht
Ode
Sonett
Verserzählung
Versroman
Dramatik
7
Drama
Komödie
Tragödie
Versdrama
Bottom-Up
Top-Down
First and Second Order Cross Comparisons
Alltag
Wissenschaft
Administration
Journalistik
1
Privatbrief
Tagebucheintrag
Witz
2
Abstract
Aufsatz
Autorreferat
Diplomarbeit
Dissertation
Referat
Rezension
Tagungsbericht
3
Anleitung
Geschäftsbrief
Gesetzestext
Gutachten
Offener Brief
Parteitagsbeschluss
Predigt
Schreiben
Vertrag
Vortrag
4
Agenturmeldung
Auslandsbericht
Fachartikel
Feuilleton
Glosse
Kolumne
Kommentar
Kritik
Leserbrief
Meldung
Sportbericht
Wetterbericht
Zeitschriftenaufsatz
Zeitungsartikel
Prosa
5
Autobiographie
Biographie
Briefroman
Epilog
Erinnerungen
Erzählung
Fabel
Gleichnis
Kunstmärchen
Kurzroman
Legende
Mythos
Novelle
Roman
Sage
Schwank
Tagebuchroman
Volksmärchen
Kunst
Poesie
6
Elegie
Epos
Gedicht
Ode
Sonett
Verserzählung
Versroman
Dramatik
7
Drama
Komödie
Tragödie
Versdrama
Intended Emphasis on Letters
‚Letter‘ as a Prototype of Language
1.
Located between Oral and Written Communication
2.
Result of One Homogeneous Process of Text Generation
Ablassbrief
Adelsbrief
Beileidsbrief
Bettelbrief
Bittbrief
blauer Brief
Brandbrief
Briefbericht
Briefkarte
Briefkopf
Briefsteller
Briefwechsel
Drohbrief
Ehrenbürgerbrief
Eilbrief
Erpresserbrief
Facharbeiterbrief
Frachtbrief
Freibrief
Gautschbrief
Gesellenbrief
Heldenbriefe
Himmelsbriefe
Hirtenbrief
Hörerbrief
Hypothekenbrief
Kaperbrief
Kartenbrief
Kaufbrief
Kettenbrief
Kondolenzbrief
Lehnsbrief
Lehrbrief
Leserbriefdebatte
Literaturbriefe
Mahnbrief
Meisterbrief
Minnebrief
Musterbrief
Pastoralbrief
Pfandbrief
Prämienbrief
Reisebrief
Scheidungsbrief
Schlussbrief
Schmähbrief
Schuldbrief
Schutzbrief
Sendbrief
Sparbrief
Sparkassenbrief
Steckbrief
Stiftungsbrief
Studienbrief
Unterrichtsbrief
Wappenbrief
Werbebrief
Zulassungsbrief
Abschiedsbrief
Brief
Briefroman
Dankbrief
Empfehlungsbrief
Entschuldigungsbrief
Geleitbrief
Geschäftsbrief
Glückwunschbrief
Gratulationsbrief
Leserbrief
Liebesbrief
Privatbrief
Protestbrief
Rundbrief
Textbasis (398 Slovenian Texts)
FUNCTIONAL
STYLE
AUTHOR(S)
TEXT TYPE(S)
NUMBER
EVERYDAY
LANGUAGE
Cankar, Jurčič
Private Letters
61
PUBLIC STYLE
div. anon.
Open Letters
29
JOURNALISM
div. anon.
Readers‘ Letters,
Comments
65
Cankar
68
Švigelj-Mérat /
Kolšek
Individual Chapters from Short
Novels („povest“)
Letters from an Epistolary
Novel
Poetry
Gregorčič
Versified Poems
40
Drama
Jančar
Individual Acts from Dramas
42
ARTISTIC STYLE
Prose
93
A Small World of Texts
Word Length Frequencies (in %) of Four Texts
50
50
Kurzprosa
Vers
40
40
30
30
20
20
10
10
0
0
1
2
3
4
5
6
7
1
Literary Prose Text (#256)
2
3
4
5
6
7
Versified Poetic Text (#359)
50
50
Privatbrief
Kommentar
40
40
30
30
20
20
10
10
0
0
1
2
3
4
5
6
Journalistic Comment (#324)
7
1
2
3
4
Private Letter (#1)
5
6
7
Post-Hoc-Tests (Text Sorts)
Groups without significant differences form „homogeneous subgroups“
m1
Scheffé-Prozedur
textsort
Gedichte
Kurzprosa
Privatbrief
Drama
Briefroman
Leserbrief
Kommentar
Offener Brief
Signifikanz
N
40
68
61
42
93
30
35
29
Untergruppe für Alpha = .05.
1
2
3
4
5
1,7127
1,8258
1,8798
1,8973
2,0026
2,2622
2,2883
2,4268
1,000 0,366 1,000 0,994 1,000
a. Homogeneous subgroups do exist
b. All four letter types in different subgroups !
Post-Hoc-Analyses  Homogeneous Subgroups
Discriminant analyses  Cases are attributed to groups, on
the basis of specific predictor variables
The variables are submitted to linear transformations in order
to arrive at an optimal discrimination of the individual cases
Discriminant Analysis: Eight Text Sorts
Kanonische Diskriminanzfunktion
textsort
8
Privatbrief
Offener Brief
Leserbrief
6
Kommentar
Briefroman
Funktion 2
Kurzprosa
4
Gedichte
2
Gruppenmittelpunk
te
Drama
Gedichte
Offener Brief
Kommentar
Leserbrief
0
Kurzprosa
Drama
Briefroman
Privatbrief
Discrimination variables:
m1, m2, v, p1
-2
(56.30%)
-4
-7,5
-5,0
-2,5
0,0
Funktion 1
2,5
5,0
7,5
Discriminant Analysis: Four Letter Types (n=213)
{Private L.} {Ep. Novel} {Readers‘ L.} {Open L.}
Kanonische Diskriminanzfunktion
textsort
6
Privatbrief
Offener Brief
Leserbrief
Briefroman
4
Funktion 2
Gruppenmittelpunk
te
2
Briefroman
0
Discrimination variables: m1, v
Leserbrief
Privatbrief
70.40 %
Offener Brief
-2
-4
-4
-2
0
2
Funktion 1
4
6
Vorhergesagte Gruppenzugehörigkeit
textsort
Privatbrief Offener Brief Leserbrief Briefroman Gesamt
Privatbrief
37
0
2
22
61
Offener Brief
0
22
3
4
29
Leserbrief
1
9
10
10
30
Briefroman
10
0
3
80
93
Discriminant Analysis: Three Letters Types (n=213)
{Private L., Ep. Novel} {Readers‘ L.} {Open L.}
Kanonische Diskriminanzfunktion
poa
4
PB/BR
OB
LB
3
Gruppenmittelpunk
te
Funktion 2
2
1
Discrimination variables: m1, p2
PB/BR
0
OB
86.90 %
LB
-1
poa
PB/BR
OB
LB
-2
-3
-2
0
2
4
Vorhergesagte Gruppenzugehörigkeit
PB/BR
OB
LB
151
0
3
2
20
6
12
5
14
6
Funktion 1
 Distinction of Literary Letters Irrelevant ?
Gesamt
154
28
31
Discriminant Analysis: Private vs. Public Letters (n=213)
{Private L., Ep. Novel}, {Readers‘ & Open L.}
Vorhergesagte Gruppenzugehörigkeit
oeffpriv
priv
pub
priv
151
14
pub
3
45
Gesamt
154
59
Discrimination variables: m1, p2
92.00 %
 Distinction of Private vs. Public Styles ?
Discriminant Analysis: Private vs. Public Texts (n=248)
{Private L., Ep. Novel}, {Readers‘ & Open L., Comments}
oeffpriv
priv
pub
Vorhergesagte Gruppenzugehörigkeit
priv
pub
148
6
16
78
Discrimination variables: m1, p2
91.10 %
 Public vs. Private Styles ?
Gesamt
154
94
Discriminant Analysis: Private/Oral vs. Public/Written Texts (n=290)
{Private L., Ep. Novel, Drama}, {Readers‘ & Open L., Comments}
oeffpriv
priv
pub
Vorhergesagte Gruppenzugehörigkeit
priv
pub
190
6
16
78
Discrimination variables: m1, p2
92.40 %
 Oral vs. Written Styles ?
Gesamt
196
94
Discriminant Analysis: Three Text Types (n=330)
{Private / Oral} {Public / Written} {Verse}
Kanonische Diskriminanzfunktion
oeffpriv
4
priv
pub
vers
Gruppenmittelpunk
te
Funktion 2
2
priv
0
Discrimination variables: m1, p2, v
pub
vers
91.20 %
-2
-4
-6
-4
-2
0
2
Funktion 1
4
6
oeffpriv
priv
pub
vers
Vorhergesagte Gruppenzugehörigkeit
priv
pub
vers
191
3
2
19
75
0
5
0
35
 Towards a New Typology ?
Gesamt
196
94
40
Discriminant Analysis: Four Text Types (n=398)
{Private / Oral} {Public / Written} {Prose} {Verse}
oeffpriv














  

    



      
   


   


 
     

 

   



  
   

    
      
 

    
  


    
  
  
 
  
      
   
        
  

 
 
 
 
  


 



   


  

    
   
 
 

   
 
 
  


   












priv
pub
vers
lit

Discrimination variables: m1, p2, v
79.90 %


oeffpriv
priv
pub
lit
vers
Vorhergesagte Gruppenzugehörigkeit
priv
pub
lit
vers
183
19
42
3
75
0
9
0
26
1
0
0
Gesamt
196
94
68
1
0
5
34
40
Discriminant Analysis: Three Text Types (n=398)
{Private / Oral} {Public / Written / Prose} {Verse}
Kanonische Diskriminanzfunktion
oeffpriv
priv
pub
4
vers
Gruppenmittelpunk
te
Funktion 2
2
Discrimination variables: m1, p2, v
priv
0
pub
92.70 %
vers
-2
oeffpriv
priv
pub
vers
-4
-6
-4
-2
0
Funktion 1
2
4
6
Vorhergesagte Gruppenzugehörigkeit
priv
pub
vers
260
3
1
19
75
0
6
0
34
Gesamt
264
94
40
This is the End …