Transcript filologie - Thor.info.uaic.ro
Semantica și pragmatica limbajului natural
Daniela Gîfu
Cursul nr. 3
De la lingvistică teoretică la lingvistică computațională
2
Distincții conceptuale: limbaj, act lingvistic, limbă - I
Lingvistica - ştiinţă a limbajului,
glotologie
sau
glosologie
(fr.
linguistique
sau
science du langage
, ital.
linguistica
sau
glottologia
, germ.
Sprachwissenschaft
, engl.
linguistics
).
şi, mai puţin propriu,
filologie
,
filologie comparată
,
gramatică comparată
. Lingvistica - ştiinţa care studiază limbajul uman articulat, în general şi în formele sale specifice de realizare ( acte lingvistice ) şi în sistemele de izoglose care, tradiţional sau convenţional, se numesc limbi .
Lingvistica – “studiul științific al limbii” (Lyons, 1995).
Lingvistica Lingvistica – “studiul științific al limbajului omenesc” (Martinet, 1970).
– studiază “toate manifestările limbajului uman” (Saussure, 1998).
Obs 1: lingvistica lingviştilor, adică lingvistica în calitate de ştiinţă , nu trebuie confundată cu cunoaşterea practică a limbilor.
Cofuzii conceptuale
I. lingvist şi lingvistică II. lingvistică și filologie
filologie
– o ramură a lingvisticii (
gramatica comparată
)
–
Anglia –
comparative philology
- pentru a indica gramatica comparată şi, uneori, chiar pentru a desemna lingvistica în totalitatea ei. Corect ar fi
linguistics.
–
Italia – lingvistica e
glottologia
(din gr.
glotta,
„limbă"), după numele disciplinei Lingvistică generală. Corect ar fi
linguistica. filologie
– lingvistici speciale (ex:
filologia romanza
şi
filologia germanica
pentru disciplinele de lingvistică romanică, respectiv germanică).
în sens strict:
filologie
– critica textelor; în sens amplu:
filologie
- ştiinţa tuturor informaţiilor care se deduc din texte.
Obs 2: filologia se ocupă, în general, de fapte de istorie , mai ales veche, în special socială şi culturală (literară) , în timp ce lingvistica studiază fapte de limbă sau, mai curând, de limbaj.
Ce este lingvistica generală? Humboldt și Saussure
Humboldt - Valorificarea actului lingvistic ca aspect fundamental al limbajului. limbajul ca
energeia -
creare continuă de acte lingvistice individuale, ca ceva dinamic; limbajul ca
ergon
- „produs" sau „lucru făcut", ca sistem realizat istoriceşte ("limbă"). Saussure – două aspecte esențiale ale limbajului: -
parole
(vorbire, act lingvistic) -
activitatea de vorbire
- aparţine individului.
- langue
(limbă) -
norma, sistemul lingvistic care se realizează în vorbire
aparţine societăţii.
II. Lingvistica generală -
lingvistică teoretică / teorie a limbajului,
caracterul preponderent teoretic şi metodologic al acestei ştiinţe vs. Lingvistică empirică
-
studiul particular al anumitor limbi.
III. Lingvistica generală - cuprinde
lingvistica teoretic
ă + ansamblul de ştiinţe lingvistice „generale“ (fonetica, semantica, gramatica generală, stilistica etc.).
Limbaj. Semn. Simbol
Limbaj - orice sistem de semne care serveşte la intercomunicare. Limbaj - orice tip de comunicare între fiinţe capabile să se exprime (oameni sau animale).
Limbaj - obiectul propriu al lingvisticii.
OBS 1: lingviştii nu acceptă limbajul animal ca obiect al cercetării lingvistice, pentru că nu recunosc în el caracteristicile esenţiale ale limbajului uman. Sistemele de semne simbolice - limbajul articulat, toate sistemele de semnalizare (cu fanioane, cu semnale luminoase etc.) şi orice alt sistem care exprimă sau comunică ceva în mod simbolic şi convenţional. Ex: arta, semnalele rutiere. OBS 2: multe din aceste limbaje sunt „traductibile" în limbajul articulat.
Trăsături generale ale limbajului – Hocket, 1958
1. Utilizarea aparatului audio-fonator; 2. Caracterul direcțional al emiterii și receptării mesajului; 3. Dispariția rapidă a emisiei sonore; 4. Caracterul interșanjabil al poziției emițătorului și a receptorului (“caracterul dialogal”); 5. Retroactictivitatea; 6. Specializarea; 7. Semanticitatea; 8. Arbitrarietatea; 9. Caracterul direct; 10. Caracterul substitutiv; 11. Caracterul deschis; 12.Caracterul cultural; 13. Dubla articulare; 14. Capacitatea de stimulare a comunicării; 15. Reflexivitatea; 16. Posibilitatea învățării oricărui sistem de comunicare (ex. poliglosia).
Semn și simbol
Semn
-
un „instrument" care serveşte la redarea unei idei, a unui concept sau a unui sentiment, cu care semnul însuşi nu coincide: Semne - faptele înseşi ale unui „context", în măsura în care prezenţa unuia dintre ele reclamă sau implică posibilitatea ori necesitatea de a apărea şi alt(e) fapt(e) aparţinind aceluiaşi „context".
Semnul lingvistic SEMNELE LIMBAJULUI UMAN AU ÎNTOTDEAUNA VALOARE SIMBOLICĂ.
„Context" - orice ansamblu de fapte care se află de obicei într-o relaţie necesară sau, cel puţin, obişnuită (psihologii, behavioriştii).
-
simptom
ca expresie a vorbitorului;
- semnal
în relaţie cu receptorul;
- simbol
în raport cu semnificatul său „real”.
Actul lingvistic
Nu există limbi, ci numai acte lingvistice de expresie și comunicare (Coșeriu).
În limbaj
Există Nu există
identitate între intuiţie şi expresie între expresie şi comunicare/receptare între expresia lui A şi intuiţia lui B.
Actul lingvistic - act eminamente individual, determinat social prin însăşi finalitatea sa: „a spune cuiva ceva despre ceva".
Actul lingvistic - poate cel mai important concept al lingvisticii moderne; unica realitate concretă a limbajului.
Limba – noțiune abstractă
Limba - ansamblul actelor lingvistice practic identice ale unei comunităţi de indivizi.
Limba - ansamblu de acte lingvistice comune virtuale: în conştiinţa noastră limba sistem, model.
Clz: D.p.d.v. lingvistic, limita dintre „limbi" este convenţională, aşa cum este şi limita dintre dialecte.
Limba - sistem de izoglose stabilit convenţional, care însumează ceea ce este comun expresiilor unei comunităţi sau chiar şi unui singur individ în epoci diferite. Ex: limba spaniolă - sistemul de izoglose caracteristic spaniolilor şi tuturor indivizilor care aparţin comunităţii lingvistice spaniole.
Accepții particulare: (a) limbi speciale , (b) limbi artificiale (a) - vorbirile caracteristice unor grupuri sociale sau profesionale, precum şi limbajele tehnice (ex. argouri).
(b) - sistemele lingvistice construite ca posibile instrumente de înţelegere internaţională, deasupra limbilor naţionale (ex. esperanto)
.
Domeniul Lingvisticii Computaționale și al Prelucrării Limbajului Natural
Lingvistica computaţională
(LC) [
computational linguistics
] – zona teoretică
Prelucrarea limbajului natural
[
natural language processing
] – zona aplicativă Studiul limbajului uman din două perspective: unul teoretic - adăugarea metodelor de investigare a limbajului, utilizate de lingvistica clasică, aparatul teoretic şi experimental al informaticii.
unul experimental - realizarea dezideratului ca omul să poată comunica cu maşina în limbaj natural, modul cel mai natural pentru el.
▫ ▫ tehnologia limbajului natural,
natural language technology (NLT)
tehnologia limbajului uman
, human language technology (HLT)
Domeniul LC
&
PLN
Studierea limbajului uman ca mijloc de comunicare om-maşină maşină-maşină om-om.
Scop: TRANSFORMAREA IMENSEI ACUMULĂRI DE CUNOŞTINŢE UMANE ÎNTR-O ZONĂ DE EXPLORARE AUTOMATĂ.
Instrumentele de lucru: teoretice, empirice şi aplicative.
Un domeniu pentru lingvişti şi informaticieni, dar mai ales pentru lingvişti informaticieni.
- Teoriile lingvistice dobândesc o exprimare formală.
- Formalismul computaţional oferă posibilităţi mai expresive de descriere a intuiţiilor lingvistice.
Buna coabitare lingviști – informaticieni FORMALIZĂRILE DIN LINGVISTICĂ AU FOST PRELUATE DE INFORMATICIENI PENTRU A PLASA PE ELE ANSAMBLUL LIMBAJELOR FORMALE.
Lingvistica computațională – istoric și problematici
1.
2.
3.
4.
5.
6.
7.
8.
anii ‘60 – Warren Waver – memorandum / traducerea automată posibilă; anii ‘70 – sistemul Systran (și azi în Comisia Europeană).
azi două metode: simbolice (pt. lingviști) și statistice (pt. informaticieni).
cercetarea americană / sovietică / vest-europeană: Cercetări lexicografice asistate de calculator (ex: e-DTLR).
Modele de “traducere directă”.
Analiza sintactică.
Dezambiguizarea sensurilor și alegerea lexicală.
Analize statistice asupra limbajelor naturale.
Propuneri de reprezentări interlinguale.
Gramatici de dependență (de la Chomsky la Sag&Pollard) .
Lingvistică matematică (Solomon Marcus).
Noam Chomsky
Ivan A. Sag Carl J. Pollard
a transformat fundamental domeniul psihologiei, prin ideile sale despre originea limbajului.
- cunoscut pentru "teoria gramaticii generative" şi pentru revoluţionarea întregului sistemul lingvistic modern prin celebrele sale modele generative.
1.
2.
contribuțiile în domeniul lingvisticii, axate pe teoria gramaticii, semantică și procesarea limbajului. inventatorul așa-numitei
Head grammar
și ordinii superioare a gramaticii.
1 și 2 - co-inventori a
Head-driven phrase structure grammar (HPSG).
Unitatea de bază - semnul. Subunități – cuvântul și fraza.
Cercetări lexicografice
e-DTLR
(Iași, București, Cluj) include un parser al intrărilor din DLR. Etape: copierea şi scanarea paginilor dicţionarului; transpunerea prin OCR-izare a lor într-un format (html) care să permită identificarea zonelor cu particularităţi tipografice; corectarea greşelilor de OCR-izare, operaţie manuală şi de rutină; extragera câmpurilor (din html în xml); reconversia grafică a intrărilor pentru generarea unui format care, tipărit, să arate identic cu cel original; corectarea finală; actualizarea dicționarului.
WordNet
(Universitatea Princeton, George Miller.) organizează substantivele, verbele, adjectivele şi adverbele limbii engleze în serii sinonimice, numite
synseturi
, fiecare reprezentând modalităţi de realizare lexicală în limba engleză a conceptului ce abstractizează înţelesul comun al seriei (Fellbaum, 1998). Synseturile - legate prin relaţii de natură semantică (hipernimie şi hiponimie) (http://www.cogsci.princeton.edu/ ~/) .
Tehnologia limbajului natural
Limbajul vorbit Limbajul scris Limbajul în corelaţie cu alte modalităţi de expresie (multimodalitate) Temă seminar: exerciții RACAI (http://www.racai.ro/webservices/) Instrumente UAIC - (nlptools.info.uaic.ro)
Tehnologiile limbajului vorbit
Interpretarea vocii reprezentarea semnalelor vocale recunoaşterea vorbirii analiza prozodiei recunoaşterea vorbitorului Sinteza vocală
Tehnologiile limbajului scris
• Tehnologii primare - I ▫ Analiza imaginii documentelor ▫ ▫ Recunoaşterea caracterelor de tipar Recunoaşterea caracterelor de mână
Optical Character Recognition
(OCR) Analiza şi înţelegerea limbajului - III prelucrări sintactice • formalisme gramaticale • parsarea structura sintactică a frazei Analiza şi înţelegerea limbajului - II • prelucrări sub-sintactice • unităţile lexicale • graniţele de frază • granițele de propoziții • partea de vorbire şi marca morfologică • lema • numele de entităţi • grupurile (nominale, verbale, prepoziţionale etc.) şi atracţiile lexicale (colocaţii)
Ambiguitate inerentă a limbajului natural. Înțelesuri
- în sens logico-lingvistic - o pluralitate de semnificații care nu se subsumează unui act obişnuit de semnificație decât lăsând loc unui echivoc.
- echivocitate - când aceluiaşi nume îi corespund înțelesuri diferite. La nivelul frazei, ambiguitatea poate porni de la folosirea unui termen neclar sau de la o ambiguitate structurală. Ex: libertate, dreptate, bun. (ambiguitate lexicală).
Eemeren şi Grootendorst analiza sofismelor utilizării limbajului, determină patru factori principali care conduc la ambiguitate lingvistică: - implicitul funcției comunicative.
- necunoaşterea termenilor şi expresiilor.
- ambiguitatea referențială.
- vaguitatea (obscuritatea).
Ambiguitate locutorului. - când unui cuvânt, enunț sau discurs i se pot ataşa două sau mai multe înțelesuri (parțial) contrare sau când acestea desemnează mai mult decât simpla semnificație directă, literală, întrucât, sensul depinde de competența lingvistică a
Ambiguitatea limbajului natural. Lexicală
Omonimia şi ambiguitatea pot fi întâlnite la nivelurile fonetic, lexical, morfologic, sintactic şi stilistic (Gh. N. Dragomirescu, 1975).
Lexicală – același cuvânt diverse înțelesuri. Jocurile de cuvinte.
Omonimele - cuvinte cu formă identică şi acelaşi corp fonetic, dar cu înţeles total diferit: Ex: Barca pluteşte pe Am dat cu lac lac
.
pe unghii.
Eu am o rochie El a luat nota nouă nouă
.
la istorie.
Tipuri: (a) lexicale ; (b) lexico-gramaticale ; (c) morfologice .
(a)
totale -
omonimele care au forme flexionare identice: leu / leu---------lei / lei Mai am doar un leu în buzunar. Mai am doar doi lei De la circ a scăpat un leu . Am văzut mulţi lei la Zoo.
în buzunar.
Masa: Bandă:
parţiale
mese - omonimele nu au forme flexionare identice: (de bucătărie) / mase (de oameni) bande (de răufăcători) / benzi (magnetice)
Ambiguitatea limbajului natural. Lexicală
(b) - cuvinte cu formă identică, dar care sunt părţi de vorbire diferite: Ex: Noi: - adjectiv: Am caiete noi .
- pronume: Noi plecăm imediat.
Ex: Nouă: - adjectiv: Am o rochie nouă . - numeral: Am obţinut nota nouă la istorie, Ex: Poartă: - substantiv: Am o poartă mare.
- verb: El poartă o vestă verde.
Obs: A nu se confunda, deși în anumite contexte e posibil. Ex: masă - omonim cu sensul de mulţime: În fața Parlamentului era o masă de oameni.
cuvintele polisemantice (au sensuri apropiate, fiind derivate din sensul primar: ex.
masă
- obiect de mobilier;
masă
- mâncare, ospăţ.
cu omonimele (nu au legătură de sens între ele: ex. -
bancă
- din parc;
bancă
unde se depun banii.
Ambiguitatea sintactică. Niveluri
Omonimia sintactică - noi valenţe ştiinţifice odată cu apariţia gramaticii generativ transformaţionale prin lucrările lingvistului Noam Chomsky (
Aspects of the Theory of Syntax, Syntactic Structures
etc.) & competența lingvistică. Omonimia sintactică
-
existenţa unor structuri sintactice cu organizare şi componenţă identice, dar cu posibilităţi diferite de interpretare semantică.
Ambiguitatea sintactică (omonimia sintactică, amfibolie) - o consecinţă a omonimiei sintactice; apare atunci când ordinea cuvintelor permite două sau mai multe interpretări (arbori diferiți de analiză). Situaţii cu exemplificări: construcţiile cu pronume reflexiv ; construcţiile cu predicativ suplimentar gerunzial ; construcţiile cu genitivul (genitivul subiectiv vs. genitivul obiectiv) ; construcţiile cu forme cazuale de genitiv şi dativ (omonimia morfologică G/D) ş.a.
Ambiguitatea sintactică - I
I. Ambiguitatea gerunziului L-am auzit plângând – posibile interpretări semantico-sintactice: (a) Am auzit (eu) că (el) plângea < L-am auzit că plângea (gerunziul este echivalentul unei propoziţii subordonate, predicativă suplimentară); (b) L-am auzit când plângea (gerunziul este echivalentul unei propoziţii subordonate, circumstanţială temporală).
II. Genitivul subiectiv (Gs.) vs. genitivul obiectiv (Go.) Gs arată cine face acţiunea, corespunzând astfel subiectului din structura de adâncime şi actualizând rolul de AGENT: Ex: sosirea profesorului origine verbală).
< Profesorul a sosit/sosește (sosirea este un substantiv de Go determină nume de acţiune sau de agent şi actualizează rolul de PACIENT: Ex: realizatorul / realizarea emisiunii < Cineva a realizat emisiunea .
Ambiguitatea sintactică – II
Ambiguitatea participiului Participiul are o istorie derivativă diferită, în funcţie de calitatea verbului de bază. (a) Dacă verbul este
tranzitiv,
transformarea participială este precedată de relativizare, urmată de suprimarea relativului, iar, în plus, intervine şi pasivizarea: → pasivizare: *tractoare^care^ românii realizează tractoare la Braşov ; → relativizare: tractoare^care^sunt realizate de români la Braşov ; → transformare participială: * tractoare^care realizate de români la Braşov...
; → suprimarea relativului: tractoare realizate de români la Braşov . (b) Dacă verbul este → *elevii^care^
intranzitiv,
transformarea participială este precedată de relativizare, urmată de suprimarea relativului: elevii rămân repetenţi din cauza absenţelor ; → * elevii^care rămân din cauza absenţelor ; → * elevii care rămaşi repetenți din cauza absenţelor ; → elevii rămaşi repetenţi din cauza absenţelor .
Ambiguitatea sintactică – II’
Ambiguitatea participiului (c) Mai rar, participii „active” ale unor verbe tranzitive: om băut „care a băut”; se aplică transformările de la (b), cărora li se adaugă transformarea de suprimare a complementului direct: → suprimarea complementului direct: omul^care^omul a băut ceva ; → omul^care^omul a băut ceva ; → relativizarea: omul^care a băut ; → transformarea participială: * omul^care băut ; → suprimarea relativului: omul băut .
Obs: există posibilitatea interpretării participiului în două feluri – pasiv (a) şi activ (c). Ex: sintagma drum ocolit permite două interpretări: drum care ocoleşte (activă) şi drum care este ocolit de cineva (pasivă).
Ambiguitatea sintactică – III
Atribut pronominal datival – complement indirect datival Triada (GALR; 2005) atribut pronominal datival – complement indirect datival – complement posesiv - Complementul posesiv - un component al grupului verbal, exprimă “obiectul posedat”
,,obiectul posedat” (în sens larg)
Ex. Ion îşi iubeşte părinţii.
- Complementul indirect – pronumele (reflexiv) în cazul dativ, dacă apare în propoziţie
alături de un substantiv/de forma accentuată a pronumelui cu rol de complement indirect. Ex. Şi -a luat pălărie (
sieşi
). invers, dativul posesiv este atribut pronominal datival când posibilitatea de a apărea împreună cu substantivul sau cu pronumele accentuat este exclusă.
Ex. Mi -am spălat haina (
mea
) vs. Mi -am spălat o haină (
mie
).
Ambiguitatea sintactică – IV
Atribut substantival genitival – complement indirect datival Omonimia cazuală genitiv-dativ - două interpretări ale raporturilor sintactice.
Ex. I-am dat cartea acestei eleve . Subst. eleve este ambiguu, primind două interpretări: 1.
ca genitiv , dacă se consideră că este determinant al substantivului cartea, eleve poziţia sintactică de atribut substantival genitival 2.
ca dativ , dacă se consideră că este determinant al verbului am dat, eleve -poziţia sintactică de complement indirect datival. Obs1. dubla interpretare - articularea hotărâtă a substantivului cartea . Dacă substantivul cartea ar fi articulat nehotărât (I-am dat o carte acestei eleve), singura soluţie rămânând interpretarea de dativ, complement indirect.
Obs 2. determinantul acestei condiţionează coocurenţa celorlalte două lexeme: cartea şi eleve (ilustrează relaţia de complementaritate dintre omonimia şi ambiguitatea morfologică şi sintactică + caracterul potenţial al omonimiei şi al ambiguităţii sintactice).
Dezambiguizarea: prin schimbarea topicii termenului subordonat: Ex: I-am dat cartea acestei eleve → I-am dat acestei eleve cartea/o carte.
Ambiguitatea limbajului natural. Niveluri.
Referențială – apare atunci când un cuvânt (pronume etc.) este folosit astfel încât poate fi considerat ca referindu-se la entități anterioare.
Ex 3: Maria a fost la Elena după o carte , care-i trebuia pentru tema de casă primită la cursul de Limba și literatura română. Ea i-a dat o pentru o perioadă de timp, dar a rugat temă de casă .
o să nu întârzie. La rândul ei avea nevoie de ea pentru a finaliza Pragmatică – referire la loc, timp. Practic, pragmatica are sarcina să descrie cu ajutorul unor pricncipii nonligvistice (cotextuale), procesele de inferență necesare pentru a accede la sensul comunicat de enunț.
Ex 4: A. Cât e ceasul?
B. Tocmai a trecut poștașul.
Bibliografie - curs și seminar 3
1. K. Biihler,
Teoria limbajului,
Sprach theorie, Jena, 1934; tr. span., Madrid, 1950.
2. Eugenio Coseriu,
Introducere în lingvistică
, trad. de Elena Ardeleanu şi Eugenia Bojoga, Ed. Echinox, Cluj-Napoca, 1999.
3. Gabriela Pană Dindelegan,
Sintaxa grupului verbal, ediţia a II-a, Braşov,
Ed.
Aula, 1999.
4. Frans van Eemerem, Rob Grootendorst,
La Nouvelle dialectique
, Edition Kime 2, Paris, 1996.
5. GALR,
Gramatica limbii române,
Bucureşti, Ed. Academiei Române, 2005 6. Louis Hjelmslev,
Essais linguistiques
, Les Éditions de Minuit, Paris, 1971. 7. Ch.F. Hockett,
A course in modern linguistics
, McMillan, New York, 1958.
8. Wilhelm von Humboldt,
Über die Sprache. Reden vor der Akademie
, Herausgegeben, kommentiert und mit einem Nachwort versehen von Jürgen Trabant, Tübingen/Basel 1994.
Bibliografie - curs și seminar 3
9. John Lyons,
Introducere în lingvistica teoretică
, trad. de Alexandra Cornileascu și Ioana Ștefănescu, Ed. Științifică, București, 1995.
10. André Martinet,
Elemente de lingvistică generală
, trad. de Paul Miclău, Ed. Științifică, București, 1970.
11. Eugen Munteanu,
Introducere în lingvistică
, Polirom, 2005.
12. Valentin Roman,
Fenomenalizări ale omonimiei și ambiguităţii sintactice
în
Dacoramania
, Cluj-Napoca, 2012.
(I) 13. Ferdinand de Saussure,
Curs de lingvistică generală,
trad. de Irina Izverna Tarabac, Polirom, Iași, 1998.
14. Ferdinand de Saussure,
Scrieri de lingvistică generală,
trad. de Luminița Botoșineanu, Polirom, Iași. 2004.