UVAL: Unitat de variaci ling stica

Download Report

Transcript UVAL: Unitat de variaci ling stica

Grup UVAL
Unitat de Variació Lingüística
ForensicLab
Laboratori de Lingüística Forense
Institut Universitari de Lingüística Aplicada
Universitat Pompeu Fabra
http://www.iula.upf.edu/uval/
http://www.iula.upf.edu/forensiclab
Objectes d’estudi d’UVAL
• La variació lingüística (en el grup i en l’individu)
• El canvi lingüístic
– com a fenòmens inherents al llenguatge natural i a les llengües.
• Les implicacions d'aquesta variació per a:
– la comprensió de diferents dimensions lingüístiques.
– la consecució de diversos objectius en la millora del disseny
d'aplicacions lingüístiques.
• Aquesta caracterització variable del llenguatge humà,
– micro i macro-lingüísticament estructurada,
• afecta tots els nivells lingüístics i regles que condicionen
– el comportament lingüístic.
– la interacció comunicativa.
Dimensions de la variació lingüística
•
La variació lingüística en el grup:
–
–
–
–
•
Variació sociolingüística i canvi lingüístic.
Correlació de factors interns (lingüístics) i externs (socials, estilístics i pragmàtics).
Observació de la direcció del canvi lingüístic.
Variació en temps aparent/real.
La variació en l’individu:
– L’ idiolecte individual.
– Lingüística forense (Llenguatge de les lleis, Llenguatge judicial, Llenguatge evidencial o
probatori).
– Premisses: a) més variació inter-parlant/escriptor que variació intra-parlant/escriptor, b)
idiolecte individual es manté força constant en tots els gèneres i registres, i c) no canvia
massa al llarg del temps.
– Índex de Similitud Idiolectal (fonològic, morfosintàctic, semàntic, pragmàtic, discursiu) textos (orals i escrits) dubitats i indubitats.
•
Demolingüística: usos, actituds i projeccions lingüístiques:
– Aspectes socials/demogràfics - competència/ús de les varietats lingüístiques.
– Actituds lingüístiques per poder comprendre per què els individus decideixen deixar de
parlar la seva llengua.
– Models per avaluar la planificació lingüística en un esquema predictiu simplificat a partir
de l’aplicació de projeccions demolingüístiques.
1. Variació sociolingüística en el grup
i
canvi lingüístic
Objectius, dades i mètodes
• Objectius
– Estudiar la variació observada en l’ús lingüístic.
• Dades
– Materials lingüístics produïts pels parlants quan
fan ús de la seva varietat més espontània.
• Mètodes
– Observació i descripció.
Base teòrica i metodològica
• Teoria de la Variació i el Canvi Lingüístic.
• Instruments de recollida de dades:
– Estratificació de la mostra.
– Entrevista sociolingüística
– Proves formals.
• Mètodes i tècniques quantitatius de tractament de
dades multivariants
– VARBRUL 2 i 3.
– GOLDVARB2001.
Programa d’anàlisi multivariant aplicat a
l’estudi de la variació i el canvi lingüístic
Projectes i ajuts
• Aspectes Sociolingüístics dels Reagrupaments Ètnics (PBS90-0580).
CICYT (1990-1992).
• Aspectes Sociolingüístics i Psicolingüístics de les Comunitats de Parla i
Grups Lingüístics Minoritzats a Espanya (SEC93-0725) CICYT (19931995).
• La Interacció de Llengües en Parlants Plurilingües i Plurilectals a
Espanya (SEC96-0627) CICYT (1996-1998).
• Language Interaction in Plurilingual and Plurilectal Speakers (LIPPS).
Integrated Action MEC (Spain) and the United Kingdom (219-B) (19971998) (http://www.ling.lancs.ac.uk/staff/mark/LIPPS/lipps.htm).
• L’estudi del canvi lingüístic en “temps real” a diverses comunitats de
parla catalana anteriorment analitzades en “temps aparent” (HUM200405404-C02-00) DGI (2005-2008).
2. Variació individual
Lingüística forense
Principis teòrics
• Idiolecte: estil únic i irrepetible
• - Variació intraparlant-escriptor.
+ Variació interparlant-escriptor.
• L’idiolecte no canvia massa segons el gènere.
• L’idiolecte no varia massa al llarg del temps.
Objectius, dades i mètodes
• Objectius
– Establir paràmetres lingüístics que permetin:
• identificar parlants i realitzar perfils lingüístics d’una veu.
• detectar plagi.
• determinar/atribuir autoria de textos escrits.
• Dades
– Idiolecte oral i escrit.
• Mètodes
– Auditius/acústics.
– Anàlisi qualitativa/quantitativa (discriminant, multildimensional).
• Speech Lab Elemetrics, CopyCatch, Vocalise toolkit.
• Varbrul 2 i 3, Goldvarb2001.
Projectes i ajuts
• Idiolectometría aplicada a la lingüística forense.
– HUM2007-29140-E (2007-2008) - EXPLORAINGENIO.
• Idiolectometría forense e Índice de Similitud
Idiolectal.
– FFI2008-03583-FILO (2009-2011).
2.1 Identificació de parlants
• Anàlisi paral·lela de les mostres de veu des d'un doble vessant:
auditiu i acústic.
• L'anàlisi auditiva
– es basa fonamentalment en l'expertesa de l'investigador.
• L'anàlisi acústica
– es fonamenta en l'anàlisi de les propietats acústiques de la
parla mitjançant
• tècniques d'anàlisi de la parla (espectrografia, anàlisi
multidimensional de la veu, anàlisi de freqüència
fonamental, etc.).
• tècniques d'anàlisi estadística.
L’anàlisi espectrogràfica
Resultats d’un experiment sobre alienació tonal del català
Jordi Cicres©Copyright
100%
Alignment type
Overshooting
Middle
75%
No accent
% of cases
La prova del Chi-quadrat indica que
hi ha diferències significatives entre
parlants (inter).
(X2 = 47,76; df = 16; p < 0.0001).
Synchronicity
Preshooting
50%
25%
0%
AC
AG
MC
Speaker
AL
JC
2.2 Determinació/atribució
d’autoria de textos escrits
• Determinació:
– si entre diversos autors es pot determinar qui és
l’autor d’un determinat text dubitat o conjunt de
textos dubitats.
• Atribució:
– si l'autor d'un conjunt de textos indubitats és també
l'autor d'un altre conjunt de textos dubitats.
Procés d’extracció de marques sintàctiques d’autoria
Secuències d’Etiquetes Morfosintàctiques
<s>
…
[…]el ruido del mar arrullaba las siestas de los
barceloneses […]
el
AMS
AM
S
rudio
N5
N5MS
de
P
el
P
mar
AM
S
N5MS
bigrams
trigrams
arrullab
a
las
siestas
d
e
los
VDA6S
-
AF
P
N5FP
P
AMP
barcelonese
s
N5-MP
</s
>
…
ALD d’un cas real
@mail/fax
• Bigrams
• Trigrams
Canonical Discriminant Functions
Canonical Discriminant Functions
30
50
20
25
2
4
0
Function 2
Function 2
10
3
4
0
2
3
-10
-25
-20
-50
-30
-30
-20
-10
0
Function 1
10
20
30
-50
-25
0
Function 1
25
50
2.3 Detecció de plagi a partir de
l’aplicació de CopyCatchGold
Programa de detecció de plagi CopyCatch
3. Demolingüística
Objecte d’estudi
• Estudi de la demolingüística és l’anàlisi
estadística de la població (de la seva talla,
estructura i concentració o dispersió geogràfica)
des d’un punt de vista lingüístic.
• L’enfocament quantitatiu que adopta aquesta
línia de recerca consisteix en comptabilitzar el
nombre de parlants, basant-se fonamentalment
en censos lingüístics i en enquestes
sociolingüístiques.
Dades (1)
• Oficials. Cal comptar i classificar la població:
– Comptabilitzem, basant-nos ens en els censos de població:
recomptes oficials exhaustius de la població i de les seves
característiques.
– Classifiquem segons els factors bàsics com l’edat, el sexe, el
lloc de residència, l’estat civil, però també segons uns
criteris lingüístics: llengua materna, llengua usada a casa,
habilitats lingüístiques (cens lingüístic). A l’Estat Espanyol
s’empra només un criteri: el coneixement.
Dades (2)
• Altres fonts oficials.
– Enquestes realitzades a una mostra de la
població.
– Enquestes sociològiques i lingüístiques:
les dades permeten un tipus d’anàlisi més
complet i profund que els censos
(coneixement, però també usos i actituds
lingüístiques).
Mètodes (1)
• Mètode tradicional: anàlisi de censos lingüístics i/o enquestes
i extrapolació de tendències sobre l’evolució del coneixement
i ús de la llengua.
• Mètode original de la nostra recerca:
– Desenvolupament i validació d’un mètode que permet
projectar a curt i llarg termini el coneixement de la llengua.
– Basat en els models matemàtics quantitatius que
determinen el progrés de l’ús d’una llengua: transmissió de
la L1, adquisició de L2 en l’escola i integració lingüística
dels immigrants.
Mètodes (2)
– Implementació dels models en el programa
DMLX de projeccions demolingüístiques.
http://albuquerque.bioinformatics.uottawa.ca/dmlx/dm
lx_index_ca.htm
– Explotació d’enquestes realitzades per
diferents organismes oficials sobre usos
lingüístics i desenvolupament de tècniques
de comparació.
Camps de treball
QuickTime™ and a
TIFF (U ncompressed) decompressor
are needed to see t his picture.
• Predicció del coneixement (i ús) d’una llengua en
procés de normalització.
• Avaluació de la relativa importància dels
processos demogràfics i lingüístics en el futur
d’una comunitat lingüística.
• Avaluació de l’impacte de mesures de planificació
lingüística en el futur de la llengua.
Projectes i ajuts
QuickTime™ and a
TIFF (U ncompressed) decompressor
are needed to see t his picture.
• Las proyecciones lingüísticas en España:
competencia y uso en seis comunidades
autónomas bilingües. Beca Programa Nacional de
Ayudas para la Movilidad (MEC), 2005-06.
• Demolinguistics and Language Revitalisation.
Beca Marie Curie International Grants (Unió
Europea), 2005-2007.
DMLX (1)
• El nostre grup (conjuntament amb David
Sankoff, U. d’Ottawa) ha desenvolupat un
programa informàtic DMLX de projeccions
demolingüístiques que permet predir
– tant els nivells de competència i ús lingüístic de la
població,
– com la importància que tindran les característiques
demogràfiques i lingüístiques bàsiques de la
població en el futur de les llengües.
DMLX (2)