Transcript Document

CEDEL2
Corpus Escrito del Español L2
http://www.uam.es/woslac/cedel2.htm
Cristóbal Lozano
Universidad de Granada
AESLA, Universidad de Almería, 5 abril 2008
1
Estado de la cuestión




Si bien el uso de grandes corpus está extendido entre los
investigadores de adquisición de L1 desde hace varias
décadas (CHILDES, McWhinney 2000), la existencia de corpus
de L2 es escasa, excepto el corpus ICLE de L2 inglés (Granger
et al. 2002a) y otros corpora no disponibles comercialmente.
En el caso del español L2, aún no existe ningún corpus similar
disponible.
Debido al auge de estudios formales de adquisición del español
L2 en los últimos años (Lafford & Salaberry 2003, Montrul 2004),
CEDEL2 surge para dar respuesta a esta creciente necesidad
investigadora.
Por tanto, CEDEL2 aportará nuevos datos que ofrecerán
nuevas respuestas a los investigadores.
2
CEDEL2





Corpus escrito del español L2 (datos provienen de redacciones)
L1 inglés – L2 español
Todos los niveles de competencia (principiante, intermedio, avanzado)
según test estandarizado (Univ. of Wisconsin 1998).
Datos recogidos electrónicamente online vía internet.
CEDEL2 surge en seno de:
 Grupo de investigación WOSLAC (Word Order in Second Language
Acquisition Corpora) – Amaya Mendikoetxea, Univ. Autónoma Madrid –
véase:



http://www.uam.es/woslac
Chocano et al. 2007
Objetivo de WOSLAC:


Papel de las interfaces en la adquisición del orden de palabras en L2 (véase
Sorace 2005, 2006)
Creación de 2 corpus para ver si los déficits del orden de palabras proceden de la
L1 o son universales (interfaces):


WRICLE (L1 español – L2 inglés)
CEDEL2 (L1 inglés – L2 español)
3
Corpus de aprendices de
español L2

Mayoría corpus de aprendices en inglés L2





Auge de ELE y de la investigación de español L2, especialmente en USA


ICLE: International Corpus of Learner English
LLC: Longman Learner Corpus
CLC: Cambridge Learner Corpus
SULEC: Santiago University Learner Corpus
Lafford & Salaberry 2003, Montrul 2004, Pérez-Leroux & Liceras 2002
En este contexto surgen:
 CEDEL2
 SPLLOC (Spanish Learner Language Oral Corpus)





Universidad de Southampton (Mitchell et al. 2008)
Corpus oral, L1 inglés-L2 español
Formato CHAT, estará disponible en CHILDES
Tareas orales semi-naturales y tareas controladas (elicitación de clíticos y
órdenes de palabras).
Sin test de nivel (clasificación en niveles según curso y edad)
4
Metodología de CEDEL2

Algunos corpus de aprendices: metodología
ad hoc


Se diseña el corpus para elicitar/recoger ciertas
estructuras lingüísticas
CEDEL2: metodología de diseño
recomendada por especialistas (Sinclair
2005)


diseño ha de estar guiado por nociones como
representatividad, muestreo y equilibrio.
Sinclair propone 10 principios de diseño:
5
Metodología:
Principios de diseño

PRINCIPIO 1: Contenido del corpus.


Sinclair 2005:1: El contenido del corpus debe ser
creado según criterios externos (la función
comunicativa de los textos del corpus) y no
criterios internos (los referidos a la lengua de los
textos).
CEDEL2: se emplearon criterios externos y NO
se elicitaron determinadas estructuras (criterios
internos) – ver principio 2.
6

PRINCIPIO 2. Representatividad.


Sinclair 2005: 2: El corpus debe ser lo más
representativo posible de la lengua de la que ha sido
escogido.
CEDEL2: para representar fielmente interlengua,
aprendices pueden escoger 12 temas de redacción.


Estos temas elicitan todo tipo de estructuras y todo tipo
de tiempos verbales.
Diversos grados de dificultad (de más fácil a más difícil)
para representar competencia (de principiante a
avanzado)
7

PRINCIPIO 3. Contraste.


Sinclair 2005:3: Sólo aquellos componentes del
corpus que han sido diseñados para ser
contrastados independientemente, deben ser
contrastados.
CEDEL2 permite contrastar:


Distintos niveles de IL: p. ej., intermedio vs. avanzado
IL vs gramática nativa (CEDEL2 contiene subcorpus
de hablantes nativos español).
8

PRINCIPIO 4. Criterios estructurales.
 Sinclair 2005:5: Los criterios para determinar la estructura de un
corpus deben ser reducidos en número y claramente separables
los unos de los otros.
 Este criterio es importante para los monitor corpora de decenas
de millones de palabras (BNC, ICE, etc).
 CEDEL2: criterios estructurales:




3 niveles de competencia (principiante, intermedio, avanzado)
2 subcorpus (aprendices y nativos)
Sólo lengua escrita
PRINCIPIO 5. Etiquetado.
 Sinclair 2005:5: Cualquier información acerca del texto (aparte
de la información alfanumérica: palabras y signos de puntuación)
debería ser almacenada separadamente del texto puro para
posteriormente ser fusionada con el texto si la aplicación
informática lo requiere.
 CEDEL2: Nuestro etiquetador (UAM CorpusTool) almacena el
texto etiquetado en un archivo independiente en formato XML.
9

PRINCIPIO 6. Muestra.


Sinclair 2005:6-7:
 Las muestras de la lengua del corpus, al ser posible,
deberían consistir en documentos o transcripciones de
eventos del habla completos. Esto implica que las
muestras diferirán en tamaño sustancialmente.
 Desde un punto de vista lingüístico, no existe motivo para
que las muestras sean del mismo tamaño. Aunque ésta era
la norma en los corpus antiguos y se ha perpetuado hasta
ahora ... es difícil justificar la continuación de esta práctica.
La integridad y la representatividad de los textos completos
es más importante que la dificultad de conciliar textos de
tamaños diferentes.
CEDEL2: variabilidad en el tamaño de los textos
 Principiantes: textos relativamente cortos (desde un párrafo
hasta varios cientos de palabras).
 Avanzados: generalmente textos más largos (hasta 500
palabras).
10

PRINCIPIO 7. Documentación.
 Sinclair (2005:8): El diseño y la composición de un corpus
debería ser documetada detalladamente con información sobre
los contenidos. Así, si se obtienen resultados “extraños” o
“contra-intuitivos”, el investigador deberá comprobar si se deben
a fallos en la estructura del corpus o de los textos.
 CEDEL2: se recoge amplia documentación sobre cada
participante y sobre la redacción (como se verá más adelante).

PRINCIPIO 8. Equilibrio.
 Sinclair 2005:9: El diseñador de corpus debe de tener como
nociones meta la representatividad y el balance.
 Sinclair se refiere a que el corpus debe estar equilibrado en lo
que se refiere a la procedencia de las muestras (lenguaje oral y
escrito).
 CEDEL2: sólo lenguaje escrito -- es tan bueno como el oral
para estudiar la interlengua

(la idea de que el lenguaje escrito no es tan fidedigno como el oral
procede de la Monitor Hypothesis, Krashen 1982 y se ha
perpetuado).
11

PRINCIPIO 9. Tema.



Sinclair (2005: 10): Cualquier control en el tema del corpus
debería ser regido por criterios externos y no criterios
internos.
CEDEL2: Como queda dicho (principios 1 y 2), los temas
de redacción elegidos por los aprendices están sopesados
para dar lugar a un lenguaje lo más representativo posible.
PRINCIPIO 10. Homogeneidad.


Sinclair 2005:14: El objetivo del corpus es alcanzar la
homogeneidad de sus componentes y, al mismo tiempo,
mantener una cobertura adecuada y evitar los textos
atípicos (rogue texts).
CEDEL2: Una vez finalizada la recogida de datos, se
examinará cada texto para detectar posibles textos
atípicos.
12
Recogida de datos

Recogida de datos online:


Aprendices de español: 3 formularios:




http://www.uam.es/woslac/start.htm
Historial educativo
Test de nivel
Redacción
Nativos de español: 2 formularios


Historial educativo
Redacción
13
Learning
background
(historial
educativo)
14
Placement
test
(test de nivel)
15
Composition
(redacción)
16
Etiquetado de datos

Etiquetador: UAM CorpusTool



Desarrollado por Mick O’Donnell
Disponible gratuitamente:
http://www.wagsoft.com/CorpusTool
Procedimiento de
etiquetado:


seleccionar un
segmento de texto
asignarle etiquetas
previamente
definidas por el
lingüista mediante
un esquema.
17
7000
mar-06
235000
238333
239000
240000
jun-07
jul-07
ago-07
sep-07
379530
380421
feb-08
367921
340183
ene-08
dic-07
nov-07
254176
233009
may-07
oct-07
228658
abr-07
214704
202000
feb-07
mar-07
199315
ene-07
186179
147781
197608
94466
65039
56721
47612
34894
dic-06
nov-06
oct-06
sep-06
ago-06
jul-06
jun-06
may-06
15597
0
feb-06
400000
375000
350000
325000
300000
275000
250000
225000
200000
175000
150000
125000
100000
75000
50000
25000
0
abr-06
Nº de palabras
Datos actuales:
Evolución
CEDEL2: Evolución del nº total de palabras
18
Datos actuales:
Palabras por grupo
CEDEL2: Nº total de palabras (por grupo)
Nativos; 95139;
25%
Nativos
Aprendices
Aprendices;
285282; 75%
19
Datos actuales:
Nº de participantes
CEDEL2: Nº total de participantes (por grupo)
Nativos
335
24%
Nativos
Aprendices
Aprendices
1037
76%
20
Datos actuales:
Procedencia
Aprendices: procedencia
LEYENDA: País; núm ero de aprendices; % de aprendices
UK; 50; 5%
SPAIN; 29; 3%
NEW ZEALAND; 18; 2%
AUSTRALIA; 8; 1%
CANADA; 8; 1%
OTHER/UNKNOWN; 73;
7%
21
USA; 851; 81%
Datos:
Llamamientos a la participación
Fecha y Lista de distribución 2006
Fecha y Lista de distribución 2007
May 2006 Portal del Hispanismo (Instituto
Cervantes)
May 2006 TodoELE.net
May 2006 INFOLING
May 2006 AEDEAN (Asociación Española de
Estudios Anglo-Norteamericanos)
May 2006 WordPress.com
May 2006 Centro Virtual Cervantes (Tablón del
foro didáctico)
May 2006 FORMESPA
June 2006 OESI (Oficina de Español en la
Sociedad de la Información, Instituto Cervantes)
June 2006 Corpora List
June 2006 Linguist List
June 2006 Corpus4you [Japanese webpage]
June 2006 AltaTECH
June 2006 International Speech Communication
Association (ISCA)
Oct 2006 AESLA
Oct 2006 Linguist List
Oct 2006 Infoling
Oct 2006 DeEstranjis blogspot
Oct 2006 FORMESPA
Mar 2007 AEDEAN
Mar 2007 AESLA
Mar 2007 Corpora List
Mar 2007 Linguist List
Apr 2007 Infoling
May 2007 Democratic Underground.com
May 2007 ELE.inicios.es
Oct 2007 Linguist List
Oct 2007 FORMESPA
Oct 2007 AESLA
Oct 2007 AEDEAN
Oct 2007 Infoling
Oct 2007 Corpora List
Nov 2007 AATPS (American Association of
Teachers of Portuguese and Spanish)
22
Conclusión



CEDEL2 es un corpus que se está confeccionando
para dar respuesta a las crecientes necesidades de
investigación en el ámbito de español L2.
El corpus consta de cerca de 400.000 palabras y se
espera alcance 1 millón al final del periodo de
investigación.
CEDEL2 estará disponible gratuitamente en Internet
para ser utilizado como fuente de datos por los
investigadores de español L2 y como fuente de
ejemplos para profesionales de ELE y aprendices
del español.
23
Referencias

















Corpus Escrito Del Español L2 (CEDEL2) < http://www.uam.es/woslac/cedel2.htm > [Fecha de la consulta: 19-02-2008]
Chocano, G., Jiménez, R., Lozano, C., Mendikoetxea, A., Murcia, S., O’Donnell, M., Rollinson, P. y Teomiro, I. 2007. “An
exploration into word order in learner corpora: The WOSLAC Project”. Eds. M. Davies, P. Rayson, S. Hunston, y P.
Danielsson. Proceedings of the Corpus Linguistics Conference 2007. Birmingham: University of Birmingham.
French Learner Language Oral Corpus (FLLOC). < http://www.flloc.soton.ac.uk > [Fecha de la consulta: 19-02-2008]
Granger, S., Dagneaux, E., and Meunier, F. 2002. International Corpus of Learner English. Louvain: UCL Presses
Universitaires de Louvain.
Louvain Corpus Of Native English Essays (LOCNESS). < http://www.fltr.ucl.ac.be/fltr/germ/etan/cecl/CeclProjects/Icle/locness1.htm > [Fecha de la consulta: 19-02-2008]
Lozano, C. en prensa. “Selective deficits at the syntax-discourse interface: Evidence from the CEDEL2 corpus”. Eds. Y.-I.
Leung, N. Snape y M. Sharwood-Smith. Representational Deficits in SLA. Amsterdam: John Benjamins.
Lozano, C. y Mendikoetxea, A. en prensa. “Postverbal subjects at the interfaces in Spanish and Italian learners of L2
English: a corpus análisis”. Eds. G. Gilquin, S. Papp y B. Díez. Linking up contrastive and corpus learner research.
Amsterdam: Rodopi.
Lozano, C. y Mendikoetxea, A. 2007. “Learner corpora and the acquisition of word order: A study of the production of VerbSubject structures in L2 English”. Eds. M. Davies, P. Rayson, S. Hunston, y P. Danielsson. Proceedings of the Corpus
Linguistics Conference 2007. Birmingham: University of Birmingham.
Lüdeling, A., Kytoe, M., and McEnery, T. eds. 2008. Corpus Linguistics: An International Handbook. Berlin: Mouton de
Gruyter.
McEnery, T. Xiao, R., and Tono, Y. 2005. Corpus-based Language Studies: An Advanced Resource Book. London:
Routledge.
Mitchell, R., Domínguez, L., Arche, M., Myles, F., Marsden, E., enviado 2008. “SPLLOC: A new corpus for Spanish second
language acquisition research”. EUROSLA Yearbook 8.
Sinclair, J. 2005. “Corpus and text – Basic principles”. Ed. M. Wynne. Developoing Linguistic Copora: A guide to good
practice. Oxford: Oxbow Books.
Sorace, A. 2006. “Possible manifestations of shallow processing in advanced second language speakers”. Applied
Psycholinguistics 27, 88-91.
Sorace, A. 2005. “Selective optionality in language development”. Eds. L. Cornips y K. P. Corrigan. Syntax and variation:
Reconciling the biological and the social. Amsterdam: John Benjamins. 55-80.
Spanish Learner Language Oral Corpus (SPLLOC) [en línea] < http://www.splloc.soton.ac.uk > [Fecha de consulta: 19-022008]
University of Wisconsin, 1998. The University of Wisconsin College-Level Placement Test: Spanish (Grammar) [Form 96M].
Madison, WI: University of Wisconsin Press.
Word Order in Second Language Acquisition Corpora (WOSLAC), Universidad Autónoma de Madrid [en línea] <
http://www.uam.es/woslac > [Fecha de consulta: 19-02-2008]
24