Article published In: Revista Española de Lingüística Aplicada/Spanish Journal of Applied Linguistics
Vol. 36:1 (2023) ► pp.234–269
Construcción de un corpus escrito y una ontología de errores ortográficos del chabacano zamboangueño
Article language: Spanish
Published online: 7 March 2023
https://doi.org/10.1075/resla.20052.him
https://doi.org/10.1075/resla.20052.him
Abstract
El chabacano zamboangueño es una lengua criolla filipina, de base española, hablada como lengua materna por más de
400.000 personas (datos de 2010). No obstante, su grafía normalizada es relativamente reciente (de 2014). Este artículo presenta
una investigación destinada a la identificación y anotación semiautomática de los errores cometidos por sus hablantes al escribir,
según la ortografía normativa. En primer lugar, detallamos los criterios aplicados en la construcción de un corpus de más de 8
millones de palabras del zamboangueño escrito y los géneros que lo componen, así como los formatos utilizados para codificarlo. En
segundo lugar, describimos el proceso seguido para (1) el estudio de los errores y problemas ortográficos presentes en este
corpus; (2) el desarrollo de una taxonomía elaborada para su mejor representación y clasificación; y (3) su formalización mediante
una ontología. Por último, discutimos el resultado principal de este trabajo: un corpus de zamboangueño escrito, con sus errores
ortográficos clasificados y anotados semiautomáticamente con enlaces a la ontología y sus formas corregidas correspondientes.
Estas anotaciones nos permitirán a corto plazo analizar de manera más sistemática y profunda las faltas de ortografía cometidas
por los usuarios del zamboangueño.
Palabras clave: chabacano, Zamboanga, corpus, anotación, ontología, error, ortografía, Filipinas, lengua criolla, lengua minoritaria
Abstract
Building a written corpus and a spelling error ontology for Zamboanga Chavacano
Zamboanga Chavacano is a Philippine Creole Spanish (PCS) variety, spoken as a first language (L1) by over
400,000 people (as of 2010). However, its spelling was only recently standardised, in 2014. This paper describes a research aimed
at semi-automatically identifying and annotating spelling errors commonly made by Chavacano speakers in writing, according to its
standardised orthography. Firstly, we explain in detail the criteria for the construction of a written Chavacano corpus containing
over 8 million words, the genres that it comprises, and the formats used to code it. Secondly, we describe the steps taken in the
study of the spelling errors present in this corpus and in the development of a taxonomy created to represent and classify them,
later formalised as a ontology. Finally, we discuss the main results of this work, namely a written Zamboanga Chavacano corpus
with semi-automatically classified and annotated spelling errors linked to an ontology and accompanied by the corresponding
corrected forms. These annotations will enable us to carry out a systematic and deeper analysis of the spelling mistakes made by
Zamboanga Chavacano writers.
Keywords: Chavacano, Zamboanga, corpus, annotation, ontology, error, orthography, Philippines, creole language, minority language
Article outline
- 1.Introducción
- 2.Trabajos anteriores y relacionados
- 2.1Otros corpus anteriores de cbk-PH-09
- 2.2Análisis de errores
- 2.3Tipologías de errores ortográficos: Antecedentes
- 3.El Contemporary Written Zamboangueño Chavacano Corpus (CWZCC)
- 3.1Criterios de construcción
- 3.2Digitalización de material impreso
- 3.3Permiso de uso y anonimización
- 3.4Acceso
- 4.Composición del corpus y estadísticas básicas
- 4.1Descripción del corpus por géneros
- 4.1.1Textos educativos
- 4.1.2Ficción
- 4.1.3Poesías
- 4.1.4Canciones
- 4.1.5Noticias
- 4.1.6Religión
- 4.1.7Autoayuda
- 4.1.8Redes sociales
- 4.1.9Otros
- 4.2Algunas estadísticas del CWZCC
- 4.1Descripción del corpus por géneros
- 5.Formatos del corpus
- 5.1El formato NIF
- 5.2El formato TEI-XML
- 6.Construcción de la ontología de errores ortográficos
- 6.1Creación del conjunto de errores ortográficos de partida
- 6.2Desarrollo de la taxonomía de errores ortográficos
- 6.2.1Error intencionado
- 6.2.2Error no intencionado
- 6.3Implementación de la ontología de errores ortográficos del cbk-PH-09
- 7.Anotación del corpus: Errores ortográficos
- 7.1El conjunto de etiquetas (etiquetario)
- 7.2Etiquetado semiautomático
- 7.3Ejemplos anotados
- 8.Conclusiones y trabajos futuros
- Agradecimientos
- Notas
Referencias
References (29)
Andrade, F. (2013). De
la ciudad letrada al mensaje de texto: una mirada en
retrospectiva. Letras, 55(88), 110–123.
Balmaseda Neyra, O. y Molina Almeida, M. E. (2001). La
importancia del diagnóstico para la enseñanza aprendizaje de la ortografía. Editorial Pueblo y Educación.
Catach, N. (2011). L’orthographe (Que sais-je ? n◦ 685) [La ortografía (¿Qué sé yo? n.◦
685)]. Presses Universitaires de France.
Corder, S. P. (1967). The significance of learner’s errors [La importancia de los
errores de aprendices]. IRAL: International Review of Applied Linguistics in Language
Teaching, 5(4), 161–170.
Craig, D. (2003). Instant messaging: the language of youth literacy [Mensajería
instantánea: el lenguaje de alfabetización de los jóvenes]. En A. J. Banks (Dir.), The
Boothe Prize Essays 2003: Excellence in
Writing (pp. 116–133). Stanford University Press.
Cremades, R., Maqueda Cuenca, E., y Onieva, J. L. (2016). Posibilidades
didácticas de la escritura digital ubicua en la aplicación WhatsApp Messenger. Letral: Revista
Electrónica de Estudios
Transatlánticos, 161, 106–120.
De Alba Quiñones, V. (2009). El
análisis de errores en el campo del español como lengua extranjera: algunas cuestiones
metodológicas. Revista Nebrija de Lingüística
Aplicada, 5(1), 1–16.
DepEd Zamboanga City Division (2016). Revised Zamboanga Chavacano Orthography (Guia para na Enseñanza de Chavacano) [Ortografía del Chabacano de Zamboanga revisada (Guía para la enseñanza del
Chabacano)]. Zamboanga City Local Government.
Galí, A. (1971). L’ensenyament de l’ortografia als infants [La enseñanza de la
ortografía para los niños]. Barcino.
Himoro, M. Y. (2019). Hacia un corrector ortográfico para la nueva ortografía del chabacano de
Zamboanga [Trabajo de Fin de Máster, UNED (Universidad Nacional de Educación a
Distancia)]. Recuperado de: [URL]
Himoro, M. Y., y Pareja-Lora, A. (2022). Zamboanga Chavacano: A survey on written practices, reactions and impact of its (standardised)
orthography [Chabacano de Zamboanga: una encuesta respecto a las prácticas
Escritas, reacciones y el impacto de su ortografía (normativa)]. Círculo de Lingüística
Aplicada a la
Comunicación, 911, 245–277.
Hubbard, L. R. (2018). ALEGRIA: El Camino para Un Sentido Comon – Guia para na Mas Bueno Vida [ALEGRÍA: El camino hacia un sentido común – Guía para una vida mejor]. L. Ron Hubbard Library. Recuperado de: [URL]
Hunt-Gómez, C. I., Núñez-Román, F., y Gómez-Camacho, A. (2020). Textismos
y ortografía. Percepción de los profesores en formación de la Generación Z. Formación
universitaria, 13(2), 143–152.
Komisyon sa Wikang Filipino (2015). Mapa ng mga Wika ng Filipinas [Mapa de las lenguas de
Filipinas]. Komisyon sa Wikang Filipino (KWF). Recuperado
el 3 de agosto del 2018, de: [URL]
Levenshtein, V. I. (1966). Binary codes capable of correcting deletions, insertions and reversals [Códigos binarios capaces de corregir eliminaciones, inserciones e
inversiones]. Soviet Physics
Doklady, 101, 707–710.
McEnery, T., y Wilson, A. (2001). Corpus linguistics: An introduction [Lingüística de Corpus: una
introducción] (2ª ed.). Edinburgh University Press.
Macansantos, F. C. (2011). Balsa: poemas chabacano [Balsa: poemas
chabacanos]. National Commission for Culture and the Arts.
National Census and Statistics
Office (1974). 1970 Census of population and housing, Final
report – Vol. 1 – Zamboanga del Sur [Censo de población y vivienda 1970, Informe
final – Vol. 1 – Zamboanga del Sur]. National Census and Statistics Office. Recuperado de: [URL]
(1983). 1980 Census of population and housing, Volume
1, Final report – Zamboanga del Sur [Censo de población y vivienda 1980, Volumen
1, Informe final – Zamboanga del Sur]. National Census and Statistics Office. Recuperado de: [URL]
National Statistics Office (1992). 1990 Census of population and housing, Report no. 3 – 86 I – Socio-economic and demographic characteristics –
Zamboanga City [Censo de población y vivienda 1990, Informe N.º 3 – 86 I –
Características socioeconómicas y demográficas – Ciudad de Zamboanga]. National Statistics Office. Recuperado de: [URL]
(2003). 2000 Census of population and housing, report no. 2 Vol. 1 – Demographic and housing characteristics – Zamboanga
City [Censo de población y vivienda 2000, Informe N.º 2 – Vol. 1- Características
socioeconómicas y demográficas – Ciudad de Zamboanga]. National Statistics Office. Recuperado de: [URL]
(2014a). 2010 Census of population and housing, Report no. 2B – Population and household characteristics (sample
variables) [Censo de población y vivienda 2000, Informe N.º 2B – Características
de la población y del hogar (variables de la muestra)]. National Statistics Office. [URL]
(2014b). 2010 Census of population and housing, Report no. 2B – Population and household characteristics (sample
variables) – Zamboanga City [Censo de población y vivienda 2010, Informe n.º 2B –
Características de la población y del hogar (variables de la muestra)]. National Statistics Office. Recuperado de: [URL]
Octaviano, M., Go, M. P., Borra, A., y Oco, N. (2016). A corpus-based analysis of Filipino writing errors [Un análisis de
errores de escritura del filipino basado en corpus]. 2016 International Conference on Asian Language
Processing
(IALP) (pp. 95–98). IEEE.
Real Academia
Española (2005). Diccionario panhispánico de
dudas. Asociación de Academias de la Lengua Española y Santillana Ediciones
Generales.
Real Academia Española (2014). Diccionario
de la lengua española (23.ª ed.) [versión 23.4 en
línea]. Recuperado el 12 de enero del
2021, de: [URL]
Sánchez Jiménez, D. (2010). El
análisis de errores ortográficos de estudiantes filipinos en el aprendizaje de español como LE y su aplicación
didáctica. En Arriaga Agrelo, N., et al. (Eds.), El
currículo de E/LE en Asia Pacífico. Selección de artículos del I Congreso de Español como Lengua Extranjera en Asia-Pacífico
(CE/LEAP) (pp. 106–126). Instituto Cervantes de Manila y Embajada de España en Filipinas. Recuperado de: [URL]
Sinclair, J. (2005). Corpus and text – Basic principles [Corpus y texto –
Principios básicos]. En M. Wynne (Ed.), Developing
linguistic corpora: A guide to good
practice (pp. 1–16). Oxbow Books.
Tardo, D. S. (2006). Developing the Chavacano reader project from the Chavacano corpus [Desarrollando el proyecto de la antología de Chabacano a partir del corpus del
Chabacano] [Presentación]. Tenth International Conference on Austronesian
Linguistics. SIL International. Recuperado de: [URL]
