Using corpus data to support lexicographers in identifying informal language

https://doi.org/10.54013/kk811a3

Keywords: corpus query system, lexicography, registers, labels, informal language

This study examines how new corpus analysis tools can assist lexicographers in determining whether to assign a word an informal register label in a dictionary. Labelling words in dictionaries is necessary for language users seeking register information. Moreover, there have been calls for the upcoming Dictionary of Standard Estonian (DSE, 2025) to clearly distinguish standard language from other linguistic varieties.

Informal language was chosen for analysis because it is more difficult to define than other marked registers. In DSE 2018, some words were labelled as informal based on language planning decisions rather than empirical analysis. As register labels should be data-driven and based on corpus evidence, a systematic review of these words is necessary for the revised edition.

Our study investigates how corpus genre data can support lexicographers in deciding whether to add or remove the informal label. We found that corpus data provided useful insights in 82.1% of cases. Based on our experiment, we developed a guideline to assist in labelling word meanings as informal. Namely, if a word occurs in blogs and forums in 36% or more of its total corpus occurrences, it may be considered as tending towards informal usage. This guideline is not a rigid rule but a supportive tool, as additional factors should be considered based on the lexicographer’s linguistic expertise.

Users value reliable linguistic information in dictionaries. Our proposed guideline helps lexicographers make more systematic decisions while maintaining expert judgment as the ultimate determinant.

Lydia Risberg (b. 1988), PhD, Institute of the Estonian Language, Researcher and Language Planner (Munga 18, 50088 Tartu), University of Tartu, Research Fellow in Estonian Language, lydia.risberg@eki.ee

Maria Tuulik (b. 1985), PhD, Institute of the Estonian Language, Senior Researcher (Roosikrantsi 6, 10119 Tallinn), maria.tuulik@eki.ee

Margit Langemets (b. 1961), PhD, Institute of the Estonian Language, Leading Lexicographer (Roosikrantsi 6, 10119 Tallinn), margit.langemets@eki.ee

Kristina Koppel (b. 1985), PhD, Institute of the Estonian Language, Senior Computational Lexicographer (Roosikrantsi 6, 10119 Tallinn), kristina.koppel@eki.ee

Ene Vainik (b. 1964), PhD, Institute of the Estonian Language, Leading Research Fellow (Roosikrantsi 6, 10119 Tallinn), ene.vainik@eki.ee

Esta Prangel (b. 1985), MA, Institute of the Estonian Language, Product Manager (Roosikrantsi 6, 10119 Tallinn), esta.prangel@eki.ee

Eleri Aedmaa (b. 1989), PhD, Institute of the Estonian Language, NLP Engineer (Roosikrantsi 6, 10119 Tallinn), eleri.aedmaa@eki.ee

Kirjandus

VEEBIVARAD

EKS 2019 = Eesti keele sõnaraamat. Koost Katrin Kuusik, Külli Kuusk, Margit Langemets, Mai Tiits, Udo Uibo, Tiia Valdre, Piret Voll. Toim M. Langemets, M. Tiits, U. Uibo, T. Valdre, P. Voll. Tallinn: Eesti Keele Instituut. http://www.eki.ee/dict/eks/  

Sketch Engine. https://www.sketchengine.eu

ÜK 2023 = Eesti keele ühendkorpus 2023. Koost Jelena Kallas, Helen Kaljumäe, Kristina Koppel. https://doi.org/10.15155/3-00-0000-0000-0000-08C04M

ÜS = EKI ühendsõnastik 2024. Eesti Keele Instituut. Sõnaveeb. https://sonaveeb.ee

 

KIRJANDUS

Atkins, B. T. (Sue); Rundell; Michael 2008. The Oxford Guide to Practical Lexicography. Oxford–New York: Oxford University Press. https://doi.org/10.1093/oso/9780199277704.001.0001

Baayen, R. Harald 2024. The wompom. – Corpus Linguistics and Linguistic Theory, kd 20, nr 3, lk 615–648. https://doi.org/10.1515/cllt-2024-0053

Biber, Douglas; Conrad, Susan 2009. Register, Genre, and Style. (Cambridge Textbooks in Linguistics.) Cambridge: Cambridge University Press. https://doi.org/10.1017/CBO9780511814358

Cvrček, Václav 2024. Enhancing national corpus infrastructure with multidimensional model of register variation. – Ettekanne Eesti Rakenduslingvistika Ühingu kevadkonverentsil, 18. IV. https://trost.korpus.cz/~cvrcek/prezentace/mda/tallinn/#/

Davies, Mark 2025. Corpora and AI/LLMs: Overview. English-Corpora.org. https://www.english-corpora.org/ai-llms/corpora-vs-llms.html

de Schryver, Gilles-Maurice 2023. Generative AI and lexicography: The current state of the art using ChatGPT. – International Journal of Lexicography, kd 36, nr 4, lk 355–387. https://doi.org/10.1093/ijl/ecad021

Eder, Maciej 2025. Text analysis is easy, unless it is not: Reliability issues in measuring textual similarities. – DHNB2025 konverentsiettekanne, 5. III. https://computationalstylistics.github.io/presentations/dhnb2025/

EKSS 1988–2007 = Eesti kirjakeele seletussõnaraamat. 26 vihikut. Peatoim Rudolf Karelson, Valve Kullus, Erich Raiet, Mai Tiits, Tiia Valdre, Leidi Veskis. Tallinn: Eesti Keele Instituut, Eesti Keele Sihtasutus.

EKSS 2009 = Eesti keele seletav sõnaraamat. Kd I–VI. „Eesti kirjakeele seletussõnaraamatu” 2., täiendatud ja parandatud tr. Toim Margit Langemets, Mai Tiits, Tiia Valdre, Leidi Veskis, Ülle Viks, Piret Voll. Tallinn: Eesti Keele Sihtasutus.

Erelt, Tiiu 2002. Mida ÕSist leida on. – Oma Keel, nr 2, lk 62–75.

Hennoste, Tiit; Pajusalu, Karl 2013. Eesti keele allkeeled. Õpik gümnaasiumile. Tallinn: Eesti Keele Sihtasutus.

Jürviste, Madis; Paet, Tiina; Soosaar, Sven-Erik 2025. Eesti vanade sõnakujude tuvastamisest suurte keelemudelitega. – Eesti Rakenduslingvistika Ühingu aastaraamat, kd 21, lk 63–84. https://doi.org/10.5128/ERYa21.04

Karelson, Rudolf 1990. „Eesti kirjakeele seletussõnaraamat” tegija pilgu läbi. – Keel ja Kirjandus, nr 1, lk 24–34.

Kasik, Reet 2015. Sõnamoodustus. (Eesti keele varamu 1.) Toim Katrin Kern. Tartu: Tartu Ülikooli Kirjastus.

Kerge, Krista 2004. Keelenormi tänapäevane olemus (2). Normi liigid ja sõnavaranorm. – Õiguskeel, nr 1, lk 11−20.

Kilgarriff, Adam; Baisa, Vít; Bušta, Jan; Jakubíček, Miloš; Kovář, Vojtěch; Michelfeit, Jan; Rychlý, Pavel; Suchomel, Vít 2014. The Sketch Engine: Ten years on. – Lexicography, kd 1, nr 1, lk 7–36. https://doi.org/10.1007/s40607-014-0009-9

Klosa-Kückelhaus, Annette; Tiberius, Carole 2024. The lexicographic process revisited. – International Journal of Lexicography, kd 38, nr 1, lk 1–12. https://doi.org/10.1093/ijl/ecae016

Koppel, Kristina 2020. Näitelausete korpuspõhine automaattuvastus eesti keele õppesõnastikele. (Dissertationes linguisticae Universitatis Tartuensis 38.) Tartu: Tartu Ülikooli Kirjastus.

Koppel, Kristina; Kallas, Jelena 2022. Eesti keele ühendkorpuste sari 2013–2021: mahukaim eestikeelsete digitekstide kogu. – Eesti Rakenduslingvistika Ühingu aastaraamat, kd 18, lk 207–228. https://doi.org/10.5128/ERYa18.12

Kuzman, Taja; Ljubešić, Nikola 2023. Automatic genre identification: A survey. – Language Resources and Evaluation, kd 59, lk 537–570. https://doi.org/10.1007/s10579-023-09695-8

Langemets, Margit 2025. Vilets keel, vilets meel. ÕSiga või ÕSita. – Plenaarettekanne Eesti Rakenduslingvistika Ühingu kevadkonverentsil, 24. IV. https://www.youtube.com/watch?v=ozi34zbQ_4g

Langemets, Margit; Risberg, Lydia 2023. Mis on ÕSi sõna? – Sirp 13. X, lk 20–21. https://www.sirp.ee/mis-on-osi-sona/

Langemets, Margit; Risberg, Lydia; Algvere, Kristel 2024. To dream or not to dream about ’correct’ meanings? Insights into the user experience survey. – Lexicography and Semantics. Proceedings of the XXI EURALEX International Congress. Toim Kristina Š. Despot, Ana Ostroški Anić, Ivana Brač. Cavtat: Institut za hrvatski jezik, lk 741–760.

Langemets, Margit; Tiits, Mai; Uibo, Udo; Valdre, Tiia; Voll, Piret 2018. Eesti keel uues kuues. Eesti keele sõnaraamat 2018. – Keel ja Kirjandus, nr 12, lk 942–958. https://doi.org/10.54013/kk733a2

Lee, David Y. W. 2001. Genres, registers, text types, domains and styles: Clarifying the concepts and navigating a path through the BNC jungle. – Language Learning & Technology, kd 5, nr 3, lk 37–72.

Lindström, Liina; Risberg, Lydia; Plado, Helen 2023. Language ideologies and beliefs about language in Estonia and Estonian language planning. – Eesti ja soome-ugri keeleteaduse ajakiri. Journal of Estonian and Finno-Ugric Linguistics, kd 14, nr 1, lk 7–48. https://doi.org/10.12697/jeful.2023.14.1.01

Lippus, Pärtel; Lindström, Liina 2024. ÕS-ist ning teaduse demoniseerimisest. – ERR, 23. IV. https://www.err.ee/1609320843/partel-lippus-ja-liina-lindstrom-os-ist-ning-teaduse-demoniseerimisest

Lüdeling, Anke; Alexiadou, Artemis; Adli, Aria; Donhauser, Karin; Dreyer, Malte; Egg, Markus; Feulner, Anna Helene; Gagarina, Natalia; Hock, Wolfgang; Jannedy, Stefanie; Kammerzell, Frank; Knoeferle, Pia; Krause, Thomas; Krifka, Manfred; Kutscher, Silvia; Lütke, Beate; McFadden, Thomas; Meyer, Roland; Mooshammer, Christine; Müller, Stefan; Maquate, Katja; Norde, Muriel; Sauerland, Uli; Solt, Stephanie; Szucsich, Luka; Verhoeven, Elisabeth; Waltereit, Richard; Wolfsgruber, Anne; Zeige, Lars Erik 2022. Register: Language users’ knowledge of situational-functional variation. Frame text of the First Phase Proposal for the CRC 1412. – Register Aspects of Language in Situation (REALIS), kd 1, nr 1, lk 1–58. https://doi.org/10.18452/24901

Müller-Spitzer, Carolin; Koplenig, Alexander 2014. Online dictionaries: Expectations and demands. – Using Online Dictionaries. (Lexicographica. Series Maior 145.) Toim C. Müller-Spitzer. Berlin: Walter de Gruyter, lk 143–188. https://doi.org/10.1515/9783110341287.143

Nemvalts, Peep 2023. Sõnatsunami. – Sirp 22. XII, lk 45–46. https://www.sirp.ee/sonatsunami/

Paet, Tiina 2023. Võõrainese kinnistumine eesti keeles: keelekorralduslik ja leksikograafiline vaade. (Dissertationes philologiae estonicae Universitatis Tartuensis 51.) Tartu: Tartu Ülikooli Kirjastus.

Paet, Tiina; Risberg, Lydia 2021. Võõrsõnade tähendussoovitused ja nende esitus üldkeele sõnaraamatus. – Keel ja Kirjandus, nr 11, lk 965−984. https://doi.org/10.54013/kk767a2

Pajusalu, Renate 2009. Sõna ja tähendus. Toim Tiiu Erelt. Tallinn: Eesti Keele Sihtasutus.

Paulsen, Geda; Lohk, Ahti; Tuulik, Maria; Vainik, Ene 2023. From experiments to an application: The first prototype of an adjective detector for Estonian. – Electronic Lexicography in the 21st Century (eLex 2023): Invisible Lexicography. Proceedings of the eLex 2023 conference. Toim Marek Medveď, Michal Měchura, Carole Tiberius, Iztok Kozem, Jelena Kallas, Miloš Jakubíček, Simon Krek. Brno: Lexical Computing CZ, s.r.o., lk 476−500.

Pool, Raili; Teral, Marika; Kallas, Jelena 2025. Keeleminutid. Eesti keele õppijad sõnaraamatute maailmas. – ERR Kultuur 24. III. https://kultuur.err.ee/1609642106/keeleminutid-eesti-keele-oppijad-sonaraamatute-maailmas

Pullum, Geoffrey K. 2023. Why grammars have to be normative – and prescriptivists have to be scientific. – The Routledge Handbook of Linguistic Prescriptivism. (Routledge Handbooks in Linguistics.) Toim Joan C. Beal, Morana Lukač, Robin Straaijer. London: Routledge, lk 3–16. https://doi.org/10.4324/9781003095125-2

Päärt, Villu 2023. Keelenõunik Helika Mäekivi: lihtne keel ei ole sama mis lihtsakoeline keel. – Universitatis Tartuensis, nr 4, lk 22–25.

Raadik, Maire 2014. Mida uut on uues õigekeelsussõnaraamatus? – Oma Keel, nr 1, lk 67−75.

Raag, Raimo 2008. Talurahva keelest riigikeeleks. Tartu: AS Atlex.

Read, Allen Walker s. a. Features and problems. – Encyclopedia Britannica: Dictionary. https://www.britannica.com/topic/dictionary/Features-and-problems

Risberg, Lydia 2024a. Sõnatähendused ja sõnaraamat. Kasutuspõhine sisend eesti keelekorraldusele. (Dissertationes philologiae estonicae Universitatis Tartuensis 25.) Tartu: Tartu Ülikooli Kirjastus.

Risberg, Lydia 2024b. Keelesäuts. Kõiksugu(sed) säutsud tulevad pähe. – Vikerraadio, ERR, 20. XII. https://vikerraadio.err.ee/1609557077/keelesauts-koiksugu-sed-sautsud-tulevad-pahe

Risberg, Lydia; Langemets, Margit 2021. Paronüümide probleem eesti keeles. – Keel ja Kirjandus, nr 10, lk 903–926. https://doi.org/10.54013/kk766a4

Rundell, Michael 2024. Automating the creation of dictionaries: Are we nearly there? – Humanising Language Teaching, kd 26, nr 1. https://www.hltmag.co.uk/feb24/automating-the-creation-of-dictionaries

Suchomel, Vít; Kraus, Jan 2021. Website properties in relation to the quality of text extracted for web corpora. – Proceedings of Recent Advances in Slavonic Natural Language Processing (RASLAN 2021), lk 167–175.

Suchomel, Vít; Kraus, Jan 2022. Semi-manual annotation of topics and genres in web corpora, the cheap and fast way. – Proceedings of the Sixteenth Workshop on Recent Advances in Slavonic Natural Languages Processing (RASLAN 2022). Toim Aleš Horák, Pavel Rychlý, Adam Rambousek. Brno: Tribun EU, lk 141–148.

Trap-Jensen, Lars 2002. Descriptive and normative aspects of lexicographic decision-making: The borderline cases. – Proceedings of the 10th EURALEX International Congress. Toim Anna Braasch, Claus Povlsen. København: Center for Sprogteknologi, lk 503–509.

Tuulik, Maria; Vainik, Ene; Prangel, Esta; Langemets, Margit; Aedmaa, Eleri; Koppel, Kristina; Risberg, Lydia (ilmumas). Tähenduste seletamine leksikograafias: kuivõrd on abi suurtest keelemudelitest? – Eesti ja soome-ugri keeleteaduse ajakiri. Journal of Estonian and Finno-Ugric Linguistics.

Vaik, Kristiina 2024. Beyond Genres: A Dimensional Text Model for Text Classification. (Dissertationes linguisticae Universitatis Tartuensis 47.) Tartu: Tartu Ülikooli Kirjastus.

Vaik, Kristiina; Sirts, Kairit; Muischnek, Kadri 2020. Dimensionaalne tekstimudel. Teoreetiline ülevaade. – Keel ja Kirjandus, nr 10, lk 875−898. https://doi.org/10.54013/kk755a4

Vainik, Ene; Lohk, Ahti; Paulsen, Geda 2021. The distribution index calculator for Estonian. – Electronic Lexicography in the 21st Century (eLex 2021): Post-editing Lexicography. Proceedings of the eLex 2021 Conference. Toim Iztok Kosem, Michal Cukr, Miloš Jakubíček, Jelena Kallas, Simon Krek, Carole Tiberius. Brno: Lexical Computing CZ, s.r.o, lk 121−138.

Vare, Silvi 2001. Üldkeele ja oskuskeele nihestunud suhe. – Keel ja Kirjandus, nr 7, lk 455–472.

Wit, Ernst-Jan C.; Gillette, Marie 1999. What is Linguistic Redundancy? Technical Report. Chicago: The University of Chicago.

ÕS 1999 = Eesti keele sõnaraamat ÕS 1999. Toim Tiiu Erelt. Koost T. Erelt, Tiina Leemets, Sirje Mäearu, Maire Raadik. Tallinn: Eesti Keele Sihtasutus.

ÕS 2006 = Eesti õigekeelsussõnaraamat ÕS 2006. Toim Tiiu Erelt. Koost T. Erelt, Tiina Leemets, Sirje Mäearu, Maire Raadik. Eesti Keele Instituut. Tallinn: Eesti Keele Sihtasutus.

ÕS 2013 = Eesti õigekeelsussõnaraamat ÕS 2013. Toim Maire Raadik. Koost Tiiu Erelt, Tiina Leemets, Sirje Mäearu, M. Raadik. Eesti Keele Instituut. Tallinn: Eesti Keele Sihtasutus.

ÕS 2018 = Eesti õigekeelsussõnaraamat ÕS 2018. Toim Maire Raadik. Koost Tiiu Erelt, Tiina Leemets, Sirje Mäearu, M. Raadik. Eesti Keele Instituut. Tallinn: EKSA.

Keel ja kirjandus