GCND - The Spoken Corpus of Southern-Dutch Dialects

Gesproken Corpus van de Zuidelijk-Nederlandse Dialecten (GCND)
Start - End 
2020 - 2024 (ongoing)
Department(s) 
Department of Linguistics
Department of Translation, Interpreting and Communication

Tabgroup

Abstract

The GCND will be the first corpus of spoken Dutch dialects. It aims at making accessible a unique collection of dialect recordings from 768 places in Belgium, France and the south of the Netherlands, 740 of them originally recorded between 1963 and 1976, with speakers that are generally non-mobile, rural, unschooled and born around 1900. For the GCND, the recordings are transcribed – urgent in times of rapidly progressing dialect loss! – using a newly developed two-tier protocol, and linguistically annotated (i.e. with information on the word class of the individual words (‘postags’) and the syntactic functions of word groups (‘parsing’)) using existing software tools. Compared to other data collections on Dutch dialects, the GCND will be unique in being based exclusively on spontaneous speech. As the dialect recordings represent a historical stage of the language (in the case of French-Flemish even the last witness of a now all but extinct language variety) and will now finally be searchable for word forms and syntactic patterns, the GCND will (i) make it possible to track language change through time and space, (ii) enable a new perspective on the functional strength of dialect features in real life and (iii) facilitate the serendipitous research of previously unnoticed structures. Audio, transcriptions and annotations will be made available online (with query tools). The GCND will as such form an unparalleled corpus of dialect data.

Het GCND is het eerste corpus van gesproken Nederlandse dialecten. Het project beoogt de ontsluiting van een unieke collectie van dialectopnames uit 768 plaatsen in België, Frankrijk en het zuiden van Nederland, waarvan 740 opgenomen tussen 1963 en 1976, bij in het algemeen weinig mobiele en laagopgeleide sprekers geboren rond 1900. Voor het GCND worden de opnames volgens een nieuw ontwikkeld transcriptieprotocol getranscribeerd – hoogdringend in tijden van snel vorderend dialectverlies! – om vervolgens met bestaande tools taalkundig verrijkt te worden met informatie over de woordsoort van de individuele woorden (‘pos-tags’) en over de syntactische functies van de woordgroepen (‘parsing’). In vergelijking met bestaande datacollecties over de Nederlandse dialecten is het GCND uniek omdat het alleen spontane spraak bevat. Aangezien de dialectopnames een historisch stadium van de taal representeren (in het geval van het Frans-Vlaams zelfs de laatste getuigenissen van een inmiddels nagenoeg uitgestorven taalvariëteit) en de opnames nu eindelijk doorzoekbaar zullen worden, zal het GCND het mogelijk maken (i) taalveranderingsprocessen geografisch in kaart te brengen, (ii) de functionaliteit van dialectkenmerken kwantitatief te onderzoeken en (iii) nieuwe, voorheen onopgemerkte en dus onbevraagde structuren op te sporen. Audio, transcripties en annotaties worden vrij online beschikbaar en doorzoekbaar gemaakt. Het GCND zal zo een historisch dialectcorpus zonder weerga vormen.

People

Supervisor(s)

Co-supervisor(s)

Researcher(s)

Publications