MoM | Digitale historische taalkunde

Stamboom van de Indo-Europese talen (klik=groot)
22 maart 2021

Ik heb wel vaker geblogd over de Lachmannmethode, waarbij classici de fouten in middeleeuwse handschriften gebruiken om te zien welke manuscript van welk manuscript is afgeleid, eventueel verloren handschriften te reconstrueren en zo het origineel zo dicht mogelijk te benaderen. Als van de bladeren van een boom werk je via de takken terug naar de stam; zo werkt de classicus van de concreet voorhanden zijnde data terug naar verloren informatie. Dat de methode correct is, weten we doordat in de Egyptische woestijn papyri zijn teruggevonden met daarop teksten zoals ze volgens de reconstructie moesten zijn.

Dit idee, dat je aan de hand van wat je in het heden vindt terug kunt redeneren naar wat er vroeger moet zijn geweest, staat bekend als de fylogenetische stamboom. Die term komt uit de biologie: van de huidige diersoorten kunnen we terugredeneren naar uitgestorven voorouder-diersoorten. Ik heb me ooit door een bioloog laten vertellen dat de methode ook hier correct is gebleken: sommige vormen waarvan men had beredeneerd dat ze bestaan moesten hebben, zijn in fossiele vorm teruggevonden.

Taalkunde

Het stamboommodel wordt ook wel gehanteerd in de historische taalkunde: aan de hand van de huidige Germaanse talen (Engels, Fries, Nederlands, Duits…) kunnen linguïsten oudere Germaanse talen reconstrueren. Dat de methode klopt, wordt bewezen door de Romaanse talen. Je kunt het Italiaans, Spaans, Portugees, Sardijns, Frans en Roemeens benutten om te kijken welke taal de gedeelde voorouder was en dan krijg je iets dat verdraaid veel lijkt op het Latijn. De resultaten zijn dan geijkt. De vergelijking met andere (deels gereconstrueerde) talen helpt om nog verder terug te gaan. De reconstructie van het Proto-Indo-Europees, een oertaal die in het vierde millennium v.Chr. op de westelijke Centraal-Euraziatische steppe gesproken moet zijn geweest, is een van de grootste wetenschappelijke prestaties van alle tijden.

Taalkunde is geen “zachte” wetenschap. De conclusies zijn robuust. De wijze waarop talen door de eeuwen heen veranderden, is gedocumenteerd in vele honderden van de circa zesduizend talen in de wereld. Daarbij gaat het niet alleen om woordenschatten, maar ook om de klanken en om grammatica’s. Een online-inventaris is WALS. Dankzij deze grote dataverzameling zijn de wegen waarlangs talen veranderen, goed bekend, en ook kennen we enkele algemene regels waaraan talen moeten voldoen. Een voorbeeld is dat als een taal een /g/ kent, er ook altijd een /d/ is, en dat als een taal een /d/ heeft, er ook een /b/ is. Als we een taal reconstrueren met wel een /g/ maar geen /b/, is er vrijwel zeker iets mis. Ook kennen we van vrij veel talen de specifieke, eigen veranderingen.

Algoritmes

Omdat enerzijds de woordenschatten, grammatica’s en klankleer en anderzijds de regels waarmee talen veranderen bekend zijn, zou je het proces van taalreconstructie kunnen automatiseren. Dat heet computational historical linguistics en dat is iets waar taalkundigen de laatste tien jaar vooruitgang mee boeken.

Hier is een artikel waar ik al een tijdje op zit te broeden. De auteur, Gerhard Jäger, zoekt naar een manier om de computer het werk te laten doen en gebruikt daarbij een verzameling van een stuk of vijftig romaanse talen en dialecten. Die hebben, zoals gezegd, het voordeel dat we weten dat ze afstammen van het Latijn. We weten dus waar het op moet lijken en kunnen het resultaat controleren. Jäger wil geautomatiseerd kijken of woorden een gedeelde voorouder hebben en die reconstrueren.

De toekomst

Onderzoek als dat van Jäger is pas een begin. Hij houdt zich nauwelijks bezig met grammatica en klankleer. Het zou natuurlijk geweldig zijn als dit van de grond kwam en we andere verloren talen leerden reconstrueren. Welke talen spraken de Germanen? Wat waren de eerste fases van de Finno-Oegrische talen? En wat ging er vooraf aan het Hebreeuws en Aramees?

Er zijn natuurlijk problemen. Eén daarvan is dat talen zich niet alleen ontwikkelen als een steeds verder uiteen waaierende boom. Twee talen naast elkaar zullen elkaar beïnvloeden, wat leidt tot Sprachbünde en in extreme vorm kan leiden tot het ontstaan van pidgins en creolen. Het Jiddisch combineert Semitische woorden met een Germaanse grammatica en het Papiaments combineert elementen uit een half dozijn talen. Je kunt dus niet zomaar de computer aan het werk zetten om vanuit de bestaande talen terug te redeneren naar verloren oertalen.

IJking en verfijning

Hoe controleer je dus een uitkomst? Waaraan ijk je? Het liefst zou je het linguïstische equivalent hebben van papyri of fossielen: glimpen informatie uit het verleden die bevestigen dat je goed zit. Die zijn er echter zelden en een norm als “je moet er wel normaal mee kunnen communiceren” is weer afhankelijk van de vraag wat normaal is.

Het is ook belangrijk dat bekend is hoe oud taaluitingen zijn. Daarmee valt het resultaat te verfijnen. Voor een reconstructie van het oude Germaans beschikken we niet alleen over goed gedocumenteerde hedendaagse afstammelingen van die oude talen, maar ook over een flink oude vorm, het Gotisch. Het ligt in de rede die eveneens goed gedocumenteerde vorm op een of andere manier zwaarder te laten wegen, net zoals de Oud-Nederlandse woorden die her en der in Vroeg-Middeleeuwse teksten opduiken.

Ook wordt wel gekeken naar de onderlinge uitwisseling tussen talen. Zo bevat het Fins nogal wat oeroude Germaanse woorden, die in een zeer vroeg stadium moeten zijn overgenomen.

Deel dit blog:
Archeologie anno nu, dat is oudheden scannen in 3D

Archeologen graven vragen op. Ze toetsen theorieën en streven naar inzicht in de mens als sociaal en cultureel wezen. Het Read more

Factcheck: Het Afghanistan van Louise Fresco

Het is ogenschijnlijk triviaal, maar toch: de column van Louise Fresco in het Handelsblad van gisteren, daarover heb ik wat Read more

De Zeevolken: meer problemen

In de vorige vier stukken (één, twee, drie, vier) over de Zeevolken heb ik uitgelegd dat het bewijsmateriaal een consistent Read more

Eigenlijk zou de DNA-revolutie “hermeneutische revolutie” moeten heten

Ik heb het regelmatig over de DNA-revolutie. Dat zou momenteel het belangrijkste thema in de oudheidkunde moeten zijn. Simpel gezegd: Read more