Computerlinguïstiek

Computerlinguïstiek is het analyseren van natuurlijke taal met behulp van computers. Het wordt ook wel natuurlijke taalverwerking genoemd, taaltechnologie, computationele taalkunde en NLP (natural language processing).

Wat gebeurt er bij het INL op gebied van computerlinguïstiek?

Bij het INL wordt veel aan computerlinguïstiek gedaan. Het beschrijven van de woordenschat gebeurt op basis van corpora die met behulp van verschillende computerprogramma’s worden geanalyseerd en verrijkt. Dit gebeurt zowel voor hedendaags Nederlands als voor historische teksten. Er zijn bijvoorbeeld programma's die woordsoorten bij woorden zoeken (‘part-of-speech tagging’), die namen herkennen (‘named entity recognition’) en die woorden morfologisch analyseren. Al deze informatie wordt aan de oorspronkelijke teksten toegevoegd. Hierdoor kan vervolgens met behulp van andere programmatuur lexicografisch interessante informatie op een efficiënte manier uit de teksten worden gehaald, zoals bijvoorbeeld frequentiegegevens of betekenisgerelateerde woorden.

Voorbeelden van computerlinguïstiek bij het INL

GiGaNT

GiGaNT (Groot Geïntegreerd Lexicon van de Nederlandse Taal) wordt een computationeel lexicon van het Nederlands van de zesde eeuw tot nu. Computerlinguïstische tools spelen een grote rol in de totstandkoming van dit lexicon, bijvoorbeeld voor de morfologie en voor het zoeken van attestatiemateriaal. Bovendien zijn er juist ook veel taaltechnologische programma's die hun voordeel kunnen doen met de informatie uit GiGaNT, bijvoorbeeld spellingsvariatiemodules, part-of-speechtaggers en lemmatiseringssoftware.

Spelling

Het INL is  een autoriteit op het gebied van spelling. Op de website van Spelspiek kan bijvoorbeeld de juiste spelling van een woord worden opgevraagd. De computerlinguïstische software die hier achter zit kent veelvoorkomende spelfouten en neemt ook fonetische kenmerken mee (zodat bijvoorbeeld obergine kan worden herkend als aubergine). Vergelijkbare software is ingezet voor HULK (Hulpmiddel Keurmerk). Bij HULK kunnen bijvoorbeeld woordenboekleveranciers hun trefwoordenlijst op spelling laten controleren.

IMPACT

IMPACT (Improving Access to Text) is een Europees project met als doel het verbeteren van het digitaliseren en toegankelijk maken van historische teksten.

Softwarepakket voor lexiconbouw en toepassing

Het INL heeft een softwarepakket ontwikkeld waarmee computationele lexica van historisch taalmateriaal gemaakt en toegepast kunnen worden. Het bevat zowel software voor automatische bewerking als uitvoerig uitgewerkte werkomgevingen om handmatig taaldata te bewerken.

Voorbeelden:

  • Een spellingvariatiemodule
  • Een programma voor het automatisch afleiden van spellingvariatieregels uit woordmateriaal van een bepaalde periode
  • Een lemmatiseerder: een programma dat automatisch een modern equivalent toekent aan elk woord in een tekst

Andere taaltechnologische hulpmiddelen

Het INL heeft de bestaande technieken verbeterd voor Named Entity Recogntion (automatische herkenning van namen) in historisch materiaal. Daarnaast is er een programma ontwikkeld voor morfologische analyse van woorden. Dit programma kan gebruikt worden tijdens de digitalisering van teksten. Alle software die ontwikkeld is, kan ook voor andere talen worden ingezet.

Europese samenwerking

Aan IMPACT doen, buiten het INL, ongeveer 30 bibliotheken en onderzoeksinstellingen mee uit allerlei Europese landen, namelijk Duitsland, Oostenrijk, Frankrijk, Spanje, Tsjechië, Slovenië, Polen, Bulgarije, Griekenland, Groot-Brittannië, Israël, Rusland en Nederland.