Categorieën
Corpora & lexica

GiGaNT

GiGaNT staat voor Groot Geïntegreerd Lexicon van de Nederlandse Taal. Het is een computationeel lexicon in ontwikkeling van de Nederlandse taal vanaf de zesde eeuw tot en met het heden. Dit lexicon vormt straks een verzameling van woorden en woordgroepen in alle mogelijke spelling- en vormvarianten. Het biedt bij elk woord veel extra taalkundige informatie.

English version

GiGaNT

At the moment the Dutch Language Institute (INT) is developing a computational lexicon of the Dutch language from the sixth century up to the present. This lexicon, called GiGaNT, will be a collection of words and word groups, including named entities (names of persons, places, organisations), showing every possible variant of spelling and form.

Relevant information such as part of speech, morphological analysis, and the inflectional paradigm through the ages, will be added to every word entry.

Lexicon with citations

All words in GiGaNT are supported by citations, always complete with their sources and dates (bibliographical information) and with dating and localisation information.

Using GiGaNT

Since GiGaNT is compiled for computational linguistic tools, we are at the same time building a software toolset for both lexicon development and lexicon application. Soon, it will be possible to consult GiGaNT online as part of the Geïntegreerde Taalbank (integrated language database).

Development of GiGaNT

The lexicon has two main modules: GiGaNT Hilex, the historical lexicon component, which is based on the materials of our historical dictionaries; and GiGaNT Molex, the modern lexicon component, containing materials from our corpora. The two modules are being developed parallel to each other.

Available results

Whenever possible, there will be interim releases.

The basic modules of GiGaNT Hilex, which are based on the Dictionary of the Dutch Language (WNT) and the Dictionary of Middle Dutch (MNW), have been released and made available through a lexicon service,an API (Application Programming Interface) that gives access to the lexicon. If you would like to make use of this service, please contact Katrien Depuydt.

GiGaNT Molex version 1.0 has been released and is available for download as a dataset for both non-commercial use and commercial use. The lexicon contains 201,448 lemmas and 901,621 forms including word-breaks. The materials of GiGaNT Molex are based on contemporary Dutch INT corpus materials from the Netherlands, Flanders, the Dutch Caribbean and Suriname. They contain lemmas, complete with paradigms and word-breaks. All lemmas and paradigms have been manually verified and are in accordance with the official spelling.

The rules and principles that are at the basis of GiGaNT were described in three documents: Morfosyntactische verrijking (Morphosyntactic Annotation), Lemmatiseerprincipes (Lemmatization Principles) and Morfologische analyse (Morphological Analysis).

We have also developed a morphological parser and a benchmark set for historical morphology.


Applications/products

Further reading

Op dit moment ontwikkelt het Instituut voor de Nederlandse Taal (INT) een computationeel lexicon van de Nederlandse taal vanaf de zesde eeuw tot en met het heden. Dit lexicon, met de naam GiGaNT, vormt straks een verzameling van woorden en woordgroepen, waaronder named entities (namen van personen, plaatsen, organisaties), in alle mogelijke spelling- en vormvarianten.

Aan elke woordingang van GiGaNT koppelen we relevante taalkundige informatie zoals woordsoort, morfologische analyse en het woordparadigma door de eeuwen heen.

Lexicon met citaten

In GiGaNT worden alle woorden in het lexicon opgenomen met citaten, waarbij elk citaat is voorzien van bron en datum (bibliografische gegevens) en daterings- en lokaliseringsinformatie.

Gebruik van GiGaNT

GiGaNT is ontwikkeld voor computerlinguïstische tools. We bouwen het dan ook samen met een software-toolset voor zowel lexiconontwikkeling als lexicontoepassing. GiGaNT kunt u straks ook online raadplegen als onderdeel van de Geïntegreerde Taalbank.

Hilex & Molex

Het lexicon heeft twee hoofdmodules: GiGaNT-Hilex, de historische lexiconcomponent, gebaseerd op het materiaal van de historische woordenboeken van het INT, en GiGaNT-Molex, de moderne lexiconcomponent, met materiaal uit de INT-corpora. De ontwikkeling van beide hoofdmodules gebeurt parallel.

Beschikbaarheid

Zodra het kan, worden er tussentijdse releases gedaan.

Voor wat betreft GiGaNT-Hilex zijn de basismodules, gebaseerd op het Woordenboek der Nederlandsche Taal (WNT) en het Middelnederlandsch Woordenboek (MNW), gereleased en toegankelijk gemaakt via een lexiconservice, een API (Application Programming Interface) die toegang geeft tot het lexicon. Wie gebruik wil maken van die service, kan contact opnemen met Katrien Depuydt.

GiGaNT-Molex versie 1.0 is gereleased en als dataset downloadbaar voor zowel niet-commercieel gebruik als commercieel gebruik. Het lexicon bevat 201.448 lemmata en 901.621 woordvormen met afbrekingen. Het materiaal van GiGaNT-Molex is gebaseerd op hedendaags Nederlands corpusmateriaal van het INT uit Nederland en de Caribische rijksdelen, België en Suriname. Het bevat lemmata met compleet paradigma inclusief afbrekingen. Alle lemmata en paradigmata zijn handmatig gecontroleerd en conform de officiële spelling.

De regels en principes die ten grondslag liggen aan GiGaNT hebben we beschreven in drie documenten: Morfosyntactische verrijking, Lemmatiseerprincipes en Morfologische analyse.

We hebben ook een morfologische parser, een benchmarkset voor historische morfologie en een Tagset voor Diachroon corpusmateriaal van het Nederlands (TDN) ontwikkeld.