|
Overzicht externe taalmaterialen |
|
Externe taalmaterialen zijn Nederlandstalige corpora, lexica en tools die via andere kanalen dan de TST-Centrale beschikbaar zijn. Hieronder vindt u een overzicht van deze materialen met links waar u ze kunt vinden. Aanvullingen kunt u doorgeven aan
Dit e-mailadres is beschermd tegen spambots. U heeft Javascript nodig om het te kunnen zien.
.
Corpora
- CLEF-corpus: de volledige jaargangen 1994 en 1995 van het Algemeen dagblad en het NRC Handelsblad (alleen beschikbaar voor deelnemers van Cross-Language Evaluation Forum)
- Corpus van veertiende-eeuwse niet-literaire Nederlandse teksten (C14NL): filologische transcripties van veertiende-eeuwse oorkonden uit de Zuidelijke Nederlanden, aangeboden door het Centrum voor Teksteditie en Bronnenstudie (Koninklijke Academie voor Nederlandse Taal- en Letterkunde)
- IMDI-corpora van het Max Planck Instituut voor Psycholinguïstiek (MPI - Nijmegen): onderzoeksinstituut dat ook verschillende taaldatabanken beheert
- OPUS: een open source parallel corpus waaronder EUROPARL (European Parliament Proceedings; 39 miljoen woorden voor het Nederlands), EMEA (European Medicines Agency documents; 13 miljoen tokens voor het Nederlands) en OpenSubtitles (9,5 miljoen tokens voor het Nederlands)
- Twente Nieuws Corpus: een verzameling Nederlandstalige krantenteksten, teletekstondertiteling, autocues etc. uit 1999 - 2005 (ca. 400 miljoen woorden)
Lexica
- CELEX: monolinguaal lexicon met Nederlandse lemmata aangevuld met orthografische, fonologische, morfologische, syntactische informatie en frequentiegegevens
- EuroWordNet: multilinguale lexicale database met synsets (synoniemen) en semantische relaties
- Fonilex: woordenlijst met meer dan 200.000 Nederlandse woordvormen, voorzien van informatie over uitspraak in het Vlaams
- LanTmark Lexica: monolinguale en bilinguale (Nederlands-Frans) lexica
- Polderland Lexica: diverse Nederlandse lexica van afkortingen en acronymen, namen, bedrijfsterminologie, juridische terminologie, medische terminologie, sociale terminologie en technische terminologie
Tools
- Alpino: een automatische ontleder (parser)/syntactische annotatietool
- Praat: software voor o.a. het bewerken, analyseren, synthetiseren en annoteren van spraak
- SPRAAK (Speech Processing, Recognition and Automatic Annotation Kit): spraakherkenningsoftware
- TshwaneLex: een applicatie om woordenboeken of terminologielijsten te compileren
- Diverse taal- en spraaktechnologische software ontwikkeld en beschikbaar gesteld door Induction of Linguistic Research Group (ILK - Universiteit van Tilburg)
- Diverse (annotatie-) tools beschikbaar via Language Archiving Technology (LAT) bij het Max Planck Instituut (MPI - Nijmegen)
- Dupira: een regelgebaseerde ontleder (parser)
|