Overzicht externe taalmaterialen

Externe taalmaterialen zijn Nederlandstalige corpora, lexica en tools die via andere kanalen dan de TST-Centrale beschikbaar zijn. Hieronder vindt u een overzicht van deze materialen met links waar u ze kunt vinden. Aanvullingen kunt u doorgeven aan Dit e-mailadres is beschermd tegen spambots. U heeft Javascript nodig om het te kunnen zien. .

Corpora

 

  • CLEF-corpus: de volledige jaargangen 1994 en 1995 van het Algemeen dagblad en het NRC Handelsblad (alleen beschikbaar voor deelnemers van Cross-Language Evaluation Forum)
  • Corpus van veertiende-eeuwse niet-literaire Nederlandse teksten (C14NL): filologische transcripties van veertiende-eeuwse oorkonden uit de Zuidelijke Nederlanden, aangeboden door het Centrum voor Teksteditie en Bronnenstudie (Koninklijke Academie voor Nederlandse Taal- en Letterkunde)
  • IMDI-corpora van het Max Planck Instituut voor Psycholinguïstiek (MPI - Nijmegen): onderzoeksinstituut dat ook verschillende taaldatabanken beheert
  • OPUS: een open source parallel corpus waaronder EUROPARL (European Parliament Proceedings; 39 miljoen woorden voor het Nederlands), EMEA (European Medicines Agency documents; 13 miljoen tokens voor het Nederlands) en OpenSubtitles (9,5 miljoen tokens voor het Nederlands)
  • Twente Nieuws Corpus: een verzameling Nederlandstalige krantenteksten, teletekstondertiteling, autocues etc. uit 1999 - 2005 (ca. 400 miljoen woorden)

Lexica

 

  • CELEX: monolinguaal lexicon met Nederlandse lemmata aangevuld met orthografische, fonologische, morfologische, syntactische informatie en frequentiegegevens
  • EuroWordNet: multilinguale lexicale database met synsets (synoniemen) en semantische relaties
  • Fonilex: woordenlijst met meer dan 200.000 Nederlandse woordvormen, voorzien van informatie over uitspraak in het Vlaams
  • LanTmark Lexica: monolinguale en bilinguale (Nederlands-Frans) lexica
  • Polderland Lexica: diverse Nederlandse lexica van afkortingen en acronymen, namen, bedrijfsterminologie, juridische terminologie, medische terminologie, sociale terminologie en technische terminologie

Tools

 

  • Alpino: een automatische ontleder (parser)/syntactische annotatietool
  • Praat: software voor o.a. het bewerken, analyseren, synthetiseren en annoteren van spraak
  • SPRAAK (Speech Processing, Recognition and Automatic Annotation Kit): spraakherkenningsoftware
  • TshwaneLex: een applicatie om woordenboeken of terminologielijsten te compileren
  • Diverse taal- en spraaktechnologische software ontwikkeld en beschikbaar gesteld door Induction of Linguistic Research Group (ILK - Universiteit van Tilburg)
  • Diverse (annotatie-) tools beschikbaar via Language Archiving Technology (LAT) bij het Max Planck Instituut (MPI - Nijmegen)
  • Dupira: een regelgebaseerde ontleder (parser)