|
[NB: Dit product is nog niet beschikbaar]
Het ANW-corpus is een corpus dat in de periode 2000 tot en met 2004 speciaal ten behoeve van het Algemeen Nederlands Woordenboek is aangelegd, voor een belangrijk deel met behulp van internetteksten. Het bestaat uit de volgende deelcorpora:
• Domeinencorpus Nederland
• Domeinencorpus België
• Corpus van Literaire Teksten (CLT)
• Neologismencorpus
• Pluscorpus
• Krantencorpus
Het Pluscorpus wordt voortgezet tot 2008, het Neologismencorpus tot 2019, het eindjaar van het project. De overige corpora zijn eind 2004 afgesloten.
Het ANW-corpus is (nog) niet publiekelijk toegankelijk. Het is aangelegd voor intern-lexicografisch gebruik. Het dient het fundament te vormen voor het woordenboek dat we maken. Beschikbaarstelling ervan t.z.t. voor ruimer, extern gebruik, ligt wel in de bedoeling, maar de beslissing daarover ligt bij andere instanties dan de ANW-redactie.
Hieronder geven we nadere informatie over de afzonderlijke deelcorpora. Veel details over de wording van het ANW-corpus vindt men daarnaast ook in de corpusdocumenten.
Domeinencorpora
Het Domeinencorpus Nederland en het Domeinencorpus België ontlenen hun naam aan de bijzondere methode waarmee ze zijn opgebouwd. Uitgangspunt vormden de domeinen (rubrieken in de samenleving, van ‘aangeboren afwijkingen’ tot en met ‘zwemsport’) van de (inmiddels verdwenen) webindex www.nl-menu.nl. Met behulp daarvan zochten de medewerkers binnen die domeinen naar teksten die voor het woordenboek geschikt zijn. Ook de zoekmachine Google werd voor de constructie van deze corpora benut. Deze methode staat in ieder geval borg voor een zeer grote inhoudelijke diversiteit. Veel onderwerpen uit de samenleving die in de traditionele materiaalverzamelingen buiten beeld gebleven zouden zijn, worden ermee bereikt en dus ook de woorden die daar kenmerkend mee verbonden zijn.
Het Domeinencorpus Nederland werd aangelegd in de periode 2000 – 2004 en bevat teksten voor 1341 domeinen. In het Domeinencorpus België, opgebouwd in de periode 2001 – 2004, bevinden zich teksten voor 1307 domeinen.
De omvang van het Domeinencorpus Nederland bedraagt 19.802.118 afzonderlijke woordvormen (= ‘tokens’), die van het Domeinencorpus België 11.738.319 tokens. De totale omvang van de Domeinencorpora ligt dus op ongeveer 30 miljoen tokens. De gemiddelde verhouding België / Nederland is 1 : 1,68.
Voor gedetailleerde informatie over de samenstelling van de domeinencorpora en voor een lijst van alle domeinen zie men verder de slotnota over deze corpora.
Het Corpus van Literaire Teksten
Het Corpus van Literaire Teksten bevat essays, romans, verhalen en toneel, onderverdeeld in oorspronkelijk en vertaald werk en in Noord (= Nederland) en Zuid (= België). De teksten vanaf ongeveer 2000 werden door de eigen medewerkers gedownload of gescand. De omvang daarvan is 12.307.802 miljoen tokens (61,8% Noord, 38,2% Zuid). Aan deze teksten zijn teksten van voor circa 2000 uit het besloten 50 MiljoenWoorden Corpus van het INL toegevoegd. Hun omvang bedraagt 7.877.549 tokens. De totale omvang van het CLT komt daarmee op ongeveer 20 miljoen tokens.
Neologismencorpus
Voor het Neologismencorpus speuren ANW-medewerkers sinds 2000 dagelijks op internet in een selectie van een twintigtal dag- en weekbladen en nieuwssites naar neologismen (in ruimste zin: ook nieuwe betekenissen, verbindingen e.d.). Teksten of tekstfragmenten met neologismen worden in bestanden op de eigen computer opgeslagen. Daarnaast blijft de oude verzamelmogelijkheid bestaan: papieren notities of krantenknipsels. In die vorm aangeleverd materiaal (ook van buiten het INL) wordt eveneens gedigitaliseerd.
Het Neologismencorpus heeft nu een omvang van 6 miljoen tokens. De uiteindelijke omvang is begroot op ongeveer 20 miljoen tokens.
Als we de periode 2000 t/m 2004 als maat nemen, dan verzamelen we gemiddeld ongeveer 3000 neologismen per jaar. Van alle verzamelde neologismen houden we lijsten bij, met vermelding van het jaar of de jaren waarin ze door ons zijn opgetekend. Slechts die gevallen die zich in de algemene taal gevestigd hebben, worden in het ANW zelf opgenomen en bewerkt.
We publiceren lijsten met voorbeelden van het gebruik en enige volledige artikelen voor een selectie van neologismen die we als blijvertjes inschatten, of die om een andere reden (interessant, leuk, populair) de moeite waard zijn. Klik hier voor raadpleging daarvan.
Pluscorpus
Uitgangspunt voor de aanleg van dit subcorpus vormt het INL-lexicon, dat is gebaseerd op INL-materiaal van voor 2000. Er is een lijst aangelegd van woordvormen uit dat lexicon die niet in ons ANW-corpus met materiaal van na 2000 voorkwamen. Sinds 15 januari 2004 worden via Google teksten gezocht waarin die ontbrekende woordvormen voorkomen. Eind 2004 bestond het Pluscorpus uit ongeveer 6 miljoen tokens.
Krantencorpus
Het Krantencorpus is gevormd met INL-materiaal dat is geselecteerd uit de NRC, de Meppeler Courant en De Standaard. Wat de eerste twee dagbladen betreft gaat het hierbij om edities uit de jaren negentig die ook al voor eerdere INL-corpora zijn gebruikt. Dat is niet het geval met het digitale Standaard-materiaal. De omvang van dit corpus is ongeveer 40 miljoen tokens.
Krantenteksten voor de periode na 2000 vindt men voornamelijk in het Neologismencorpus.
Totale omvang
Voor de overzichtelijkheid geven we hieronder een overzicht van de diverse corpora en hun omvang (op hele getallen afgerond, dus steeds te lezen met ‘ongeveer’) bij afsluiting van het ANW-corpus:
| Domeinencorpus Nederland |
20 miljoen tokens |
| Domeinencorpus België |
12 miljoen tokens |
| Corpus van Literaire Teksten |
20 miljoen tokens |
| Neologismencorpus |
6 miljoen tokens |
| Pluscorpus |
6 miljoen tokens |
| Krantencorpus |
40 miljoen tokens |
| Totaal |
104 miljoen tokens |
|