Gerelateerde documentatie (pdf):

IMProving ACcess to Text (IMPACT)

Toegankelijkheid verbeteren van historisch tekstmateriaal

IMPACT is een Europees project dat historische teksten beter toegankelijk wil maken. Daarvoor wordt niet alleen gewerkt aan een betere kwaliteit van de digitalisering, maar ook aan methodes om het zoeken in historische teksten te vergemakkelijken.

Leesbaar en doorzoekbaar maken van teksten

Er wordt in bibliotheken op grote schaal gedigitaliseerd. Voor historische teksten levert dat problemen op. De kwaliteit van de digitalisering door Optical Character Recogniton (OCR) is vaak zo slecht, dat de gedigitaliseerde tekst nog amper leesbaar of doorzoekbaar is. Dat heeft bijvoorbeeld te maken met de kwaliteit van het papier en de druk, het gebruik van onbekende lettertypes, maar ook met het feit dat historische taal wat betreft spelling en woordenschat te veel afwijkt van het hedendaagse taalgebruik.

IMPACT wil hier iets aan doen. Aan de kwaliteit van de digitalisering wordt gewerkt door verbeteringen aan de bestaande OCR-technologie en  aan een verbeterde doorzoekbaarheid door het inzetten van taaltechnologie en computerlexica.

Massadigitalisering

IMPACT heeft ook een belangrijk strategisch doel: significante verbetering van het proces van massadigitalisering in Europa: hogere snelheid, volume en kwaliteit en lagere kosten. Dit wordt bereikt door de verspreiding van techniek, kennis en ervaring door heel Europa. Het project is uitgebreid aanwezig op het web (www.impact-project.eu) en heeft een veelomvattend trainingsprogramma. Er zal ook een 'Centre of Competence' worden opgezet waarin de resultaten van IMPACT na afloop van de subsidie beschikbaar blijven en verder ontwikkeld kunnen worden voor de gebruikers.

INL en IMPACT

Het INL is een van de zesentwintig partners van dit project. Het INL werkt aan tools (gereedschap) om computerlexica te bouwen en bouwt lexica voor het Nederlands en het Engels. Er wordt ook technologie ontwikkeld om die lexica toe te passen. Named Entity Recogition (automatisch herkennen van personen, plaatsen en organisaties in teksten) is ook een onderdeel van IMPACT. Alle tools en technologie moet voor diverse Europese talen inzetbaar zijn. Onder leiding van het INL wordt er naast het Nederlands en het Engels gewerkt aan het Duits, Frans, Spaans, Pools, Tsjechisch, Sloveens en Bulgaars.

Looptijd project

Het project duurt 4 jaar en loopt van 1 januari 2008 tot en met 31 december 2011.