OCR (Optical Character Recognition)
Als het materiaal een goed leesbaar typoscript is of een gedrukte versie, is het mogelijk de tekst te scannen en de computer zelf de tekst te laten digitaliseren door middel van OCR (Optical Character Recognition). De software die daarvoor nodig is kan werken op basis van twee soorten systemen, patroonherkenning (op basis van een databank van verschillende soorten a’s kan de computer een a in het typoscript herkennen) en vormanalyse (als een aantal kenmerken van een letterteken overeenkomen met de specifieke kenmerken van een a, weet de computer dat het om een a gaat).
(Van Hulle 1998, 95)