Internet

Wat is OCR (optische karakterherkenning)?

Optische tekenherkenning (OCR) is een proces van het omzetten van gedrukte materialen in tekst- of tekstverwerkingsbestanden die eenvoudig kunnen worden bewerkt en opgeslagen.De technologie heeft mogelijk gemaakt dat dergelijke materialen worden opgeslagen met veel minder opslagruimte dan de hardcopy -materialen.OCR Technology heeft een enorme impact gehad op de manier waarop informatie wordt opgeslagen, gedeeld en bewerkt.Voorafgaand aan optische tekenherkenning, als iemand van een boek een tekstverwerkingsbestand wilde maken, zou elke pagina elke pagina moeten worden getypt voor woord.

OCR -technologie vereist zowel hardware als software.Bovendien vereisen geavanceerde OCR -systemen een extra printplaat in de computer zelf om het proces te voltooien.Een optische scanner scant de tekst op een pagina en breekt vervolgens de lettertypen op in een reeks stippen die een bitmap worden genoemd.De software kan de meest voorkomende lettertypen lezen en onderscheiden waar lijnen beginnen en stoppen.Deze bitmap wordt vervolgens vertaald in computertekst.

Hoewel optische karakterherkenning de afgelopen jaren enorme vooruitgang heeft geboekt, presteert het nog steeds niet altijd goed in het herkennen van handschrift of lettertypen die lijken op handschrift.Het kan helpen om een real-world voorbeeld te bekijken.Stel je een politie -afdeling voor die al zijn strafregisters heeft opgeslagen in uitgestrekte bestandskasten.Hoewel het scannen van miljoenen pagina's een dure en tijdrovende onderneming zou zijn, zijn de voordelen enorm.

Zodra het OCR-systeem de pagina's heeft omgezet in computer-leesbare tekst, zou een detective bijvoorbeeld de hele geschiedenis in eeneen paar seconden.Het handmatig vinden van een bepaald record is misschien niet te moeilijk, maar stel je een detective voor die probeert te zoeken naar alle misdaden die op een bepaalde kruising tussen 8:00 en 8:30 zijn gepleegd.Dit voorbeeld krabt alleen het oppervlak van de kracht van doorzoekbare tekst, en het is slechts één reden dat veel bedrijven en instellingen miljoenen dollars uitgeven om hun legacy -gegevens te OCR.