Co to jest OCR?

Zamiast ręcznie przepisywać tekst, możemy powierzyć to zadanie komputerowi. Dzięki odpowiedniemu oprogramowaniu możemy błyskawicznie „przepisywać” całe strony. Jest to możliwe dzięki technologii rozpoznawania znaków. Jak działa i czym jest OCR?

Czym jest OCR?

Źródło zdjęć: © Fot. Pixabay, Lic. CC0

Łukasz Michalik

12 lipca 2018, 10:29

Czym jest OCR?

OCR (z ang. optical character recognition - optyczne rozpoznawanie znaków) to technologia pozwalająca na wyodrębnienie tekstu z obrazu strony. Dzięki niej zdjęcie albo skan możemy przekształcić w zwykły dokument tekstowy, który da się w prosty sposób zmieniać czy edytować.

Pierwowzorem OCR jest urządzenie zwane Optofonem – rodzaj ręcznego skanera, opracowanego z myślą o osobach niewidomych w 1913 roku przez Edmunda Fourniera d’Albe z Birmingham University. Przesuwany nad tekstem Optofon rozpoznawał litery i przekształcał je na dźwięki.

Co to jest OCR? 2 — Optofon - przodek współczesnego OCR © Wikimedia Commons

Jak działa OCR?

Oprogramowanie odpowiedzialne za rozpoznawanie tekstu musi wykonać kilka kroków, zanim przekształci skan albo zdjęcie w dokument tekstowy. Są to:

wczytanie obrazu i wyodrębnienie jego składowych (oprogramowanie określa, gdzie znajduje się pusta przestrzeń, gdzie elementy graficzne, a gdzie tekst do rozpoznania),
rozpoznawania wyodrębnionego tekstu (w tym celu stosuje się kilka metod; najpowszechniejsze to analiza cech i porównywanie obrazów znaków z bazą wzorców),
tworzenie i zapisanie rozpoznanego tekstu (rozpoznane znaki są – dzięki odniesieniom do słowników – przekształcane w słowa, z których budowany jest cały dokument).

Współczesna technologia OCR

Optyczne rozpoznawanie znaków zaczęło być stosowane już w latach 20. ubiegłego wieku do archiwizacji i przeszukiwania zawartości mikrofilmów. Technologię, opracowaną przez Emanuela Goldberga kupił wówczas IBM. Początkowo maszyny były w stanie rozpoznawać nie całe strony tekstu, ale pojedyncze znaki.

Co to jest OCR? 3 — Raymond Kurzweil - wynalazca i wizjoner

OCR we współczesnym rozumieniu tego słowa to zasługa Raya Kurzweila, który w latach 70. zbudował urządzenie, przekształcające skanowany tekst na mowę. Kluczową innowacją była w tym przypadku możliwość rozpoznania tekstu napisanego niemal dowolnym, typowym krojem – opracowane przez Kurzweila oprogramowanie nie tylko porównywało znaki ze wzorcami, ale analizowało również ich kluczowe cechy.

Pierwsze nowoczesne urządzenie OCR, będące połączeniem skanera z syntezatorem mowy, trafiło na rynek w 1978 roku, a jednym z pierwszych nabywców tego sprzętu był niewidomy muzyk, Stevie Wonder. Opracowana przez Kurzweil Computer Products, Inc. technologia została szybko wykorzystana nie tylko w skanerze dla niewidomych, ale także w komercyjnym oprogramowaniu rozpoczynając erę współczesnego, optycznego rozpoznawania znaków.

Co to jest OCR? 4 — Przykład tekstu napisanego fontem ZXX

OCR a prywatność

Maszynowe rozpoznawanie tekstu może stanowić zagrożenie dla naszej prywatności. W odpowiedzi na ten problem Sang Mun, były agent amerykańskiej agencji NSA, opracował font nieczytelny dla algorytmów. Font ZXX jest czytelny dla człowieka, ale – za sprawą dodania do liter dodatkowych elementów – stanowi problem dla OCR.

Użytkownicy trenują oprogramowanie OCR

Użytkownicy internetu na masową skalę pomagają w udoskonalaniu oprogramowania OCR. Często robią to zupełnie nieświadomie, wypełniając formularze reCAPTCHA. Są to fragmenty nieczytelnego dla oprogramowania OCR tekstu, których zadaniem jest weryfikacja, czy przed komputerem siedzi człowiek, czy też np. formularz rejestracyjny czy komentarz jest wypełniany przez bota.

W praktyce oznacza to, że użytkownicy uczą” algorytm nowych wzorów liter czy sylab. Dzięki milionom rozpoznawanych w ten sposób próbek tekstu umiejętności algorytmu ciągle rosną, a technologia OCR staje się coraz doskonalsza.

Łukasz Michalik