Co to jest OCR?

Zamiast ręcznie przepisywać tekst, możemy powierzyć to zadanie komputerowi. Dzięki odpowiedniemu oprogramowaniu możemy błyskawicznie „przepisywać” całe strony. Jest to możliwe dzięki technologii rozpoznawania znaków. Jak działa i czym jest OCR?

Czym jest OCR?
Czym jest OCR?
Źródło zdjęć: © Fot. Pixabay, Lic. CC0
Łukasz Michalik

Czym jest OCR?

OCR (z ang. optical character recognition - optyczne rozpoznawanie znaków) to technologia pozwalająca na wyodrębnienie tekstu z obrazu strony. Dzięki niej zdjęcie albo skan możemy przekształcić w zwykły dokument tekstowy, który da się w prosty sposób zmieniać czy edytować.

Pierwowzorem OCR jest urządzenie zwane Optofonem – rodzaj ręcznego skanera, opracowanego z myślą o osobach niewidomych w 1913 roku przez Edmunda Fourniera d’Albe z Birmingham University. Przesuwany nad tekstem Optofon rozpoznawał litery i przekształcał je na dźwięki.

Optofon - przodek współczesnego OCR
Optofon - przodek współczesnego OCR© Wikimedia Commons

Jak działa OCR?

Oprogramowanie odpowiedzialne za rozpoznawanie tekstu musi wykonać kilka kroków, zanim przekształci skan albo zdjęcie w dokument tekstowy. Są to:

  • wczytanie obrazu i wyodrębnienie jego składowych (oprogramowanie określa, gdzie znajduje się pusta przestrzeń, gdzie elementy graficzne, a gdzie tekst do rozpoznania),
  • rozpoznawania wyodrębnionego tekstu (w tym celu stosuje się kilka metod; najpowszechniejsze to analiza cech i porównywanie obrazów znaków z bazą wzorców),
  • tworzenie i zapisanie rozpoznanego tekstu (rozpoznane znaki są – dzięki odniesieniom do słowników – przekształcane w słowa, z których budowany jest cały dokument).

Współczesna technologia OCR

Optyczne rozpoznawanie znaków zaczęło być stosowane już w latach 20. ubiegłego wieku do archiwizacji i przeszukiwania zawartości mikrofilmów. Technologię, opracowaną przez Emanuela Goldberga kupił wówczas IBM. Początkowo maszyny były w stanie rozpoznawać nie całe strony tekstu, ale pojedyncze znaki.

Raymond Kurzweil - wynalazca i wizjoner
Raymond Kurzweil - wynalazca i wizjoner

OCR we współczesnym rozumieniu tego słowa to zasługa Raya Kurzweila, który w latach 70. zbudował urządzenie, przekształcające skanowany tekst na mowę. Kluczową innowacją była w tym przypadku możliwość rozpoznania tekstu napisanego niemal dowolnym, typowym krojem – opracowane przez Kurzweila oprogramowanie nie tylko porównywało znaki ze wzorcami, ale analizowało również ich kluczowe cechy.

Pierwsze nowoczesne urządzenie OCR, będące połączeniem skanera z syntezatorem mowy, trafiło na rynek w 1978 roku, a jednym z pierwszych nabywców tego sprzętu był niewidomy muzyk, Stevie Wonder. Opracowana przez Kurzweil Computer Products, Inc. technologia została szybko wykorzystana nie tylko w skanerze dla niewidomych, ale także w komercyjnym oprogramowaniu rozpoczynając erę współczesnego, optycznego rozpoznawania znaków.

Przykład tekstu napisanego fontem ZXX
Przykład tekstu napisanego fontem ZXX

OCR a prywatność

Maszynowe rozpoznawanie tekstu może stanowić zagrożenie dla naszej prywatności. W odpowiedzi na ten problem Sang Mun, były agent amerykańskiej agencji NSA, opracował font nieczytelny dla algorytmów. Font ZXX jest czytelny dla człowieka, ale – za sprawą dodania do liter dodatkowych elementów – stanowi problem dla OCR.

Przykład reCaptcha
Przykład reCaptcha

Użytkownicy trenują oprogramowanie OCR

Użytkownicy internetu na masową skalę pomagają w udoskonalaniu oprogramowania OCR. Często robią to zupełnie nieświadomie, wypełniając formularze reCAPTCHA. Są to fragmenty nieczytelnego dla oprogramowania OCR tekstu, których zadaniem jest weryfikacja, czy przed komputerem siedzi człowiek, czy też np. formularz rejestracyjny czy komentarz jest wypełniany przez bota.

W praktyce oznacza to, że użytkownicy uczą” algorytm nowych wzorów liter czy sylab. Dzięki milionom rozpoznawanych w ten sposób próbek tekstu umiejętności algorytmu ciągle rosną, a technologia OCR staje się coraz doskonalsza.

Źródło artykułu:WP Gadżetomania
Wybrane dla Ciebie
Komentarze (0)
© Gadżetomania
·

Pobieranie, zwielokrotnianie, przechowywanie lub jakiekolwiek inne wykorzystywanie treści dostępnych w niniejszym serwisie - bez względu na ich charakter i sposób wyrażenia (w szczególności lecz nie wyłącznie: słowne, słowno-muzyczne, muzyczne, audiowizualne, audialne, tekstowe, graficzne i zawarte w nich dane i informacje, bazy danych i zawarte w nich dane) oraz formę (np. literackie, publicystyczne, naukowe, kartograficzne, programy komputerowe, plastyczne, fotograficzne) wymaga uprzedniej i jednoznacznej zgody Wirtualna Polska Media Spółka Akcyjna z siedzibą w Warszawie, będącej właścicielem niniejszego serwisu, bez względu na sposób ich eksploracji i wykorzystaną metodę (manualną lub zautomatyzowaną technikę, w tym z użyciem programów uczenia maszynowego lub sztucznej inteligencji). Powyższe zastrzeżenie nie dotyczy wykorzystywania jedynie w celu ułatwienia ich wyszukiwania przez wyszukiwarki internetowe oraz korzystania w ramach stosunków umownych lub dozwolonego użytku określonego przez właściwe przepisy prawa.Szczegółowa treść dotycząca niniejszego zastrzeżenia znajduje się  tutaj.