Co to jest OCR?

Co to jest OCR?12.07.2018 10:29
Czym jest OCR?
Źródło zdjęć: © Fot. Pixabay, Lic. CC0

Zamiast ręcznie przepisywać tekst, możemy powierzyć to zadanie komputerowi. Dzięki odpowiedniemu oprogramowaniu możemy błyskawicznie „przepisywać” całe strony. Jest to możliwe dzięki technologii rozpoznawania znaków. Jak działa i czym jest OCR?

Czym jest OCR?

OCR (z ang. optical character recognition - optyczne rozpoznawanie znaków) to technologia pozwalająca na wyodrębnienie tekstu z obrazu strony. Dzięki niej zdjęcie albo skan możemy przekształcić w zwykły dokument tekstowy, który da się w prosty sposób zmieniać czy edytować.

Pierwowzorem OCR jest urządzenie zwane Optofonem – rodzaj ręcznego skanera, opracowanego z myślą o osobach niewidomych w 1913 roku przez Edmunda Fourniera d’Albe z Birmingham University. Przesuwany nad tekstem Optofon rozpoznawał litery i przekształcał je na dźwięki.

Optofon - przodek współczesnego OCR, Źródło zdjęć: © Wikimedia Commons
Optofon - przodek współczesnego OCR
Źródło zdjęć: © Wikimedia Commons

Jak działa OCR?

Oprogramowanie odpowiedzialne za rozpoznawanie tekstu musi wykonać kilka kroków, zanim przekształci skan albo zdjęcie w dokument tekstowy. Są to:

  • wczytanie obrazu i wyodrębnienie jego składowych (oprogramowanie określa, gdzie znajduje się pusta przestrzeń, gdzie elementy graficzne, a gdzie tekst do rozpoznania),
  • rozpoznawania wyodrębnionego tekstu (w tym celu stosuje się kilka metod; najpowszechniejsze to analiza cech i porównywanie obrazów znaków z bazą wzorców),
  • tworzenie i zapisanie rozpoznanego tekstu (rozpoznane znaki są – dzięki odniesieniom do słowników – przekształcane w słowa, z których budowany jest cały dokument).

Współczesna technologia OCR

Optyczne rozpoznawanie znaków zaczęło być stosowane już w latach 20. ubiegłego wieku do archiwizacji i przeszukiwania zawartości mikrofilmów. Technologię, opracowaną przez Emanuela Goldberga kupił wówczas IBM. Początkowo maszyny były w stanie rozpoznawać nie całe strony tekstu, ale pojedyncze znaki.

Raymond Kurzweil - wynalazca i wizjoner
Raymond Kurzweil - wynalazca i wizjoner

OCR we współczesnym rozumieniu tego słowa to zasługa Raya Kurzweila, który w latach 70. zbudował urządzenie, przekształcające skanowany tekst na mowę. Kluczową innowacją była w tym przypadku możliwość rozpoznania tekstu napisanego niemal dowolnym, typowym krojem – opracowane przez Kurzweila oprogramowanie nie tylko porównywało znaki ze wzorcami, ale analizowało również ich kluczowe cechy.

Pierwsze nowoczesne urządzenie OCR, będące połączeniem skanera z syntezatorem mowy, trafiło na rynek w 1978 roku, a jednym z pierwszych nabywców tego sprzętu był niewidomy muzyk, Stevie Wonder. Opracowana przez Kurzweil Computer Products, Inc. technologia została szybko wykorzystana nie tylko w skanerze dla niewidomych, ale także w komercyjnym oprogramowaniu rozpoczynając erę współczesnego, optycznego rozpoznawania znaków.

Przykład tekstu napisanego fontem ZXX
Przykład tekstu napisanego fontem ZXX

OCR a prywatność

Maszynowe rozpoznawanie tekstu może stanowić zagrożenie dla naszej prywatności. W odpowiedzi na ten problem Sang Mun, były agent amerykańskiej agencji NSA, opracował font nieczytelny dla algorytmów. Font ZXX jest czytelny dla człowieka, ale – za sprawą dodania do liter dodatkowych elementów – stanowi problem dla OCR.

Przykład reCaptcha
Przykład reCaptcha

Użytkownicy trenują oprogramowanie OCR

Użytkownicy internetu na masową skalę pomagają w udoskonalaniu oprogramowania OCR. Często robią to zupełnie nieświadomie, wypełniając formularze reCAPTCHA. Są to fragmenty nieczytelnego dla oprogramowania OCR tekstu, których zadaniem jest weryfikacja, czy przed komputerem siedzi człowiek, czy też np. formularz rejestracyjny czy komentarz jest wypełniany przez bota.

W praktyce oznacza to, że użytkownicy uczą” algorytm nowych wzorów liter czy sylab. Dzięki milionom rozpoznawanych w ten sposób próbek tekstu umiejętności algorytmu ciągle rosną, a technologia OCR staje się coraz doskonalsza.

Źródło artykułu:WP Gadżetomania
Wybrane dla Ciebie
Szanowna Użytkowniczko! Szanowny Użytkowniku!
×
Aby dalej móc dostarczać coraz lepsze materiały redakcyjne i udostępniać coraz lepsze usługi, potrzebujemy zgody na dopasowanie treści marketingowych do Twojego zachowania. Twoje dane są u nas bezpieczne, a zgodę możesz wycofać w każdej chwili na podstronie polityka prywatności.

Kliknij "PRZECHODZĘ DO SERWISU" lub na symbol "X" w górnym rogu tej planszy, jeżeli zgadzasz się na przetwarzanie przez Wirtualną Polskę i naszych Zaufanych Partnerów Twoich danych osobowych, zbieranych w ramach korzystania przez Ciebie z usług, portali i serwisów internetowych Wirtualnej Polski (w tym danych zapisywanych w plikach cookies) w celach marketingowych realizowanych na zlecenie naszych Zaufanych Partnerów. Jeśli nie zgadzasz się na przetwarzanie Twoich danych osobowych skorzystaj z ustawień w polityce prywatności. Zgoda jest dobrowolna i możesz ją w dowolnym momencie wycofać zmieniając ustawienia w polityce prywatności (w której znajdziesz odpowiedzi na wszystkie pytania związane z przetwarzaniem Twoich danych osobowych).

Od 25 maja 2018 roku obowiązuje Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 (określane jako "RODO"). W związku z tym chcielibyśmy poinformować o przetwarzaniu Twoich danych oraz zasadach, na jakich odbywa się to po dniu 25 maja 2018 roku.

Kto będzie administratorem Twoich danych?

Administratorami Twoich danych będzie Wirtualna Polska Media Spółka Akcyjna z siedzibą w Warszawie, oraz pozostałe spółki z grupy Wirtualna Polska, jak również nasi Zaufani Partnerzy, z którymi stale współpracujemy. Szczegółowe informacje dotyczące administratorów znajdują się w polityce prywatności.

O jakich danych mówimy?

Chodzi o dane osobowe, które są zbierane w ramach korzystania przez Ciebie z naszych usług, portali i serwisów internetowych udostępnianych przez Wirtualną Polskę, w tym zapisywanych w plikach cookies, które są instalowane na naszych stronach przez Wirtualną Polskę oraz naszych Zaufanych Partnerów.

Dlaczego chcemy przetwarzać Twoje dane?

Przetwarzamy je dostarczać coraz lepsze materiały redakcyjne, dopasować ich tematykę do Twoich zainteresowań, tworzyć portale i serwisy internetowe, z których będziesz korzystać z przyjemnością, zapewniać większe bezpieczeństwo usług, udoskonalać nasze usługi i maksymalnie dopasować je do Twoich zainteresowań, pokazywać reklamy dopasowane do Twoich potrzeb. Szczegółowe informacje dotyczące celów przetwarzania Twoich danych znajdują się w polityce prywatności.

Komu możemy przekazać dane?

Twoje dane możemy przekazywać podmiotom przetwarzającym je na nasze zlecenie oraz podmiotom uprawnionym do uzyskania danych na podstawie obowiązującego prawa – oczywiście tylko, gdy wystąpią z żądaniem w oparciu o stosowną podstawę prawną.

Jakie masz prawa w stosunku do Twoich danych?

Masz prawo żądania dostępu, sprostowania, usunięcia lub ograniczenia przetwarzania danych. Możesz wycofać zgodę na przetwarzanie, zgłosić sprzeciw oraz skorzystać z innych praw wymienionych szczegółowo w polityce prywatności.

Jakie są podstawy prawne przetwarzania Twoich danych?

Podstawą prawną przetwarzania Twoich danych w celu świadczenia usług jest niezbędność do wykonania umów o ich świadczenie (tymi umowami są zazwyczaj regulaminy). Podstawą prawną przetwarzania danych w celu pomiarów statystycznych i marketingu własnego administratorów jest tzw. uzasadniony interes administratora. Przetwarzanie Twoich danych w celach marketingowych realizowanych przez Wirtualną Polskę na zlecenie Zaufanych Partnerów i bezpośrednio przez Zaufanych Partnerów będzie odbywać się na podstawie Twojej dobrowolnej zgody.