Google Docs skanuje tekst z PDF‑ów

Po wielu miesiącach pracy, Google po cichu wprowadziło do swojej usługi Docs nową funkcjonalność - od niedawna, dokumenty Googla wykorzystują technologię OCR do wykrywania tekstu w dokumentach graficznych czy PDF'ach.

Google Docs skanuje tekst z PDF-ów
Wojciech Usarzewicz

22.06.2010 19:02

Zalogowani mogą więcej

Możesz zapisać ten artykuł na później. Znajdziesz go potem na swoim koncie użytkownika

Po wielu miesiącach pracy, Google po cichu wprowadziło do swojej usługi Docs nową funkcjonalność - od niedawna, dokumenty Googla wykorzystują technologię OCR do wykrywania tekstu w dokumentach graficznych czy PDF'ach.

OCR, czyli Optical Character Recognition to technologia służąca do rozpoznawiania znaków i całych fragmentów tekstu w plikach graficznych. Technologię stosuje się głównie do rozpoznawania ciągów liter w zeskanowanych dokumentach.

W większości wypadków osoby, które muszą przerobić kilka obrazków na tekst ciągły są zmuszone do korzystania z komercyjnych rozwiązań, lub też darmowych aplikacji, które nie zawsze spełniają wymagania użytkowników.

Google postanowiło spróbować swoich sił i wprowadziło możliwość rozpoznawania znaków w czasie wgrywania dokumentów do Docsów. Wgrywając nowy plik (czy to obrazek czy PDF), możemy zaznaczyć opcję konwersji na znaki. Zeskanowany tekst trafi do nowego dokumentu tekstowego.

Póki co wprowadzona funkcjonalność nie jest idealna. PDFy sprawdzają się znacznie lepiej, niż zwykłe obrazki. Niestety proces skanowania pozbawia tekst większości elementów formatowania i niektórych spacji. W przypadku obrazków, pojawiają się trudności z większymi literami, choć małe są konwertowane bez większych problemów. Nie zauważyłem zaś problemów ze skanowaniem polskich liter - działają bez zarzutu. Dodatkowo, wgrywając plik PDF i konwertując go w tym samym czasie, zapisanym zostanie jedynie przekonwertowany tekst. Chcąc zapisać właściwy plik PDF, trzeba go wgrać jeszcze raz.

Nowa opcja jest z pewnością bardzo wartościowa, wymaga jednak dopracowania. Sprawdzi się dla osób, które potrzebują skorzystać z OCR'a od czasu do czasu. Osoby skanujące obrazki do tekstu częściej póki co powinny pozostać przy rozwiązaniach komercyjnych.

Rzuć także okiem na nasze zestawienie 10 darmowych edytorów tekstu i pakietów biurowych.

Źródło artykułu:WP Gadżetomania
Oceń jakość naszego artykułuTwoja opinia pozwala nam tworzyć lepsze treści.
Zobacz także
Komentarze (0)
© Gadżetomania
·

Pobieranie, zwielokrotnianie, przechowywanie lub jakiekolwiek inne wykorzystywanie treści dostępnych w niniejszym serwisie - bez względu na ich charakter i sposób wyrażenia (w szczególności lecz nie wyłącznie: słowne, słowno-muzyczne, muzyczne, audiowizualne, audialne, tekstowe, graficzne i zawarte w nich dane i informacje, bazy danych i zawarte w nich dane) oraz formę (np. literackie, publicystyczne, naukowe, kartograficzne, programy komputerowe, plastyczne, fotograficzne) wymaga uprzedniej i jednoznacznej zgody Wirtualna Polska Media Spółka Akcyjna z siedzibą w Warszawie, będącej właścicielem niniejszego serwisu, bez względu na sposób ich eksploracji i wykorzystaną metodę (manualną lub zautomatyzowaną technikę, w tym z użyciem programów uczenia maszynowego lub sztucznej inteligencji). Powyższe zastrzeżenie nie dotyczy wykorzystywania jedynie w celu ułatwienia ich wyszukiwania przez wyszukiwarki internetowe oraz korzystania w ramach stosunków umownych lub dozwolonego użytku określonego przez właściwe przepisy prawa.Szczegółowa treść dotycząca niniejszego zastrzeżenia znajduje się  tutaj.