Google Docs skanuje tekst z PDF-ów

Po wielu miesiącach pracy, Google po cichu wprowadziło do swojej usługi Docs nową funkcjonalność - od niedawna, dokumenty Googla wykorzystują technologię OCR do wykrywania tekstu w dokumentach graficznych czy PDF'ach.

Google Docs skanuje tekst z PDF-ów 1
Wojciech Usarzewicz

Po wielu miesiącach pracy, Google po cichu wprowadziło do swojej usługi Docs nową funkcjonalność - od niedawna, dokumenty Googla wykorzystują technologię OCR do wykrywania tekstu w dokumentach graficznych czy PDF'ach.

OCR, czyli Optical Character Recognition to technologia służąca do rozpoznawiania znaków i całych fragmentów tekstu w plikach graficznych. Technologię stosuje się głównie do rozpoznawania ciągów liter w zeskanowanych dokumentach.

W większości wypadków osoby, które muszą przerobić kilka obrazków na tekst ciągły są zmuszone do korzystania z komercyjnych rozwiązań, lub też darmowych aplikacji, które nie zawsze spełniają wymagania użytkowników.

Google postanowiło spróbować swoich sił i wprowadziło możliwość rozpoznawania znaków w czasie wgrywania dokumentów do Docsów. Wgrywając nowy plik (czy to obrazek czy PDF), możemy zaznaczyć opcję konwersji na znaki. Zeskanowany tekst trafi do nowego dokumentu tekstowego.

Póki co wprowadzona funkcjonalność nie jest idealna. PDFy sprawdzają się znacznie lepiej, niż zwykłe obrazki. Niestety proces skanowania pozbawia tekst większości elementów formatowania i niektórych spacji. W przypadku obrazków, pojawiają się trudności z większymi literami, choć małe są konwertowane bez większych problemów. Nie zauważyłem zaś problemów ze skanowaniem polskich liter - działają bez zarzutu. Dodatkowo, wgrywając plik PDF i konwertując go w tym samym czasie, zapisanym zostanie jedynie przekonwertowany tekst. Chcąc zapisać właściwy plik PDF, trzeba go wgrać jeszcze raz.

Nowa opcja jest z pewnością bardzo wartościowa, wymaga jednak dopracowania. Sprawdzi się dla osób, które potrzebują skorzystać z OCR'a od czasu do czasu. Osoby skanujące obrazki do tekstu częściej póki co powinny pozostać przy rozwiązaniach komercyjnych.

Rzuć także okiem na nasze zestawienie 10 darmowych edytorów tekstu i pakietów biurowych.

Źródło artykułu: WP Gadżetomania
Wybrane dla Ciebie
To skarb ukryty w śmieciach. W USA wyceniono go na ok. 97 mld dol.
To skarb ukryty w śmieciach. W USA wyceniono go na ok. 97 mld dol.
50 lat sadzenia drzew zmieniło klimat kraju. I to dosłownie
50 lat sadzenia drzew zmieniło klimat kraju. I to dosłownie
Zaktualizuj Androida Auto. Jest nowe wydanie
Zaktualizuj Androida Auto. Jest nowe wydanie
Jest coraz mniejsza. Cofają się niebezpieczne zmiany
Jest coraz mniejsza. Cofają się niebezpieczne zmiany
Biofobia narasta. Coraz więcej osób odczuwa lęk i niechęć wobec przyrody
Biofobia narasta. Coraz więcej osób odczuwa lęk i niechęć wobec przyrody
Bezzałogowy "PassAt" Polaków wyruszył w rejs. Ma pokonać Atlantyk
Bezzałogowy "PassAt" Polaków wyruszył w rejs. Ma pokonać Atlantyk
Myślała, że to śmieci. To, co odkryła, ją zdziwiło
Myślała, że to śmieci. To, co odkryła, ją zdziwiło
Nowość w mObywatelu. Skorzystają kolejni użytkownicy
Nowość w mObywatelu. Skorzystają kolejni użytkownicy
Antarktyda: Lodowiec Thwaites w krytycznej fazie destabilizacji
Antarktyda: Lodowiec Thwaites w krytycznej fazie destabilizacji
CERT Orange Polska ostrzega przed nowym oszustwem
CERT Orange Polska ostrzega przed nowym oszustwem
Mroczna przeszłóść. Opuszczone pociągi na Syberii
Mroczna przeszłóść. Opuszczone pociągi na Syberii
Znalazł ten skarb nielegalnie. Uciekł od odpowiedzialności
Znalazł ten skarb nielegalnie. Uciekł od odpowiedzialności
ZATRZYMAJ SIĘ NA CHWILĘ… TE ARTYKUŁY WARTO PRZECZYTAĆ 👀