Co mają wspólnego e‑booki z genomem?

Przez ostatnie cztery lata naukowcy przejrzeli ponad pięć milionów książek i doszli do ciekawego wniosku: są one tym dla nauk humanistycznych, czym badania genomu dla biologii i medycyny. O co im chodzi? Już wyjaśniam.

Co mają wspólnego e-booki z genomem?
Henryk Tur

Przez ostatnie cztery lata naukowcy przejrzeli ponad pięć milionów książek i doszli do ciekawego wniosku: są one tym dla nauk humanistycznych, czym badania genomu dla biologii i medycyny. O co im chodzi? Już wyjaśniam.

W najnowszym numerze tygodnika "Science" naukowcy zaprezentowali wyniki badań oparte na analizie słów zawartych w części książek opublikowanych dotąd w Internecie. Obliczono częstotliwość występowania pewnych słów na przestrzeni wieków, aby zobaczyć, jak wyglądały trendy kulturowe.

Naukowcy wzięli pod uwagę korpus tekstów zgromadzony w zbiorach Uniwersytetu Harwardzkiego, Google Books, Encyclopaedia Britannica i American Heritage Dictionary. W sumie około 5,2 mln książek z 500 mld słów. Około 72 proc. tekstów korpusu jest w języku angielskim, reszta to francuski, hiszpański, niemiecki, chiński, rosyjski i hebrajski.

Litery
Litery

Okazało się, że co roku język angielski wzbogaca się o 8,5 tys. słów. Oznacza to, że pomiędzy rokiem 1950 a 2000 zasób słownictwa zwiększył się o 70 proc. Co ciekawe, wielu z tych słów nie ma w słownikach. 52 proc. angielskiego zasobu słów to rodzaj leksykalnej "ciemnej materii+".

Z każdym rokiem maleje w korpusie tekstów liczba odniesień do przeszłości. Współcześni celebryci są młodsi i sławniejsi niż ich XIX-wieczni poprzednicy, ale ich sława za to trwa krócej. Celebryci urodzeni w 1950 r. osiągnęli sławę średnio w wieku 29 lat, natomiast urodzeni w 1900 r. - dopiero w wieku 43 lat. Za to innowacje z roku na rok rozprzestrzeniają się szybciej.

Kluczowe dla zrozumienia danej epoki może być nie tylko występowanie pewnych słów, ale też ich przemilczanie, jak w przypadku totalitarnej propagandy. Dla przykładu - żydowski malarz Marc Chagall wymieniany był w korpusie niemieckich tekstów z lat 1936-1944 tylko raz, mimo że w tym czasie dużo częściej pojawia się w publikacjach angielskojęzycznych.

Podobnie było w tym czasie z nazwiskiem Lwa Trockiego w Rosji, a obecnie w Chinach z nazwą Tiananmen. Z uczonych najpopularniejszy w naszej kulturze pod względem częstotliwości występowania w tekstach jest Freud. Przebija Galileusza, Darwina i Einsteina.

Freud
Freud

Czteroletni projekt prowadzony był przez naukowców z Harvard University przy udziale technologicznym i finansowym Google'a. Google ma zamiar wypuścić nową aplikację, która w sposób nieskomplikowany pomoże użytkownikowi zrobić to samo, co uczynili naukowcy: po wpisaniu słowa lub frazy będzie można śledzić, jak zmieniała się częstotliwość ich użycia przez ostatnie stulecia.

To tylko niektóre z uzyskanych wyników. Naukowcy postulują utworzenie nowej dziedziny badań - kulturonomiki, na wzór genomiki, w której "kodem genetycznym" będą teksty stworzone przez ludzkość.

Źródło artykułu:WP Gadżetomania

Wybrane dla Ciebie

Komentarze (0)
© Gadżetomania
·

Pobieranie, zwielokrotnianie, przechowywanie lub jakiekolwiek inne wykorzystywanie treści dostępnych w niniejszym serwisie - bez względu na ich charakter i sposób wyrażenia (w szczególności lecz nie wyłącznie: słowne, słowno-muzyczne, muzyczne, audiowizualne, audialne, tekstowe, graficzne i zawarte w nich dane i informacje, bazy danych i zawarte w nich dane) oraz formę (np. literackie, publicystyczne, naukowe, kartograficzne, programy komputerowe, plastyczne, fotograficzne) wymaga uprzedniej i jednoznacznej zgody Wirtualna Polska Media Spółka Akcyjna z siedzibą w Warszawie, będącej właścicielem niniejszego serwisu, bez względu na sposób ich eksploracji i wykorzystaną metodę (manualną lub zautomatyzowaną technikę, w tym z użyciem programów uczenia maszynowego lub sztucznej inteligencji). Powyższe zastrzeżenie nie dotyczy wykorzystywania jedynie w celu ułatwienia ich wyszukiwania przez wyszukiwarki internetowe oraz korzystania w ramach stosunków umownych lub dozwolonego użytku określonego przez właściwe przepisy prawa.Szczegółowa treść dotycząca niniejszego zastrzeżenia znajduje się  tutaj.