Publikace Dana Faltýnka prochází jednotlivé obory lingvistiky a velmi názorně a srozumitelně vysvětluje, čím se momentálně zabývají. Text je pojatý didakticky; na začátku každé kapitoly zrekapituluje dosavadní výklad, připomene kontext a vysvětlí, kam se budeme ubírat dál. Takový iterační a výstavbový princip je příjemný, dobře si to člověk zapamatuje.
„Co je nového v lingvistice jsme začali u tématu pravopisu – ten jistě čtenář v souvislosti s lingvistikou očekává. Přešli jsme přes mluvnice, vztahy gramatických kategorií, spektrogramy a kvantitativní vlastnosti textu. Chtěli jsme ukázat, jak široká může být paleta otázek na vlastnosti textu – a mluvili jsme většinou o textu mluveném a psaném. V následující části knihy chceme ukázat, co všechno může být lingvisty analyzováno jako text, a rozhodně to nezačíná a nekončí u mluvené a psané češtiny.“ (Str. 53)
Ta pravá zábava, jak citace naznačuje, začíná v druhé polovině knihy. Tam ukáže, jak se spojují jednotlivé metriky textu do vícerozměrného škálování, spojení lingvistiky a data miningu a především demonstruje klastrování projevů českých prezidentů Klause a Zemana. Zaměřuje se na určování autorství seskupením podle podobnosti kvantitativních charakteristik.
„U těchto textů jsme zjistili jejich entropii, TTR, frekvenci slovních druhů, h-bod, tematickou koncentraci, aktivitu a deskriptivitu a několik dalších kvantitativních vlastností. Každý z textů tak v analýze reprezentuje řada čísel, která vyjadřují určité jejich kvantitativní vlastnosti. Je třeba si uvědomit, že analýza předem nic netuší o tom, že analyzuje texty, dokonce projevy prezidentů, vstupují do ní pouze soubory hodnot, kterými jsme zastoupili určité vlastnosti textů, o něž se právě zajímáme.“ (Str. 61)
Výsledek byl překvapivý, zejména v podobnosti (a nepodobnosti) projevů. Autor to nijak nekomentuje, jen že na nás je, abychom analýzou textu vysledovali, proč se poslední projev liší, a místo toho přidá další projev téhož prezidenta. A ten je zase úplně jinde! Vzhledem k výsledku prezidentských voleb je toto klastrování velmi aktuální – bylo by pěkné, kdyby autor přidal i Zemanův projev z přelomu 2017/2018....
Touto metodou se dá ovšem analyzovat cokoliv, co lze jako text zapsat, vůbec to nemusí být nějaký jazyk. To autor demonstruje pomocí klastrování genetického kódu čtyř archeí a čtyř bakterií. Fascinující. Pokud vás jazyk zajímá, určitě neváhejte. A platí to možná i o celé edici Co je nového. Četl jsem zatím dvě a obě byly skvělé, začínám uvažovat o tom, že si pořídím všechny – čistě pro rozšíření obzorů.
nakladatelství Nová Beseda, Praha 2017, ISBN 978-80-906751-4-8, cena 240 Kč
Hodnocení hvězdičkami používá jako prevenci
opakovaného kliknutí anonymní cookie.
Pokud s tím nesouhlasíte, neklikejte.
Další podrobnosti k cookies zde.