S týmto pojmom ste sa už viackrát v živote stretli, ak ste museli pracovať s textami. Môžete sa obrátiť najmä na online kalkulačky, ktoré vykonávajú presne frekvenčnú analýzu textu. Tieto praktické nástroje ukazujú, koľkokrát sa konkrétny znak alebo písmeno vyskytuje v ktorejkoľvek pasáži textu. Často sa zobrazuje aj percento. Prečo je to potrebné? Ako prispieva frekvenčná analýza textu k „lúskaniu“jednoduchých šifier? Aká je jej podstata, kto ju vynašiel? Na tieto a ďalšie dôležité otázky k téme odpovieme v priebehu článku.
Definícia
Frekvenčná analýza je jedným z druhov kryptoanalýzy. Vychádza z predpokladu vedcov o existencii štatistického netriviálneho rozloženia jednotlivých znakov a ich pravidelných sekvencií v čistom aj šifrovanom texte.
Verí sa, že takáto distribúcia, až do nahradenia jednotlivých znakov, bude zachovaná aj v procesoch šifrovania/dešifrovania.
Charakteristika procesu
Teraz sa jednoducho pozrime na frekvenčnú analýzu. To znamená, že počet výskytov rovnakého abecedného znaku v textoch dostatočnej dĺžky je rovnaký v rôznych textoch napísaných v rovnakom jazyku.
A čo teraz monoalfabetické šifrovanie? Predpokladá sa, že ak sa v sekcii so šifrovým textom nachádza znak s takouto podobnou pravdepodobnosťou výskytu, potom je reálne predpokladať, že ide o zašifrované písmeno.
Nasledovníci frekvenčnej textovej analýzy aplikujú rovnaké uvažovanie na digramy (sekvencie dvoch písmen). Trigramy – toto je pre prípad už polyalfabetických šifier.
História metódy
Frekvenčná analýza slov nie je objavom modernosti. Vedeckému svetu je známy už od 9. storočia. Jeho vytvorenie je spojené s menom Al-Kindi.
Známe prípady aplikácie metódy frekvenčnej analýzy však patria do oveľa neskoršieho obdobia. Najvýraznejším príkladom je rozlúštenie egyptských hieroglyfov, ktoré v roku 1822 vytvoril J.-F. Champollion.
Ak sa pozrieme na fikciu, môžeme nájsť veľa zaujímavých odkazov na túto metódu dešifrovania:
- Conan Doyle – „The Dancing Men“.
- Jules Verne – „Deti kapitána Granta“.
- Edgar Poe - "Gold Bug".
Od polovice minulého storočia sa však väčšina algoritmov používaných pri šifrovaní vyvíjala s ohľadom na ich odolnosť voči takejto frekvenčnej kryptoanalýze. Preto todnes sa najčastejšie používajú len na školenie budúcich kryptografov.
Základná metóda
Poďme si teraz podrobne predstaviť analýzu frekvenčnej odozvy. Tento druh analýzy je priamo založený na skutočnosti, že test pozostáva zo slov a tie zasa z písmen. Počet písmen, ktoré vyplnia národné abecedy, je obmedzený. Písmená môžu byť jednoducho uvedené tu.
Najdôležitejšími vlastnosťami takéhoto textu bude tak opakovanie písmen, rôznych bigramov, trigramov a n-gramov, ako aj vzájomná kompatibilita rôznych písmen, striedanie spoluhlások / samohlások a iné rôzne druhy týchto symbolov.
Hlavnou myšlienkou metód je spočítať výskyty možných n-gramov (označených nm) v otvorených textoch dostatočne dlhých na analýzu (označených T=t1t2…tl) zložených z písmen národnej abecedy (označené ako {a1, a2, …, an}). Všetko vyššie uvedené spôsobuje niekoľko po sebe idúcich m-gramov textu:
t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.
Ak toto je počet výskytov m-gramu ai1ai2…aim v určitom texte T a L je celkový počet m-gramov analyzovaných výskumníkom, potom je možné empiricky stanoviť, že pre dostatočne veľké L, frekvencie pre takýto m-gram sa budú navzájom málo líšiť.
Často sa vyskytujúce písmená ruskej abecedy
Časovo-frekvenčná analýza však napriek podobnému názvu nemá nič spoločné s témou nášho rozhovoru. Tento druh analýzy sa vykonáva presignály z radarových staníc s nízkou pozorovateľnosťou pomocou špeciálnej vlnkovej transformácie.
Teraz sa vráťme k hlavnej téme. Pri vykonávaní frekvenčnej analýzy môžete zistiť, ktoré písmená ruskej abecedy sa najčastejšie nachádzajú v pomerne objemných textoch (v percentách od 0,062 do 0,018):
- A.
- V.
- D.
- F.
- I.
- K.
- M.
- O.
- R.
- T.
- F.
- T.
- Sh.
- b.
- E.
- I.
Dokonca bolo zavedené špeciálne mnemotechnické pravidlo, ktoré pomáha naučiť sa najbežnejšie písmená ruskej abecedy. K tomu si stačí zapamätať len jedno slovo - "senník".
Vo všeobecnosti sa frekvencia používania písmen v percentách nastavuje jednoducho: odborník spočíta, koľkokrát sa písmeno v texte vyskytuje, a výslednú hodnotu potom vydelí celkovým počtom znakov v texte. A aby sme túto hodnotu vyjadrili v percentách, stačí ju vynásobiť 100.
Je dôležité vziať do úvahy, že frekvencia bude závisieť nielen od objemu textu, ale aj od jeho povahy. Napríklad v technických zdrojoch sa písmeno „F“objavuje oveľa častejšie ako v beletrii. Preto na objektívne výsledky musí odborník napísať na výskum texty rôzneho charakteru a štýlu.
Bi-, tri-, štvorgramové
V zmysluplných textoch nájdete aj tie najčastejšie (resp.opakované) kombinácie dvoch alebo viacerých písmen. Špecialisti tiež zostavili niekoľko tabuliek, ktoré uvádzajú frekvencie podobných digramov rôznych abecied.
Pokiaľ ide o ruštinu, frekvenčná analýza systémov objemných zmysluplných textov umožnila stanoviť najbežnejšie bigramy a trigramy:
- EN.
- ST.
- ALE.
- NIE.
- ON.
- RA.
- OV.
- KO.
- VO.
- STO.
- NOVINKA
- ENO.
- TOV.
- OVA.
- OVO.
Preferované vzájomné vzťahy písmen
A to nie sú všetky možnosti, ktoré môže frekvenčná analýza poskytnúť výskumníkom textu. Systematizáciou informácií z podobných tabuliek bigramov a trigramov je možné extrahovať údaje o najbežnejších kombináciách písmen. Alebo inými slovami, ich preferované vzťahy medzi sebou.
Takúto rozsiahlu štúdiu už odborníci vykonali. Jeho výsledkom bola tabuľka, kde boli spolu s každým písmenom abecedy uvedené aj jeho susedia. Navyše tie postavy, ktoré sa často nachádzajú bezprostredne pred ním aj po ňom. Písmená v tabuľke nie sú napísané náhodou. Bližšie k symbolu sú uvedení najčastejší susedia, ďalej vzácnejší.
Zvážte príklady:
- Písmeno "A". Rozlišujú sa tu nasledujúce výhodné spojenia: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. Odtiaľto vidíme, že najčastejšie pred "A" v textoch je "H" ("NA"). A po „A“sa najčastejšie v textoch v ruštine môžeme stretnúť s „L“("AL").
- Písmeno „M“. Odborníci identifikovali takéto preferované spojenia: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
- Písmeno "b". Preferované spojenia sú nasledovné: "n-s-t-l-b-n-k-v-p-s-e-o-i".
- Písmeno „Sh“. Preferované spojenia: "e-b-a-i-u-Sch-e-i-a".
- Písmeno "P". Preferované spojenia s týmto symbolom ruskej abecedy: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
Čo definuje analýzu?
Moderné programy na frekvenčnú analýzu textu pomáhajú študovať veľké objemy širokej škály článkov, esejí, pasáží atď. Nasledujúce informácie sa výskumníkovi štandardne poskytujú:
- Celkový počet znakov v texte.
- Počet medzier použitých autorom.
- Počet číslic.
- Informácie o použitých interpunkčných znamienkach – bodky, čiarky atď.
- Počet písmen v každej z dostupných abecied – cyrilika, latinka atď.
- Informácie o frekvencii použitia každého písmena a symbolu v texte – počet zmienok a percento v porovnaní s celým textom.
Boj proti nadmernej optimalizácii a presýteniu
Prečo sa vykonáva analýza frekvencie textu? Je to len pre zaujímavosť – zistiť, s akými znakmi v písaných textoch sa často stretávame? Nie, hlavná aplikácia analýzy je praktická a leží inde.
N-gramy zahŕňajú nielen stabilné bigramy a trigramy. K tomu istémukategórie zahŕňajú kľúčové slová (tagy), kolokácie. To znamená stabilné kombinácie pozostávajúce z dvoch alebo viacerých slov. Vyznačujú sa tým, že takéto kompozície sa v texte vyskytujú spoločne a zároveň nesú určitú sémantickú záťaž.
To hrá do karát bezohľadných SEO špecialistov. Pri svojej práci občas zneužívajú opakovanie tagov a kľúčových slov v texte, aby umelo zvýšili relevantnosť konkrétnej webovej stránky. Snažia sa oklamať systém takýmto „trikom“: premeniť prirodzenú kombináciu s obvyklou kombináciou slov, tradičnou pre ruský jazyk („kúpte si norkový kabát“) na nekonzistentnú. To znamená, že sa získa preusporiadaním slov v takom prirodzenom N-grame („kúpte si norkový kabát“).
Dnes sa však vyhľadávacie algoritmy naučili odhaliť nadmernú optimalizáciu rovnako efektívne ako nadmernú nevyžiadanú poštu – presýtenie textu kľúčovými slovami, značkami, ktoré ovplyvňujú poradie výsledkov na stránke vyhľadávania. Priveľmi optimalizované stránky sú teraz naopak podľa dopytu používateľa zoradené nižšie. A ľudia sami nemajú tendenciu čítať nezmyselný, presýtený text tagov a uprednostňujú užitočné informácie z iného zdroja.
Pomáhanie súkromnej analýze pre SEO špecialistov
Moderné textové filtre vo vyhľadávačoch teda dnes uprednostňujú tie internetové stránky, na ktorých sú informácie nielen ľahko čitateľné, ale aj užitočné pre návštevníkov. Aby optimalizovali svoju prácu pre nové štandardy, SEO špecialistia prejdite na frekvenčnú analýzu textu. Dnes to poskytuje mnoho populárnych služieb.
Frekvenčná analýza pomáha kontrolovať informatívnosť textu pripravovaného na publikovanie. Odstráňte zbytočnú nadbytočnosť značiek a kľúčových fráz. Umožňuje tiež upozorniť autora na neprirodzené kombinácie slov, ktoré vzbudzujú podozrenie v textových filtroch vyhľadávačov.
Frekvenčná analýza textu tak pomáha určiť frekvenciu zmienky o konkrétnej postave v zdroji. Táto metóda sa dnes používa na posúdenie preťaženia textu tagmi, neprirodzených permutácií slov.