Frekvenčná textová analýza: funkcie a príklady

Obsah:

Frekvenčná textová analýza: funkcie a príklady
Frekvenčná textová analýza: funkcie a príklady
Anonim

S týmto pojmom ste sa už viackrát v živote stretli, ak ste museli pracovať s textami. Môžete sa obrátiť najmä na online kalkulačky, ktoré vykonávajú presne frekvenčnú analýzu textu. Tieto praktické nástroje ukazujú, koľkokrát sa konkrétny znak alebo písmeno vyskytuje v ktorejkoľvek pasáži textu. Často sa zobrazuje aj percento. Prečo je to potrebné? Ako prispieva frekvenčná analýza textu k „lúskaniu“jednoduchých šifier? Aká je jej podstata, kto ju vynašiel? Na tieto a ďalšie dôležité otázky k téme odpovieme v priebehu článku.

Definícia

Frekvenčná analýza je jedným z druhov kryptoanalýzy. Vychádza z predpokladu vedcov o existencii štatistického netriviálneho rozloženia jednotlivých znakov a ich pravidelných sekvencií v čistom aj šifrovanom texte.

Verí sa, že takáto distribúcia, až do nahradenia jednotlivých znakov, bude zachovaná aj v procesoch šifrovania/dešifrovania.

frekvenčná analýza systémov
frekvenčná analýza systémov

Charakteristika procesu

Teraz sa jednoducho pozrime na frekvenčnú analýzu. To znamená, že počet výskytov rovnakého abecedného znaku v textoch dostatočnej dĺžky je rovnaký v rôznych textoch napísaných v rovnakom jazyku.

A čo teraz monoalfabetické šifrovanie? Predpokladá sa, že ak sa v sekcii so šifrovým textom nachádza znak s takouto podobnou pravdepodobnosťou výskytu, potom je reálne predpokladať, že ide o zašifrované písmeno.

Nasledovníci frekvenčnej textovej analýzy aplikujú rovnaké uvažovanie na digramy (sekvencie dvoch písmen). Trigramy – toto je pre prípad už polyalfabetických šifier.

História metódy

Frekvenčná analýza slov nie je objavom modernosti. Vedeckému svetu je známy už od 9. storočia. Jeho vytvorenie je spojené s menom Al-Kindi.

Známe prípady aplikácie metódy frekvenčnej analýzy však patria do oveľa neskoršieho obdobia. Najvýraznejším príkladom je rozlúštenie egyptských hieroglyfov, ktoré v roku 1822 vytvoril J.-F. Champollion.

Ak sa pozrieme na fikciu, môžeme nájsť veľa zaujímavých odkazov na túto metódu dešifrovania:

  • Conan Doyle – „The Dancing Men“.
  • Jules Verne – „Deti kapitána Granta“.
  • Edgar Poe - "Gold Bug".

Od polovice minulého storočia sa však väčšina algoritmov používaných pri šifrovaní vyvíjala s ohľadom na ich odolnosť voči takejto frekvenčnej kryptoanalýze. Preto todnes sa najčastejšie používajú len na školenie budúcich kryptografov.

frekvenčná analýza textu
frekvenčná analýza textu

Základná metóda

Poďme si teraz podrobne predstaviť analýzu frekvenčnej odozvy. Tento druh analýzy je priamo založený na skutočnosti, že test pozostáva zo slov a tie zasa z písmen. Počet písmen, ktoré vyplnia národné abecedy, je obmedzený. Písmená môžu byť jednoducho uvedené tu.

Najdôležitejšími vlastnosťami takéhoto textu bude tak opakovanie písmen, rôznych bigramov, trigramov a n-gramov, ako aj vzájomná kompatibilita rôznych písmen, striedanie spoluhlások / samohlások a iné rôzne druhy týchto symbolov.

Hlavnou myšlienkou metód je spočítať výskyty možných n-gramov (označených nm) v otvorených textoch dostatočne dlhých na analýzu (označených T=t1t2…tl) zložených z písmen národnej abecedy (označené ako {a1, a2, …, an}). Všetko vyššie uvedené spôsobuje niekoľko po sebe idúcich m-gramov textu:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

Ak toto je počet výskytov m-gramu ai1ai2…aim v určitom texte T a L je celkový počet m-gramov analyzovaných výskumníkom, potom je možné empiricky stanoviť, že pre dostatočne veľké L, frekvencie pre takýto m-gram sa budú navzájom málo líšiť.

frekvenčná analýza
frekvenčná analýza

Často sa vyskytujúce písmená ruskej abecedy

Časovo-frekvenčná analýza však napriek podobnému názvu nemá nič spoločné s témou nášho rozhovoru. Tento druh analýzy sa vykonáva presignály z radarových staníc s nízkou pozorovateľnosťou pomocou špeciálnej vlnkovej transformácie.

Teraz sa vráťme k hlavnej téme. Pri vykonávaní frekvenčnej analýzy môžete zistiť, ktoré písmená ruskej abecedy sa najčastejšie nachádzajú v pomerne objemných textoch (v percentách od 0,062 do 0,018):

  • A.
  • V.
  • D.
  • F.
  • I.
  • K.
  • M.
  • O.
  • R.
  • T.
  • F.
  • T.
  • Sh.
  • b.
  • E.
  • I.

Dokonca bolo zavedené špeciálne mnemotechnické pravidlo, ktoré pomáha naučiť sa najbežnejšie písmená ruskej abecedy. K tomu si stačí zapamätať len jedno slovo - "senník".

Vo všeobecnosti sa frekvencia používania písmen v percentách nastavuje jednoducho: odborník spočíta, koľkokrát sa písmeno v texte vyskytuje, a výslednú hodnotu potom vydelí celkovým počtom znakov v texte. A aby sme túto hodnotu vyjadrili v percentách, stačí ju vynásobiť 100.

Je dôležité vziať do úvahy, že frekvencia bude závisieť nielen od objemu textu, ale aj od jeho povahy. Napríklad v technických zdrojoch sa písmeno „F“objavuje oveľa častejšie ako v beletrii. Preto na objektívne výsledky musí odborník napísať na výskum texty rôzneho charakteru a štýlu.

programy na analýzu frekvencie textu
programy na analýzu frekvencie textu

Bi-, tri-, štvorgramové

V zmysluplných textoch nájdete aj tie najčastejšie (resp.opakované) kombinácie dvoch alebo viacerých písmen. Špecialisti tiež zostavili niekoľko tabuliek, ktoré uvádzajú frekvencie podobných digramov rôznych abecied.

Pokiaľ ide o ruštinu, frekvenčná analýza systémov objemných zmysluplných textov umožnila stanoviť najbežnejšie bigramy a trigramy:

  • EN.
  • ST.
  • ALE.
  • NIE.
  • ON.
  • RA.
  • OV.
  • KO.
  • VO.
  • STO.
  • NOVINKA
  • ENO.
  • TOV.
  • OVA.
  • OVO.

Preferované vzájomné vzťahy písmen

A to nie sú všetky možnosti, ktoré môže frekvenčná analýza poskytnúť výskumníkom textu. Systematizáciou informácií z podobných tabuliek bigramov a trigramov je možné extrahovať údaje o najbežnejších kombináciách písmen. Alebo inými slovami, ich preferované vzťahy medzi sebou.

Takúto rozsiahlu štúdiu už odborníci vykonali. Jeho výsledkom bola tabuľka, kde boli spolu s každým písmenom abecedy uvedené aj jeho susedia. Navyše tie postavy, ktoré sa často nachádzajú bezprostredne pred ním aj po ňom. Písmená v tabuľke nie sú napísané náhodou. Bližšie k symbolu sú uvedení najčastejší susedia, ďalej vzácnejší.

Zvážte príklady:

  • Písmeno "A". Rozlišujú sa tu nasledujúce výhodné spojenia: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. Odtiaľto vidíme, že najčastejšie pred "A" v textoch je "H" ("NA"). A po „A“sa najčastejšie v textoch v ruštine môžeme stretnúť s „L“("AL").
  • Písmeno „M“. Odborníci identifikovali takéto preferované spojenia: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
  • Písmeno "b". Preferované spojenia sú nasledovné: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • Písmeno „Sh“. Preferované spojenia: "e-b-a-i-u-Sch-e-i-a".
  • Písmeno "P". Preferované spojenia s týmto symbolom ruskej abecedy: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
časovo-frekvenčná analýza
časovo-frekvenčná analýza

Čo definuje analýzu?

Moderné programy na frekvenčnú analýzu textu pomáhajú študovať veľké objemy širokej škály článkov, esejí, pasáží atď. Nasledujúce informácie sa výskumníkovi štandardne poskytujú:

  • Celkový počet znakov v texte.
  • Počet medzier použitých autorom.
  • Počet číslic.
  • Informácie o použitých interpunkčných znamienkach – bodky, čiarky atď.
  • Počet písmen v každej z dostupných abecied – cyrilika, latinka atď.
  • Informácie o frekvencii použitia každého písmena a symbolu v texte – počet zmienok a percento v porovnaní s celým textom.

Boj proti nadmernej optimalizácii a presýteniu

Prečo sa vykonáva analýza frekvencie textu? Je to len pre zaujímavosť – zistiť, s akými znakmi v písaných textoch sa často stretávame? Nie, hlavná aplikácia analýzy je praktická a leží inde.

N-gramy zahŕňajú nielen stabilné bigramy a trigramy. K tomu istémukategórie zahŕňajú kľúčové slová (tagy), kolokácie. To znamená stabilné kombinácie pozostávajúce z dvoch alebo viacerých slov. Vyznačujú sa tým, že takéto kompozície sa v texte vyskytujú spoločne a zároveň nesú určitú sémantickú záťaž.

To hrá do karát bezohľadných SEO špecialistov. Pri svojej práci občas zneužívajú opakovanie tagov a kľúčových slov v texte, aby umelo zvýšili relevantnosť konkrétnej webovej stránky. Snažia sa oklamať systém takýmto „trikom“: premeniť prirodzenú kombináciu s obvyklou kombináciou slov, tradičnou pre ruský jazyk („kúpte si norkový kabát“) na nekonzistentnú. To znamená, že sa získa preusporiadaním slov v takom prirodzenom N-grame („kúpte si norkový kabát“).

Dnes sa však vyhľadávacie algoritmy naučili odhaliť nadmernú optimalizáciu rovnako efektívne ako nadmernú nevyžiadanú poštu – presýtenie textu kľúčovými slovami, značkami, ktoré ovplyvňujú poradie výsledkov na stránke vyhľadávania. Priveľmi optimalizované stránky sú teraz naopak podľa dopytu používateľa zoradené nižšie. A ľudia sami nemajú tendenciu čítať nezmyselný, presýtený text tagov a uprednostňujú užitočné informácie z iného zdroja.

metóda frekvenčnej analýzy
metóda frekvenčnej analýzy

Pomáhanie súkromnej analýze pre SEO špecialistov

Moderné textové filtre vo vyhľadávačoch teda dnes uprednostňujú tie internetové stránky, na ktorých sú informácie nielen ľahko čitateľné, ale aj užitočné pre návštevníkov. Aby optimalizovali svoju prácu pre nové štandardy, SEO špecialistia prejdite na frekvenčnú analýzu textu. Dnes to poskytuje mnoho populárnych služieb.

Frekvenčná analýza pomáha kontrolovať informatívnosť textu pripravovaného na publikovanie. Odstráňte zbytočnú nadbytočnosť značiek a kľúčových fráz. Umožňuje tiež upozorniť autora na neprirodzené kombinácie slov, ktoré vzbudzujú podozrenie v textových filtroch vyhľadávačov.

analýza frekvenčnej odozvy
analýza frekvenčnej odozvy

Frekvenčná analýza textu tak pomáha určiť frekvenciu zmienky o konkrétnej postave v zdroji. Táto metóda sa dnes používa na posúdenie preťaženia textu tagmi, neprirodzených permutácií slov.

Odporúča: