Pred niekoľkými desaťročiami mohli vedci len snívať o automatizácii lingvistického výskumu. Práca sa robila ručne, bolo do nej zapojené veľké množstvo študentov, bola tam značná pravdepodobnosť chyby "nepozornosti" a hlavne to všetko zabralo veľa, veľa času.
S rozvojom výpočtovej techniky bolo možné vykonávať výskum oveľa rýchlejšie a dnes je jednou zo sľubných oblastí v štúdiu jazyka korpusová lingvistika. Jeho hlavnou črtou je použitie veľkého množstva textových informácií, konsolidovaných do jednej databázy, špeciálne označených a nazývaných korpus.
V súčasnosti existuje mnoho korpusov vytvorených na rôzne účely na základe rôznych jazykových materiálov, ktoré pokrývajú milióny až desiatky miliárd lexikálnych jednotiek. Tento smer je uznávaný ako sľubný a preukazuje významný pokrok v dosahovaní aplikovaných a výskumných cieľov. Profesionáli, s ktorými sa tak či onak zaoberajúprirodzenom jazyku, odporúčame vám oboznámiť sa s textovými korpusmi aspoň na základnej úrovni.
História korpusovej lingvistiky
Vznik tohto smeru súvisí so vznikom Brown Corps v USA začiatkom 60. rokov minulého storočia. Zbierka textov pozostávala len z 1 milióna slovných tvarov a dnes by bol korpus takéhoto objemu úplne bezkonkurenčný. Je to do značnej miery spôsobené tempom vývoja počítačových technológií, ako aj rastúcim dopytom po nových výskumných zdrojoch.
V 90. rokoch sa korpusová lingvistika sformovala do plnohodnotnej a samostatnej disciplíny, zostavili a označili sa zbierky textov pre niekoľko desiatok jazykov. Počas tohto obdobia bol napríklad vytvorený British National Corpus pre 100 miliónov slovných použití.
Ako sa tento smer lingvistiky vyvíja, objem textov sa zväčšuje (a dosahuje miliardy jednotiek slovnej zásoby) a značenie je čoraz rozmanitejšie. Dnes v internetovom priestore nájdete korpusy písaného a ústneho prejavu, viacjazyčné a vzdelávacie, zamerané na beletriu alebo akademickú literatúru, ako aj mnoho ďalších druhov.
Aké sú prípady
Typy korpusov v korpusovej lingvistike možno reprezentovať niekoľkými spôsobmi. Je intuitívne jasné, že základom pre klasifikáciu môže byť jazyk textov (ruština, nemčina), režim prístupu (open source, uzavretý zdroj, komerčný), žáner zdrojového materiálu (beletrialiteratúra, dokument, akademik, žurnalistika).
Zaujímavým spôsobom sa vykonáva generovanie materiálov reprezentujúcich ústny prejav. Keďže zámerné nahrávanie takéhoto prejavu by vytváralo pre respondentov umelé podmienky a výsledný materiál by sa nedal nazvať „spontánnym“, moderná korpusová lingvistika išla inou cestou. Dobrovoľník je vybavený mikrofónom a počas dňa sa nahrávajú všetky rozhovory, ktorých sa zúčastňuje. Okolie samozrejme nemôže vedieť, že v rámci každodenného rozhovoru prispievajú k rozvoju vedy.
Prijaté zvukové nahrávky sa neskôr uložia do databanky a sú doplnené vytlačeným textom ako prepis. Týmto spôsobom je možné značenie potrebné na vytvorenie korpusu hovorenej každodennej reči.
Aplikácia
Tam, kde je možné použiť jazyk, je možné použiť aj textové korpusy. Účel použitia korpusových metód v lingvistike môže byť:
- Vytváranie sentimentálnych programov, ktoré sa široko používajú v politike a biznise na sledovanie pozitívnej a negatívnej spätnej väzby od voličov a zákazníkov.
- Pripojenie informačného systému k slovníkom a prekladateľom s cieľom zlepšiť ich výkon.
- Rôzne výskumné úlohy, ktoré prispievajú k pochopeniu štruktúry jazyka, histórie jeho vývoja a predpovedí jeho zmien v blízkej budúcnosti.
- Vývoj systémov extrakcie informácií založených na morfologických,syntaktické, sémantické a ďalšie funkcie.
- Optimalizácia práce rôznych jazykových systémov atď.
Používanie škrupín
Rozhranie zdroja je podobné typickému vyhľadávaciemu nástroju a vyzýva používateľa, aby zadal nejaké slovo alebo kombináciu slov na vyhľadávanie v informačnej databáze. Okrem presného formulára žiadosti môžete použiť rozšírenú verziu, ktorá vám umožňuje nájsť textové informácie podľa takmer akýchkoľvek jazykových kritérií.
Základom pre vyhľadávanie môže byť:
- patriaci do určitej skupiny slovných druhov;
- gramatické prvky;
- sémantika;
- štylistické a emocionálne sfarbenie.
Kritériá vyhľadávania môžete kombinovať aj pre sekvenciu slov: napríklad nájsť všetky výskyty slovesa v prítomnom čase, prvej osobe, jednotnom čísle, za ktorým nasleduje predložka „v“a podstatné meno v akuzatíve. Riešenie takejto jednoduchej úlohy zaberie používateľovi niekoľko sekúnd a vyžaduje len niekoľko kliknutí myšou v daných poliach.
Proces tvorby
Samotné vyhľadávanie je možné vykonávať vo všetkých subkorpusoch aj v jednom, konkrétne vybranom, v závislosti od potrieb pri dosahovaní konkrétneho cieľa:
- V prvom rade je určené, ktoré texty budú tvoriť základ korpusu. Na praktické účely sa často používajú novinárske, novinové materiály, internetové komentáre. Vo výskumných projektoch najviacrôzne typy korpusov, ale texty musia byť vybrané na nejakom spoločnom základe.
- Výsledná sada textov je predspracovaná, prípadné chyby sú opravené, je pripravený bibliografický a extralingvistický popis textu.
- Všetky netextové informácie sú odfiltrované: grafika, obrázky, tabuľky sú vymazané.
- Tokeny, zvyčajne slová, sú pridelené na ďalšie spracovanie.
- Nakoniec sa vykoná morfologické, syntaktické a iné označenie výslednej množiny prvkov.
Výsledkom všetkých vykonaných operácií je syntaktická štruktúra so súborom prvkov, ktoré sú nad ňou rozdelené, pre každý z nich sú definované slovné druhy, gramatické a v niektorých prípadoch aj sémantické znaky.
Ťažkosti pri vytváraní prípadov
Je dôležité pochopiť, že na získanie korpusu nestačí dať dokopy veľa slov alebo viet. Na jednej strane musí byť zbierka textov vyvážená, teda prezentovať rôzne typy textov v určitom pomere. Na druhej strane musí byť obsah kufríka označený špeciálnym spôsobom.
Prvá otázka je vyriešená dohodou: napríklad zbierka obsahuje 60 % beletristických textov, 20 % dokumentárnych filmov, určitý podiel je venovaný písomnej prezentácii ústneho prejavu, legislatívnych aktov, vedeckých prác atď. Ideálny recept na vyvážený korpus dnes neexistuje.
Druhá otázka týkajúca sa označovania obsahu je ťažšie vyriešiť. Na automatické označovanie textov sa používajú špeciálne programy a algoritmy, ktoré však neposkytujú 100% výsledok, môžu spôsobiť zlyhania a vyžadujú manuálne dolaďovanie. Príležitosti a problémy pri riešení tohto problému sú podrobne opísané v práci V. P. Zakharova o korpusovej lingvistike.
Značenie textu sa vykonáva na niekoľkých úrovniach, ktoré uvedieme nižšie.
Morfologické značenie
Zo školskej lavice si pamätáme, že v ruskom jazyku existujú rôzne časti reči a každý z nich má svoje vlastné charakteristiky. Napríklad sloveso má kategórie nálady a času, ktoré podstatné meno nemá. Rodený hovorca bez váhania odmieta podstatné mená a spája slovesá, ale manuálna práca nie je vhodná na označenie korpusu so 100 miliónmi slovných použití. Všetky potrebné operácie môže vykonávať počítač, na to ho však treba naučiť.
Morfologické značenie je nevyhnutné na to, aby počítač „pochopil“každé slovo ako časť reči, ktorá má určité gramatické vlastnosti. Keďže v ruštine (ako v akomkoľvek inom) jazyku funguje množstvo pravidelných pravidiel, je možné vytvoriť automatický postup pre morfologickú analýzu vložením množstva algoritmov do stroja. Existujú však výnimky z pravidla, ako aj rôzne komplikujúce faktory. Výsledkom je, že čistá počítačová analýza má dnes ďaleko od ideálu a dokonca aj 4 % chýb dáva hodnotu 4 miliónov slov v korpuse 100 miliónov jednotiek, čo si vyžaduje manuálne dolaďovanie.
Tento problém je podrobne popísaný v knihe V. P. Zacharova "Corpus Linguistics".
Syntaktické označenie
Syntaktická analýza alebo syntaktická analýza je postup, ktorý určuje vzťah slov vo vete. Pomocou sady algoritmov je možné v texte určiť predmet, predikát, doplnky a rôzne obraty reči. Zistením, ktoré slová v sekvencii sú hlavné a ktoré sú závislé, môžeme efektívne extrahovať informácie z textu a trénovať stroj tak, aby vrátil iba tie informácie, ktoré nás zaujímajú ako odpoveď na požiadavku na vyhľadávanie.
Mimochodom, moderné vyhľadávače to používajú na poskytnutie konkrétnych čísel namiesto zdĺhavých textov v odpovedi na relevantné otázky, ako napríklad: „koľko kalórií je v jablku“alebo „vzdialenosť z Moskvy do Petrohradu“. Aby ste však porozumeli aj samotným základom opísaného procesu, budete sa musieť zoznámiť s „Úvodom do korpusovej lingvistiky“alebo inou základnou učebnicou.
Sémantické značenie
Sémantika slova je, zjednodušene povedané, jeho význam. Široko použiteľným prístupom v sémantickej analýze je priraďovanie značiek k slovu, čo odráža jeho príslušnosť k súboru sémantických kategórií a podkategórií. Takéto informácie sú cenné pre optimalizáciu algoritmov analýzy sentimentu textu, automatické odkazovanie a vykonávanie ďalších úloh pomocou metód korpusovej lingvistiky.
Strom má niekoľko „korenov“, čo sú abstraktné slová, ktoré majúveľmi široká sémantika. Ako sa tento strom rozvetvuje, vytvárajú sa uzly obsahujúce stále viac špecifických lexikálnych prvkov. Napríklad slovo "stvorenie" môže byť spojené s takými pojmami ako "človek" a "zviera". Prvé slovo sa bude aj naďalej rozvetvovať na rôzne profesie, termíny príbuzenstva, národnosti a druhé – na triedy a druhy zvierat.
Používanie systémov na vyhľadávanie informácií
Sféry použitia korpusovej lingvistiky pokrývajú širokú škálu oblastí činnosti. Korpusy sa používajú na zostavovanie a opravy slovníkov, vytváranie automatických prekladových systémov, sumarizovanie, extrahovanie faktov, určovanie sentimentu a iné spracovanie textu.
Okrem toho sa takéto zdroje aktívne využívajú pri štúdiu jazykov sveta a mechanizmov fungovania jazyka ako celku. Prístup k veľkým objemom vopred pripravených informácií prispieva k rýchlemu a komplexnému štúdiu trendov vo vývoji jazykov, vzniku neologizmov a ustálených rečových obratov, zmien významov lexikálnych jednotiek atď.
Keďže práca s takým veľkým objemom údajov vyžaduje automatizáciu, dnes existuje úzka interakcia medzi počítačovou a korpusovou lingvistikou.
Národný korpus ruského jazyka
Tento korpus (skrátene NKRC) obsahuje množstvo podkorpusov, ktoré umožňujú použitie zdroja na riešenie širokej škály úloh.
Materiály v databáze NCRA sú rozdelené na:
- o publikáciách v médiách 90. a 21. storočiarokov, domácich aj zahraničných;
- nahrávky ústneho prejavu;
- akcentologicky označené texty (t.j. s diakritikou);
- dialektová reč;
- poetické diela;
- materiály so syntaktickým označením atď.
Informačný systém obsahuje aj subkorpusy s paralelnými prekladmi diel z ruštiny do angličtiny, nemčiny, francúzštiny a mnohých ďalších jazykov (a naopak).
Databáza obsahuje aj časť historických textov reprezentujúcich písomnú reč v ruštine v rôznych obdobiach jej vývoja. Existuje aj vzdelávací korpus, ktorý môže byť pre cudzincov užitočný pri ovládaní ruského jazyka.
Národný korpus ruského jazyka obsahuje 400 miliónov lexikálnych jednotiek av mnohých ohľadoch predstihuje významnú časť korpusov európskych jazykov.
Vyhliadky
Faktom v prospech uznania tejto oblasti ako perspektívnej je prítomnosť laboratórií korpusovej lingvistiky na ruských univerzitách, ako aj na zahraničných. S využívaním a výskumom v rámci uvažovaných zdrojov na vyhľadávanie informácií je spojený rozvoj niektorých oblastí v oblasti špičkových technológií, systémov otázka-odpoveď, ale to bolo diskutované vyššie.
Ďalší rozvoj korpusovej lingvistiky sa predpovedá na všetkých úrovniach, od technickej, v zmysle zavádzania nových algoritmov, ktoré optimalizujú procesy vyhľadávania a spracovania informácií, rozširovania možností počítačov, zvyšovania operatívnostipamäť a končiac tými domácimi, pretože používatelia nachádzajú stále viac spôsobov, ako využiť tento typ zdrojov v každodennom živote a v práci.
Na záver
V polovici minulého storočia sa rok 2017 zdal ako vzdialená budúcnosť, v ktorej vesmírne lode surfujú po vesmíre a roboty robia všetku prácu za ľudí. V skutočnosti je však veda plná „prázdnych miest“a zúfalo sa pokúša odpovedať na otázky, ktoré trápili ľudstvo po stáročia. Otázky fungovania jazyka tu zaujímajú popredné miesto a korpusová a počítačová lingvistika nám na ne môže pomôcť odpovedať.
Spracovanie veľkého množstva údajov vám umožňuje odhaliť vzory, ktoré boli predtým nedostupné, predpovedať vývoj určitých jazykových prvkov, sledovať tvorbu slov takmer v reálnom čase.
Na praktickej globálnej úrovni možno korpusy považovať napríklad za potenciálny nástroj na hodnotenie sentimentu verejnosti – internet je priebežne aktualizovaná databáza rôznych textov vytvorených skutočnými používateľmi: sú to komentáre, recenzie, články a mnoho ďalších foriem reči.
Práca s korpusmi navyše prispieva k vývoju rovnakých technických prostriedkov, ktoré sú súčasťou získavania informácií, ktoré poznáme zo služieb Google alebo Yandex, strojového prekladu, elektronických slovníkov.
Je bezpečné povedať, že korpusová lingvistika robí len prvé kroky a v blízkej budúcnosti sa bude rýchlo rozvíjať.