Data mining je Koncept, analýza algoritmov, účel a aplikácia

Obsah:

Data mining je Koncept, analýza algoritmov, účel a aplikácia
Data mining je Koncept, analýza algoritmov, účel a aplikácia
Anonim

Vývoj informačných technológií prináša praktické výsledky. Ale také úlohy, ako je vyhľadávanie, analýza a používanie informácií, zatiaľ nedostali účinný vysokokvalitný nástroj. Existujú analytické a kvantitatívne nástroje, ktoré skutočne fungujú. Ale kvalitatívna revolúcia vo využívaní informácií zatiaľ nenastala.

Dávno pred príchodom výpočtovej techniky potreboval človek spracovať veľké množstvo informácií a vyrovnal sa s tým podľa svojich najlepších skúseností a dostupných technických možností.

Rozvoj vedomostí a zručností vždy zodpovedal skutočným potrebám a zodpovedal aktuálnym úlohám. Data mining je súhrnný názov, ktorý sa používa na označenie súboru metód na objavovanie doteraz neznámych, netriviálnych, prakticky užitočných a dostupných poznatkov v dátach, ktoré sú potrebné na rozhodovanie v rôznych oblastiach ľudskej činnosti.

Človek, inteligencia, programovanie

Človek vždy vie, ako konať v akejkoľvek situácii. Nevedomosť či neznáma situácia mu nebráni v rozhodovaní. Objektivita a rozumnosť akéhokoľvek ľudského rozhodnutia môže byť spochybnená, ale bude akceptovaná.

Inteligencia je založená na: dedičnom „mechanizme“, získaných, aktívnych vedomostiach. Znalosti sa používajú na riešenie problémov, ktoré sa vyskytnú pred človekom.

  1. Inteligencia je jedinečný súbor vedomostí a zručností: príležitosti a základ pre ľudský život a prácu.
  2. Inteligencia sa neustále vyvíja a ľudské činy majú vplyv na iných ľudí.

Programovanie je prvý pokus o formalizáciu reprezentácie údajov a procesu vytvárania algoritmov.

Človek, inteligencia, programovanie
Človek, inteligencia, programovanie

Umelá inteligencia (AI) je strata času a zdrojov, ale výsledky neúspešných pokusov minulého storočia v oblasti AI zostali v pamäti, boli použité v rôznych expertných (inteligentných) systémoch a boli transformované, najmä v oblasti algoritmov (pravidiel) a matematickej (logickej) analýzy údajov a dolovania údajov.

Informácie a obvyklé hľadanie riešenia

Obyčajná knižnica je úložiskom vedomostí a tlačené slovo a grafika ešte nevydali dlaň počítačovej technológii. Knihy z fyziky, chémie, teoretickej mechaniky, dizajnu, prírodnej histórie, filozofie, prírodných vied, botaniky, učebnice, monografie, práce vedcov, konferenčné materiály, správy o vývojových prácach atď. sú vždy relevantné a spoľahlivé.

Knižnica je množstvo rôznych zdrojov, ktoré sa líšiaforma prezentácie materiálu, pôvod, štruktúra, obsah, štýl prezentácie atď.

Knižnica: knihy, časopisy a iné tlačoviny
Knižnica: knihy, časopisy a iné tlačoviny

Navonok je všetko viditeľné (čitateľné, dostupné) na pochopenie a použitie. Dokážete vyriešiť akýkoľvek problém, správne zadať úlohu, zdôvodniť riešenie, napísať esej alebo semestrálnu prácu, vybrať materiál na diplomovku, analyzovať zdroje k téme dizertačnej práce alebo vedeckej a analytickej správy.

Akýkoľvek problém s informáciami sa dá vyriešiť. S náležitou vytrvalosťou a zručnosťou sa dosiahne presný a spoľahlivý výsledok. V tomto kontexte je Data Mining úplne odlišný prístup.

Okrem výsledku dostane človek „aktívne odkazy“na všetko, čo si prezrel v procese dosahovania cieľa. Na zdroje, ktoré použil pri riešení problému, sa možno odvolávať a nikto nebude spochybňovať existenciu zdroja. To nie je zárukou pravosti, ale je to isté svedectvo, komu sa zodpovednosť za pravosť „neupisuje“. Z tohto pohľadu znamená Data Mining veľké pochybnosti o spoľahlivosti a žiadne „aktívne“odkazy.

Vyriešením viacerých problémov človek získa výsledky a rozšíri svoj intelektuálny potenciál o mnoho „aktívnych väzieb“. Ak nová úloha „aktivuje“už existujúci odkaz, osoba bude vedieť, ako to vyriešiť: nie je potrebné nič znova hľadať.

„Aktívny odkaz“je pevné spojenie: ako a čo robiť v konkrétnom prípade. Ľudský mozog si automaticky pamätá všetko, čo sa mu zdá potenciálne zaujímavé, užitočné.alebo budú pravdepodobne potrebné v budúcnosti. V mnohých ohľadoch sa to deje na podvedomej úrovni, ale akonáhle sa objaví úloha, ktorá môže byť spojená s „aktívnym odkazom“, okamžite sa objaví v mysli a nájde sa riešenie bez ďalšieho hľadania informácií. Data mining je vždy opakovaním vyhľadávacieho algoritmu a tento algoritmus sa nemení.

Pravidelné vyhľadávanie: „umelecké“problémy

Matematická knižnica a vyhľadávanie informácií v nej je pomerne slabá úloha. Nájsť tak či onak riešenie integrálu, zostavenie matice alebo vykonanie operácie sčítania dvoch imaginárnych čísel je pracné, ale jednoduché. Musíte si pretriediť množstvo kníh, z ktorých mnohé sú napísané v konkrétnom jazyku, nájsť správny text, preštudovať si ho a získať požadované riešenie.

Postupom času sa zoznam stane známym a nahromadené skúsenosti vám umožnia orientovať sa v informáciách z knižnice a iných matematických problémoch. Toto je obmedzený informačný priestor otázok a odpovedí. Charakteristická vlastnosť: takéto vyhľadávanie informácií zhromažďuje znalosti na riešenie podobných problémov. Hľadanie informácií zanecháva v jeho pamäti stopy („aktívne odkazy“) o možných riešeniach iných problémov.

V beletrii nájdite odpoveď na otázku: "Ako žili ľudia v januári 1248?" veľmi ťažké. Ešte ťažšie je odpovedať na otázku, čo bolo na pultoch obchodov a ako bol organizovaný obchod s potravinami. Aj keby o tom nejaký spisovateľ jasne a priamo písal vo svojom románe, ak by sa dalo nájsť meno tohto spisovateľa, potom pochybnosti ospoľahlivosť prijatých údajov zostane zachovaná. Spoľahlivosť je kritickou charakteristikou akéhokoľvek množstva informácií. Dôležitý je zdroj, autor a dôkaz, ktorý vylučuje nepravdivosť výsledku.

Objektívne okolnosti konkrétnej situácie

Človek vidí, počuje, cíti. Niektorí špecialisti ovládajú jedinečný pocit – intuíciu. Vyjadrenie problému si vyžaduje informácie, proces riešenia problému je najčastejšie sprevádzaný spresnením vyjadrenia problému. Toto je menší problém, ktorý prichádza s presunom informácií do útrob počítačového systému.

Informácie vo virtuálnom priestore
Informácie vo virtuálnom priestore

Knižnica a kolegovia z práce sú nepriamymi účastníkmi rozhodovacieho procesu. Dizajn knihy (zdroja), grafika v texte, črty rozdelenia informácií do nadpisov, poznámky pod čiarou podľa slovných spojení, vecný register, zoznam primárnych zdrojov - to všetko v človeku vyvoláva asociácie, ktoré nepriamo ovplyvňujú proces riešenia. problém.

Zásadný je čas a miesto riešenia problému. Človek je tak usporiadaný, že v procese riešenia problému nedobrovoľne venuje pozornosť všetkému, čo ho obklopuje. Môže to byť rušivé, alebo to môže byť stimulujúce. Data Mining nikdy „nepochopí“.

Informácie vo virtuálnom priestore

Človek sa vždy zaujímal iba o spoľahlivé informácie o udalosti, jave, objekte, algoritme na riešenie problému. Človek si vždy presne predstavoval, ako môže dosiahnuť vytúžený cieľ.

Vzhľad počítačov a informačných systémov mal človeku uľahčiť život, no všetko sa len skomplikovalo. Informácie migrovali do útrob počítačových systémov a zmizli z dohľadu. Ak chcete vybrať potrebné údaje, musíte vytvoriť správny algoritmus alebo sformulovať dopyt do databázy.

Údaje vo vnútri informačného systému
Údaje vo vnútri informačného systému

Otázka musí byť správna. Až potom môžete dostať odpoveď. Pochybnosti o pravosti však pretrvávajú. V tomto zmysle je Data Mining skutočne „výkopy“, je to „extrakcia informácií“. Takto je módne prekladať túto frázu. Ruská verzia je technológia data miningu alebo data miningu.

V prácach autoritatívnych špecialistov sú úlohy dolovania údajov označené takto:

  • classification;
  • clustering;
  • association;
  • sequence;
  • forecasting.

Z pohľadu praxe, ktorá vedie človeka pri manuálnom spracovaní informácií, sú všetky tieto polohy diskutabilné. V každom prípade človek spracováva informácie automaticky a nemyslí na klasifikáciu dát, zostavovanie tematických skupín objektov (zhlukovanie), hľadanie časových vzorcov (sekvencia) či predpovedanie výsledku.

Všetky tieto pozície v ľudskej mysli sú reprezentované aktívnymi znalosťami, ktoré pokrývajú viacero pozícií a dynamicky využívajú logiku spracovania prvotných dát. Podvedomie človeka hrá dôležitú úlohu, najmä ak je odborníkom v určitej oblasti vedomostí.

Príklad: Veľkoobchod s počítačovým vybavením

Úloha je jednoduchá. Je ich viacerodesiatky dodávateľov výpočtovej techniky a periférií. Každý má cenník vo formáte xls (excel súbor), ktorý je možné stiahnuť z oficiálnej stránky dodávateľa. Vyžaduje sa vytvorenie webového zdroja, ktorý číta súbory Excel, konvertuje ich na databázové tabuľky a umožňuje zákazníkom vybrať si požadované produkty za najnižšie ceny.

Problémy vznikajú okamžite. Každý dodávateľ ponúka vlastnú verziu štruktúry a obsahu xls súboru. Súbor môžete získať stiahnutím z webovej stránky dodávateľa, objednaním e-mailom alebo získaním odkazu na stiahnutie prostredníctvom vášho osobného účtu, teda oficiálnou registráciou u dodávateľa.

Virtuálny počítačový obchod
Virtuálny počítačový obchod

Riešenie problému (na samom začiatku) je technologicky jednoduché. Načítavanie súborov (počiatočné dáta), algoritmus rozpoznávania súborov je napísaný pre každého dodávateľa a dáta sú umiestnené do jednej veľkej tabuľky počiatočných dát. Po prijatí všetkých údajov, po zavedení mechanizmu nepretržitej výmeny (denne, týždenne alebo pri zmene) nových údajov:

  • zmena sortimentu;
  • zmeny cien;
  • upresnenie množstva na sklade;
  • úprava záručných podmienok, špecifikácií atď.

Tu sa začínajú skutočné problémy. Ide o to, že dodávateľ môže napísať:

  • notebook Acer;
  • notebook Asus;
  • Prenosný počítač Dell.

Hovoríme o rovnakom produkte, ale od rôznych výrobcov. Ako priradiť notebook=laptop alebo ako odstrániť Acer, Asus a Dell z produktového radu?

Prečlovek nie je problém, ale ako algoritmus „pochopí“, že Acer, Asus, Dell, Samsung, LG, HP, Sony sú ochranné známky alebo dodávatelia? Ako spojiť „tlačiareň“a tlačiareň, „skener“a „MFP“, „kopírka“a „MFP“, „slúchadlá“s „náhlavnou súpravou“, „príslušenstvo“s „príslušenstvom“?

Vytvorenie stromu kategórií na základe zdrojových údajov (zdrojových súborov) je už problém, keď potrebujete všetko nastaviť na automatické.

Vzorkovanie údajov: vykopávky „čerstvo naliateho“

Úloha vytvorenia databázy dodávateľov výpočtovej techniky bola vyriešená. Bol vytvorený strom kategórií, funguje spoločná tabuľka s ponukami od všetkých dodávateľov.

Typické úlohy dolovania údajov v kontexte tohto príkladu:

  • nájdite produkt za najnižšiu cenu;
  • vyberte položku s najnižšou cenou dopravy;
  • analýza produktu: vlastnosti a ceny podľa kritérií.

V reálnej práci manažéra, ktorý využíva údaje od niekoľkých desiatok dodávateľov, bude existovať veľa variácií týchto úloh a ešte reálnejšie situácie.

Existuje napríklad dodávateľ „A“, ktorý predáva ASUS VivoBook S15: platba vopred, dodanie 5 dní po skutočnom prijatí peňazí. Existuje dodávateľ "B" rovnakého produktu rovnakého modelu: platba pri prevzatí, dodanie po uzavretí zmluvy do dňa, cena je jeden a pol krát vyššia.

Začína sa dolovanie údajov – „vykopávky“. Obrazné výrazy: „vykopávky“alebo „dolovanie údajov“sú synonymá. Ide o to, ako získať dôvod na rozhodnutie.

Dodávatelia „A“a „B“majú históriu dodávok. stupňaplatba vopred v prvom prípade oproti platbe pri prevzatí v druhom prípade, berúc do úvahy, že zlyhanie dodávky v druhom prípade je o 65 % vyššie. Riziko sankcií zo strany klienta je vyššie/nižšie. Ako a čo určiť a aké rozhodnutie urobiť?

Na druhej strane: databázu vytvorili programátor a manažér. Ak sa zmenil programátor a manažér, ako zistiť aktuálny stav databázy a naučiť sa ju správne používať? Budete tiež musieť vykonať dolovanie údajov. Data Mining ponúka množstvo matematických a logických metód, ktorým nezáleží na tom, aký druh údajov sa skúma. Toto poskytuje správne riešenie v niektorých prípadoch, ale nie vo všetkých.

Prechod do virtuality a hľadanie zmyslu

Metódy dolovania údajov nadobúdajú zmysel, len čo sa informácie zapíšu do databázy a zmiznú zo „zorného poľa“. Obchodovanie s počítačovým vybavením je zaujímavá úloha, ale je to len biznis. To, ako dobre je organizovaný v spoločnosti, závisí od jej úspechu.

Klimatické zmeny na planéte a počasie v konkrétnom meste zaujímajú každého, nielen profesionálnych klimatických expertov. Tisíce senzorov zaznamenávajú údaje o vetre, vlhkosti, tlaku a údajoch z umelých satelitov Zeme a existuje história údajov na roky a storočia.

Údaje o počasí nie sú len o rozhodnutí, či si do práce zobrať dáždnik alebo nie. Technológie dolovania dát sú bezpečný let dopravného lietadla, stabilná prevádzka diaľnice a spoľahlivé dodávky ropných produktov po mori.

Do informácií sa odošlú „nespracované“údajesystém. Úlohou dolovania údajov je premeniť ich na systematizovaný systém tabuliek, vytvoriť prepojenia, zvýrazniť skupiny homogénnych údajov a odhaliť vzory.

Klíma, počasie a nespracované údaje
Klíma, počasie a nespracované údaje

Matematické a logické metódy už od čias kvantitatívnej analýzy OLAP (On-line Analytical Processing) ukázali svoju praktickosť. Tu vám technológia umožňuje nájsť zmysel a nestratiť ho, ako v prípade predaja počítačového vybavenia.

V globálnych úlohách navyše:

  • nadnárodný obchod;
  • manažment leteckej dopravy;
  • štúdium útrob zeme alebo sociálnych problémov (na štátnej úrovni);
  • štúdia účinku liekov na živý organizmus;
  • predpovedanie dôsledkov výstavby priemyselného podniku atď.

Technológie Data Mine a premena „nezmyselných“údajov na skutočné údaje, ktoré vám umožnia robiť objektívne rozhodnutia, sú jedinou možnosťou.

Ľudské možnosti končia tam, kde je veľké množstvo nespracovaných informácií. Systémy na dolovanie údajov strácajú svoju užitočnosť tam, kde sa vyžaduje vidieť, chápať a cítiť informácie.

Rozumné rozdelenie funkcií a objektivita

Človek a počítač by sa mali navzájom dopĺňať – to je axióma. Napísanie dizertačnej práce je pre človeka prioritou a informačný systém je pomocníkom. Údaje, ktoré má technológia Data Mining, sú heuristika, pravidlá, algoritmy.

Pripravovať týždennú predpoveď počasia je prioritou informačného systému. Človek spravuje dáta, no svoje rozhodnutia zakladá na výsledkoch výpočtov systému. Spája v sebe metódy dolovania dát, špecializovanú klasifikáciu dát, manuálne ovládanie aplikácie algoritmov, automatické porovnávanie minulých dát, matematické prognózovanie a množstvo vedomostí a zručností skutočných ľudí zapojených do aplikácie informačného systému.

Človek a počítač
Človek a počítač

Teória pravdepodobnosti a matematická štatistika nie sú tie „najobľúbenejšie“a najzrozumiteľnejšie oblasti vedomostí. Mnohí špecialisti sú od nich veľmi ďaleko, ale metódy vyvinuté v týchto oblastiach poskytujú takmer 100% správne výsledky. Aplikovaním systémov založených na myšlienkach, metódach a algoritmoch dolovania údajov možno objektívne a spoľahlivo získať riešenia. V opačnom prípade je jednoducho nemožné nájsť riešenie.

Faraoni a záhady minulých storočí

História bola pravidelne prepisovaná:

  • štáty – v záujme svojich strategických záujmov;
  • autoritatívni vedci – v záujme ich subjektívneho presvedčenia.

Je ťažké povedať, čo je pravda a čo nie. Použitie Data Mining nám umožňuje vyriešiť tento problém. Napríklad technológiu stavania pyramíd opísali kronikári a študovali vedci v rôznych storočiach. Nie všetky materiály sa dostali na internet, nie všetko je tu jedinečné a mnohé údaje nemusia mať:

  • popísaný časový bod;
  • čas písania popisu;
  • dátumy, na ktorých je popis založený;
  • autori, názory (odkazy) sa berú do úvahy;
  • potvrdenie objektivity.

Bknižnice, chrámy a „neočakávané miesta“nájdete rukopisy z rôznych storočí a materiálne dôkazy o minulosti.

Zaujímavý cieľ: dať všetko dokopy a odhaliť „pravdu“. Charakteristika problému: informácie možno získať od prvého opisu kronikárom, počas života faraónov, až po súčasné storočie, v ktorom mnohí vedci tento problém riešia modernými metódami.

Odôvodnenie používania dolovania údajov: ručná práca nie je možná. Príliš veľa množstiev:

  • zdroje informácií;
  • jazyky reprezentácie;
  • výskumníci popisujúci tú istú vec rôznymi spôsobmi;
  • dátumy, udalosti a podmienky;
  • problémy s dlhodobou koreláciou;
  • analýza štatistík podľa skupín údajov sa môže v priebehu času líšiť atď.

Koncom minulého storočia, keď sa ďalšie fiasko myšlienky umelej inteligencie stalo zrejmým nielen laikom, ale aj sofistikovaným odborníkom, sa objavila myšlienka: „obnoviť osobnosť“.

Napríklad podľa prác Puškina, Gogoľa, Čechova sa formuje určitý systém pravidiel, logiky správania a vytvára sa informačný systém, ktorý dokáže odpovedať na určité otázky tak, ako by to odpovedal človek: Puškin, Gogoľ resp. Čechov. Teoreticky je takáto úloha zaujímavá, ale v praxi je mimoriadne náročná na realizáciu.

Myšlienka takejto úlohy však naznačuje veľmi praktický nápad: "ako vytvoriť inteligentné vyhľadávanie informácií." Internet je množstvo rozvojových zdrojov, obrovská databáza a to je skvelá príležitosť na uplatnenie Data Miningu v kombinácii s človekomlogika vo formáte spoločného rozvoja.

Stroj a človek spolu
Stroj a človek spolu

Spár stroja a človeka je vynikajúca úloha a nepochybný úspech v oblasti „informačnej archeológie“, kvalitných vykopávok v dátach a výsledkoch, ktoré síce niečo spochybnia, no bezpochyby vám umožnia získať nové vedomosti a budú v spoločnosti žiadaní.

Odporúča: