Atšķirība starp KDD un datu ieguvi

Atšķirība starp KDD un datu ieguvi
Atšķirība starp KDD un datu ieguvi

Video: Atšķirība starp KDD un datu ieguvi

Video: Atšķirība starp KDD un datu ieguvi
Video: Канбан. Точно вовремя. Бережливое производство. Управление изменениями. 2024, Jūlijs
Anonim

KDD pret datu ieguvi

KDD (zināšanu atklāšana datubāzēs) ir datorzinātnes joma, kas ietver rīkus un teorijas, kas palīdz cilvēkiem iegūt noderīgu un iepriekš nezināmu informāciju (t.i., zināšanas) no lielām digitalizētu datu kolekcijām. KDD sastāv no vairākām darbībām, un viena no tām ir datu ieguve. Datu ieguve ir noteikta algoritma pielietošana, lai no datiem iegūtu modeļus. Tomēr KDD un datu ieguve tiek lietoti kā sinonīmi.

Kas ir KDD?

Kā minēts iepriekš, KDD ir datorzinātņu joma, kas nodarbojas ar iepriekš nezināmas un interesantas informācijas ieguvi no neapstrādātiem datiem. KDD ir viss process, kurā tiek mēģināts izprast datus, izstrādājot atbilstošas metodes vai paņēmienus. Šis process attiecas uz zema līmeņa datu kartēšanu citās formās, kas ir kompaktākas, abstraktākas un noderīgākas. Tas tiek panākts, veidojot īsus pārskatus, modelējot datu ģenerēšanas procesu un izstrādājot prognozēšanas modeļus, kas var paredzēt nākotnes gadījumus. Pateicoties eksponenciālajam datu pieaugumam, īpaši tādās jomās kā uzņēmējdarbība, KDD ir kļuvis par ļoti svarīgu procesu, lai šo lielo datu bagātību pārvērstu par biznesa informāciju, jo pēdējo desmitgažu laikā modeļu manuāla iegūšana ir kļuvusi šķietami neiespējama. Piemēram, pašlaik to izmanto dažādām lietojumprogrammām, piemēram, sociālo tīklu analīzei, krāpšanas atklāšanai, zinātnei, investīcijām, ražošanai, telekomunikācijām, datu tīrīšanai, sportam, informācijas izguvei un galvenokārt mārketingam. KDD parasti izmanto, lai atbildētu uz jautājumiem, piemēram, kādi ir galvenie produkti, kas varētu palīdzēt gūt lielu peļņu nākamajā gadā Wal-Mart?. Šim procesam ir vairāki posmi. Tas sākas ar izpratnes veidošanu par lietojumprogrammas domēnu un mērķi un pēc tam izveidojot mērķa datu kopu. Tam seko datu tīrīšana, pirmapstrāde, samazināšana un projicēšana. Nākamais solis ir izmantot datu ieguvi (skaidrots tālāk), lai identificētu modeli. Visbeidzot, atklātās zināšanas tiek nostiprinātas, vizualizējot un/vai interpretējot.

Kas ir datu ieguve?

Kā minēts iepriekš, datu ieguve ir tikai solis kopējā KDD procesā. Ir divi galvenie datu ieguves mērķi, ko nosaka lietojumprogrammas mērķis, un tie ir verifikācija vai atklāšana. Verifikācija pārbauda lietotāja hipotēzi par datiem, savukārt atklāšana automātiski atrod interesantus modeļus. Ir četri galvenie datu ieguves uzdevumi: klasterizācija, klasifikācija, regresija un asociācija (kopsavilkums). Klasterizācija ir līdzīgu grupu identificēšana no nestrukturētiem datiem. Klasifikācija ir mācīšanās noteikumi, kurus var piemērot jauniem datiem. Regresija ir funkciju atrašana ar minimālu kļūdu modelēšanai. Un asociācija meklē attiecības starp mainīgajiem. Pēc tam ir jāizvēlas konkrētais datu ieguves algoritms. Atkarībā no mērķa var atlasīt dažādus algoritmus, piemēram, lineāro regresiju, loģistisko regresiju, lēmumu kokus un naivos Bayes. Pēc tam tiek meklēti interešu modeļi vienā vai vairākās reprezentācijas formās. Visbeidzot, modeļi tiek novērtēti, izmantojot paredzamo precizitāti vai saprotamību.

Kāda ir atšķirība starp KDD un datu ieguvi?

Lai gan divi termini KDD un datu ieguve tiek plaši lietoti kā sinonīmi, tie attiecas uz diviem saistītiem, taču nedaudz atšķirīgiem jēdzieniem. KDD ir vispārējs process zināšanu iegūšanai no datiem, savukārt datu ieguve ir solis KDD procesā, kas nodarbojas ar datu modeļu identificēšanu. Citiem vārdiem sakot, datu ieguve ir tikai noteikta algoritma pielietošana, pamatojoties uz KDD procesa vispārējo mērķi.

Ieteicams: