Datu ieguve pret datu glabāšanu
Datu ieguve un datu glabāšana ir ļoti jaudīgas un populāras datu analīzes metodes. Lietotāji, kuriem ir tendence uz statistiku, izmanto datu ieguvi. Viņi izmanto statistikas modeļus, lai meklētu slēptos datu modeļus. Datu ieguvēji ir ieinteresēti atrast noderīgas attiecības starp dažādiem datu elementiem, kas galu galā ir izdevīgi uzņēmumiem. Taču, no otras puses, datu eksperti, kuri var tieši analizēt uzņēmuma dimensijas, mēdz izmantot datu noliktavas.
Datu ieguve ir pazīstama arī kā Knowledge Discovery in Data (KDD). Kā minēts iepriekš, tā ir datorzinātņu joma, kas nodarbojas ar iepriekš nezināmas un interesantas informācijas ieguvi no neapstrādātiem datiem. Pateicoties eksponenciālajam datu pieaugumam, īpaši tādās jomās kā uzņēmējdarbība, datu ieguve ir kļuvusi par ļoti svarīgu līdzekli, lai šo lielo datu bagātību pārvērstu biznesa inteliģencē, jo pēdējo desmitgažu laikā modeļu manuāla iegūšana ir kļuvusi šķietami neiespējama. Piemēram, pašlaik to izmanto dažādām lietojumprogrammām, piemēram, sociālo tīklu analīzei, krāpšanas atklāšanai un mārketingam. Datu ieguve parasti nodarbojas ar šādiem četriem uzdevumiem: klasterēšana, klasifikācija, regresija un asociācija. Klasterizācija ir līdzīgu grupu identificēšana no nestrukturētiem datiem. Klasifikācija ir mācīšanās noteikumi, kurus var piemērot jauniem datiem, un tie parasti ietver šādas darbības: datu pirmapstrāde, modelēšanas projektēšana, mācīšanās/funkciju atlase un novērtēšana/validācija. Regresija ir funkciju atrašana ar minimālu kļūdu modelēšanai. Un asociācija meklē attiecības starp mainīgajiem. Datu ieguve parasti tiek izmantota, lai atbildētu uz jautājumiem, piemēram, kādi ir galvenie produkti, kas varētu palīdzēt gūt lielu peļņu nākamajā gadā Wal-Mart?
Kā minēts iepriekš, datu glabāšana tiek izmantota arī datu analīzei, taču to izmanto dažādas lietotāju kopas un nedaudz atšķirīgs mērķis. Piemēram, runājot par mazumtirdzniecības nozari, datu noliktavas lietotājus vairāk interesē, kādi pirkumu veidi ir populāri klientu vidū, tāpēc analīzes rezultāti var palīdzēt klientam, uzlabojot klientu pieredzi. Taču datu ieguvēji vispirms izvirza hipotēzi, piemēram, kuri klienti pērk noteikta veida produktu, un analizē datus, lai pārbaudītu hipotēzi. Datu glabāšanu varētu veikt liels mazumtirgotājs, kurš sākotnēji savus veikalus uzkrāj ar vienāda izmēra produktiem, lai vēlāk uzzinātu, ka Ņujorkas veikali pārdod mazāka izmēra krājumus daudz ātrāk nekā Čikāgas veikalos. Tātad, aplūkojot šo rezultātu, mazumtirgotājs var iegādāties Ņujorkas veikalu ar mazākiem izmēriem, salīdzinot ar Čikāgas veikaliem.
Tātad, kā jūs skaidri redzat, šiem diviem analīzes veidiem ar neapbruņotu aci šķiet vienāds raksturs. Abi uztraucas par peļņas palielināšanu, pamatojoties uz vēsturiskajiem datiem. Bet, protams, ir būtiskas atšķirības. Vienkārši izsakoties, datu ieguve un datu noliktavas ir paredzētas dažāda veida analītikas nodrošināšanai, taču noteikti dažāda veida lietotājiem. Citiem vārdiem sakot, datu ieguve meklē korelācijas, modeļus, lai atbalstītu statistisko hipotēzi. Taču datu glabātuve sniedz atbildes uz salīdzinoši plašāku jautājumu, un tā sagriež datus no turienes, lai atpazītu uzlabojumu veidus nākotnē.