Atšķirība starp hierarhisko un daļējo klasterizāciju

Atšķirība starp hierarhisko un daļējo klasterizāciju
Atšķirība starp hierarhisko un daļējo klasterizāciju

Video: Atšķirība starp hierarhisko un daļējo klasterizāciju

Video: Atšķirība starp hierarhisko un daļējo klasterizāciju
Video: Virzulis IZH planēta. Kā atšķirt viltus! 2024, Jūlijs
Anonim

Hierarhiskā pret daļēju klasterizāciju

Klasteru veidošana ir mašīnmācīšanās paņēmiens datu analīzei un sadalīšanai līdzīgu datu grupās. Šīs grupas vai līdzīgu datu kopas ir zināmas kā kopas. Klasteru analīzē tiek aplūkoti klasterizācijas algoritmi, kas var automātiski identificēt kopas. Hierarhiskais un daļējais ir divas šādas klasterizācijas algoritmu klases. Hierarhiskie klasterizācijas algoritmi sadala datus klasteru hierarhijā. Paricionālie algoritmi sadala datu kopu savstarpēji nesaistītos nodalījumos.

Kas ir hierarhiskā klasterizācija?

Hierarhiskie klasteru veidošanas algoritmi atkārto ciklu, kad mazākas kopas tiek apvienotas lielākās vai lielākas kopas tiek sadalītas mazākās. Jebkurā gadījumā tas rada klasteru hierarhiju, ko sauc par dendogrammu. Aglomeratīvās klasterizācijas stratēģija izmanto augšupēju pieeju, apvienojot klasterus lielākās, savukārt sadalošā klasterizācijas stratēģija izmanto no augšas uz leju pieeju, sadalot mazākās. Parasti mantkārīgo pieeju izmanto, lai izlemtu, kuras lielākas/mazākas kopas tiek izmantotas apvienošanai/dalīšanai. Eiklīda attālums, Manhetenas attālums un kosinusa līdzība ir daži no visbiežāk izmantotajiem skaitlisko datu līdzības rādītājiem. Datiem, kas nav skaitļi, tiek izmantoti tādi rādītāji kā Heminga attālums. Ir svarīgi atzīmēt, ka faktiskie novērojumi (gadījumi) nav nepieciešami hierarhiskai klasterizācijai, jo pietiek tikai ar attālumu matricu. Dendogramma ir klasteru vizuāls attēlojums, kas ļoti skaidri parāda hierarhiju. Lietotājs var iegūt dažādus klasterus atkarībā no dendogrammas izgriešanas līmeņa.

Kas ir daļējā klasterizācija?

Parcicionālās klasterizācijas algoritmi ģenerē dažādus nodalījumus un pēc tam novērtē tos pēc dažiem kritērijiem. Tie tiek saukti arī par nehierarhiskiem, jo katrs gadījums ir ievietots tieši vienā no k savstarpēji izslēdzošām kopām. Tā kā tikai viena klasteru kopa ir tipiska dalītās klasterizācijas algoritma izvade, lietotājam ir jāievada vēlamais klasteru skaits (parasti to sauc par k). Viens no visbiežāk izmantotajiem dalītās klasterizācijas algoritmiem ir k-means klasterizācijas algoritms. Pirms palaišanas lietotājam ir jānorāda klasteru skaits (k), un algoritms vispirms iniciē k nodalījumu centrus (vai centroīdus). Īsumā, k-means klasterizācijas algoritms pēc tam piešķir dalībniekus, pamatojoties uz pašreizējiem centriem, un atkārtoti novērtē centrus, pamatojoties uz pašreizējiem dalībniekiem. Šīs divas darbības tiek atkārtotas, līdz tiek optimizēta noteikta klasteru iekšējās līdzības mērķa funkcija un starpkopu atšķirības mērķa funkcija. Tāpēc saprātīga centru inicializācija ir ļoti svarīgs faktors, lai iegūtu kvalitatīvus rezultātus no dalītās klasterizācijas algoritmiem.

Kāda ir atšķirība starp hierarhisko un daļējo klasterizāciju?

Hierarhiskajai un daļējai klasterēšanai ir galvenās atšķirības darbības laikā, pieņēmumos, ievades parametros un iegūtajos klasteros. Parasti daļēja klasterizācija ir ātrāka nekā hierarhiskā klasterizācija. Hierarhiskajai klasterizācijai ir nepieciešams tikai līdzības mērs, savukārt daļējai klasterizācijai ir nepieciešami stingrāki pieņēmumi, piemēram, klasteru skaits un sākotnējie centri. Hierarhiskajai klasterizācijai nav nepieciešami nekādi ievades parametri, savukārt dalītās klasterizācijas algoritmiem ir nepieciešams klasteru skaits, lai sāktu darboties. Hierarhiskā klasterizācija atgriež daudz jēgpilnāku un subjektīvāku klasteru iedalījumu, bet daļēja klasterizācija rada tieši k klasterus. Hierarhiskie klasterizācijas algoritmi ir piemērotāki kategoriskiem datiem, ja vien var atbilstoši definēt līdzības mēru.

Ieteicams: