Skip to main content

Vad är korrelationskluster?

Korrelationskluster utförs på databaser och andra stora datakällor för att gruppera liknande datasätt, samtidigt som användaren varnar till olika datauppsättningar.Detta kan göras perfekt i vissa grafer, medan andra kommer att uppleva fel eftersom det kommer att vara svårt att skilja liknande från olika data.När det gäller det senare kommer korrelationskluster att hjälpa till att minska felet automatiskt.Detta används ofta för data mining eller för att söka på svårt data för likheter.Olika data raderas vanligtvis eller placeras i ett separat kluster.

När en korrelationsklusterfunktion används söker den efter data baserat på användarens instruktioner.Användaren kommer att berätta för programmet vad man ska söka efter och, när det hittas, var man ska placera data.Detta tillämpas normalt på mycket stora datakällor när det skulle vara omöjligt mdash;eller ta för många timmar mdash;att söka igenom data manuellt.Det kan vara antingen perfekt kluster eller ofullständig kluster.

Perfekt kluster är det perfekta scenariot.Detta innebär att det bara finns två typer av data, och den ena är vad användaren letar efter medan den andra är onödig.Alla de positiva eller nödvändiga data placeras i ett kluster, medan den andra informationen raderas eller flyttas.I det här scenariot finns det ingen förvirring och allt fungerar perfekt.

De flesta komplexa grafer tillåter inte perfekt kluster och är istället ofullkomliga.Till exempel har en graf tre variabler: x, y och z. x, y är liknande, x, z är liknande, men y, z är olika.De tre variabla klusterna är emellertid så lika att det är omöjligt att ha perfekt korrelationskluster.Programmet kommer att arbeta för att maximera antalet positiva korrelationer, men detta kommer fortfarande att kräva en viss manuell sökning från användaren.

I data mining, särskilt när man hanterar stora datamängder, används korrelationskluster för att gruppera liknande data med liknande data.Till exempel, om en affärsbrytning av data för en stor webbplats eller databas och bara vill veta om en specifik aspekt, skulle det ta evigt att söka igenom all information för den aspekten.Genom att använda en klusterformel kommer uppgifterna att avsättas för korrekt analys.

Skillnad information behandlas endast baserat på användarinstruktioner.Användaren kan välja att skicka olika data till olika kluster, eftersom informationen kan vara användbar för andra projekt.Om uppgifterna är onödiga och bara slösar bort minnet, kastas den olika informationen ut.Vid ofullständig kluster är det möjligt att viss olika information inte kommer att kastas ut, eftersom den är så lik de data som användaren ser ut för.