Internet

Wat is de correlatieclustering?

Correlatieclustering wordt uitgevoerd op databases en andere grote gegevensbronnen om soortgelijke datasets samen te voegen, terwijl de gebruiker ook wordt gewaarschuwd voor ongelijksoortige gegevenssets.Dit kan in sommige grafieken perfect worden gedaan, terwijl anderen fouten zullen ervaren omdat het moeilijk zal zijn om vergelijkbaar te maken van ongelijksoortige gegevens.In het geval van deze laatste helpt de correlatieclustering de fout automatisch te verminderen.Dit wordt vaak gebruikt voor datamining of om onhandige gegevens te zoeken naar overeenkomsten.Ongeval gegevens worden vaak verwijderd of in een afzonderlijk cluster geplaatst.

Wanneer een correlatieblusterfunctie wordt gebruikt, zoekt deze naar gegevens op basis van de instructies van de gebruiker.De gebruiker zal het programma vertellen wat hij moet zoeken en, wanneer het wordt gevonden, waar de gegevens moeten worden geplaatst.Dit wordt normaal toegepast op zeer grote gegevensbronnen wanneer het onmogelijk zou zijn mdash;Of neem te veel uren mdash;om de gegevens handmatig door te zoeken.Er kan perfecte clustering of imperfect clustering zijn.

Perfecte clustering is het ideale scenario.Dit betekent dat er slechts twee soorten gegevens zijn, en de ene is waar de gebruiker naar op zoek is, terwijl de andere onnodig is.Alle positieve of noodzakelijke gegevens worden in één cluster geplaatst, terwijl de andere gegevens worden verwijderd of verplaatst.In dit scenario is er geen verwarring en alles werkt perfect.

De meeste complexe grafieken staan geen perfecte clustering toe en zijn in plaats daarvan onvolmaakt.Een grafiek heeft bijvoorbeeld drie variabelen: x, y en z. x, y is vergelijkbaar, x, z is vergelijkbaar, maar y, z is ongelijk.De drie variabele clusters zijn echter zo vergelijkbaar dat het onmogelijk is om een perfecte correlatieblustering te hebben.Het programma zal werken om het aantal positieve correlaties te maximaliseren, maar dit vereist nog steeds wat handmatig zoeken van de gebruiker.

In datamining, vooral bij het omgaan met grote gegevenssets, wordt correlatieblustering gebruikt om vergelijkbare gegevens te groeperen met vergelijkbare gegevens.Als bijvoorbeeld een bedrijf gedolven gegevens voor een grote website of database en alleen wil weten over een specifiek aspect, zou het eeuwig duren om alle gegevens voor dat aspect te doorzoeken.Door een clusterformule te gebruiken, worden de gegevens opzij gezet voor de juiste analyse.

Er wordt ongelijke informatie op basis van gebruikersinstructies behandeld.De gebruiker kan ervoor kiezen om ongelijke gegevens naar verschillende clusters te verzenden, omdat de informatie nuttig kan zijn voor andere projecten.Als de gegevens onnodig zijn en gewoon geheugen verspillen, wordt de ongelijke informatie weggegooid.In imperfecte clustering is het mogelijk dat sommige ongelijksoortige informatie niet zal worden weggegooid, omdat deze zo vergelijkbaar is met de gegevens waarvoor de gebruiker kijkt.