Clusteranalyse en factoranalyse zijn twee statistische methoden voor gegevensanalyse. Deze twee vormen van analyse worden veel gebruikt in de natuur- en gedragswetenschappen. Zowel clusteranalyse als factoranalyse stellen de gebruiker in staat om delen van de gegevens te groeperen in "clusters" of op "factoren", afhankelijk van het type analyse. Sommige onderzoekers die nieuw zijn in de methoden van cluster- en factoranalyses, kunnen van mening zijn dat deze twee soorten analyse in het algemeen vergelijkbaar zijn. Hoewel clusteranalyse en factoranalyse op het eerste gezicht vergelijkbaar lijken, verschillen ze op veel manieren, ook in hun algemene doelstellingen en toepassingen.
Objectief
Clusteranalyse en factoranalyse hebben verschillende doelen. Het gebruikelijke doel van factoranalyse is om correlatie in een reeks gegevens te verklaren en variabelen met elkaar in verband te brengen met elkaar, terwijl het doel van clusteranalyse is om de heterogeniteit in elke set gegevens aan te pakken. In de geest is clusteranalyse een vorm van categorisering, terwijl factoranalyse een vorm van vereenvoudiging is.
Complexiteit
Complexiteit is een kwestie waarop factoranalyse en clusteranalyse verschillen: de gegevensgrootte heeft een andere invloed op elke analyse. Naarmate de verzameling gegevens groeit, wordt clusteranalyse rekenkundig onhandelbaar. Dit is waar omdat het aantal datapunten in clusteranalyse direct gerelateerd is aan het aantal mogelijke clusteroplossingen. Het aantal manieren om twintig objecten te verdelen in 4 clusters van gelijke grootte is bijvoorbeeld meer dan 488 miljoen. Dit maakt directe rekenmethoden, inclusief de categorie methoden waartoe factoranalyse behoort, onmogelijk.
Oplossing
Hoewel de oplossingen voor zowel factoranalyse- als clusteranalyseproblemen tot op zekere hoogte subjectief zijn, stelt factoranalyse een onderzoeker in staat om: een “beste” oplossing opleveren, in die zin dat de onderzoeker een bepaald aspect van de oplossing kan optimaliseren (orthogonaliteit, interpretatiegemak enz. Aan). Dit is niet het geval voor clusteranalyse, aangezien alle algoritmen die mogelijk de beste oplossing voor clusteranalyse zouden kunnen opleveren, rekenkundig inefficiënt zijn. Daarom kunnen onderzoekers die clusteranalyse toepassen geen optimale oplossing garanderen.
Toepassingen
Factoranalyse en clusteranalyse verschillen in hoe ze worden toegepast op echte gegevens. Omdat factoranalyse het vermogen heeft om een onpraktische reeks variabelen terug te brengen tot een veel kleinere reeks factoren, is het geschikt om complexe modellen te vereenvoudigen. Factoranalyse heeft ook een bevestigend gebruik, waarbij de onderzoeker een reeks hypothesen kan ontwikkelen over hoe variabelen in de gegevens gerelateerd zijn. De onderzoeker kan vervolgens factoranalyse uitvoeren op de dataset om deze hypothesen te bevestigen of te ontkennen. Clusteranalyse daarentegen is geschikt om objecten volgens bepaalde criteria te classificeren. Een onderzoeker kan bijvoorbeeld bepaalde aspecten van een groep nieuw ontdekte planten meten en deze planten in soortencategorieën indelen door middel van clusteranalyse.