Clustering in de zorg. Blog over Machine Learning methode "Clustering"

In deze blog lees je over clustering in de zorg.

Joost Verlaan, Health Analytics consultant bij EscuLine, vertelt over wat clustering is en wat je ermee kan als zorgorganisatie. Joost gaat met name in op de methodes van Clustering die er zijn en legt uit hoe die werken.

Clustering is een veelgebruikte en een van de meest bekende Machine Learning methodes. In deze blog zullen wij dit onderwerp gaan behandelen. Vragen als “wat houdt het in?”, “wat kan ik ermee?” en “hoe werkt het precies?” komen in dit blog aan bod.

Wat is clusteren?

Clusteren is een data analyse techniek die ervoor zorgt dat we meer inzicht krijgen in de data. Het is de taak van het verdelen van de populatie, of datapunten, in een aantal groepen (clusters) op zo’n manier dat de datapunten in dezelfde groep meer op elkaar lijken dan punten in een andere groep.  

Waarom Clusteren?

Een terechte vraag om te stellen is waarom we clusteren; wat is het nut van Clustering in de zorg? De eerste toepassing is om inzicht te krijgen in een (patiënt-/cliënt-) populatie: 

Hoeveel (verschillende) groepen kunnen er uit een grote mensenmassa worden gecreëerd en hoe zijn de karakteristieke van deze groepen.

In onderstaande visualisaties is deze informatie goed inzichtelijk. 

Met clustering in de zorg verdeel je de (anonieme) cliënt gebonden data in verschillende groepen.  Vooraf weet je niet hoeveel groepen er zijn. Data uit classificatie, klinimetrie, meetinstrumenten en cliënt kenmerken zijn goede datasets om te gebruiken. Denk aan bijvoorbeeld: ICPC, DVIE, BiTOmaha of NNN

Clustering in de zorg

In de linker grafiek zie je dat cliënten die behoren in cluster 6: Voeding, medicatie en urinewegproblemen ruim twee keer zo veel zorg nodig hebben dan cliënten in cluster 11: Geestelijke gezondheidszorg (voor de clustering in de zorg (Thuiszorg) maken we onder andere gebruik van Omaha System data).

Via de rechter grafiek in de afbeelding hiernaast zie je hoeveel cliënten er in elk cluster zitten.

Door deze grafieken te combineren kan je aantonen dat je gemiddeld meer cliënten met een hogere zorgvraag hebt ten opzichte van andere teams waardoor bijvoorbeeld een ruimere formatie nodig is.

Voorspellen als stap na clusteren

Clustering in de zorg geeft inzichten die dus direct van toegevoegde waarde zijn op de werkvloer. We kunnen het ook gebruiken als middel voor een volgende stap: voorspellen. 

In de ideale wereld zou je een voorspelling of een uitspraak willen doen over individuele cliënten. Stel dat je de zorgvraag voor een volgend kwartaal voor een cliënt wil voorspellen. Wanneer je dit voor een individu doet loop je al snel tegen een probleem aan: voor de voorspelling ben je vaak afhankelijk van de eerdere zorgvraag van deze cliënt. Deze informatie moet echter wel beschikbaar zijn. Bij een cliënt die pas sinds kort zorg ontvangt, of een cliënt die nieuw in zorg is, heb je deze voorgeschiedenis niet. Doordat deze gegevens niet beschikbaar zijn zal de voorspelling meer willekeurig zijn.

“Hoe meer data er beschikbaar is, hoe nauwkeuriger de voorspelling zal worden”.

Omdat het niet wenselijk is eerst de cliënt een jaar zorg te verlenen om data te vergaren en zo een accurate voorspelling te maken, kijken we naar hoeveel uur vergelijkbare cliënten hebben ontvangen. Het doel van clusteren is dus tweeledig:

  • Het kan gebruikt worden om inzicht te krijgen in de cliëntpopulatie;
  • Het kan gebruikt worden als tussenstap om daarna iets over de specifieke groepen te analyseren en te kunnen zeggen.

 

Type clustering

Er zijn verschillende soorten clustering. De twee belangrijkste zijn:

1.     Middelpunt clusteren: in dit type clusteren worden de groepen gemaakt op basis van het middelpunt van de groepen. Een voorbeeld hiervan is K-means clusteren.

2.     Hiërarchisch clusteren: in dit type clusteren worden de clusters gevormd door een serie van partities om tot de uiteindelijke clusters te komen. Er wordt hier gebruik gemaakt van een boom structuur.

K-Means clusteren
K-means is een middelpunt-gebaseerd algoritme waar de afstanden van het middelpunt van een cluster tot alle andere punten wordt gemeten. Het voornaamste doel van het algoritme is de gezamenlijke afstand van de punten tot het middelpunt te minimaliseren.  

Stel je hebt een niet gelabelde dataset zoals deze hieronder en je wil de data groeperen in clusters. Van te voren moet het aantal clusters worden bepaald. Om dit te bepalen worden meerdere opties geprobeerd dus bijvoorbeeld van 2 tot 10 clusters en wordt gekeken welk aantal het beste werkt. Hierbij moet de afweging worden gemaakt tussen het aantal clusters en de scheiding van de punten. Hoe meer clusters er worden gebruikt hoe beter de clusters worden gedefinieerd: ze worden namelijk steeds specifieker, waardoor je uiteindelijk maar een aantal punten in een cluster over hebt. Dit wil je natuurlijk voorkomen.

Proces van K-Means clusteren

Het proces van K-Means clusteren wordt met behulp van onderstaande plaatjes duidelijker uitgelegd. K-Means is een iteratieve methode. Dit betekent dat bepaalde stappen meerdere malen achter elkaar worden uitgevoerd tot de beste splitsen is bereikt. Het algoritme begint met een initialisatie stap:

Initialisatie stap

In deze stap worden twee willekeurige punten als het middelpunt van de clusters gezien (de twee kruizen in bovenstaand plaatje). Voor alle punten wordt de afstand tot beide middelpunten berekend. De punten worden ingedeeld bij de kleur (oranje/blauw) waarvoor deze afstand minimaal is. Hieruit ontstaat het volgende plaatje:

Stap 1

Het initiële middelpunt komt niet meer overeen met het daadwerkelijke middelpunt. Het wordt opnieuw berekend en de punten worden weer herverdeeld over de twee clusters:

Stap 2

Dit proces wordt herhaald tot er uiteindelijk geen verbetering is te vinden:

Laatste stap

Wat is hiërarchisch clusteren

Hiërarchisch clusteren pakt het op een andere manier aan. In plaats van gelijk een splitsing te maken in het aantal clusters wordt alle combinaties van clusters getoond. Ook dit algoritme werkt iteratief en kan als volgt worden beschreven: alle punten hebben in het beginsel een eigen cluster. Nu wordt gekeken welke twee punten het dichts bij elkaar liggen. Deze punten worden samengevoegd tot een cluster (zie ‘Stap 1’).

Stap 1

Dit proces wordt herhaald tot er uiteindelijk geen verbetering is te vinden:

Stap 2

Dit proces wordt net zo lang herhaald totdat alle punten uiteindelijk in een enkel cluster zitten. Hierdoor ontstaat er een mooie boomstructuur, een zogenaamde dendrogram:

Dendrogram

Met behulp van deze boom kan het gewenste aantal clusters worden gekozen door de boom horizontaal af te kappen. Als men bijvoorbeeld kiest voor drie clusters wordt de boom op de hierboven manier afgekapt:

“de resulterende clusters zijn dan de groepen in het oranje, groene en rode gebied”.

Het grote voordeel van deze manier van clusteren ten opzichte van K-Means is dat het aantal clusters niet van te horen hoeft te worden bepaald, die kan namelijk worden bepaald nadat de boom gecreëerd is en kan op basis van de dendrogram makkelijk worden aangepast.

Bij K-Means worden vaak een handvol waardes voor het aantal clusters geprobeerd waarna wordt gekeken welke het best resultaat geeft. Het voordeel van K-Means is dan weer dat het goed werkt met grote datasets: naarmate de datasets groter worden krijgt de hiërarchische clustering steeds meer moeite om de clusters te maken. Dit is natuurlijk goed voor te stellen aangezien bij iedere iteratie wordt gekeken welke twee punten samengevoegd kunnen worden. Voor iedere iteratie moeten dus weer alle punten na worden gegaan wat veel tijd kost.

Conclusie

In deze blog over clustering in de zorg hebben we veel gestelde vragen over clusteren beantwoord en hebben we twee cluster algoritmes uitgelegd. Zoals is te lezen is clusteren een heel handige methodiek om te beheersen. Je kan het zowel gebruiken om inzichten te krijgen in je (patiënt-/cliënt-) populatie als het groeperen van cliënten om zo meer informatie te gebruiken in eventuele voorspellingen.

Concrete toepassingen

EscuLine heeft 2 concrete toepassingen met clustering van data in de Gehandicaptenzorg en Thuiszorg

Er zijn natuurlijk nog veel meer opties en aangezien elke organisatie anders is, vraagt dat soms ook om oplossingen op maat. Wij gaan graag het gesprek hierover met je aan wat we voor jouw organisatie kunnen betekenen. 

Ben je na het lezen van deze blog geïnteresseerd en zou je eens met Joost van gedachten willen wisselen? Neem contact op via: contactformulier of info@esculine.nl