Machine Learning: en vooral ook zelf blijven nadenken!

De zachte kant van Advanced Analytics

29 november 2019 werden weer de jaarlijkse Big Brother awards uitgereikt. De winnaar van de Expertprijs was SyRI, Systeem Risico Indicatie, een systeem om  uitkeringsfraude op te sporen. Hierbij werden ongericht gevoelige gegevens van burgers aan elkaar gekoppeld en aan de hand van een voorspelmodel werden daarbij huishoudens als ‘verdacht’ aangemerkt.

Hierbij wordt heel, heel veel data aan elkaar gekoppeld, zoveel zelfs dat de Raad van State in 2014 in haar negatieve advies over SyRI het volgende zei: “De opsomming (van persoonsgegevens) is zo ruim dat er nauwelijks een persoonsgegeven te bedenken is dat er niet onder valt”.

Alles op een hoop, de machine doet er wat mee

Bij SyRI wordt een methodiek gebruikt die Machine Learning heet. Stop zoveel mogelijk data in de machine, geef van een aantal gevallen aan waar je zeker bent van fraude en de machine gaat vervolgens zelf proberen deze zo goed mogelijk te voorspellen.

Omdat de machine veel data kan combineren met elkaar, komt er een algoritme uit rollen wat erg ingewikkeld is; we spreken dan van een black box methode. Dit algoritme kan dan over nieuwe gevallen heen gelegd worden, de gevallen die dan naar boven komen als mogelijk frauduleus worden geoormerkt als verdacht, en de ambtenaar kan met een lijst adressen op pad.

Self fulfilling prophecy

Wat hier, naast de duidelijke privacy bezwaren als eerste mis gaat, is de methodiek. Omdat er enkel reeds bekende frauduleuze gevallen (een uitzonderingssituatie) worden genomen, worden bestaande denkbeelden enkel versterkt.

Als voorbeeld: van 1000 uitkeringsgerechtigden zijn er 20 frauduleus. We weten dat er waarschijnlijk meer wordt gefraudeerd. Van die 20 rijden er 10 op een scooter. In de totale populatie zijn dit er 100. De scooterrijders zijn dus oververtegenwoordigd in de groep fraudeurs.

Als nu echter uit de black-box methode blijkt dat je dus door scooter te rijden een hogere kans hebt om fraudeur te zijn, wordt het scooter rijden an sich al verdacht.

Het gevolg: SyRI zegt dat scooterrijders eerder gecontroleerd moeten worden. De totaal honderd scooterrijders krijgen dus meer controles dan de niet-scooterrijders. Gevolg is dat er ook meer fraudegevallen gevonden zullen worden. Als je niet controleert, kan je immers ook geen fraude constateren. Hierdoor wordt het scooter rijden als nóg verdachter geoormerkt door het algoritme, en worden scooterrijders dus nog vaker gecontroleerd en zo herhaalt het proces zich.

Was scooter rijden dus in eerste instantie toevallig, nu wordt het opeens heel belangrijk, en dat klopt niet. De risicofactoren versterken zichzelf, en de fraudezaken die je in eerste instantie niet wist, ga je er nu ook niet uithalen. Een gelijke behandeling voor de scooterrijder is bij voorbaat al uitgesloten.

Glijdende schaal

Uit de grote variëteit van verschillende databronnen die gekoppeld mag worden, zie link voor meer informatie, kan ook een niet-aflatende honger naar data worden geconcludeerd.

Hierbij is er ook een duidelijk glijdende schaal. In het voorjaar van 2019 was ik op de HIMMS (een congres over digitale zorg), daar bleek dat in Finland (letterlijk!) alle  data die de overheid heeft, gekoppeld mag worden. Er werd daarbij terloops gemeld dat zaken als etniciteit en religie ook vaak als indicator worden meegenomen.

Als de eerste privacy-horde genomen is, is het dus een stuk makkelijker om ook de volgende te nemen.

Nog een voorbeeld is a.s.r. Vitality, waarbij meer korting op de zorgverzekering gegeven wordt naarmate men meer en meer data met het programma deelt.  Er wordt verteld dat deze data niet met de verzekeraar gedeeld wordt, maar wat er vervolgens niet gemeld wordt is dat het privacy-statement eenzijdig aangepast kan worden en dit dus in de toekomst wel kan.

Deze glijdende schaal is zeer gevaarlijk vanuit het privacy-oogpunt. Er zal bovendien vooral een beweging zijn richting het verzamelen van meer data.  Degene die het datamodel maakt, zal doorgaans geen genoegen nemen met minder data dan er voorheen was. Sterker: als een voorspelmodel niet voldoende accuraat is, is de meest gehoorde oplossingsrichting “we hebben meer data nodig”.

Het doel heiligt de middelen

Een andere genomineerde voor de Big Brother Expertprijs was ZonMW, met het programma ‘Kansrijke start voor kinderen met behulp van big data’. Daarbij werd, onterecht, een zuigeling uit huis gehaald, omdat het (gebrekkige) algoritme aangaf dat de ouders het kind ziek maakten.

Het algoritme was niet voldoende gevalideerd of zelfs maar gepubliceerd, maar omdat het als gave techniek gezien werd, is het toch doorgezet.

Advanced Analytics zelf moet nooit een doel zijn, en het doel moet ook duidelijk zijn van tevoren, en ethisch te verantwoorden zijn.

Leidt een project tot een verbetering van de efficiëntie van de zorg? Dan is dat heel goed! Maar kijk ook of er negatieve effecten kunnen optreden, bijvoorbeeld omdat de focus op een groep cliënten of patiënten komt, en er daardoor een risico ontstaat dat een andere groep mensen (te) weinig aandacht krijgt.

Conclusie

Advanced analytics is een methodiek die heel veel goeds kan brengen, maar houdt vooral de schaduwkant ook in de gaten.

Werk altijd vanuit data-minimalisatie, bekijk welke data er echt nodig is, en wat daarvan de privacy-impact is.

Houdt rekening met het doel:

  1. Is de data die je gebruikt wel geschikt hiervoor?
  2. Is het doel wel valide?
  3. Zijn er averechtse resultaten vanuit het model mogelijk?
  4. Is er een glijdende schaal in het gebruik van gevoelige data?
  5. En wat is de impact van de Advanced Analytics?

Worden bovenstaande vragen in positieve zin beantwoord: vraag het dan ook nog eens aan iemand die niet bij het project betrokken is. Is het antwoord dan nog steeds positief. Dan ga je heel veel plezier beleven aan innovatie.

Wil je meer weten over dit onderwerp? Dan kan je het contactformulier invullen via deze link.

Je vraag rechtstreeks aan Thijs stellen kan natuurlijk ook via de mail.