"Het systeem werkt prima." Maar waar baseer je dat op?
In de zorg is onderbuikgevoel niet genoeg. Je hebt data nodig om te weten of AI-triage daadwerkelijk waarde toevoegt, en waar het beter kan. In dit artikel bespreek ik welke metrieken je moet meten, hoe je ze interpreteert, en hoe je een monitoring-dashboard opzet dat je praktijk daadwerkelijk helpt.
Waarom meten cruciaal is
Zonder metrieken weet je niet:
- •Of het systeem beter presteert dan handmatige triage
- •Waar het systeem fouten maakt en waarom
- •Of triagisten het systeem vertrouwen en gebruiken
- •Of de investering zichzelf terugverdient
Meten is ook een vereiste van de EU AI Act voor hoog-risico systemen. Je moet kunnen aantonen dat het systeem naar behoren functioneert.
Nauwkeurigheidsmetrieken: sensitiviteit en specificiteit
Dit zijn de twee belangrijkste medische metrieken. Ze vertellen je hoe goed het systeem ziektes herkent versus hoe vaak het vals alarm slaat.
Sensitiviteit (recall)
Van alle werkelijk urgente gevallen, hoeveel herkent het systeem? Een sensitiviteit van 95% betekent dat 5 op de 100 urgente gevallen worden gemist. Bij triage wil je dit percentage zo laag mogelijk, liefst onder de 2%.
Specificiteit
Van alle niet-urgente gevallen, hoeveel classificeert het systeem correct als niet-urgent? Een specificiteit van 90% betekent dat 10 op de 100 niet-urgente gevallen onnodig worden geescaleerd. Dit kost capaciteit maar is minder gevaarlijk dan het omgekeerde.
| Metriek | Streefwaarde | Waarom |
|---|---|---|
| Sensitiviteit U1 | >98% | Levensbedreigende situaties mogen niet worden gemist |
| Sensitiviteit U2 | >95% | Spoedeisende gevallen vereisen hoge herkenning |
| Specificiteit | >85% | Voorkom onnodige escalaties, maar accepteer marge |
| Overeenstemming arts | >90% | AI moet vergelijkbaar zijn met menselijk oordeel |
Snelheidsmetrieken: responstijden
AI moet snel zijn, anders verliest het zijn waarde. Meet deze tijden continu:
- •Verwerkingstijd. Tijd van invoer tot classificatie. Streef naar onder 2 seconden.
- •Gemiddelde triagecyclus. Totale tijd inclusief menselijke review. Vergelijk met voor AI.
- •Wachttijd patient. Tijd tot eerste contact. Dit is wat patienten merken.
- •Piekbelasting. Prestatie tijdens drukke momenten. Blijft de snelheid stabiel?
Gebruikersmetrieken: adoptie en tevredenheid
Het beste systeem is waardeloos als niemand het gebruikt. Meet hoe triagisten met het systeem omgaan:
- •Override percentage. Hoe vaak wijzigen triagisten de AI-classificatie? Een hoog percentage (boven 20%) kan duiden op wantrouwen of een slecht presterend model.
- •Adoptiegraad. Welk percentage van de triages loopt via AI? Streef naar boven 80% binnen 3 maanden na implementatie.
- •Gebruikerstevredenheid. Periodieke korte enquetes. Simpele vraag: "Helpt het systeem je?"
- •Trainingseffectiviteit. Hoelang duurt het voor nieuwe medewerkers het systeem beheersen?
Bedrijfsmetrieken: kosten en capaciteit
Uiteindelijk moet AI-triage waarde opleveren. Meet de zakelijke impact:
- •Kosten per triage. Totale systeemkosten gedeeld door aantal triages. Vergelijk met kosten voor AI.
- •FTE-besparing. Hoeveel uren bespaart het systeem triagisten? Dit vrijgekomen tijd kan naar complexe gevallen.
- •Capaciteitstoename. Hoeveel meer triages kunnen jullie verwerken met dezelfde bezetting?
- •ROI. Terugverdientijd van de investering. Typisch 12-24 maanden bij goede implementatie.
Een praktisch dashboard opzetten
Een dashboard moet inzichtelijk zijn, niet overweldigend. Hier is een praktische indeling:
Dagelijks (operationeel):
- •Aantal triages vandaag
- •Gemiddelde verwerkingstijd
- •Override percentage
- •Systeem uptime
Wekelijks (kwaliteit):
- •Sensitiviteit per urgentieniveau
- •Trend in override redenen
- •Afwijkingen van verwachte verdeling
Maandelijks (management):
- •Kosten per triage vs. vorige maand
- •Capaciteitsbenutting
- •Gebruikerstevredenheidscore
- •Vergelijking met baseline (voor AI)
Kernpunten
- • Sensitiviteit voor urgente gevallen moet boven 95% liggen
- • Specificiteit voorkomt onnodige escalaties, streef naar boven 85%
- • Override percentage onder 20% duidt op vertrouwen in het systeem
- • Meet verwerkingstijd en vergelijk met handmatige triage
- • Een dashboard met dagelijkse, wekelijkse en maandelijkse metrics geeft volledig inzicht