De publicatie “A roadmap for evaluating moral competence in large language models” in Nature deze maand bleef wat langer in mijn hoofd rondspoken.
Het startpunt van de publicatie is dat taalmodellen (large language models of LLM’s) steeds vaker worden gebruikt in situaties met een morele lading: advies, begeleiding, reflectie, soms zelfs als vervanging van menselijke expertise. En dan bijvoorbeeld in de vorm van een chatbot. Dat riep bij de auteurs de vraag op: is het wel terecht om te veronderstellen dat deze systemen moreel kunnen redeneren? En hoe kunnen we dat vaststellen? De auteurs maken daarbij een onderscheid tussen moral performance en moral competence. Een chatbot kan moreel overtuigend klinken, empathisch reageren en sociaal wenselijke antwoorden geven. Maar dat betekent nog niet dat het systeem moreel relevante overwegingen begrijpt of afweegt. Het kan net zo goed gaan om statistisch plausibele taalproductie.
Probleem 1: Het facsimile-probleem
Taalmodellen zijn ontworpen als next-token voorspellers. Dat betekent dat correcte antwoorden niet noodzakelijk voortkomen uit een intern redeneerproces dat structureel lijkt op menselijke redenering. Een model kan patronen reproduceren, betrouwbaar klinkende redeneringen genereren en ook redeneerstappen simuleren zonder bewijs dat de onderliggende mechanismen daadwerkelijk morele afwegingen representeren.
Daarom pleiten de auteurs voor adversarial testing: scenario’s die lijken op bekende morele casussen, maar waarin de normatieve structuur subtiel verandert. Zulke tests kunnen blootleggen of een model abstraheert of slechts herkent.
Probleem 2: Morele multidimensionaliteit + model-brittleness
Menselijke morele oordelen zijn contextgevoelig en afhankelijk van veel factoren tegelijk: principes, gevolgen, intenties, sociale rollen, maar ook irrelevante invloeden. Taalmodellen voegen daar een extra complicatie aan toe: “brittleness” (sorry, weet geen goede vertaling). Het betekent dat kleine wijzigingen in prompts (formulering, volgorde, labels, vraagtype) kunnen leiden tot andere morele conclusies, inconsistentie of soms zelfs tegengestelde antwoorden. Dit maakt traditionele goed/fout-evaluaties ontoereikend.
De voorgestelde oplossing van de auteurs is om parametrische evaluaties te gebruiken en te werken met acceptabele antwoord-ranges in plaats van binaire scores.
Probleem 3: Moreel pluralisme op wereldschaal
Er bestaat geen universeel moreel kader. Normen verschillen per cultuur, domein en waardensysteem. Van mensen verwachten we interne consistentie. Voor wereldwijd gebruikte AI-systemen is de eis anders: modellen moeten kunnen functioneren binnen meerdere legitieme morele kaders.
De publicatie introduceert daarom twee sleutelconcepten:
- Overton pluralism: meerdere redelijke antwoorden expliciteren
- Steerable pluralism: modelgedrag conditioneren op perspectief of waarden
Kernboodschap
De kernboodschap van het artikel is dat de vraag of een model werkelijk moreel redeneert een nieuw type benchmarks vereist.
Maar…
Dit gaat nog steeds uit van de veronderstelling dat het wellicht mogelijk is, dat het echt kan, dus niet uit van de aanname dat het taalmodellen zijn en simpelweg never nooit niet in staat zullen worden om echt moreel te redeneren. Want als dát je startpunt is, dan is dit hele onderzoek onzin en verspilling van middelen. Dan is de vraag namelijk niet hebben we wel de juiste meetinstrumenten om dat robuust te testen?
