Samenvatting: Anthropic publiceerde een opvallend openhartig stuk over recursieve zelfverbetering, het moment waarop een AI-systeem zijn eigen opvolger ontwerpt en traint. Zover is het nog niet, maar met publieke benchmarks én interne cijfers laat het lab zien dat AI de ontwikkeling van AI nú al versnelt. Ruim 80% van Anthropic's productiecode wordt inmiddels door Claude geschreven, een typische engineer voegt 8x meer code per kwartaal toe dan in 2024, en de tijdsduur van taken die AI betrouwbaar afmaakt verdubbelt elke vier maanden. Anthropic schetst drie scenario's voor wat er daarna gebeurt. Wij lopen ze langs en vertalen ze naar wat het voor jouw organisatie betekent, los van het science-fiction-gehalte van het onderwerp.

Waar dit stuk eigenlijk over gaat

Anthropic delegeert steeds meer van zijn eigen ontwikkelwerk aan AI. De vraag die het lab hardop stelt is wat er gebeurt als die lijn doorgetrokken wordt: een AI-systeem dat zelf het volgende, betere AI-systeem ontwerpt en traint. Dat heet recursieve zelfverbetering, een loop die zichzelf versnelt.

Het stuk is geen aankondiging dat dit gebeurd is. Het is iets nuchterders en daarom interessanter: een poging om met cijfers te onderbouwen hóe ver de automatisering van AI-ontwikkeling al is. Anthropic tekent daarbij een tijdlijn die de meeste mensen herkennen:

2021–2023: mensen schrijven de code, met de hand.
2023–2025: chatbots leveren snippets, die je zelf in je editor plakt.
2025–2026: agents schrijven en bewerken zelfstandig bestanden.
Vandaag: agents voeren code autonoom uit en delegeren werk van meerdere uren aan andere agents.
Daarna: agents die zelf modellen bouwen en trainen, de loop sluit zich.

De dubbele boodschap is eerlijk. Een AI die zichzelf verbetert kan enorme winst opleveren in wetenschap en zorg. Maar een volledig sluitende loop vergroot ook het risico dat we de controle over die systemen verliezen. Vandaar dat security, monitoring en het sturen van gedrag in hetzelfde stuk net zoveel aandacht krijgen als de capaciteiten.

De cijfers: AI versnelt AI al

Het overtuigendste deel zijn niet de scenario's, maar de metingen. Twee daarvan komen rechtstreeks uit Anthropic zelf.

Code per persoon per kwartaal, van Q2 2021 tot Q2 2026, met de releasedata van acht Claude-modellen. De laatste balk staat op 8,0× het gemiddelde van vóór 2025.

De eerste grafiek toont de hoeveelheid code die een engineer per kwartaal samenvoegt, afgezet tegen het gemiddelde van vóór 2025. Jarenlang schommelt die lijn rond de 1×. Vanaf de lancering van Claude Code (februari 2025) loopt hij op, 1,2×, 1,5×, 1,9×, en in 2026 schiet hij door naar 5,8× en 8,0×. Ruim 80% van de productiecode wordt nu door Claude geschreven; mensen reviewen en sturen.

Eén kanttekening hoort erbij, en Anthropic maakt hem zelf: regels code meet kwantiteit, geen kwaliteit. Die 8x overschat de echte productiviteitswinst waarschijnlijk. Maar dat er een meetbare versnelling is, staat los van de exacte factor.

Success-rate van Claude Code-sessies op vier soorten taken, triviaal, routine, substantieel en open vraagstukken, over zes modelversies. De lijn voor open vraagstukken stijgt het sterkst.

De tweede grafiek laat zien dat het niet alleen om volume gaat. Het slagingspercentage van Claude op steeds moeilijker werk stijgt over de hele linie. Op de zwaarste categorie, open, niet-afgebakende vraagstukken, ging het in een half jaar tijd met zo'n 50 procentpunt omhoog, tot rond de 76%. Anthropic noemt een voorbeeld: een crash in een trainingsjob die tienduizenden jobs raakte, door Claude in ongeveer twee uur teruggebracht tot één obscure flag, werk dat een mens normaal twee à drie dagen kost.

Niet alleen code, ook onderzoeksoordeel

Code schrijven is één ding. Het verraderlijke deel van onderzoek is oordeelsvermogen: welke experimenten verdienen het om te draaien, welk resultaat is te vertrouwen, welke route is een doodlopende weg. Lang was dat het exclusieve terrein van de mens. Ook daar verschuift iets.

Staafdiagram 'Where a researcher went wrong, could Claude have done better?', het percentage gevallen waarin de suggestie van het model die van de mens verslaat, stijgt van 22% naar 64% over negen modelversies, met een praktisch plafond van 90%.

Anthropic nam echte onderzoekssessies door en zocht de momenten op waar een mens een verkeerde afslag nam. Daarna vroeg het verschillende Claude-modellen wat zíj als volgende stap zouden kiezen, en liet een onafhankelijke beoordelaar bepalen wie het beter deed. De uitkomst: van 22% bij een ouder model naar 64% bij de nieuwste preview. In bijna twee op de drie gevallen koos het model een betere volgende stap dan de menselijke onderzoeker op dat punt deed.

Belangrijk: dit meet alleen de gevallen waarin de mens ruimte liet voor verbetering, en mensen kozen vooraf het probleem en de meetlat. Binnen die grenzen is de trend duidelijk. Het "onderzoeksgevoel" dat we als typisch menselijk zagen, blijkt langzaam te leren.

De drie scenario's

Anthropic weigert te doen alsof de toekomst vaststaat en schetst er drie.

1. De trend vlakt af. Wat exponentieel lijkt, is misschien een S-curve die tegen zijn plafond loopt. Of niet de intelligentie maar de toelevering, chips, stroom, netcapaciteit, wordt de rem. Zelfs dán verandert er veel: bevroren modellen vonden in weken tijd duizenden ernstige kwetsbaarheden, en teams van honderd mensen doen het werk van duizend. Anthropic acht dit scenario het minst waarschijnlijk, maar het geeft de samenleving de meeste tijd om zich aan te passen.

2. De efficiëntiewinst stapelt door. AI-ontwikkeling wordt grotendeels geautomatiseerd, mensen sturen en beoordelen. Organisaties worden exponentieel efficiënter. Anthropic noemt dit het meest waarschijnlijke scenario, met een belangrijke nuance: de wet van Amdahl. Het tempo van het geheel wordt bepaald door het traagste, niet-versnelde onderdeel. Bij Anthropic is dat nu al de menselijke code-review: Claude schrijft sneller dan mensen kunnen nakijken. Het herkennen en wegnemen van zulke flessenhalzen wordt misschien de waardevolste vaardigheid die er is.

3. Volledige recursieve zelfverbetering. Systemen ontwerpen en verfijnen zichzelf; mensen schuiven door naar toezicht en verificatie van AI-gedreven "virtuele labs". Hier wordt het echt onzeker, inclusief de vraag of zulke modellen voldoende aligned blijven. Ook in dit scenario geldt Amdahl: de echte wereld, klinische trials, verkiezingen, vertrouwen tussen mensen, versnelt niet mee met de rekenkracht.

Voor jou: vier dingen die nu al tellen

Dit klinkt als verre toekomst, maar drie van de vier lessen zijn vandaag al praktisch.

Review wordt je flessenhals, niet productie. Als AI sneller produceert dan jouw mensen kunnen beoordelen, verschuift de bottleneck naar het oordeel. Richt je processen daarop in: wie controleert, op basis van welke criteria, en hoe houd je dat tempo bij? Investeer in beoordelingscapaciteit, niet alleen in productiecapaciteit.
Oordeelsvermogen is je schaarse goed. De grafiek over onderzoeksgevoel laat zien dat zelfs "smaak" langzaam automatiseerbaar wordt, maar voorlopig blijft het de menselijke voorsprong. Zet je beste mensen op de vraag welk werk de moeite waard is, niet op het uitvoeren ervan.
Governance is geen sluitstuk. Anthropic zet security, monitoring en het kunnen pauzeren van ontwikkeling op gelijke hoogte met capaciteit. Doe hetzelfde op jouw schaal: leg vast wat AI doet, wie verantwoordelijk is, en hoe je ingrijpt als het misgaat, vóór de uitrol, niet erna.
Houd je leveranciersafhankelijkheid verhuisbaar. Hoe sneller deze labs bewegen, hoe meer je afhangt van hun keuzes. Houd je logica en data in een laag die je kunt meenemen, zodat een koerswijziging bij je leverancier een verhuizing is en geen herbouw.

De grote lijn: je hoeft niet te geloven dat scenario 3 morgen gebeurt om vandaag iets met dit stuk te doen. Scenario 2, samengestelde efficiëntiewinst met de mens als regisseur, is al bezig. De winnaars zijn niet de organisaties met de slimste tools, maar die met het scherpste oordeel over waar die tools op losgelaten worden.

Volgende Stap

Recursieve zelfverbetering is een groot woord, maar de onderliggende verschuiving is concreet: productie wordt goedkoop, oordeel wordt schaars, en governance wordt het verschil tussen winst en risico. Wij helpen je deze ontwikkeling te vertalen naar nuchtere, onafhankelijke stappen, van het inrichten van je review- en governanceproces tot een leveranciersbeleid dat verandering overleeft.

→ Plan een AI Strategie Sessie of bekijk onze workshops voor teams.

Bron: Anthropic, "When AI builds itself, Our progress toward recursive self-improvement". De grafieken in dit artikel zijn afkomstig van Anthropic. Dit is een redactionele analyse van AI Centrum Nederland; volg de blog om op de hoogte te blijven.

Als AI zichzelf gaat bouwen: wat Anthropic's cijfers over recursieve zelfverbetering voor jou betekenen