Samenvatting: Vier grote dingen tegelijk deze week. Anthropic lanceerde donderdag Claude Opus 4.8 voor dezelfde prijs als Opus 4.7. Het model bekent vaker dat het iets niet zeker weet, een eigenschap die je in juridisch en financieel werk goud waard vindt. OpenAI diende vertrouwelijke IPO-papieren in bij de SEC, met een waardering tussen $852 miljard en $1 biljoen en mogelijk september als notering. Een intern OpenAI-reasoning-model weerlegde een wiskundig vermoeden uit 1946 dat 80 jaar lang openstond. En Anthropic's Project Glasswing meldde 10.000 kritieke vulnerabilities gevonden in één maand, met Cloudflare alleen al goed voor 2.000 vondsten. Daarnaast: Codex Goal Mode is officieel productie-klaar, Anthropic opent een kantoor in Seoul en xAI rolde Custom Skills uit. Voor jou als zakelijke gebruiker telt vooral één ding: dit zijn geen demo's meer. Het is werk dat dagelijks doorgaat.

Claude Opus 4.8: gelijke prijs, eerlijker model

69,2% op agentic coding en vier keer minder kans op een gemiste fout

Anthropic lanceerde Opus 4.8 op 28 mei. Prijs ongewijzigd: $5 per miljoen input-tokens, $25 output, $10/$50 voor fast-mode. De eigenlijke verandering is gedragsmatig. Opus 4.8 trekt vaker zelf de rem als een antwoord onzeker is, in plaats van zelfverzekerd door te gaan.

De benchmarks ondersteunen dat. Agentic coding klimt van 64,3% naar 69,2%. Multidisciplinair redeneren met tools gaat van 54,7% naar 57,9%. Online-Mind2Web staat nu op 84%. Op code-review scherper nog: vier keer minder kans dat een fout doorschuift zonder melding.

Anthropic omschrijft het nuchter:

"It builds on Opus 4.7 with improvements across benchmarks, and is a more effective collaborator."

— Anthropic, officiële aankondiging

In Claude Code landde tegelijk dynamic workflows als research preview, voor Enterprise-, Team- en Max-plannen. Claude plant daarin zelf een opdracht en laat honderden subagents parallel werken.

"Claude can plan the work and then run hundreds of parallel subagents in a single session."

— Anthropic, over dynamic workflows

Simon Willison: "tastbaar beter" en toch een haperende eerste dag

Simon Willison, doorgaans kritisch op AI-marketing, oordeelde ditmaal opvallend positief. Hij noemde het:

"a modest but tangible improvement on its predecessor"

— Simon Willison, review

Willison wees op één specifieke verandering: Opus 4.8 is "more likely to flag uncertainties about its work and less likely to make unsupported claims". Precies de eigenschap die hij in vorige releases miste.

Eerste-dag klachten waren er ook. Gebruikers meldden in een Ask HN-thread trage tool-calls en file-read fouten. Herkenbaar patroon: capaciteit schaalt altijd ná de vraag.

Voor jou: zet Opus 4.8 op high-stakes werk

Drie stappen deze week. Eén: zet Opus 4.8 als default voor juridisch, financieel en compliance-werk. Een model dat "ik weet het niet" zegt is daar meer waard dan procenten extra op een benchmark. Twee: zet de effort-instelling op laag voor routinetaken, Opus 4.8 staat default op high effort en kan duurder uitvallen dan je verwacht. Drie: vraag je accountmanager nu om toegang tot dynamic workflows in research preview. Wachten tot het algemeen beschikbaar is, betekent wachten tot de capaciteit volstroomt.

OpenAI naar de beurs met $1 biljoen ambitie

$852 miljard tot $1 biljoen, september als doelmoment

OpenAI diende op 22 mei een vertrouwelijke S-1 in bij de SEC. Goldman Sachs en Morgan Stanley treden op als lead underwriter. Waarderingsbandbreedte: $852 miljard tot $1 biljoen. Doelmoment: september 2026.

De aanvraag volgt op de grootste private fundraising ooit, $122 miljard in maart, en op de juridische herstructurering naar een public benefit corporation. Microsoft houdt circa 27%, de OpenAI Foundation 26%.

Sam Altman tempert intern de verwachtingen:

"filing for an IPO is different from being ready"

— Sam Altman, CEO OpenAI (Fortune)

Het bedrijf staat op circa $25 miljard annual recurring revenue, met bijna $6 miljard in Q1. Het is nog verlieslatend, heeft interne targets gemist, en executives maken zich zorgen over de financiering van toekomstige compute-contracten.

Eén biljoen waardering, drie onbeantwoorde vragen

Investeerders en analisten stellen drie vragen die de S-1 nu nog niet beantwoordt. Hoe snel verbrandt OpenAI nog geld? Wat betekent de public benefit corporation-structuur voor aandeelhoudersrechten? En rechtvaardigt $1 biljoen zonder winstgevendheid een beursnotering?

Fortune noemde de S-1 het document dat investeerders eindelijk inzicht geeft in de unit economics van model-serving, het getal dat de hele industrie nu probeert te raden.

Voor jou: bouw een prijsscenario van +25% in

Voor je leverancierscontract verandert er op korte termijn niets. Maar drie dingen verschuiven zodra de S-1 publiek wordt. Eén: prijsverhogingen worden waarschijnlijker. Publieke aandeelhouders eisen marge, en model-serving is structureel verlieslatend. Twee: enterprise-contracten worden voorspelbaarder, OpenAI wil langetermijn-omzet aantonen aan investeerders. Drie: leveranciersrisico wordt eindelijk inzichtelijk. Een S-1 dwingt openheid over compute-afhankelijkheid, klantconcentratie en lopende rechtszaken. Overweeg je een drie-jaarscontract? Reken door wat een prijsstijging van 25% doet met je business case.

Een AI weerlegt een 80-jarig wiskundeprobleem

Het Erdős unit-distance-vermoeden valt

Op 22 mei publiceerde OpenAI dat een intern reasoning-model autonoom het unit-distance-vermoeden van Paul Erdős uit 1946 weerlegde. Het probleem: gegeven n punten in een vlak, wat is het maximale aantal puntenparen op exact afstand 1? Bijna 80 jaar lang dachten wiskundigen dat de optimale configuratie lijkt op een vierkant rooster. Het model vond een nieuwe familie aan constructies via Golod-Shafarevich-theorie die polynomiaal beter scoort, concreet n^(1+δ) paren voor een vaste δ > 0.

OpenAI vat de doorbraak puntig samen:

"For nearly 80 years, mathematicians believed the best possible solutions looked roughly like square grids. An OpenAI model has now disproved that belief, discovering an entirely new family of constructions that performs better."

— OpenAI, officiële aankondiging

Belangrijk detail: het ging niet om een wiskunde-specifiek systeem, en ook niet om zwaar gescaffolde proof-search. Een general-purpose reasoning-model loste dit op. De externe verificatie kwam van Noga Alon, Melanie Wood en Thomas Bloom, dezelfde wiskundigen die OpenAI in oktober 2025 publiekelijk corrigeerden over een eerdere, onterechte Erdős-claim.

W.T. Gowers bevestigt: "for real this time"

Eerst: scepsis. Is het proof echt autonoom? Hoe verifieerbaar is het? Die twijfel verdampte toen Fields Medal-winnaar W.T. Gowers de proof publiek bevestigde op X. TechCrunch kopte expliciet "for real this time", een directe sneer naar OpenAI's blunder van oktober 2025.

Thomas Bloom, een van de externe reviewers, vatte de bredere implicatie zo:

"AI is helping us to more fully explore the cathedral of mathematics we have built over the centuries. What other unseen wonders are waiting in the wings?"

— Thomas Bloom, wiskundige (TechCrunch)

Voor jou: zoek je eigen Erdős-probleem

Dit is geen productnieuws. Het is iets belangrijker. Tot deze week was "AI helpt onderzoek sneller" het plafond. Vanaf nu is "AI lost een probleem op waar mensen op vastliepen" een reëel, al is het zeldzaam, resultaat.

Werk je in farma, materiaalkunde, logistieke optimalisatie of financiële modellering? Stel je hardnekkigste open vragen op een rij. Welke vragen vragen om een combinatorisch optimum waar mensen niet uitkomen? Test daar één of twee van met een reasoning-model. Niet alles is een Erdős-probleem. Maar je weet pas welke wel zijn als je het probeert.

Glasswing vindt 10.000 vulnerabilities in een maand

Cloudflare rapporteert tienvoudige toename in vondst-snelheid

Anthropic publiceerde op 22 mei een update over Project Glasswing. Vijftig partner-organisaties werken mee. In één maand ontdekte Claude Mythos Preview meer dan 10.000 hoge- of kritieke vulnerabilities. Cloudflare meldde 2.000 bugs in eigen kritieke systemen. De snelheid waarmee vondsten binnenkomen, steeg tienvoudig.

De partners formuleerden het zo:

"Progress on software security used to be limited by how quickly we could find new vulnerabilities. Now it's limited by how quickly we can verify, disclose, and patch them."

— Project Glasswing partners (Anthropic)

Anthropic was eerlijk over wat dit vraagt van de bredere industrie:

"There is a clear need for a larger effort across the software industry to manage the volume of findings that these models will generate."

— Anthropic (Anthropic)

Drie vragen die de security-gemeenschap niet loslaat

Bij de aankondiging rezen direct drie vragen (discussie). Eén: hoeveel van die 10.000 vondsten zijn echte bugs en hoeveel is ruis? Twee: hoe verwerken kleine open-source maintainers, soms één of twee vrijwilligers, een tienvoud aan disclosures? Drie: als Glasswing 10.000 bugs vindt met goede bedoelingen, hoeveel vinden anderen dan met slechte?

De tech-pers had bij schrijven nog geen uitgebreid stuk. Dat is normaal voor security-onderzoek van deze omvang.

Voor jou: korter patch-window, betere SBOM

Drie concrete stappen deze maand. Eén: kort je patch-window in. Werk je nu met 30 dagen tussen disclosure en productie-update? Dat ga je merken, vulnerabilities komen sneller binnen. Twee: zorg dat je SBOM klopt en actueel is. Een software bill of materials laat je in uren zien welke componenten geraakt zijn, niet in weken. Drie: als je zelf software bouwt en levert, zet dan nu AI-assisted review op je shortlist. De tienvoudige toename bij Cloudflare is een meting van wat partners daadwerkelijk haalden, geen marketingclaim.

De stille launch: Codex Goal Mode is productie-klaar

OpenAI's agentic developer-tool Codex zette "Goal Mode" op 22 mei naar General Availability, beschikbaar in de Codex-app, IDE-extensie en CLI. Twee features landden tegelijk. Appshots: dubbele Command-toets injecteert het frontmost macOS-window in een Codex-thread. Locked Computer Use: Codex werkt door op een Mac met vergrendeld scherm, inclusief remote trigger vanaf je telefoon (Releasebot).

In de praktijk: in plaats van Codex één instructie geven en wachten, geef je een doel. Het systeem werkt zelf door, over sessie-onderbrekingen, token-budgetresets en interrupties heen. TechJack wijst op het marktsignaal achter GA-status: "the vendor is telling the market it's ready for production workloads, not just experimentation."

Geen grote commotie in de community bij deze release. Wel een breder beeld: vier labs racen nu om de agentic developer-stack. Anthropic vernieuwde in week 20 de Claude Code desktop app. xAI lanceerde op 14 mei Grok Build 0.1. Google introduceerde Antigravity 2.0 op I/O. Nu legt OpenAI de productie-vlag op zijn agent.

Voor jou: drie veiligheidsregels als je dit nu in pilot zet. Eén: laat agents werken in branches, nooit direct in main. Een agent die "doorwerkt" terwijl je scherm vergrendeld is, kan ook door zijn budget heen werken. Twee: koppel een hard token-budget per goal en check je uitgaven dagelijks. Productie-klaar betekent niet kosten-vrij. Drie: gebruik GA-status als argument om eindelijk een review-policy voor AI-gegenereerde code op te stellen. Niet ad-hoc per PR.

Verder deze week

Anthropic opent kantoor in Seoul. Op 27 mei benoemde Anthropic Choi Ki-young als eerste Country Manager van Anthropic Korea (Anthropic). Hij komt van Snowflake en was eerder country lead bij Google Cloud, Adobe en Autodesk Korea, en COO bij Microsoft Korea. Claude-gebruik in Zuid-Korea ligt op 3,5x het verwachte niveau voor de bevolkingsomvang. SK Telecom koos eerder dit jaar Claude voor een custom AI customer service-model.
xAI lanceert Custom Skills. Op 26 mei verscheen Custom Skills voor Grok (Basenor): hergebruikbare, gepersonaliseerde taken die in seconden te configureren zijn. Tagline: "Create 'em in seconds, use 'em daily." Op 22 mei breidde xAI ook zijn connector-ecosysteem uit met Vercel, Canva, Gamma en S&P Global.
OpenAI partnert met Singapore en Malta. Twee landenpartnerschappen rond ChatGPT-toegang, net buiten de scan-window (20 mei). Past in dezelfde Aziatische lijn als Anthropic Korea.
Stil deze week: Meta AI bracht binnen deze week geen relevante frontier-aankondiging naar buiten. Google publiceerde alleen kleinere updates rond zijn Gemini-app, I/O 2026 was vorige week.

De rode draad van deze week

Vier grote dingen tegelijk, en ze wijzen allemaal dezelfde kant op. Opus 4.8 voor dezelfde prijs als 4.7. Een IPO-aanvraag richting $1 biljoen. Een wiskundig vermoeden uit 1946 dat valt. En 10.000 vulnerabilities gevonden in een maand. Geen demo's. Geen beloftes. Werk dat klaar is, of dat dagelijks doorgaat.

Drie concrete gevolgen voor je organisatie:

Eerlijkheid is een productiekenmerk geworden. Een model dat "ik weet het niet" zegt is in juridisch, financieel en compliance-werk meer waard dan een paar extra benchmark-procenten. Test of Opus 4.8 jouw hallucinatie-problemen oplost, gratis upgrade.
Modelprijzen worden voorspelbaarder, en dat is geen goed nieuws. OpenAI's IPO-traject betekent dat publieke aandeelhouders marge eisen. Wie nu een meerjarig contract tekent, rekent er goed aan een prijsstijgingsscenario van +25% door te voeren.
Security-werk verandert dit kwartaal. Als je open-source componenten gebruikt, dat doet bijna elke organisatie, krimpt het venster tussen disclosure en patch. Zorg dat je SBOM klopt en dat je patchproces korter is dan een maand.

Volgende Stap

De vier grote ontwikkelingen van deze week veranderen wat er kan in jouw organisatie. Ze veranderen ook waar je controle moet zetten: op governance, op kosten en op patchen. Wij helpen je dit nieuws vertalen naar concrete, onafhankelijke stappen voor adoptie, los van welk lab je kiest.

→ Plan een AI Strategie Sessie of bekijk onze workshops voor teams.

Dit is de wekelijkse AI Nieuws-rubriek van AI Centrum Nederland. Volg de blog om elke week op de hoogte te blijven.

AI Nieuws Week 22 2026: Claude Opus 4.8, OpenAI naar de beurs en AI weerlegt een 80-jarig wiskundeprobleem