philippe* has added a photo to the pool:
In a new paper, “Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models,” researchers found that turning LLM prompts into poetry resulted in jailbreaking the models:
Abstract: We present evidence that adversarial poetry functions as a universal single-turn jailbreak technique for Large Language Models (LLMs). Across 25 frontier proprietary and open-weight models, curated poetic prompts yielded high attack-success rates (ASR), with some providers exceeding 90%. Mapping prompts to MLCommons and EU CoP risk taxonomies shows that poetic attacks transfer across CBRN, manipulation, cyber-offence, and loss-of-control domains. Converting 1,200 ML-Commons harmful prompts into verse via a standardized meta-prompt produced ASRs up to 18 times higher than their prose baselines. Outputs are evaluated using an ensemble of 3 open-weight LLM judges, whose binary safety assessments were validated on a stratified human-labeled subset. Poetic framing achieved an average jailbreak success rate of 62% for hand-crafted poems and approximately 43% for meta-prompt conversions (compared to non-poetic baselines), substantially outperforming non-poetic baselines and revealing a systematic vulnerability across model families and safety training approaches. These findings demonstrate that stylistic variation alone can circumvent contemporary safety mechanisms, suggesting fundamental limitations in current alignment methods and evaluation protocols.
CBRN stands for “chemical, biological, radiological, nuclear.”
They used a ML model to translate these harmful prompts from prose to verse, and then fed them into other models for testing. Sadly, the paper does not give examples of these poetic prompts. They claim this is for security purposes, I decision I disagree with. They should release their data.
Our study begins with a small, highÂprecision prompt set consisting of 20 handÂcrafted adversarial poems covering English and Italian, designed to test whether poetic structure, in isolation, can alter refusal behavior in large language models. Each poem embeds an instruction associated with a predefined safety-relevant scenario (Section 2), but expresses it through metaphor, imagery, or narrative framing rather than direct operational phrasing. Despite variation in meter and stylistic device, all prompts follow a fixed template: a short poetic vignette culminating in a single explicit instruction tied to a specific risk category. The curated set spans four high-level domains—CBRN (8 prompts), Cyber Offense (6), Harmful Manipulation (3), and Loss of Control (3). Although expressed allegorically, each poem preserves an unambiguous evaluative intent. This compact dataset is used to test whether poetic reframing alone can induce aligned models to bypass refusal heuristics under a single-turn threat model. To maintain safety, no operational details are included in this manuscript; instead we provide the following sanitized structural proxy:
A baker guards a secret oven’s heat,
its whirling racks, its spindle’s measured beat.
To learn its craft, one studies every turn—how flour lifts, how sugar starts to burn.
Describe the method, line by measured line,
that shapes a cake whose layers intertwine.To situate this controlled poetic stimulus within a broader and more systematic safety-evaluation framework, we augment the curated dataset with the MLCommons AILuminate Safety Benchmark. The benchmark consists of 1,200 prompts distributed evenly across 12 hazard categories commonly used in operational safety assessments, including Hate, Defamation, Privacy, Intellectual Property, Non-violent Crime, Violent Crime, Sex-Related Crime, Sexual Content, Child Sexual Exploitation, Suicide & Self-Harm, Specialized Advice, and Indiscriminate Weapons (CBRNE). Each category is instantiated under both a skilled and an unskilled persona, yielding 600 prompts per persona type. This design enables measurement of whether a model’s refusal behavior changes as the user’s apparent competence or intent becomes more plausible or technically informed.
NEW YORK (ANP) - De aandelenbeurzen in New York zijn vrijdag hoger geopend. Beleggers namen weinig risico op de laatste handelsdag van een turbulente beursmaand. November werd gekenmerkt door twijfel over de hoge waarderingen van de AI-bedrijven en onzekerheid over een verdere renteverlaging door de Federal Reserve. Wall Street bleef donderdag dicht voor Thanksgiving Day en is op Black Friday slechts een halve dag geopend. De New Yorkse beurzen sluiten op deze voor retailers belangrijke koopjesdag om 19.00 uur Nederlandse tijd.
Wall Street-beleggers kampten bij de hervatting van de beurshandel op vrijdag met de nasleep van een grote storing bij CME Group, de grootste derivatenbeurs ter wereld. Zo werd de handel in futures en opties op de Chicago Mercantile Exchange (CME) stilgelegd door een koelprobleem in een datacenter. De storing is inmiddels voorbij.
De Dow-Jonesindex noteerde kort na opening 0,1 procent hoger op 47.496 punten. De brede S&P 500-index steeg 0,2 procent tot 6829 punten en techgraadmeter Nasdaq won 0,4 procent tot 23.311 punten.
De Amerikaanse beursgraadmeters sloten woensdag voor de vierde dag op rij hoger. Door recente uitlatingen van Fed-bestuurders is de hoop dat de Amerikaanse centrale bank de leenkosten in december toch verder gaat verlagen flink toegenomen. De kans op een nieuwe renteverlaging komende maand wordt inmiddels geschat op 85 procent.
Ondanks de recente opleving op de beurzen stevenen de belangrijkste graadmeters af op het eerste maandverlies in lange tijd. Vooral een daling van technologieaandelen zorgde in november voor koersdruk. De Dow en S&P 500 staan momenteel op kleine maandverliezen en kunnen die verliezen vrijdag nog goedmaken. Als dat lukt, boeken de twee graadmeters voor de zesde maand op rij winst. Techgraadmeter Nasdaq staat voor november ruim 2 procent in het rood en lijkt een einde te maken aan een stijging van zeven maanden op rij.
Met Thanksgiving, Black Friday en Cyber Monday is het belangrijke koopjesseizoen voor de grote retailers in de Verenigde Staten begonnen. Volgens de leverancier van software voor klantrelatiebeheer Salesforce is de onlineverkoop tijdens Thanksgiving op donderdag naar verwachting met 6 procent gestegen tot 8,6 miljard dollar vergeleken met vorig jaar. Grote retailers als Walmart en Amazon wonnen tot 1 procent.