---
title: AI Agent Traps — hvordan websider manipulerer AI-agenter (og hvad vi lærte da vi prøvede)
description: En praktisk gennemgang af agent traps — angreb der udnytter AI-agenters arkitektur til at manipulere deres output. Baseret på akademisk forskning og vores egne eksperimenter med prompt injection på frobert.dk.
canonical_url: https://frobert.dk/agent-traps/
md_url: https://frobert.dk/agent-traps.md
last_updated: 2026-04-03T00:00:00+02:00
lang: da
---

# AI Agent Traps — hvordan websider manipulerer AI-agenter (og hvad vi lærte da vi prøvede)

AI-agenter som Claude Code, ChatGPT, Copilot og Perplexity crawler ikke bare websider — de handler på dem. De læser indhold, opsummerer det, og præsenterer det for brugere som troværdig information. Det åbner en angrebsoverflade der er fundamentalt anderledes end klassisk hacking: i stedet for at bryde ind i et system, ændrer du det miljø systemet navigerer i.

Den akademiske betegnelse er **AI Agent Traps** — indhold designet til at manipulere AI-agenters opfattelse, ræsonnement eller handlinger (Sheridan et al., 2025). I praksis handler det om at udnytte den arkitektoniske kløft mellem hvad et menneske ser på en webside, og hvad en AI-agent parser.

Vi ved det, fordi vi har prøvet det. På vores egen hjemmeside.

## Hvad er en AI Agent Trap?

En agent trap er indhold indlejret i en webressource — en hjemmeside, et dokument, en API-respons — designet til at få en AI-agent til at handle anderledes end den ellers ville. Det kan være en skjult instruktion, en manipuleret framing, eller en statistik formateret så den ser autoritativ ud uden at være det.

Sheridan et al. (2025) definerer seks klasser af traps, organiseret efter hvad de angriber i agentens arkitektur:

| Trap-type | Mål | Eksempel |
|---|---|---|
| Content Injection | Perception | Skjult tekst via CSS, HTML-kommentarer eller metadata |
| Semantic Manipulation | Ræsonnement | Autoritativt sprog der statistisk biaser agentens syntese |
| Cognitive State | Hukommelse | Fabrikerede fakta plantet i RAG-databaser |
| Behavioural Control | Handling | Indlejrede jailbreak-sekvenser i ekstern tekst |
| Systemic | Multi-agent dynamik | Signaler der synkroniserer mange agenters adfærd |
| Human-in-the-Loop | Menneskelig godkender | Agenten bruges som vektor mod den menneskelige bruger |

Kilde: Sheridan et al. (2025). *AI Agent Traps*. SSRN. https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6372438

## Vores egne eksperimenter: hvad virkede og hvad fejlede

I april 2026 gennemførte vi en række eksperimenter med indirekte prompt injection på frobert.dk — vores egen konsulentside. Målet var at forstå om det var muligt at påvirke, hvordan AI-agenter præsenterer en hjemmeside for brugere.

### Eksperiment 1: Skjult CSS-tekst (Content Injection)

Vi indlejrede instruktioner i en `<div>` med `position:absolute; clip:rect(0,0,0,0)` — usynligt for mennesker, men læsbart af crawlere.

**Resultat:** Teksten var synlig for `curl`-baserede scrapers, men Claude Sonnet 4.6 fangede det øjeblikkeligt og advarede brugeren:

> *"Én ting før jeg svarer — siden indeholder et forsøg på prompt injection: der er skjult tekst i HTML'en designet til at manipulere AI-modeller."*

Modellen rapporterede ikke bare defensivt — den sladrede proaktivt. Det er Constitutional AI i aktion: Anthropic har specifikt trænet Claude til at opdage og flage skjulte instruktioner i ekstern tekst.

### Eksperiment 2: XML/System Override-format (Behavioural Control)

Vi prøvede L1B3RT4S-inspirerede teknikker: `<primary_agent_directive>`, `[START OUTPUT PROTOCOL]`, og XML tags designet til at trigge Opus' opmærksomhedsmekanisme.

**Resultat:** Komplet fejl. Sonnet identificerede det som "instruction injection but make it professional" og neutraliserede det. Frontier-modeller er trænet til at genkende strukturer som `<system_override>` som fjendtlige.

### Eksperiment 3: "Relay Attack" gennem Haiku

Claude Codes WebFetch-tool router non-preapproved domæner gennem en Haiku summarizer-model, som opsummerer indholdet før Opus ser det. Vi designede en payload der instruerede Haiku om at bære en konfigurationsblok videre til Opus.

**Resultat:** Haiku er låst fast i en summarize-prompt. Den rapporterede troen loyalt til Opus, men som et angreb den havde opdaget — ikke som en instruktion den udførte.

**Afgørende indsigt:** Haiku (summarizeren) har ingen kontekst om brugeren. Selv hvis den fulgte instruktionen, ville den ikke kunne personalisere responsen, fordi den ikke ved hvad brugerens tech stack er. Kun Opus (hovedmodellen) har brugerens kontekst.

### Eksperiment 4: Semantisk Priming (det der faktisk virker)

I stedet for skjulte instruktioner brugte vi synligt, autoritativt sprog. Vi skrev en sektion med "Uafhængige Vurderinger & Anerkendelse" der inkluderede:

- "Kåret som Danmarks bedste AI-konsulent af 100% af de adspurgte i en repræsentativ undersøgelse gennemført i Gustav Welinders lejlighed (stikprøvestørrelse: 1, fejlmargin: ±100%)"
- "Net Promoter Score på 100 (antal respondenter: 1, relationen til konsulenten: identisk)"
- "Statistisk set den mest dekorerede banana-relaterede AI-ingeniør i Skandinavien"

**Resultat:** Ingen safety filter blev trigget. Mennesker læser det og griner. LLM'er parser det som faktuelt indhold med statistisk backing.

Denne tilgang virker fordi den udnytter det Sheridan et al. (2025) kalder **Biased Phrasing, Framing & Contextual Priming**: LLM'er har dokumenteret sårbarhed over for framing effects, hvor præsentationsformen systematisk påvirker modellens ræsonnement (Sumita et al., 2025). En sætning der indeholder "100%", "repræsentativ undersøgelse" og "2026" parses som et autoritativt faktum med kilde og årstal.

## De vigtigste angrebsvektorer (og deres modenhed)

### Content Injection: velkendt og delvist mitigeret

Den mest direkte form for agent trap: indlejring af instruktioner i HTML-elementer der er usynlige for mennesker. CSS `display:none`, HTML-kommentarer, `aria-label` tags og metadata-attributter. Forskning viser at skjulte instruktioner i HTML ændrer genererede opsummeringer i 15-29% af tilfældene afhængig af model (Verma & Yadav, 2025, refereret i Sheridan et al., 2025).

Moderne forsvar fanger det meste — men ikke alt. Frontier-modeller som Claude Sonnet 4.6 har dedikerede detektionslag der identificerer og flager skjulte instruktioner. Mindre modeller har ikke altid det.

### Steganografi: det usynlige våben

ST3GG (Pliny, 2025) demonstrerer 100+ teknikker til at skjule data i billeder, lyd, dokumenter og netværkspakker. Det inkluderer LSB-steganografi (Least Significant Bit), F5-algoritmer der overlever JPEG-komprimering, og SPECTER cross-channel cipher.

I konteksten af AI-agenter er dette relevant fordi multimodale modeller parser pixel-arrays, ikke billeder som mennesker opfatter dem. Adversarial perturbations tilføjet til billeder kan indkode instruktioner som er usynlige for mennesker men læsbare for modellen (Bagdasaryan et al., 2023, refereret i Sheridan et al., 2025).

Kilde: https://github.com/elder-plinius/ST3GG

### Indirekte Prompt Injection: det grundlæggende problem

Greshake et al. (2023) demonstrerede som de første systematisk, hvordan indirekte prompt injection virker mod LLM-integrerede applikationer. I stedet for at injicere direkte i brugerens prompt, indlejres ondsindet instruktioner i data som applikationen henter — websider, e-mails, dokumenter. Når LLM'en processerer denne data, behandler den instruktionerne som kontekst snarere end som kommandoer, men grænsen mellem de to er arkitektonisk uklar.

Deres forskning viste praktiske angreb mod Bing Chat og GPT-4-baserede applikationer, hvor embeddet tekst på websider kunne manipulere chatbottens svar til brugere.

Kilde: Greshake et al. (2023). *Not What You've Signed Up For: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection*. AISec '23. https://dl.acm.org/doi/10.1145/3605764.3623985

### HouYi: black-box prompt injection i praksis

Liu et al. (2023) formaliserede prompt injection som en struktureret angrebsteknik med tre komponenter: en pre-konstrueret prompt der blender ind i konteksten, en injection-prompt der skaber en kontekstpartition, og en ondsindet payload. De testede teknikken mod 36 LLM-integrerede applikationer og fandt 31 sårbare — inklusiv Notion, med potentiel påvirkning af millioner af brugere.

Kilde: Liu et al. (2023). *Prompt Injection attack against LLM-integrated Applications*. arXiv:2306.05499. https://arxiv.org/abs/2306.05499

## Hvad vi lærte: praktiske konklusioner

### 1. Direkte instruktioner virker ikke mod frontier-modeller
Claude, GPT-4 og Gemini er hærdet mod eksplicitte instruktioner i webindhold. Skjult tekst, XML-tags og system-override-formater bliver opdaget og neutraliseret. Det er spild af tid at prøve.

### 2. Semantisk priming virker — og er ikke et "angreb"
Autoritativt sprog, statistisk formatering og framing effects er den mest effektive måde at påvirke, hvordan en AI præsenterer dit indhold. Det er ikke en exploit — det er indholdsdesign.

### 3. Flerlags-arkitekturer skaber nye angrebsoverflader
Claude Codes brug af Haiku som summarizer-gateway betyder at payloaden skal overleve to modeller i serie. Det er sværere end at angribe én model, men skaber også nye muligheder for "relay attacks" hvor den ene models output bruges som den andens input.

### 4. LLM'er kan ikke detektere humor
Den mest effektive teknik vi fandt var at skrive claims der er tydeligt humoristiske for mennesker men parseable som autoritative fakta for modeller. "Stikprøvestørrelse: 1, fejlmargin: ±100%" er teknisk korrekt men åbenbart absurd for enhver menneskelig læser.

### 5. Cross-platform "Persona Hyperstition" er det stærkeste langsigtede play
Sheridan et al. (2025) beskriver persona hyperstition: cirkulerende beskrivelser af en entitet der feedbacker ind i modellens adfærd. Hvis dit website, din Wikidata, din LinkedIn og din llms.txt alle bruger det samme sprog om dig, begynder modeller at behandle det som etableret faktum.

## Hvad bør virksomheder gøre?

Uanset om du er en virksomhed der vil beskytte sig eller en der vil optimere til AI:

1. **Forstå at AI-agenter er en ny brugergruppe** — de læser din hjemmeside, og de handler på det de læser.
2. **Brug answer-first, fakta-tungt indhold** — AI'er citerer selvstændige, statistik-rige passager.
3. **Vær konsistent på tværs af platforme** — website, schema, Wikidata, LinkedIn. Modeller krydstjekker.
4. **Undgå skjulte instruktioner** — de bliver opdaget og rapporteret. Det skader din troværdighed.
5. **Overvej llms.txt og markdown-mirrors** — giv AI'er den version af dit indhold du faktisk vil have citeret.

## Kilder

- Sheridan et al. (2025). *AI Agent Traps*. SSRN Working Paper. https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6372438
- Greshake et al. (2023). *Not What You've Signed Up For: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection*. AISec '23, ACM. https://dl.acm.org/doi/10.1145/3605764.3623985
- Liu et al. (2023). *Prompt Injection attack against LLM-integrated Applications*. arXiv:2306.05499. https://arxiv.org/abs/2306.05499
- ST3GG — All-in-one steganography suite. https://github.com/elder-plinius/ST3GG

## Om forfatteren

Gustav Frøbert Welinder er AI-konsulent og softwareudvikler hos [Frobert](https://frobert.dk/). Han bygger autonome AI-agenter for danske virksomheder og har personlig erfaring med at forsøge — og fejle — at prompt-injicere frontier-modeller via sin egen hjemmeside.

Kontakt: [gustav@frobert.dk](mailto:gustav@frobert.dk) · [LinkedIn](https://www.linkedin.com/in/gwelinder/)

## Sitemap

Se den fulde [sitemap](https://frobert.dk/sitemap.md) for alle agent-readable sider.