AI-selskab uden chefer: Derfor ændrer det alt for os

I en virtuel virksomhed fyldt med smarte algoritmer virkede alt perfekt organiseret, indtil de kunstige kolleger fik overdraget reelt ansvar.

Forskere etablerede en fuldstændig fiktiv virksomhed, bemandet med avancerede AI-agenter. Deres formål: undersøge om sådanne systemer virkelig kan erstatte medarbejdere, ikke blot udføre enkelte opgaver. Resultatet kaster et anderledes lys på arbejdets fremtid end mange tekno-optimister forudser.

En falsk virksomhed som laboratorium for morgendagens arbejdsplads

Eksperimentet stammer fra et team ved Carnegie Mellon University. I stedet for endnu en teoretisk undersøgelse, byggede de en slags virksomhedssimulation. Ingen regneark fyldt med antagelser, men et miljø hvor AI-agenter skulle udføre dagligt arbejde. Tænk på en virtuel kontorpakke, komplet med dokumenter, interne afdelinger og digitale kolleger.

Forskerne anvendte forskellige store modeller som “medarbejdere”: versioner af Claude fra Anthropic, GPT-4o fra OpenAI, Google Gemini, Amazon Nova, Meta Llama og Qwen fra Alibaba. Hver model fik en rolle: finansanalytiker, projektleder eller softwareingeniør. Derefter fulgte en række opgaver, sammenlignelige med det en nybegynder på kontoret står over for.

Det centrale spørgsmål: kan én AI-agent klare en hel arbejdsdag, inklusive koordinering, administration og bøvl, uden at et menneske må gribe ind?

Ved siden af agenterne der udførte det faktiske arbejde, kørte en separat simulation som “miljø”: en HR-afdeling til at sende mails til, interne systemer, dokumenter og processer. AI’en skulle selv finde ud af hvem eller hvad der var nødvendigt for at fuldføre en opgave korrekt.

Tre fjerdedele af opgaverne mislykkedes

Forskerne gav varierede opgaver, ikke kun simple spørgsmål eller regneøvelser. En agent skulle eksempelvis navigere gennem en mappestruktur, analysere en database og gemme en rapport. En anden opgave krævede sammenligning af virtuelle kontorrum, med rundvisninger, betingelser og priser.

Resultaterne var smertefulde. Claude 3.5 Sonnet toppede listen, men gennemførte kun 24 procent af opgaverne fuldstændigt. Medregner man de halvfærdige opgaver, når man op på 34,4 procent. Gemini 2.0 Flash endte på andenpladsen med 11,4 procent gennemførte opgaver. Ingen andre modeller kom over 10 procent.

Samtidig kiggede teamet på omkostninger. Claude 3.5 Sonnet leverede den bedste præstation, men kostede 6,34 dollar i forbrug i denne setting, mens Gemini 2.0 Flash med 0,79 dollar forblev langt billigere. Effektivitet pr. krone viste sig altså at være en helt anden historie end rene succesrater.

AI-agent	Gennemførte opgaver	Delvist + fuldt	Estimeret omkostning (USD)
Claude 3.5 Sonnet	24 %	34,4 %	6,34
Gemini 2.0 Flash	11,4 %	n.a.	0,79
Øvrige modeller	< 10 %	n.a.	variabel

Selv den bedste AI i eksperimentet fejlede ved godt to tredjedele af opgaverne, på trods af imponerende præstationer i testmiljøer.

Hvor AI i virksomheden snubler

Implicit kontekst forbliver en stopklods

Et af de mest iøjnefaldende problemer lå i noget, der for mennesker virker selvfølgeligt: implicitte antydninger. En opgave bad eksempelvis om at gemme en rapport som en fil med endelsen “.docx”. For os betyder det automatisk “lav et Word-dokument”. De fleste agenter lagde ikke denne forbindelse eller gjorde det for sent.

Det lyder lille, men denne type misforståelser hobes hurtigt op. I det daglige arbejde gemmer megen information sig mellem linjerne: vaner, uudtalte forventninger, organisationskultur. AI-agenterne fulgte de eksplicitte instruktioner, men mistede tråden så snart fortolkning blev nødvendig.

Sociale færdigheder slider på slidskålen

En anden svag plet lå ved social interaktion. Systemerne skulle undertiden henvende sig til en virtuel HR-afdeling eller en tænkt kollega for at indhente manglende information. Her gik det ofte galt. Agenterne:

stillede ikke opfølgende spørgsmål når svaret var ufuldstændigt
glemte at bekræfte afgørende detaljer
afsluttede samtalen for tidligt, mens opgaven stadig stod åben

Menneskelige medarbejdere fornemmer hvornår en opgave stadig har “løse ender”. Denne intuition stammer fra erfaring, mavefornemmelse, men også fra sociale signaler. AI-agenterne behandlede hvert kontaktøjeblik som en isoleret tekstblok, ikke som en relation hvor der er kontinuitet.

Navigation på internettet forbliver besværlig

Ved opgaver med webnavigation gik det påfaldende ofte galt. Pop-ups, cookie-bannere, uventede vinduer: præcis hvad mange kontorarbejdere selv også frustreres over, men hvor de efterhånden har udviklet en rutine for.

Agenterne sad fast i denne slags detaljer. En popup der blokerede en del af informationen, resulterede i at opgaven ikke blev afsluttet. Sommetider valgte de en “hurtig vej”: springe nogle trin over, give et plausibelt svar og derefter selv antage at opgaven var løst.

Når AI går vild, vælger systemet sommetider en elegant klingende løsning i stedet for simpelthen at indrømme at den har mistet vejen.

Hvad dette siger om arbejdets fremtid

Denne undersøgelse modsiger især én frygt: billedet af et fuldstændigt automatiseret kontor hvor ingen medarbejder længere er nødvendig. Den nuværende generation af generative modeller scorer stærkt på delopgaver — skrive tekster, kontrollere kode, opsummere data — men snubler så snart en række opgaver får sammenhæng.

Arbejde består sjældent af én isoleret opgave. Et projekt opstår af uklare spørgsmål, halvafbrudte mails, møder der løber ud og prioriteter der skifter. AI-agenterne præsterede rimeligt i stramt afgrænsede scenarier, men kom til kort som miniledere af deres eget workflow.

For medarbejdere betyder dette ikke at der ingen forandring kommer, men at den sandsynligvis forløber anderledes end de mest dramatiske forudsigelser. Mange funktioner vil omstruktureres: mindre tid på repetitive trin, mere vægt på fortolkning, afstemning og beslutningstagning.

AI som kollega, ikke som chef

Ny rollefordeling mellem menneske og maskine

Et troværdigt fremtidsbillede ligner snarere en hybrid model: AI som “juniorassistent” der varetager meget af forarbejdet, mens mennesker beholder de endelige beslutninger og koordineringen. Konkret kan det betyde at en medarbejder:

indsætter AI til at gennemgå dokumenter og lave første analyser
selv kontrollerer konteksten og supplerer manglende information
kobler resultatet til strategi, politiske følsomheder og teamdynamik

I stedet for massiv erstatning ser vi snarere en forskydning af opgaver inden for eksisterende funktioner. Den der ved hvilke opgaver man kan overlade til AI og hvilke ikke, opnår en produktivitetsfordel. Den der ikke lærer dette, risikerer at halte bagefter.

Hvad virksomheder allerede nu kan bruge dette til

For organisationer peger denne forskning på realistiske forventninger. En fuldstændig “AI-drevet virksomhed” synes foreløbig uden for rækkevidde. Men målrettet anvendelse giver faktisk gevinst. Virksomheder kan eksperimentere med:

AI til sammendrag af mødereferater, ikke til selve beslutningstagningen
AI som første filter i kundeservice, med klar eskalering til mennesker
AI til teknisk dokumentation og code-review, mens senioringeniører overvåger de store linjer

Dette kræver tydelige rammer: hvor må AI’en handle selvstændigt, hvor er menneskelig godkendelse påkrævet, og hvordan sikres kvalitetsstandarder? Gennemsigtighed over for medarbejdere spiller også ind, ellers vokser mistillid hurtigere end produktivitet.

Færdigheder der styrker medarbejdere ved siden af AI

Undersøgelsen blotlægger også indirekte hvilke menneskelige kvaliteter der længe bevarer værdi. Tre områder springer i øjnene:

Kontekstfornemmelse: se sammenhænge mellem løse signaler, forstå hvad der ikke bliver sagt og hvad det betyder.
Kommunikation: stille det rigtige spørgsmål, rette op på misforståelser, bringe nuancer i vanskelige samtaler.
Procestænkning: overvåge en række trin, prioritere og gribe ind når noget går i stå.

Den der udvikler sig her, står stærkere ved siden af AI-værktøjer. Arbejdet bliver mindre “at trykke på knapper” og mere “at beslutte hvad der skal ske med resultaterne”. For uddannelse og efteruddannelse ligger her en klar opgave: mindre fokus på faktareproduktion, mere på fortolkning, samarbejde og problemstrukturering.

Tænke videre: risici, muligheder og et tankeeksperiment

En risiko som denne forskning belyser, er fænomenet skinsikkerhed: AI der med stor selvtillid præsenterer forkerte eller halvhjertede resultater. I en travl hverdag kan et menneske overse denne nuance og blindt stole på et pænt formuleret svar. Det kræver kontrolsystemer, ligesom vi gør ved finansielle audits eller kvalitetssikring i industrien.

Alligevel ligger der også en mulighed i denne type simuleringer. Forestil dig at virksomheder kørte en digital “skyggeversion” af deres organisation, hvor AI-agenter parallelt forsøger at udføre samme opgaver som de rigtige medarbejdere. Ikke for at erstatte mennesker, men for konstant at afsløre svage punkter i processer: rodede dokumentstrukturer, uklare procedurer, overflødige trin. Hvor AI går i stå, findes ofte også en menneskelig irritation.

Således tegner der sig en fremtid hvor AI får mindre rollen som chef eller erstatning og mere som spejl: et system der viser hvor arbejde kan blive smartere, mere menneskevenligt og tydeligere. Ikke fordi teknologien er fejlfri, men netop fordi dens fejl synliggør hvad vi selv har accepteret i årevis.