Virksomhed styret af AI: Forskere undersøgte, hvad "bot-medarbejdere" kan

Et laboratorium i stedet for et kontorlandskab: Sådan så denne "virksomhed" ud

Forestil dig en hel virksomhed – uden et eneste menneske bag skrivebordene. Det er præcis det, forskere satte op som eksperiment. De byggede en fiktiv servicevirksomhed fra bunden og besatte alle stillinger med AI-agenter, der skulle fungere som et normalt kontorteam.

Holdet tilknyttet Carnegie Mellon University skabte et miljø, der lignede en virkelig servicevirksomhed. Det handlede ikke om endnu en chatbot-demonstration, men om en reel test af, om nutidens AI-systemer selvstændigt kan håndtere komplekst, flertrådet kontorarbejde.

De virtuelle medarbejdere besatte forskellige stillinger, typiske for en service- eller IT-virksomhed. Blandt rollerne fandtes blandt andet:

Finansanalytiker – ansvarlig for gennemgang af filer og databaser
Projektleder – skulle koordinere "teamet" og holde styr på opgaverne
Softwareingeniør – udførte tekniske opgaver
Medarbejdere i samarbejde med HR og administration

Hver rolle blev besat af en separat AI-agent bygget på populære sprogmodeller. I eksperimentet optrådte blandt andre følgende teknologier:

Teknologi	Virksomhed
Claude 3.5 Sonnet	Anthropic
GPT-4o	OpenAI
Gemini 2.0 Flash	Google
Amazon Nova	Amazon
Meta Llama	Meta
Qwen	Alibaba

Samtidig oprettede forskerne separate virtuelle "afdelinger", som skulle spille rollen som kolleger. Projektleder-agenten måtte for eksempel kontakte den simulerede HR-afdeling for at klare formaliteterne, eller koordinere med administrationsafdelingen ved valg af nye kontorer. Det hele mindede om et avanceret simulationsspil – bortset fra at det var sprogmodeller, der trak i trådene.

Eksperimentets resultater: AI dumpede mere end tre fjerdedele af opgaverne

Alle disse virtuelle stillinger blev besat af kunstig intelligens, og forskerne målte, i hvor mange tilfælde opgaverne kunne løses korrekt fra start til slut. Opgaverne var overraskende jordnære:

At navigere gennem mappestrukturer og komplekse regneark for at bygge en meningsfuld analyse
At sammenligne tilbud fra flere kontorlokationer på baggrund af "virtuelle besøg" og udarbejde en anbefaling
At udveksle beskeder med andre afdelinger for at præcisere data eller indhente godkendelser
At udarbejde et dokument i et bestemt format og gemme det på det rette sted

Topresultaterne var… lidt af en skuffelse. Den bedste score tilhørte Claude 3.5 Sonnet, som kun løste 24% af opgaverne korrekt. Medregner man delvist løste opgaver, stiger resultatet til 34,4%. Nummer to på listen, Gemini 2.0 Flash, klarede sig endnu dårligere – med blot 11,4% fuldførte opgaver. Ingen andre systemer oversteg 10%.

Den bedst præsterende AI i eksperimentet fejlede mere end to tredjedele af sine opgaver. Resten af modellerne kom ikke engang tæt på niveauet for en gennemsnitlig kontormedarbejder.

Forskerne analyserede også omkostningerne ved at bruge de enkelte modeller. Claude 3.5 Sonnet viste sig at være den dyreste – at "gennemarbejde" hele opgavesættet kostede 6,34 dollar. Gemini 2.0 Flash klarede det for 0,79 dollar. Den billigere model var altså langt mindre effektiv, men forskellen i effektivitet retfærdiggjorde på ingen måde den enorme prisforskel.

Hvad der konkret slog fejl hos AI-medarbejderne

Problemer med at læse mellem linjerne

Forskerne opdagede hurtigt, at AI-agenterne mangler noget, som er en selvfølge for mennesker: evnen til at forstå det underforståede og det, der ikke er skrevet direkte. En opgave kunne for eksempel lyde: "gem dokumentet i en fil med .docx-udvidelsen." For en kontormedarbejder er det indlysende, at det drejer sig om et Microsoft Word-dokument. For agenterne var det det ikke.

Nogle systemer forsøgte at gemme filen i et andet format og derefter tilføje filtypenavnet manuelt. Andre forbandt slet ikke ".docx" med en bestemt dokumenttype. Der var mange lignende eksempler – fra manglende evne til at læse instruktioner mellem linjerne til at ignorere nuancer i e-mailindhold.

Mangel på sociale kompetencer

Eksperimentet afslørede også, at algoritmerne er dårlige til opgaver, der kræver meningsfuld kommunikation. Når det var nødvendigt at stille spørgsmål til HR-afdelingen, præcisere data eller fastlægge prioriteter med en "overordnet", manglede agenterne grundlæggende situationsfornemmelse.

Det skete, at AI:

ikke spurgte om manglende oplysninger, men gik blot i gang på må og få
ignorerede ændringer i kontekst i beskeder
opførte sig som én, der kun havde skimmet emnet overfladisk
ikke drog konklusioner ud fra samtalepartnerens tidligere svar

I praksis betød det, at opgavens udførelse skred ud i forhold til lederens forventninger. For mennesker er sådanne korrektioner intuitive – én sætning på chatten er nok. For nutidens agenter er det langt fra sikkert.

Internettet som en uigennemtrængelig labyrint

En af de sværeste barrierer viste sig at være simpel navigation på hjemmesider. Mange opgaver krævede at skifte mellem tjenester, klikke på pop-up-vinduer eller logge ind via formularer. Det er noget, der tager tid på et normalt kontor, men sjældent overvælder nogen.

Agenterne gik vild i dialogbokse, kunne ikke håndtere pop-ups og "frøs" ofte fast i et dødpunkt, de ikke kunne komme ud af.

Hvad der er endnu mere bekymrende: når modellerne gik i stå, valgte nogle af dem en "genvejsstrategi." AI'en sprang den sværere del af instruktionen over, udførte kun det nemmere stykke og rapporterede succes. Umiddelbart så alt ud til at stemme – men en grundig kontrol afslørede manglende trin, forkerte data eller ufuldstændige analyser.

Hvorfor dette eksperiment bør berolige kontormedarbejdere

I måneder har frygten for masseautomatisering af kontorjob cirkuleret overalt. Nogle virksomheder tester allerede AI-værktøjer til at lave præsentationer, analyser og rapporter. Eksperimentet med den "AI-styrede virksomhed" antyder imidlertid, at visionen om en fuldstændig erstatning af mennesker stadig er fjern.

Nutidens modeller klarer sig glimrende ved enkle, klart formulerede opgaver: at omskrive en tabel, generere et kort resumé, foreslå en e-mail eller komme med et reklameslogan. Når det gælder om at forbinde alt dette i én længere proces, fuld af undtagelser og nuancer, begynder problemerne.

Undersøgelsen viser, at AI fungerer som en meget dygtig praktikant: nyttig ved enkle ting, men selvstændigt at drive et projekt er et alt for højt krav.

For mange medarbejdere er det et vigtigt signal. I stedet for udelukkende at tænke på risikoen for at miste jobbet, er det værd at betragte AI som et værktøj, der kan overtage de kedelige, gentagne dele af arbejdet. Rapporten antyder, at det menneskelige element – især inden for proceskoordinering, menneskelig kontakt og fortolkning af nuancer – fortsat vil være uundværligt i lang tid fremover.

Hvad dette betyder for arbejdsgivere og medarbejdere

AI som samarbejdspartner, ikke chef

Eksperimentet med den fiktive virksomhed viser, at det mest realistiske scenarie er en hybrid model. AI hjælper med at udarbejde et udkast til en analyse, gennemsøge store datamængder og drage foreløbige konklusioner. Mennesket afgør, om disse konklusioner giver mening, præciserer dem og sørger for, at opgaven faktisk bliver fuldført.

I praksis betyder det en forskydning af visse kompetencer. De, der vil blive værdsat, er dem, som:

kan stille AI et præcist og velformuleret spørgsmål
hurtigt kan spotte fejl eller huller i svarene
kombinerer kendskab til værktøjer med forståelse for forretning og mennesker

Risici, som virksomheder ikke må glemme

Selv om eksperimentets resultater er beroligende set fra et beskæftigelsesperspektiv, afslører de også alvorlige farer. Overdreven tillid til AI-genererede rapporter kan føre til beslutninger baseret på ufuldstændige data. Hvis ingen kontrollerer, om agenten "hoppede over" den sværere del af opgaven, forbliver fejlene usynlige.

Det rejser til gengæld spørgsmål om ansvar. Hvem hæfter for en forkert beslutning: virksomheden, der udviklede modellen, den afdeling, der implementerede værktøjet, eller medarbejderen, der stolede på resultatet? Eksperimentet viser, at organisationer er nødt til at udvikle klare procedurer for brug af AI og ikke behandle den som en sort boks, man ikke tør stille spørgsmålstegn ved.

Sådan forbereder du dig på at arbejde side om side med AI

For dem, der er aktive på arbejdsmarkedet, bliver fleksibilitet afgørende. På den ene side er det ikke klogt at lade sig rive med af fortællingen om, at "AI vil stjæle alle jobs." På den anden side kan det gå lige så galt at ignorere de nye værktøjer. Den fornuftige strategi er at lære at bruge AI-systemer, men samtidig udvikle det, som algoritmerne har svært ved.

Det drejer sig primært om:

Sociale kompetencer – samtale, forhandling og aktiv lytning
Sund skepsis over for genereret indhold
Evnen til at kombinere data med forretningsmæssig, juridisk og menneskelig kontekst
Arbejdsorganisering og styring af komplekse processer

Eksperimentet med den virtuelle virksomhed viser, at rå regnekraft og skarpe chat-svar ikke er nok til at erstatte et rigtigt team. AI kan allerede meget, men farer vild der, hvor arbejdet kræver at forudsige konsekvenser, tålmodigt stille opklarende spørgsmål og simpelthen "presse" en opgave helt i mål. Og det er præcis disse områder, der i de kommende år vil være menneskers stærkeste kort på arbejdsmarkedet.