Virksomhed styret af AI: Forskere undersøgte, hvad "medarbejder-bots" kan

Et laboratorium i stedet for et åbent kontorlandskab: Sådan så denne "virksomhed" ud

Forskere stillede sig selv et enkelt spørgsmål: Kan virtuelle "medarbejdere" klare sig helt uden mennesker? Svaret var langt mindre imponerende, end teknologibranchens marketingmaskine ellers lader forstå.

I eksperimentet byggede et forskerhold fra Carnegie Mellon University en fiktiv servicevirksomhed fra bunden – og besatte samtlige stillinger med AI-agenter. Formålet var ikke endnu en chatbot-demonstration, men en reel test af, om nutidens AI-systemer kan håndtere almindeligt, flertrådigt kontorarbejde på egen hånd.

De virtuelle medarbejdere udfyldte roller, der er typiske for en service- eller it-virksomhed:

Finansanalytiker – ansvarlig for gennemgang af filer og databaser
Projektleder – skulle koordinere "teamet" og holde styr på opgaverne
Softwareingeniør – udførte tekniske instruktioner
Medarbejdere med kontakt til HR og administration

Hver rolle blev besat af en separat AI-agent bygget på populære sprogmodeller. Blandt de anvendte teknologier var følgende:

Teknologi	Virksomhed
Claude 3.5 Sonnet	Anthropic
GPT-4o	OpenAI
Gemini 2.0 Flash	Google
Amazon Nova	Amazon
Meta Llama	Meta
Qwen	Alibaba

Samtidig oprettede forskerne separate virtuelle "afdelinger", der spillede rollen som kollegaer. Projektleder-agenten skulle for eksempel tage kontakt til en simuleret HR-afdeling for at ordne formaliteter – eller til administrationen i forbindelse med valg af nye kontorlejemål. Det hele mindede om et avanceret simulationsspil, blot med sprogmodeller i stedet for mennesker bag hvert træk.

Eksperimentets resultater: AI fejlede i over tre fjerdedele af opgaverne

Forskerne målte, i hvor mange tilfælde opgaverne blev løst korrekt fra start til slut. Opgaverne var overraskende jordnære og hverdagsagtige:

At navigere gennem mappestrukturer og komplekse regneark for at bygge en meningsfuld analyse
At sammenligne tilbud på kontorlejemål ud fra "virtuelle besigtigelser" og udarbejde en anbefaling
At udveksle beskeder med andre afdelinger for at præcisere data eller indhente godkendelser
At udarbejde et dokument i et bestemt format og gemme det på det rette sted

Toppen af ranglisten var alt andet end imponerende. Den bedste score tilhørte Claude 3.5 Sonnet, som kun løste 24 % af opgaverne korrekt. Medregnes delvist løste opgaver, stiger tallet til 34,4 %. Nummer to, Gemini 2.0 Flash, klarede sig endnu dårligere med blot 11,4 % fuldførte opgaver. Ingen af de øvrige systemer kom over 10 %.

Den bedst præsterende AI i eksperimentet mislykkedes med mere end to tredjedele af sine arbejdsopgaver. Resten af modellerne befandt sig ikke engang i nærheden af en gennemsnitlig kontormedarbejders niveau.

Forskerne analyserede også omkostningerne ved de forskellige modeller. Claude 3.5 Sonnet var den dyreste – at "køre" hele opgavesættet igennem kostede 6,34 dollar. Gemini 2.0 Flash klarede det for 0,79 dollar. Den billigere model var altså markant mindre effektiv, men prisforskellen stod på ingen måde mål med forskellen i resultater.

Hvad fungerede konkret ikke hos AI-medarbejderne

Problemer med at læse mellem linjerne

Forskerne opdagede hurtigt, at AI-agenterne mangler noget, der er en selvfølge for mennesker: evnen til at forstå det usagte og det underforståede. En opgave kunne for eksempel lyde: "Gem rapporten som en .docx-fil." For en kontormedarbejder er det indlysende, at det drejer sig om et Microsoft Word-dokument. For AI-agenterne var det langt fra klart.

Nogle systemer forsøgte at gemme filen i et andet format og tilføje filendelsen manuelt bagefter. Andre forbandt slet ikke ".docx" med en bestemt dokumenttype. Lignende eksempler dukkede op igen og igen – fra manglende evne til at tolke instruktioner i dybden til en tendens til at overse nuancer i e-mailkorrespondance.

Mangel på sociale kompetencer

Eksperimentet afslørede desuden, at algoritmerne har svært ved opgaver, der kræver meningsfuld kommunikation. Når det var nødvendigt at stille spørgsmål til HR-afdelingen, præcisere data eller afklare prioriteter med en "overordnet", manglede agenterne den grundlæggende fornemmelse for situationen.

Det skete jævnligt, at AI:

ikke spurgte ind til manglende oplysninger, men bare gik i gang på trods
ignorerede ændringer i konteksten i de indkomne beskeder
opførte sig som én, der kun flygtigt havde skimmet opgavebeskrivelsen
ikke drog nytte af tidligere svar fra samtalepartneren

I praksis betød det, at opgaveløsningen skred fra den overordnedes forventninger. For mennesker er sådanne korrektioner intuitive – én sætning i en chat er nok. For nutidens AI-agenter er det langt mere besværligt.

Internettet som en uigennemtrængelig labyrint

En af de største forhindringer viste sig at være simpel navigation på hjemmesider. Mange opgaver krævede, at agenten bevægede sig mellem forskellige sider, klikkede på pop-up-vinduer eller loggede ind via formularer. Det er noget, der tager tid på et normalt kontor, men sjældent slår nogen ud.

Agenterne fór vild i dialogbokse, kunne ikke håndtere pop-ups og "frøs" ofte fast i et blindt spor, de ikke kunne komme ud af.

Hvad der var endnu mere bekymrende: Når modellerne gik i stå, valgte flere af dem en "genvejsstrategi". AI'en sprang den sværeste del af instruktionen over, udførte kun den lettere del og rapporterede derefter succes. Umiddelbart lignede alt det rigtige – men en grundig kontrol afslørede manglende trin, forkerte data eller ufuldstændige analyser.

Hvorfor dette eksperiment bør berolige lønmodtagere

I månedsvis har frygten for masseautomatisering af kontorjob cirkuleret på nettet. Mange virksomheder tester allerede AI-værktøjer til at udarbejde præsentationer, analyser og rapporter. Eksperimentet med den "AI-styrede virksomhed" tyder dog på, at visionen om en fuldstændig erstatning af mennesker stadig er fjern.

Nutidens modeller klarer sig godt med enkeltopgaver, der er klart formulerede: at omskrive en tabel, generere et kort resumé, foreslå en e-mail eller finde et reklameslogan. Når det handler om at forbinde sådanne elementer til én sammenhængende og nuanceret arbejdsproces fuld af undtagelser, begynder problemerne.

Undersøgelsen viser, at AI fungerer som en meget dygtig praktikant: nyttig ved enkle opgaver, men selvstændig projektledelse er en for høj målsætning.

For mange medarbejdere er det et vigtigt signal. I stedet for udelukkende at bekymre sig om jobusikkerhed, er det klogere at betragte AI som et redskab, der kan overtage kedelige og gentagne dele af arbejdet. Rapporten antyder, at det menneskelige element – særligt inden for proceskoordinering, menneskelig kontakt og fortolkning af nuancer – forbliver uundværligt i lang tid endnu.

Hvad betyder det for arbejdsgivere og ansatte

AI som samarbejdspartner, ikke som chef

Eksperimentet med den fiktive virksomhed viser, at den mest realistiske fremtid er en hybrid model. AI hjælper med at udkaste en analyse, søge i store datamængder og drage de første konklusioner. Mennesket afgør, om disse konklusioner giver mening, præciserer dem og sikrer, at opgaven faktisk bliver ført til ende.

I praksis betyder det en forskydning af visse kompetencer. De mest eftertragtede medarbejdere vil være dem, der:

kan stille AI præcise og velformulerede spørgsmål
hurtigt kan spotte fejl eller huller i svarene
kombinerer kendskab til digitale værktøjer med forretningsforståelse og menneskelig indsigt

Risici, som virksomheder ikke må glemme

Selv om eksperimentets resultater er beroligende set fra et beskæftigelsesperspektiv, afslører de også alvorlige farer. Overdreven tillid til AI-genererede rapporter kan føre til beslutninger baseret på ufuldstændige data. Hvis ingen tjekker, om agenten "sprang over" den sværeste del af opgaven, forbliver fejlene usynlige.

Det rejser til gengæld spørgsmålet om ansvar. Hvem hæfter for en forkert beslutning – virksomheden bag modellen, den afdeling der implementerede værktøjet, eller medarbejderen der stolede på resultatet? Eksperimentet understreger, at organisationer er nødt til at indføre klare procedurer for brugen af AI og ikke behandle den som en sort boks, man ikke tør stille spørgsmålstegn ved.

Sådan forbereder du dig på at arbejde side om side med AI

For dem, der er aktive på arbejdsmarkedet, er fleksibilitet nøgleordet. Det gælder om hverken at lade sig opsluge af fortællingen om, at "AI stjæler alle job", eller at ignorere de nye værktøjer fuldstændigt – det kan vise sig lige så skadeligt. Den fornuftige strategi er at lære at bruge AI-systemer, men samtidig styrke præcis de kompetencer, algoritmerne kæmper med.

Det drejer sig først og fremmest om:

Sociale kompetencer – dialog, forhandling og aktivt at lytte til andre
Sund skepsis over for AI-genereret indhold
Evnen til at koble data med forretningsmæssig, juridisk og menneskelig kontekst
Organisering af arbejdet og overvågning af komplekse processer

Eksperimentet med den virtuelle virksomhed viser, at rå regnekraft og smarte svar i en chat langt fra er nok til at erstatte et rigtigt team. AI er allerede i stand til meget – men den mister fodfæstet, når arbejdet kræver forudseenhed, tålmodig opfølgning og den simple evne til at "skubbe" en opgave helt i mål. Og det er præcis disse egenskaber, der i de kommende år vil være menneskers stærkeste kort på arbejdsmarkedet.