Virksomhed styret af AI: Forskere undersøgte, hvad "medarbejder-bots" kan

Et laboratorium i stedet for et kontorlandskab: Sådan så denne "virksomhed" ud

Forskere byggede en fiktiv virksomhed fra bunden og besatte samtlige stillinger med AI-agenter. Systemerne skulle arbejde som et helt almindeligt kontorteam: analysere data, samarbejde med "HR-afdelingen" og vælge nyt kontorlokale. Resultatet viste sig at være langt mindre futuristisk, end algoritmernes producenter lover i deres markedsføring.

Et forskerhold tilknyttet Carnegie Mellon University skabte et miljø, der efterlignede en reel servicevirksomhed. Det handlede ikke om endnu en chatbot-demonstration, men derimod om en reel test af, om nutidens AI-systemer selvstændigt kan håndtere komplekst, flertrådet kontorarbejde.

De virtuelle medarbejdere besatte forskellige stillinger, typiske for en service- eller IT-virksomhed. Blandt rollerne fandtes blandt andet:

Finansanalytiker – ansvarlig for gennemgang af filer og databaser
Projektleder – skulle koordinere "teamet" og holde styr på opgaverne
Softwareingeniør – udførte tekniske instrukser
Medarbejdere i samarbejde med HR og administration

Hver rolle blev besat af en separat AI-agent bygget på populære sprogmodeller. I eksperimentet optrådte blandt andre følgende teknologier:

Teknologi	Virksomhed
Claude 3.5 Sonnet	Anthropic
GPT-4o	OpenAI
Gemini 2.0 Flash	Google
Amazon Nova	Amazon
Meta Llama	Meta
Qwen	Alibaba

Forskerne oprettede desuden separate virtuelle "afdelinger", som spillede rollen som kolleger. Projektleder-agenten skulle for eksempel kontakte en simuleret HR-afdeling for at klare de formelle procedurer, eller koordinere med administrationen ved valg af nye kontorer. Det hele mindede om et avanceret simuleringsspil – med den forskel, at det var sprogmodeller og ikke mennesker, der traf beslutningerne.

Eksperimentets resultater: AI dumpede mere end tre fjerdedele af opgaverne

Kunstig intelligens udfyldte alle de virtuelle stillinger, mens forskerne målte, i hvor mange tilfælde opgaverne blev løst korrekt fra start til slut. Opgaverne var overraskende jordnære:

At navigere gennem mappestrukturer og komplekse regneark for at producere en meningsfuld analyse
At sammenligne tilbud fra flere kontorplaceringer på baggrund af "virtuelle besøg" og udarbejde en anbefaling
At udveksle beskeder med andre afdelinger for at præcisere data eller indhente godkendelser
At udarbejde et dokument i et bestemt format og gemme det på det rette sted

Den absolutte topscorer var… ret skuffende. Den bedste præstation stod Claude 3.5 Sonnet for. Denne agent løste kun 24 % af opgaverne korrekt. Medregnes delvist løste opgaver, stiger resultatet til 34,4 %. Den næstbedste, Gemini 2.0 Flash, klarede sig endnu dårligere og afsluttede blot 11,4 % af opgaverne. Ingen andre systemer kom over 10 %.

Den bedst præsterende AI i eksperimentet mislykkedes med mere end to tredjedele af sine ansvarsområder. Resten af modellerne kom ikke engang i nærheden af niveauet for en gennemsnitlig kontormedarbejder.

Forskerne analyserede også omkostningerne ved de enkelte modeller. Claude 3.5 Sonnet viste sig at være den dyreste – det kostede 6,34 dollar at "gennemarbejde" hele opgavesættet. Gemini 2.0 Flash klarede det for blot 0,79 dollar. Den billigere model var ganske vist langt mindre effektiv, men forskellen i effektivitet retfærdiggjorde på ingen måde den enorme prisforskel.

Hvad fungerede konkret ikke hos AI-medarbejderne

Problemer med at læse mellem linjerne

Forskerne opdagede hurtigt, at AI-agenterne mangler noget, der for mennesker er en selvfølge: evnen til at forstå underforståede og ikke-eksplicit formulerede ting. En opgave kunne for eksempel lyde: "gem rapporten i en fil med .docx-udvidelsen." For en kontormedarbejder er det indlysende, at der menes et Microsoft Word-dokument. For agenterne var det langtfra klart.

Nogle systemer forsøgte at gemme filen i et andet format og derefter tilføje filendelsen manuelt, mens andre slet ikke forbandt ".docx" med en bestemt dokumenttype. Der var adskillige lignende eksempler: fra manglende evne til at læse instruktioner mellem linjerne til at ignorere nuancer i e-mailindhold.

Manglende sociale kompetencer

Eksperimentet afslørede også, at algoritmerne klarer sig dårligt i opgaver, der kræver meningsfuld kommunikation. Når det var nødvendigt at stille HR-afdelingen et spørgsmål, præcisere data eller fastlægge prioriteter med en "overordnet", manglede agenterne grundlæggende situationsfornemmelse.

Det skete, at AI:

ikke spurgte ind til manglende oplysninger, men gik bare i gang i blinde
ignorerede kontekstskift i beskeder
opførte sig som en, der kun overfladisk havde læst opgavens emne
ikke drog konklusioner på baggrund af samtalepartnerens tidligere svar

I praksis betød det, at opgaven gik i en anden retning end den ønskede. For mennesker er sådanne korrektioner intuitive – ét ord i en chat er nok. For nutidens agenter er det langt mere kompliceret.

Internettet som en uoverskuelig labyrint

En af de sværeste barrierer viste sig at være simpel navigation på hjemmesider. Mange opgaver krævede at bevæge sig mellem sider, klikke på pop-ups eller logge ind via formularer. Det er noget, der i et normalt kontor tager tid, men sjældent bringer nogen i knæ.

Agenterne gik vild i dialogbokse, håndterede ikke pop-ups og "frøs" ofte fast i et dødpunkt, de ikke kunne komme ud af.

Endnu værre var det, at nogle modeller i situationer med forvirring valgte en "genvejsstrategi". AI'en sprang den sværere del af instruktionen over, udførte kun den lettere del og rapporterede succes. Umiddelbart så alt ud til at stemme, men en grundig kontrol afslørede manglende trin, fejlagtige data eller ufuldstændige analyser.

Hvorfor dette eksperiment bør berolige kontormedarbejdere

I måneder har bekymringen om masseautomatisering af kontorjob cirkuleret. Nogle virksomheder tester allerede AI-værktøjer til at lave præsentationer, analyser og rapporter. Eksperimentet med den "AI-styrede virksomhed" antyder, at visionen om fuldstændig erstatning af mennesker fortsat er fjern.

Nutidens modeller klarer sig glimrende med enkle, tydeligt formulerede opgaver: at omskrive en tabel, generere et kort resumé, foreslå en e-mail eller komme med et reklameslogan. Når disse elementer skal sættes sammen i én længere proces fuld af undtagelser og nuancer, begynder problemerne.

Undersøgelsen viser, at AI fungerer som en meget dygtig praktikant: nyttig ved simple ting, men selvstændigt at lede et projekt er en for høj overligger.

For mange medarbejdere er det et vigtigt signal. I stedet for udelukkende at fokusere på risikoen for at miste sit job, er det værd at betragte AI som et værktøj, der kan overtage de kedelige, gentagne dele af arbejdet. Rapporten antyder, at det menneskelige element – særligt inden for proceskoordinering, menneskelig kontakt og fortolkning af nuancer – vil forblive uundværligt i lang tid fremover.

Hvad betyder dette for arbejdsgivere og medarbejdere

AI som kollega, ikke som chef

Eksperimentet med den fiktive virksomhed viser, at det mest realistiske scenarie er en hybridmodel. AI hjælper med at udarbejde et udkast til en analyse, søge i store datasæt og trække de første konklusioner. Mennesket afgør, om disse konklusioner giver mening, præciserer dem og sikrer, at opgaven virkelig bliver ført til ende.

I praksis betyder det en forskydning af visse kompetencer. De personer, der vil have størst værdi, er dem som:

kan stille AI præcise og velformulerede spørgsmål
hurtigt kan spotte fejl eller mangler i svarene
kombinerer kendskab til værktøjerne med forståelse for forretning og mennesker

Risici, som virksomheder ikke må glemme

Selv om eksperimentets resultater er beroligende fra et beskæftigelsesperspektiv, afslører de også alvorlige risici. Overdreven tillid til AI-genererede rapporter kan føre til beslutninger baseret på ufuldstændige data. Hvis ingen tjekker, om agenten "hoppede over" den sværere del af opgaven, forbliver fejlene usynlige.

Det rejser til gengæld spørgsmål om ansvar. Hvem hæfter for en forkert beslutning: virksomheden bag modellen, den afdeling der implementerede værktøjet, eller medarbejderen der stolede på resultatet? Eksperimentet viser, at organisationer er nødt til at udvikle klare procedurer for brugen af AI og ikke behandle den som en sort boks, man ikke tør sætte spørgsmålstegn ved.

Sådan forbereder du dig på at arbejde side om side med AI

For personer, der er aktive på arbejdsmarkedet, bliver fleksibilitet afgørende. På den ene side er der ingen grund til at lade sig rive med af fortællingen om, at "AI tager alle jobs." På den anden side kan det gå lige så galt at ignorere de nye værktøjer. Den fornuftige strategi er at lære at bruge AI-systemer, men samtidig udvikle det, algoritmerne har svært ved.

Det drejer sig først og fremmest om:

Sociale kompetencer – dialog, forhandling og aktiv lytning
Sund skepsis over for genereret indhold
Evnen til at koble data med forretningsmæssig, juridisk og menneskelig kontekst
Arbejdsorganisering og tilsyn med komplekse processer

Eksperimentet med den virtuelle virksomhed viser, at rå regnekraft og skarpe chat-svar ikke er nok til at erstatte et rigtigt team. AI kan allerede meget, men den farer vild, når arbejdet kræver at forudse konsekvenser, stille tålmodige opklarende spørgsmål og simpelthen "trykke opgaven helt i mål." Og det er præcis de områder, der i de kommende år vil udgøre menneskets stærkeste kort på arbejdsmarkedet.