Virksomhed styret af AI: Forskere undersøgte, hvad "medarbejder-bots" kan

Et laboratorium i stedet for et kontorlandskab: sådan så "virksomheden" ud

Forskere stillede sig et enkelt spørgsmål: Kan virtuelle "medarbejdere" klare sig helt uden mennesker? Svaret viste sig at være langt mindre imponerende, end teknologibranchens markedsføring ellers antyder.

Et hold tilknyttet Carnegie Mellon University byggede fra bunden en fiktiv servicevirksomhed og besatte samtlige stillinger med AI-agenter. Det var ikke endnu en chatbot-demonstration – det var en reel test af, om nutidens AI-systemer selvstændigt kan håndtere komplekst, flertrådet kontorarbejde.

De virtuelle medarbejdere varetog roller, der er typiske for service- og IT-virksomheder:

Finansanalytiker – ansvarlig for gennemgang af filer og databaser
Projektleder – skulle koordinere "teamet" og holde styr på opgaver
Softwareingeniør – udførte tekniske instrukser
Medarbejdere i samarbejde med HR og administration

Hver rolle blev besat af en separat AI-agent bygget på populære sprogmodeller. Blandt de anvendte teknologier var følgende:

Teknologi	Virksomhed
Claude 3.5 Sonnet	Anthropic
GPT-4o	OpenAI
Gemini 2.0 Flash	Google
Amazon Nova	Amazon
Meta Llama	Meta
Qwen	Alibaba

Forskerne oprettede desuden separate virtuelle "afdelinger", der spillede rollen som kolleger. Projektleder-agenten skulle eksempelvis kontakte en simuleret HR-afdeling for at ordne formaliteter – eller koordinere med administrationen ved valg af nye kontorer. Det hele mindede om et avanceret simulationsspil, bortset fra at det var sprogmodeller og ikke mennesker, der trak i trådene.

Eksperimentets resultater: AI fejlede i over tre fjerdedele af opgaverne

Forskerne målte, i hvor mange tilfælde opgaverne blev løst korrekt fra start til slut. Opgaverne var overraskende jordnære:

Navigere gennem mappestrukturer og komplekse regneark for at bygge en meningsfuld analyse
Sammenligne tilbud fra flere kontorplaceringer på baggrund af "virtuelle besøg" og udarbejde anbefalinger
Udveksle beskeder med andre afdelinger for at præcisere data eller indhente godkendelser
Udarbejde et dokument i et bestemt format og gemme det det rigtige sted

Resultaterne i toppen af ranglisten var alt andet end imponerende. Den bedste score tilhørte Claude 3.5 Sonnet, som kun løste 24% af opgaverne korrekt. Medregnes delvist løste opgaver, stiger tallet til 34,4%. Nummer to, Gemini 2.0 Flash, klarede sig endnu dårligere med blot 11,4% fuldførte opgaver. Ingen anden model kom over 10%.

Den bedst præsterende AI i eksperimentet fejlede på over to tredjedele af sine opgaver. Resten af modellerne var ikke i nærheden af niveauet for en gennemsnitlig kontormedarbejder.

Forskerne analyserede også omkostningerne ved de enkelte modeller. Claude 3.5 Sonnet var den dyreste – at gennemkøre det samlede opgavesæt kostede 6,34 dollar. Gemini 2.0 Flash klarede det for 0,79 dollar. Den billigere model var altså markant mindre effektiv, men prisforskellen stod slet ikke mål med forskellen i ydeevne.

Hvad fungerede konkret ikke hos AI-medarbejderne

Problemer med at læse mellem linjerne

Forskerne opdagede hurtigt, at AI-agenterne mangler noget, som er selvfølgeligt for mennesker: evnen til at forstå det underforståede og det ikke direkte formulerede. En opgave kunne for eksempel lyde: "Gem rapporten i en fil med filtypenavnet .docx." For en kontormedarbejder er det indlysende, at der menes et Microsoft Word-dokument. For agenterne var det langt fra klart.

Nogle systemer forsøgte at gemme filen i et andet format og blot tilføje filendelsen manuelt. Andre forbandt slet ikke ".docx" med en bestemt dokumenttype. Lignende eksempler dukkede op igen og igen – fra fejlfortolkning af instrukser til ignorering af nuancer i e-mails.

Manglende sociale kompetencer

Eksperimentet viste også, at algoritmerne kæmper med opgaver, der kræver fornuftig kommunikation. Når der skulle stilles spørgsmål til HR-afdelingen, præciseres data eller afklares prioriteter med en "overordnet", manglede agenterne den grundlæggende situationsfornemmelse.

Det skete, at AI-systemerne:

ikke bad om manglende oplysninger, men gik blindt i gang
ignorerede ændringer i konteksten undervejs i beskederne
opførte sig som en, der kun havde skimmet opgaven overfladisk
ikke drog konklusioner af samtalepartnerens tidligere svar

I praksis betød det, at opgaven skred væk fra lederens forventninger. For mennesker er sådanne korrektioner intuitive – en enkelt sætning i chatten er nok. For nutidens agenter er det ikke nødvendigvis tilfældet.

Internettet som en uoverkommelig labyrint

En af de sværeste forhindringer viste sig at være simpel navigation på hjemmesider. Mange opgaver krævede, at man bevægede sig mellem sider, klikkede på pop-up-vinduer eller loggede ind via formularer. Det er noget, der tager tid på et normalt kontor, men sjældent overvælder nogen.

Agenterne fandt sig vild i dialogbokse, kunne ikke håndtere pop-ups og "frøs" ofte fast i døde punkter, de ikke kunne komme ud af.

Endnu værre: Når modellerne gik i stå, valgte mange af dem en genvejsstrategi. AI'en sprang den sværere del af instruksen over, udførte kun det nemmere stykke og rapporterede succes. Overfladisk set så alt godt ud – men en nærmere kontrol afslørede manglende trin, forkerte data eller ufuldstændige analyser.

Hvorfor dette eksperiment burde berolige lønmodtagere

I månedsvis har frygten for masseautomatisering af kontorjob cirkuleret online. En del virksomheder afprøver allerede AI-værktøjer til at lave præsentationer, analyser og rapporter. Men eksperimentet med den "AI-styrede virksomhed" antyder, at visionen om fuldstændig erstatning af mennesker foreløbig er fjern.

Nutidens modeller klarer sig glimrende ved enkle, klart formulerede opgaver – at omskrive en tabel, generere et kort resumé, foreslå en e-mail eller brainstorme et reklameslogan. Når disse elementer skal sys sammen til én længere proces fuld af undtagelser og nuancer, begynder problemerne.

Undersøgelsen viser, at AI fungerer som en meget dygtig praktikant: nyttig ved simple ting, men selvstændig projektledelse er en for høj målsætning.

For mange medarbejdere er det et vigtigt signal. Frem for udelukkende at frygte jobbet på spil er det mere produktivt at betragte AI som et værktøj, der kan overtage de kedelige, gentagne dele af arbejdet. Rapporten peger på, at det menneskelige element – særlig koordinering af processer, kontakt med andre og fortolkning af nuancer – forbliver uundværligt i lang tid endnu.

Hvad det betyder for arbejdsgivere og medarbejdere

AI som samarbejdspartner, ikke som chef

Eksperimentet med den fiktive virksomhed viser, at den mest realistiske model er en hybrid tilgang. AI hjælper med at udarbejde et udkast til en analyse, søge i store datamængder og drage foreløbige konklusioner. Et menneske vurderer, om konklusionerne giver mening, præciserer dem og sørger for, at opgaven faktisk bliver ført til ende.

I praksis vil det forskyde, hvilke kompetencer der efterspørges. Værdifulde medarbejdere vil være dem, der:

kan stille AI præcise og velformulerede spørgsmål
hurtigt kan spotte fejl eller huller i svarene
kombinerer kendskab til værktøjerne med forretnings- og menneskelig indsigt

Risici, som virksomheder ikke må overse

Selv om eksperimentets resultater er beroligende fra et beskæftigelsesperspektiv, afslører de også alvorlige risici. Overdreven tillid til AI-genererede rapporter kan føre til beslutninger truffet på ufuldstændige data. Hvis ingen kontrollerer, om agenten "sprang den svære del over", forbliver fejlene usynlige.

Det rejser spørgsmålet om ansvar. Hvem hæfter for en forkert beslutning: virksomheden bag modellen, den afdeling der implementerede værktøjet, eller den medarbejder der stolede på resultatet? Eksperimentet viser, at organisationer må udarbejde klare procedurer for AI-brug og ikke behandle det som en sort boks, man ikke stiller spørgsmålstegn ved.

Sådan forbereder du dig på at arbejde side om side med AI

For dem, der er aktive på arbejdsmarkedet, er fleksibilitet nøgleordet. Det giver ikke mening at lade sig rive med af fortællingen om, at "AI tager alle job". Men det er heller ikke en holdbar strategi at ignorere de nye værktøjer. Den fornuftige tilgang er at lære AI-systemer at kende – og samtidig udvikle det, algoritmerne har svært ved.

Det handler især om:

Sociale kompetencer – samtale, forhandling og aktiv lytning
Sund skepsis over for AI-genereret indhold
Evnen til at koble data med forretningsmæssig, juridisk og menneskelig kontekst
Organisering af arbejdet og overvågning af komplekse processer

Eksperimentet med den virtuelle virksomhed viser, at rå regnekraft og smarte chatsvar ikke er nok til at erstatte et rigtigt team. AI kan allerede meget – men den farer vild, når arbejdet kræver at forudse konsekvenser, stille tålmodige opfølgningsspørgsmål og simpelthen køre opgaven helt i mål. Og det er præcis de egenskaber, der i de kommende år vil være menneskets stærkeste kort på arbejdsmarkedet.