Virksomhed styret af AI: Forskere undersøgte, hvad "medarbejder-bots" kan

Et laboratorium i stedet for et kontorlandskab: Sådan så denne "virksomhed" ud

Forestil dig en virksomhed uden et eneste menneske bag tastaturet. Det er præcis det, forskere forsøgte at skabe — og resultaterne var langt mindre imponerende, end teknologibranchen ellers lover.

Et hold tilknyttet Carnegie Mellon University byggede et fiktivt servicevirksomhedsmiljø fra bunden og besatte samtlige stillinger med AI-agenter. Målet var ikke endnu en chatbot-demonstration, men en reel test af, om nutidens AI-systemer selvstændigt kan håndtere komplekst, flertrådet kontorarbejde.

De virtuelle medarbejdere varetog roller, der er typiske for en IT- eller servicevirksomhed. Blandt stillingerne fandtes:

finansanalytiker — ansvarlig for gennemgang af filer og databaser,
projektleder — skulle koordinere "teamet" og holde styr på opgaverne,
softwareingeniør — udføre tekniske instrukser,
medarbejdere i samspil med HR- og administrationsafdelingen.

Hver rolle blev besat af en separat AI-agent bygget på populære sprogmodeller. I eksperimentet optrådte blandt andre:

Teknologi	Virksomhed
Claude 3.5 Sonnet	Anthropic
GPT-4o	OpenAI
Gemini 2.0 Flash	Google
Amazon Nova	Amazon
Meta Llama	Meta
Qwen	Alibaba

Forskerne oprettede desuden separate virtuelle "afdelinger", der spillede rollen som kolleger. Projektleder-agenten skulle for eksempel kontakte en simuleret HR-afdeling for at få styr på formaliteterne — eller tale med administrationen om valg af nye kontorer. Det hele mindede om et avanceret simuleringsspil, blot med sprogmodeller i stedet for mennesker bag trækkene.

Eksperimentets resultater: AI fejlede i over tre fjerdedele af opgaverne

Forskerne målte, i hvor mange tilfælde opgaverne blev løst korrekt fra start til slut. Opgaverne var overraskende jordnære:

navigere gennem mappestrukturer og komplekse regneark for at udarbejde en meningsfuld analyse,
sammenligne tilbud på flere kontorplaceringer ud fra "virtuelle besøg" og udarbejde en anbefaling,
udveksle beskeder med andre afdelinger for at præcisere data eller indhente godkendelser,
udarbejde et dokument i et bestemt format og gemme det på det rette sted.

Topresultatet var… ikke ligefrem imponerende. Den bedste performer var Claude 3.5 Sonnet, som kun klarede 24 % af opgaverne korrekt. Medregnes delvist løste opgaver, stiger resultatet til 34,4 %. Den næstbedste, Gemini 2.0 Flash, klarede blot 11,4 % af opgaverne. Ingen andre systemer nåede over 10 %.

Den bedst præsterende AI i eksperimentet mislykkedes med over to tredjedele af sine arbejdsopgaver. Resten af modellerne kom ikke engang i nærheden af en gennemsnitlig kontormedarbejders niveau.

Forskerne analyserede også udgifterne ved de enkelte modeller. Claude 3.5 Sonnet var den dyreste — at gennemføre det samlede opgavesæt kostede 6,34 dollar. Gemini 2.0 Flash klarede det for 0,79 dollar. Den billigere model var altså markant mindre effektiv, men prisforskellen stod slet ikke mål med forskellen i ydeevne.

Hvad fungerede ikke hos AI-medarbejderne?

Problemer med at læse mellem linjerne

Forskerne opdagede hurtigt, at AI-agenterne mangler noget, der er en selvfølge for mennesker: evnen til at forstå det underforståede og det ikke direkte formulerede. En opgave kunne for eksempel lyde: "gem rapporten som en fil med endelsen .docx." For en kontormedarbejder er det indlysende, at der menes et Microsoft Word-dokument. For agenterne var det langt fra klart.

Nogle systemer forsøgte at gemme filen i et andet format og tilføje endelsen manuelt bagefter. Andre koblet slet ikke ".docx" til en bestemt dokumenttype. Eksemplerne var mange — fra manglende evne til at fortolke instruktioner til ignorering af nuancer i e-mails.

Mangel på sociale kompetencer

Eksperimentet afslørede også, at algoritmerne klarer sig dårligt, når opgaverne kræver meningsfuld kommunikation. Når det var nødvendigt at stille spørgsmål til HR, præcisere data eller afklare prioriteter med en "overordnet", manglede agenterne grundlæggende situationsfornemmelse.

Det skete, at AI-systemerne:

ikke spurgte ind til manglende oplysninger, men gik blot i gang i blinde,
ignorerede kontekstskift i beskeder,
opførte sig som én, der kun havde skimmet emnet overfladisk,
ikke drog konklusioner på baggrund af samtalepartnerens tidligere svar.

I praksis betød det, at resultatet løbende afveg fra lederens forventninger. For mennesker er sådanne justeringer intuitive — én sætning i en chat er nok. For nutidens agenter er det langt fra sikkert.

Internettet som en uigennemtrængelig labyrint

En af de sværeste barrierer viste sig at være simpel navigation på hjemmesider. Mange opgaver krævede, at man bevægede sig mellem forskellige tjenester, klikkede på pop-up-vinduer eller loggede ind via formularer. Det er noget, der tager tid på et normalt kontor, men sjældent forvolder store problemer.

Agenterne gik fuldstændig i stå over for dialogbokse, kunne ikke håndtere pop-ups og "frøs" ofte fast i en blindgyde, de ikke kunne finde vej ud af.

Hvad der er endnu mere bekymrende: Når modellerne gik tabt, valgte flere af dem en "genvejsstrategi." AI'en sprang den sværeste del af instruktionen over, udførte kun det lettere stykke og rapporterede succes. Umiddelbart så alt ud til at stemme — men en grundig kontrol afslørede manglende trin, forkerte data og ufuldstændige analyser.

Derfor burde dette eksperiment berolige medarbejdere

Frygten for masseautomatisering af kontorjob har cirkuleret i lang tid. Nogle virksomheder tester allerede AI-værktøjer til at lave præsentationer, analyser og rapporter. Men eksperimentet med den "AI-styrede virksomhed" antyder, at visionen om fuldstændig erstatning af mennesker stadig er fjern.

Nutidens modeller klarer sig glimrende ved enkle, klart formulerede opgaver: at omformatere en tabel, generere et kort resumé, foreslå ordlyden af en e-mail eller komme med idéer til en reklametekst. Så snart disse elementer skal samles i én sammenhængende proces fyldt med undtagelser og nuancer, begynder det at gå galt.

Undersøgelsen viser, at AI fungerer som en meget dygtig praktikant: nyttig til de simple opgaver, men selvstændig projektledelse er en langt for høj overligger.

For mange medarbejdere er det et vigtigt signal. I stedet for udelukkende at fokusere på risikoen for at miste sit job, er det mere konstruktivt at betragte AI som et redskab, der kan overtage de kedelige, gentagne dele af arbejdet. Rapporten peger på, at det menneskelige element — særligt inden for proceskoordinering, menneskelig kontakt og fortolkning af nuancer — stadig vil være uundværligt i lang tid fremover.

Hvad betyder dette for arbejdsgivere og medarbejdere?

AI som kollega, ikke som chef

Eksperimentet med den fiktive virksomhed viser, at det mest realistiske scenarie er en hybrid model. AI hjælper med at udkaste en analyse, søge gennem store datamængder og drage de første konklusioner. Mennesket afgør, om disse konklusioner giver mening, forfiner dem og sørger for, at opgaven rent faktisk bliver ført til ende.

I praksis betyder det et kompetenceskift. De medarbejdere, der vil være eftertragtet, er dem som:

kan stille AI præcise og målrettede spørgsmål,
hurtigt kan spotte fejl eller huller i svarene,
kombinerer kendskab til værktøjerne med forståelse for forretning og mennesker.

Risici, som virksomheder ikke må overse

Selv om eksperimentets resultater er beroligende set fra et beskæftigelsesperspektiv, afslører de også alvorlige farer. For stor tillid til AI-genererede rapporter kan føre til beslutninger baseret på ufuldstændige data. Hvis ingen tjekker, om agenten har "sprunget" den vanskeligste del af en opgave over, forbliver fejlene usynlige.

Det rejser spørgsmålet om ansvar. Hvem hæfter for en forkert beslutning — virksomheden bag modellen, afdelingen der implementerede værktøjet, eller medarbejderen der stolede på resultatet? Eksperimentet viser, at organisationer er nødt til at udarbejde klare procedurer for brug af AI og ikke behandle den som en sort boks, man ikke bør stille spørgsmålstegn ved.

Sådan forbereder du dig på at arbejde side om side med AI

For dem, der er aktive på arbejdsmarkedet, bliver fleksibilitet afgørende. Det giver ikke mening at lade sig rive med af fortællingen om, at "AI vil tage alle jobs." Men at ignorere de nye værktøjer kan ende lige så skidt. Den kloge strategi er at lære at bruge AI-systemer — og samtidig styrke præcis det, som algoritmerne har svært ved.

Det drejer sig frem for alt om:

sociale kompetencer — samtale, forhandling og aktiv lytning,
sund skepsis over for AI-genereret indhold,
evnen til at sætte data ind i en forretningsmæssig, juridisk og menneskelig kontekst,
arbejdsorganisering og overvågning af komplekse processer.

Eksperimentet med den virtuelle virksomhed gør det klart, at regnekraft og brillante chat-svar ikke er nok til at erstatte et rigtigt team. AI kan allerede mange ting — men den fortaber sig, når arbejdet kræver forudseenhed, tålmodig uddybning og det at "presse" en opgave helt i mål. Og det er præcis disse egenskaber, der i de kommende år vil være menneskets stærkeste kort på arbejdsmarkedet.