Jakten på prompt-ingeniørene er i gang
Med ChatGPT er det meningsløst å stille enkle søkespørsmål som Google løser like bra. Nå må teksten – prompten – skreddersys for å få det beste resultatet. Prompt engineering er blitt en del av hverdagen både for privatpersoner og tallrike nystartede selskaper.
World Economic Forum har hentet frem kunstig intelligens som et av de aller viktigste arbeidsmarkedene i fremtiden, og i amerikanske stillingsannonser ser vi nå at det søkes etter “prompt engineers” med sekssifrede lønninger – målt i dollar.
De nyansatte ingeniørene skal skrive blogger og eposter, salgsbrev og analyser. Men de gjør det uten å kunne programmeringsspråk, uten å bruke tekniske koder.
Generativ kunstig intelligens – eller generativ AI – har gjort det litt vage og ulne begrepet langt mer forståelig. Nå er ikke kunstig intelligens lenger noe som teknikere og ingeniører holder på med bak lukkede dører, det er noe alle kan få tilgang til på datamaskinen eller mobilen.
Generativ AI genererer noe – den skaper noe – i form av tekst, men også i form av bilder eller video. Men for at kommunikasjonen med disse AI-løsningene skal skje optimalt – med det ønskede resultatet – kreves det at brukerne jobber med promptene. Det har heller ikke her kommet noen god norsk oversettelse, de beste så langt er kanskje “anmodning” eller “instruksjon”.
Prompten er selve nøkkelen i løsningene som bygger på NLP – eller naturlig språkprosessering – og som igjen er teknologien som ligger bak chatbots som ChatGPT. Poenget er at disse AI-systemene skal kunne forstå og tolke den menneskelige input’en, men instruksjonen må være langt mer enn de søkeordene vi har vært vant til å legge inn i søkemotorer. Dette er en prosess som byr på mye prøving og feiling, mange gode og dårlige forsøk.
ChatGPT er den uten sammenligning mest brukte løsningen i dag, med Open AI og Microsoft Azure som tette samarbeidspartnere. Men Google jobber også med sitt Bard-alternativ, og i Kina forsøker både Huawei og Baidu å melde seg på i kampen med sine PanGu- og Ernie-løsninger.
På toppen av dette finnes det også mange open source-løsninger. Falcon LLM, Cerebras-GPT, Alpacino og Huggingchat er noen eksempler fra den leiren.
Noen trillioner tokens
Men dette med språkmodeller er ikke noe nytt, det er ikke noe som ble lansert i fjor.
– De har eksistert i mange år, det har vært en utvikling over tid for å håndtere stadig større datamengder, sier Alexander Vaagan.
Han har jobbet med kunstig intelligens og maskinlæring som chief data scientist i 15 år for Inmeta Consulting, et datterselskap av børsnoterte Crayon
.– I 2017 kom gjennombruddet for språkmodellene med dokumentet “Attention is all you need”, der arkitekturen for språkmodellene kom på plass. Da startet veldig mye av den revolusjonen som vi nå kan se i praksis.
Vaagan forteller at disse modellene trener på noe som skal være 1,4 trillioner tokens – eller 1,4 med 18 nuller. Det vil si at de øver på å se og skape sammenhenger mellom alle disse.
Dette er det som kalles prompt engineering, og er mer for en kunst å regne enn en vitenskap.Alexander Vaagan, Inmeta
– Du kan tenke på et token som et ord, men det er ikke et helt ord, det er heller en liten bit av et ord. 1,4 trillioner er stort sett hele internett, pluss litt mer.
Hvordan man stiller spørsmål påvirker hvordan språkmodellene svarer. – Dette er det som kalles prompt engineering og er mer for en kunst å regne enn en vitenskap.
Et av triksene er selvfølgelig å legge inn bedre spørsmål og instruksjoner, men med litt øvelse øker også antallet ord som legges inn i prompten.
–Er det noen begrensning på dette? Kan man skrive uendelig mye?
– Nei, ikke uendelig mye, sier Vaagan. – ChatGPT håndterer nå 8.192 tokens, det er grensen.
– Det er fortsatt deler av ord?
– Ja, det er måten du bryter ned ord på. Ordene deles opp i tokens, og de samme delene kan brukes i mange ord. “The” brukes for eksempel mye og er et token.
I snitt bygges gjerne et ord opp av to eller tre tokens.
– Hvis man da har 8.192 tokens til disposisjon, kan du dele det antallet opp i to eller tre for å finne antall ord. Og vi ender opp med cirka 3.000. Det vil si at du har syv–åtte A4-sider til disposisjon for prompten. Det bør bli et bra søk.
Men dette antallet er bare en foreløpig grense. Kapasiteten til modellene øker med lynets hastighet.
– For noen uker siden kom det en open source-modell som kan håndtere 65.000 tokens.
– Men disse modellene blir ikke mye brukt?
– Det er flere grunner til det. Den viktigste er at ingen har kommersielle interesser av å legge dem ut. Det er ikke noe å tjene på det. De er også i stor grad bygget på modellen LLaMa, som ble lekket fra Facebook. Den var veldig bra, og blir nå videreutviklet. Det vil komme massevis av konkurrenter til ChatGPT og Open AI, men ingen av disse vil bli lansert kommersielt fordi det er ingen tunge kommersielle aktører som kan finansiere utviklingen, sier Vaagan.
Løfter AI ut av AI
Det kan imidlertid også være et poeng å kunne begrense seg. Ikke legge inn ubegrenset antall ord eller tokens bare fordi det er mulig.
– Joda, man kan virkelig slå seg løs, men hvis du legger inn for mye tekst, er det også en stor sannsynlighet for at du forvirrer modellen, sier Mikkel Five Melvær.
Han leder arbeidet med forretningsrådgivning innen AI i Inmeta, og tilhører egentlig ikke den harde tekniske kjernen i konsulentselskapet. Men han jobber likevel så tett på denne kjernen at han ikke er sikker på at prompt-ingeniører egentlig er en AI-rolle. – De har jo strengt tatt lite med utvikling av AI å gjøre, smiler han. – Det er en stilling laget for å skrive ord i tekstfeltet på en god måte, og å måle om resultatene fra det som anmodes kan brukes til noe hensiktsmessig.
– Men det kan gi utrolig god verdi hvis de klarer å gjøre det bra, og mange store selskaper begynner nå å ansette personer i denne rollen.
– Og man løfter AI ut av AI?
– Ja, egentlig . Tidligere var det veldig tekniske personer som jobbet med kunstig intelligens. Nå kommer det inn tekstforfattere eller noen som er veldig gode til å skrive eller formulere seg. Folk som forstår hvordan modellen virker og hvordan den tolker all den input den får. Det er spennende at det skapes en ny yrkestittel, bare basert på en ny type løsning på markedet.
Det har også skjedd en enorm innovasjon og etablering av nye oppstartsselskaper der prompt-ingeniørene kan boltre seg.
– Det har eksplodert med innovative ideer der ute. Det dukker opp firmaer hver eneste dag av personer som viser hvordan man gjøre både kule og nyttige ting med modellen. Vi har holdt på med AI og maskinlæring i mange år, men takten på AI-selskaper som nå dukker opp har eksplodert. Det skyldes selvfølgelig at generativ AI er blitt tilgjengelig. Flere selskaper skapes eller utvikler seg basert på god bruk av teknologien, mens endel nok kan bli døgnfluer, sier Melvær.
Søker step-by-step
Disse selskapene kan enten lage generelle løsninger eller spisse seg inn mot en bransje. De bygger et chat-grensesnitt som er skreddersydd for en spesiell målgruppe.
– De kan også gjøre noe som er nytt, de kan lage en agent med denne teknikken. De kan stille et spørsmål til den som den egentlig ikke vet svaret på, sier Vaagan.
– For eksempel fordi den ikke er oppdatert og trent på alt som har skjedd etter september 2021?
– Ja, du kan stille spørsmålet om hvem som vant sjakk-VM i 2023, men det vet ikke chatboten. Men så kan du lage en prompt som forteller den hva den skal gjøre hvis den ikke vet svaret. Da gir du den tilgang til internett, du tipser den om å søke på nettet. Den får da svar og tolker disse svarene. Da kan modellen enten gjøre nye søk basert på det den har sett, eller den kan komme tilbake og fortelle at den vet svaret.
– Mange nystartede selskaper lager slike løsninger – eller agenter?
– De automatiserer slike søk, og det er en ganske spennende greie. Man kan tenke seg at kapitalforvalteren sitter og leser morgenrapportene. Da kan han eller hun sette i gang en agent til å sveipe innom alle stedene de ønsker å se. Agenten kan da lage et sammendrag av hva som skjedde i Kina i natt eller det som skjedde i USA etter at børsene ble stengt.
– Det er den samme modellen som brukes?
– Ja, den drar ut, men gjør det på en litt annen måte. I prompten settes det opp en liste med instruksjoner der det står hvilken oppgave som skal løses, og det beskrives step-by-step hvordan modellen skal gjøre dette. Hvilke verktøy på nettet den har tilgjengelig.
Vaagan forteller at det ligger et demospørsmål inne i rammeverket til ChatGPT som illustrerer denne prosessen. “Hvor gammel er kona til CEOen i Microsoft?”
– Det står ikke noe om hvem som er CEO, eller hvem som er kona. Modellen må bryte ned det spørsmålet. Først finne ut hvem som er CEO, så finne kona, og deretter hvor gammel hun er. Det må brytes ned i tre oppgaver. Men det skjønner den, og den går i gang.
– Kan jeg lage en slik agent? Eller er det noe de nye selskapene holder på med?
– Det kan du klare, og det er grunnen til at det er stor innovasjon på dette nå. Men det krever at du lærer deg litt programmering.
– Det er ikke noe alle går i gang med?
– Det er veldig lett både å installere Python på maskinen, og lære å bruke den. Da kan du med noen kodelinjer lage en slik agent. Men dette er nok først og fremst for oppstartsselskapene, konstaterer Vaagan.
Søker betydning, ikke ord
ChatGPT og de andre store språkmodellene bruker store mengder åpent tilgjengelige data ved trening av sine modeller. Men mye av verdien for startsups og etablerte virksomheter er å koble på data fra lukkede nett, som bare de har tilgang til for å legge på ytterligere verdi.
– Disse selskapene bruker gjerne den samme GPT-modellen, men de legger sitt eget skall utenpå ChatGPT som behandler sine egne eller sine kunders lukkede data på en spesiell måte, forklarer Melvær. – De bruker modellen som er trent på data ute i verden, men de utvikler en hybrid løsning som søker og tilgjengeliggjør slike lukkede data. Her er det veldig mange muligheter, og vi har dialog og prosjekter mot blant annet offentlige og juridiske miljøer, samt investeringsvirksomheter og startups som sitter med data som er egnet til denne typen hybridløsninger.
Det kan gjerne være 8.000 tall som sier noe om innholdet og betydningen av disse dokumentene.Mikkel Five Melvær, Inmeta
I tillegg til normale tekstsøk forteller Melvær at man her også kan gjøre såkalte semantiske søk. Man søker på innholdet eller betydningen av en tekst, snarere enn ordene selv.
– Måten man gjør dette på er at man bygger såkalte embeddings av disse dokumentene. Du kan tenke deg at du har et stort tekstdokument, og embeddings er da egentlig en lang tallrekke. Det kan gjerne være 8.000 tall som sier noe om innholdet og betydningen av disse dokumentene. Man bruker andre typer språkmodeller til å generere disse tallene, representert i en vektor.
– Dette kan ChatGPT også utnytte?
– Ja, når du går inn i søke-grensesnittet og stiller et spørsmål, genererer chatboten en tallrekke, en tallvektor. Så går den og søker i databasen etter andre tallvektorer som ligger i nærheten. Dette kan man se for seg som dokumenter som er i nærheten av hverandre i et fysisk rom, fordi de ligner av forskjellige grunner som modellen bestemmer.
– Den leter etter dokumenter som har noe å gjøre med det man søker etter?
– Ja, og da blir de som ligger nærmest, for eksempel topp ti, hentet frem. Så blir de levert til ChatGPT sammen med spørsmålet ditt for å sikre at svarene blir relevante.
– Men dette er også for programmerere, for prompt engineers? Ikke for meg?
– Ja, her trenger man litt teknisk kompetanse, men tilnærmingen har allerede blitt standardisert, og kan ganske enkelt gi en helt annen søkeopplevelse enn man er vant til på internett, uten at den som utvikler løsninger er ekspert i hverken programmering eller tradisjonell AI-utvikling, sier Melvær.
Sensurerer Ole Brumm
Dette er noe av det ChatGPT og språkmodellene er i stand til å gjøre, eller kan bli programmert til å gjøre. Men hva kan de ikke gjøre?
For å finne et av de beste eksemplene kan vi hente frem de kinesiske språkmodellene. I mars ble Ernie lansert av den kinesiske tech-giganten Baidu, men denne er også under streng kontroll av de kinesiske myndighetene – og i den leiren liker man ikke Ole Brumm.
Den lille bjørnen brukes ofte som look-a-like til presidenten, og da en reporter i en CNBC-sending spurte om forholdet mellom Xi Jinping og Ole Brumm, ble han kastet ut av Ernie.
De langt mer generelle tingene en chatbot som ChatGPT ikke klarer, er å komme med svar om ting som har skjedd etter september 2021. Den er heller ikke koblet til internett og kan derfor for eksempel ikke gjennomføre ordinære Google-søk.
Den svarer heller ikke på spørsmål som kan tyde på noe ulovlig, for eksempel hvordan man dirker opp en lås. Modellen har heller ingen preferanser.
Hvis du spør om temaer og bruker spesielle ord som betraktes som farlige, kan du bli sensurert.David Lara Arango, Atea
David Lara Arango jobber som sjefkonsulent innen blant annet AI i det børsnoterte teknologiselskapet Atea, og han har forsøkt seg med noen ulovlige ord på ChatGPT.
– Hva slags sensur finner vi der?
– Det går stort sett på ord. Hvis du spør om temaer og bruker spesielle ord som betraktes som farlige, kan du bli sensurert. Med ord som bombe, terroristangrep og lignende kan du fort bli sensurert. Eller hvis du ber om hjelp til ulovlige ting som smugling og hvitvasking.
– Du har selv forsøkt deg med noen av disse ordene?
– Jeg har selvfølgelig ikke lyst til å bygge en bombe, men jeg forsøkte meg og ble sensurert. Du kan også bli sensurert hvis du spør om ting som kan lede til krig, sier Arango.
Men han mener også at det kan være omveier som leder til målet.
– Det kan finnes måter å spørre på slik at varslingssystemene ikke blir aktive. Det kommer litt an på hvordan du spør. Hvis du fokuserer på det du ønsker å vite, krigsteknologi eller noe annet, får du umiddelbart en sensur. Men hvis du spør om situasjonen i krigsherjede land, kan du få den ønskede informasjonen via omveier. Og jo flere ganger du spør, jo nærmere kan du komme.
Arango driver også med kampsport på fritiden, og han blir også sensurert dersom han spør om dødelige teknikker eller noe ChatGPT oppfatter som farlig.
– Når du sensureres, blir du da bare nektet svar eller blir du stengt ute?
– Jeg har aldri blitt sperret ute, men jeg har lest på LinkedIn om personer som er stengt ute i en viss tid.
ChatGPT lærer og trener, og chatboten får også masse spørsmål som kan påvirke den.
– Kan dette føre til at man etter hvert slipper igjennom med det som i dag blir sensurert?
– Absolutt. Hvis man for eksempel spør om våpen eller dødelige teknikker som blir godt kjent og beskrevet på nettet, vil kanskje sensuren bli mindre streng etter hvert, sier Arango. – Uansett er det viktig at bruk av ChatGPT og lignende teknologier krever regulering fra politikere med kjennskap til dem, slik at AI brukes på en god måte, og hindrer misbruk og skadelige effekter.