Som man roper i skogen, får man svar
Digital kompetanse, kunstig intelligens og forskningsdiskursen rundt store språkmodeller.
Main content
Rune Johan Krumsvik, Professor, UiB
Forskere er veldig nøye med planleggingen og design av surveyer, intervensjonsstudier, kvalitative forskningsintervju og lignende. Men hvordan fortoner dette seg når det gjelder å forstå distinksjonen mellom ulike språkmodeller, mellom domenespesifikke versus generiske språkmodeller, samt semantikken rundt ledetekster («in context prompting») som en del av forskningsdesignet her til lands? Har man tilstrekkelig digital kompetanse til denne type forskningsdesign og kan en høyere bevissthet rundt dette også bidra til en mer faglig fundert bruk av slike språkmodeller i høyere utdanning? I denne kronikken skal vi se nærmere på tre aspekt rundt dette.
Gjennom 2023 ble det prisverdig arrangert en rekke seminarer, konferanser, o.l. her til lands som tematisk ofte var innrettet mot hva språkmodellen ChatGPT var kapabel til. Ser man tilbake på medieoppslagene fra disse arrangementene og samfunnsdebatten generelt, så var gjennomgangstonen oftest preget av at ChatGPT hallusinerer, fantaserer og gir feilaktig informasjon. Og selv om dette til en viss grad stemte, ble det i liten grad snakket om, og eventuelt hvorfor brukernes digitale kompetanse også spiller inn på slike fenomen. Skavankene som ble belyst hadde dermed også en klangbunn til hvordan man anvendte disse språkmodellene og hvor dette tidvis bar mer preg av en anekdotisk «prøving og feiling» enn en systematisk, forskningsmessig utprøving. Påfallende ofte skinte en manglende forankring til kunnskapsgrunnlaget igjennom i en slik hverdagsdiskurs, og hvor det sjelden ble gjort noen distinksjon mellom kapabiliteten til språkmodellene ChatGPT og den langt større GPT-4. Mye av dette er selvsagt naturlig i en tidlig fase av slike teknologiinnovasjoner og handler ofte om at man i begynnelsen lener seg på de oppfattede mulighetene (perceived affordances) «der og da» og ikke de mer analytiske, reelle mulighetene (real affordances) (Norman, 1999) i slike teknologiinnovasjoner. Samtidig er det et behov for å forbedre kunnskapsgrunnlaget på dette området og derfor viktig at man legger til grunn de samme forskningsmessige konvensjoner som ved annen forskning for at man skal klare å bevege seg fra en hverdagsdiskurs til en forskningsdiskurs om hva disse språkmodellene er kapable til. De tre aspektene jeg løfter frem under synes å være spesielt viktig i denne sammenhengen og som på et basalt nivå handler om hvorfor digital kompetanse kan motvirke effekten av en noe forenklet «som man roper i skogen, får man svar»-retorikk.
Det første aspektet handler om å unngå fenomenet «When all you have is a hammer – everything in life looks like a nail». Med andre ord – om man bare legger til grunn hva gratisversjonen ChatGPT er kapabel til, kan dette underkommunisere hva mye større språkmodeller som GPT-4 er kapable til (som krever abonnement). For gjennom et dypdykk i kunnskapsgrunnlaget, egne kunnskapsoppsummeringer, reanalyser av store studier og utprøving/testing av kapabiliteten til GPT-4 finner jeg en del funn som er viktig inn mot en slik forskningsdiskurs her til lands (Krumsvik, 2023a). Det blir her avdekket at gratisversjonen ChatGPT har hatt en del kjente kjønns- og klassestereotypier, demografiske skjevheter, samt diskriminerende aspekter siden den ble lansert i november 2022. Dette er basert på treningsdataene og andre strukturelle faktorer som denne baserer seg på, og som videreføres til modellresultatene man får opp. Ser man på kunnskapsgrunnlaget rundt språkmodellen GPT-4 så har, og har den hatt langt mindre av slike skavanker på grunn av at denne er veldig mye større enn ChatGPT, den er trent på et nyere og bredere treningsgrunnlag enn ChatGPT, den er multimodal og den har blitt mer eller mindre finjustert hele tiden den har eksistert. Og flere studier finner relativt klare forskjeller mellom ChatGPT og GPT-4 på en rekke områder (Krumsvik, 2023a; Brin et al., 2023). Dette illustrerer behovet for å nyansere dette bildet og erkjenne at språkmodeller som ChatGPT og GPT-4 har mange fellestrekk, men har også ulike kapabiliteter ved seg som det er viktig å ta høyde for når man snakker om forskning på slike språkmodeller. Som kjent er ikke dette et nytt fenomen da gratisversjoner av andre applikasjoner, programvare, o.l. man bruker i forskningssammenheng svært sjelden har samme kapabilitetene som fullversjonene som man anvender.
Det andre aspektet handler om at det heller ikke innen dette området finnes det «one size fits all» og dette gjelder viktigheten av å forstå distinksjonen mellom generiske og domenespesifikke GPT’er. Mens generiske språkmodeller som ChatGPT’s treningsgrunnlag er massive mengder generelle tekstdata, som Wikipedia, nyhetsartikler, bøker og innlegg i sosiale medier, så er domenespesifikke GPT’er som for eksempel BioGPT trent på millioner av kvalitetssikrede vitenskapelige biomedisinske artikler (Krumsvik 2023a). Det sier seg selv at sistnevnte er langt mer pålitelig på domenespesifikke spørsmål enn den generiske ChatGPT, og dette er også viktig å ta høyde for når man snakker om kapabiliteten til GPT’er. For en forsker vil ofte en domenespesifikk GPT derfor være viktigst å anvende i forskningssammenheng for å øke treffsikkerheten og påliteligheten. Samtidig må det sies at både ChatGPT og GPT-4’s muligheter for å utvikle en «chatbot i chatboten» gjør det mulig å spisse og gjøre treningsgrunnlaget mer domenespesifikt, og som også kan avhjelpe forskere og akademikere (Krumsvik 2023b) i så måte. Dette, sammen med GPT-4’ multimodale egenskaper gjør at slike modeller gir muligheter for å øke påliteligheten for brukere ved at man utvikler en mer domenespesifikk «chatbot i chatboten». Vi kan ta et eksempel fra egenutvikling av en slik «chatbot i chatboten» for akademisk skriving av kappen i en doktorgradsavhandling. Denne kondisjoneres på egen domenespesifikk forskerutdanningslitteratur fra åpne kilder fra det siste tiåret tunet inn mot den norske forskerutdanningens kontekst. Den tar også høyde for kunnskapsgrunnlaget rundt formativ vurdering hvor man finner at generelle læringsmål ikke er tilstrekkelig, og bør suppleres og «pakkes ut» med ulike lag av «rubrics» (Wollenschläger et al. 2016) som øker transparensen rundt hvordan kappen kan utformes. Utvikling av slike «rubrics» er basert på kunnskapsgrunnlaget rundt akademisk skriving, institusjonelle retningslinjer for kappeskriving og erfaringsbasert kunnskap fra doktorgradskurs rundt slike tema. De er utviklet over tid og peilet inn mot det aktuelle doktorgradskursene for å gjøre disse mer domenespesifikke lenge før GPT-4 så dagens lys (Krumsvik, 2016; 2022a, 2022b). Så en slik «chatbot i chatboten» bygger dermed på et forarbeid over tid, et kunnskapsgrunnlag og en kondisjonering som gjør den mer domenespesifikk enn generiske GPT’er. Selvsagt er en slik chatbot bare en sparringpartner for doktorgradsstipendiatene sammen med en rekke andre viktigere støttestrukturer som veiledere, forskningsgrupper, m.fl. Meningsfull bruk av slike forutsetter at man har tilstrekkelig digital kompetanse til å forstå at ulike GPT’er har ulike styrker og svakheter, samt at man må mestre «chain of thought prompting» som man skal se på under.
Det tredje aspektet handler om «garbage in – garbage out», det vil si hvor mye presise og treffsikre ledetekster, forespørsler og «in context prompting» har å si for hvor pålitelige svar man får fra disse språkmodellene. Her tar jeg opp i boken min viktigheten av at spesielt «chain of thought prompting» (trinnvise ledetekster) bli anvendt og som innebærer at slike ledetekster er nøye fundert, stringente og konsistente. Når en slik «chain of thought prompting» ikke er tilstede, øker sjansene betraktelig for det man i hverdagsdiskursen erfarer som hallusinering, fantasering og upresise responser. Derfor er også ett av mine funn i boken min at man må være svært årvåken og påpasselig med dette i forskningssammenheng. Men hvordan kan så dette utspille seg i praksis? Bruker man det overnevnte eksempelet hvor forskningsstudier har undersøkt om GPT-4s om har kjønns- og klassestereotypier, demografiske skjevheter, samt diskriminerende aspekter, så ser man at enkelte studier (selv om de ellers er solid designet) mangler «chain of thought prompting». Når man ser på de «prompts» som forskerne har anvendt er det tidvis korte 2-3-linjers prompting. Ser man dette i relasjon til det overnevnte og at konsistent «chain of thought prompting» ofte krever 8-9 linjers prompting, så er det viktig erkjenne at noen av funnene kan bli preget av dette og man må som forsker ta nødvendige forbehold. Her blir også forholdet mellom perceived affordances (mangelfull prompting) og real affordances (trinnvise ledetekster) synlig og dette har ofte en klangbunn inn mot en noe manglende digital kompetanse. Så selv om forskerne ofte har et godt forskningsdesign og utfører et svært godt statistisk håndverk, kan ikke slike prompting-mangler avdekkes ved enda mer omfattende statistisk testing, siden det er prompting-manglene selv som styrer hvilken empiri som skal gjelde. Dette er spesielt viktig å være oppmerksom på innen forskning på GPT-4 som har sin store styrke i semantisk analyse basert på presis «chain of thought prompting» og treningsgrunnlaget (som i dag har varierende kvalitet). Og dette er essesensielt å huske på for generiske GPT’er som GPT-4 som ikke er domenespesifikk. Hadde GPT-4 vært mer domenespesifikk og for eksempel trent på pasient- og registerdata og kvalitetssikret forskningslitteratur innen helsevitenskap, ville med den blitt enda mer pålitelig, men dette er fremdeles et etisk minefelt.
Oppsummert så er de overnevnte tre aspektene viktig å ta høyde for når man beveger seg fra en hverdagsdiskurs til en forskningsdiskurs om kapabilitetene til språkmodellene. Fra mine egne reanalyser, testing og utprøving av GPT-4 viste ikke denne en konsekvent skjevhet på aggregert nivå når «chain of thought prompting» blir utført, men det betyr selvsagt ikke at slike potensielle skjevheter og slike feil kan oppstå på enkeltledetekster, enkeltfaktorer, individnivå, o.l. Uansett understreker dette behovet for gjennomtenkte forskningsdesign og et bedre kunnskapsgrunnlag rundt ChatGPT og GPT-4 slik at man kommer noe videre fra hverdagsdiskursens’ anekdoter til en mer tydelig forskningsdiskurs, samt at de skavanker som faktisk finnes hos GPT-4 må adresseres inn mot den kommende GPT-5 (under utvikling). Forskere bør også i større grad vurdere om det tidvis er nødvendig å anvende mer domenespesifikke GPT’er som er utviklet for spesifikke forskningsområder, samt anvende «chatbot i chatboten» som er kondisjonert og basert på et kunnskapsgrunnlag, og som også er mer tunet inn mot det domenespesifikke. Dette vil styrke kunnskapsgrunnlaget på området, tydeliggjøre viktighetene av digital kompetanse og styrke forskeres forskningsdesign i tiden fremover her til lands.
Referanser
Brin D, Sorin V, Vaid A et al. (2023). Comparing ChatGPT and GPT-4 performance in USMLE soft skill assessments. Sci Rep, 13(1).
Krumsvik, R.J. (2016). En doktorgradsutdanning i endring. Oslo: Fagbokforlaget.
Krumsvik, R.J. (2002a). Academic writing in scientific journals versus doctoral theses The article-based thesis and the synopsis. Nordic Journal of Digital Literacy, 2(17), 78-94. https://www.idunn.no/doi/10.18261/njdl.17.2.1
Krumsvik, R. J. (2022b). Fra implisitte til eksplisitte sjangerkrav for kappen i en doktorgrad. Forskerforum, 7. https://www.forskerforum.no/fra-implisitte-til-eksplisitte-sjangerkrav-f...
Krumsvik R.J. (2023a). Digital kompetanse i KI-samfunnet. Et blikk på hvordan kunstig intelligens preger livene våre. Oslo: Cappelen Damm Akademisk.
Krumsvik R.J. (2023b). Writing the Synopsis Companion. Support for PhD thesis synopses. OpenAI. https://chat.openai.com/g/g-T6wJuA5tr-writing-the-synopsis-companion
Norman, D. A. (1999). Affordance, conventions, and design. Interactions, 6(3), 38-43. https://doi.org/10.1145/301153.301168
Wollenschläger, M., Hattie, J., Machts, N., Möller, J., & Harms, U. (2016). What makes rubrics effective in teacher-feedback? Transparency of learning goals is not enough. Contemporary Educational Psychology, 44-45, 1–11. https://doi.org/10.1016/j.cedpsych.2015.11.003