Det finnes internasjonal litteratur om hvordan man kan utvikle gode spørreskjema til flerkulturelle eller tverrnasjonale spørreundersøkelser. I slike undersøkelser er idealet at måleinstrumentet, eller instrumentene, har svært god validitet - altså at de måler det de skal måle, og er sammenlignbare, slik at dataene også blir det, for alle kultur- eller språkgruppene som dekkes av undersøkelsen. Spørreskjemaet bør helst fungere på tilnærmet samme måte i alle gruppene de skal brukes i. For å oppnå dette anbefales visse prosedyrer i planleggingen av undersøkelsene og utviklingen av selve skjemaene, i tillegg til utstrakt testing og dokumentasjon. Dokumentasjonen bør både være av oversettelsene, testingene og de ulike endringene man gjør underveis.

Slike retningslinjer og krav kan fort virke omfattende og strenge i en norsk sammenheng, fordi vi sjelden har så mye ressurser til rådighet for planprosessen til en spørreundersøkelse. Det er ennå i relativt liten grad aksept for nødvendigheten av slike perspektiver for å gjennomføre en alminnelig god datainnsamling på et utvalg av den norske befolkningen, selv om utvalget samtidig både er multietnisk og flerkulturelt (men ikke i like stor utstrekning som i de store surveylandene). Vi regner imidlertid med at dette vil bli mer vanlig også i Norge i framtida.

Vanlige feilkilder i flerkulturelle eller tverrnasjonale undersøkelser der det brukes oversatte skjema regnes for å være:

  • at kildespørsmålet (det opprinnelige spørsmålet i malskjemaet) har feil eller svakheter i seg – på ”originalspråket”
  • at oversettelsen har feil eller mangler
  • at kildespørsmålets interaksjon med den oversatte varianten har feil eller mangler – altså at spørsmålet oppfattes forskjellig selv om det rent språklig er korrekt oversatt
  • kulturelle forskjeller i begrepsinnhold eller målestokk; enten ved at begreper som brukes i skjemaet ikke eksisterer på ett eller flere av språkene det er oversatt til, eller at målemetoden er ubrukelig i noen av kulturene pga holdning/tradisjon

Spørsmålsformuleringer og oversettelser bør altså være tilnærmet ekvivalente – de bør måle det samme på alle språk og for alle respondenter.

Samtidig er det slik at også gode oversettelser kan fungere dårlig og være ikke-ekvivalente i en survey-sammenheng. Et eksempel kan være equality/egalité, som forstås forskjellig på engelsk og fransk, eller education/educación. Strukturelle forhold i ett eller flere av landa eller kulturgruppene kan gjøre at en spørsmålsformulering ikke forstås, eller oppfattes som et helt annet spørsmål (som handler om noe annet), i deler av populasjonen. Det er flere råd tilgjengelig for å unngå uheldige effekter av dette, se Smith (2004), men dette blir for omfattende å gjengi her. De ulike tilnærmingene er dessuten mest relevante i store, kostbare prosjekter.

I krysskulturell forskning og lingvistikk anvendes begrepsparet ”etic”* og ”emic”. Vi kan bruke dette skillet også når vi analyserer betydningen av spørsmål i et spørreskjema. Bestanddeler i spørsmålet som kan kalles ”etic”, eller universelle, beskriver eller uttrykker fenomen som har samme betydning overalt; alle i populasjonen deler meningsinnholdet. Bestanddeler som er ”emic” beskriver fenomen som har en kulturelt betinga forståelse, de har relevans bare for noen av kulturene som er representert i populasjonen. Et eksempel på et ”emic” surveyinnslag kan være at man i Finland stiller et spørsmål som måler betydningen av det å ta badstue for sosial tilhørighet eller velvære; det samme spørsmålet vil være komplett meningsløst i Spania (selv om det er korrekt oversatt). Eksempler på ”etic” innslag kan kanskje være når man spør om foreldre-barn-forhold, eller om betydningen av naboer. Naboer finnes (antakelig) overalt og i alle kulturer, men hva som regnes for kort og lang avstand til naboen varierer enormt. Dersom spørsmålet forutsetter at naboen bor i gåavstand til respondenten, er vi straks på usikker grunn.

Dersom det er mange ”emic” innslag i spørsmålene bør varsellampene lyse. Målet er ikke å unngå det som er ”emic”, men være klar over det, slik at man kan vurdere hvordan den kulturelle betydningen det har i de aktuelle populasjonene vi jobber med, påvirker hvordan spørsmålet oppfattes.

Vanlige råd i internasjonal litteratur for å bøte på de ulike problemene når det gjelder spørsmåls- og svarutforming for flerkulturelle og tverrnasjonale undersøkelser er å være oppmerksom på språk og begreper som brukes i spørsmålene. Unngå abstrakte og subjektive bestanddeler i spørsmål og svar, og vær oppmerksom på skillet mellom etic og emic. Korte og enkle setninger gjør det lettere å unngå disse problemene. Aktive i stedet for passive formuleringer er bra, og spesifikke i stedet for generelle termer.

Unngå så langt som mulig adjektiver som beskriver ulik intensitet, slik som svært, ganske, veldig, fordi disse kan ha forskjellig betydning på ulike språk, selv når det oversettes helt korrekt. Dette er særlig relevant i forhold til brukertilfredshetsundersøkelser, i og med at vi kjenner til så mange eksisterende undersøkelser som benytter seg av slike ord i graderingene av svarskalaene. Brukerundersøkelser handler i stor grad om abstrakte forhold; hvordan man vurderer en opplevelse på et kontor må sies å være et abstrakt fenomen. Mange brukerundersøkelser inneholder også svært mange generelle termer: informasjon, kvalitet og tilgjengelighet.

Når det gjelder ulike spørsmålstyper anbefales det å unngå hypotetiske spørsmål – det vil si spørsmål som dreier seg om en tenkt handling (”hva vil du gjøre dersom ….”). Dette rådet er forøvrig akkurat det samme som vi finner i den generelle anbefalingen fra spørreskjemaeksperter. Det er problematisk å spørre om en vurdering av et fenomen som svarpersonen aldri har vært borte i, eller ikke har noen erfaring fra. I mange brukertilfredshetsundersøkelser spørres det etter vurderinger av slike forhold.

Dette problemet fikk vi bekreftet i testingen av ulike eksisterende brukerundersøkelser blant NAV-brukere med innvandrerbakgrunn. Et eksempel er spørsmålet der man blir bedt om å vurdere om man mener NAV får for lite eller for mye ressurser, og så skal man svare ved hjelp av en 7-punktsskala fra -3 til +3, der -3 er ”alt for lite” og +3 er ”alt for mye”. Her er det få som oppfatter den egentlige meningen i spørsmålet. Tolkningene varierer fra å oppfatte dette som et kunnskapsspørsmål (det har en underliggende tekst som kommuniserer at du skal svare for om du ”følger med i medias omtale av NAV eller ei?”), til å tolke det som et spørsmål om NAV gir testpersonene tilstrekkelig med ressurser (til eget bruk).

Her er altså både forvirring omkring intendert mening og oppgave. Ordet ”ressurser” er i seg selv vanskelig, og oppgaven er uklar. Bakgrunnen for svarene som testpersonene gir, varierer sterkt. Selv de testpersonene som umiddelbart forstår den intenderte meningen i spørsmålet sier raskt; ”hvordan kan jeg vite om NAV for får mye eller for lite? Jeg vet jo ikke hvor mye de har av ressurser”. Oppgaven gir ikke mening for dem. Spørsmålet fungerer også ufrivillig hypotetisk (se over).

Testingen viste også at respondenter som sier de selv synes det er enkelt og greit å besvare skjema til brukerundersøkelser, i gjennomgangen etterpå viser at de har misforstått betydningen av flere av spørsmålene, og at de svarer på noe annet enn det som det spørres om. Eksempel på et slikt spørsmål er spørsmålet om hvor godt kvaliteten på NAV oppfyller dine forventninger. Dette tolkes på flere grunnleggende forskjellige måter. En måte er å tro at man spør om hvilke forventninger man faktisk har til NAV i dag. En annen å tro at man spør om hvilke erfaringer man har med NAV, noe som ofte besvares med å ”regne opp” antall skuffelser og antall positive overraskelser, og så foreta en avregning som vipper i overveiende negativ eller overveiende positiv retning. Spørsmålet er vanskelig å forstå for våre testpersoner, både når det gjelder intendert mening og oppgave. Dette kan ha med språkferdigheter, men kanskje også med den analytiske vinklingen på spørsmålet, å gjøre.

Det samme kan sies om formatet som nå brukes i en del brukerundersøkelser, der man blir bedt om å forestille seg en perfekt etat, for eksempel et NAV-kontor, og så skal man vurdere avstanden mellom det perfekte bildet og de erfaringene man faktisk har. Testpersonene i de kognitive intervjuene har store problemer med å forstå hva de skal gjøre i dette spørsmålet. Det samme gjelder spørsmålet om ”å anbefale eller fraråde”, for eksempel et NAV-kontor. Her er det imidlertid ikke bare språkbakgrunn som gjør det vanskelig å svare. De testpersonene som forsto oppgaven, responderte gjerne spontant; ”NAV-kontoret er ikke noe man anbefaler eller ikke anbefaler; det er noe man har behov for/noe man trenger”. Den intenderte meningen fremstår som meningsløs.

Ifølge den skjemametodiske forskningen på krysskulturelle undersøkelser er numeriske skalaer problematiske fordi tolkningen av ytterpunkter, midtpunkt og tallene i seg selv varierer mellom ulike kulturer. Bruk av tall er også vanskelig fordi de fleste kulturer har forestillinger om heldige og uheldige, hellige og obskøne tall. Dette er en utfordring i forhold til brukerundersøkelser, i og med at mange er bygget opp med slike numeriske skalaer, og ofte med samme skalaformat gjennom hele undersøkelsen, uavhengig av hvilken dimensjon eller hvilket konkrete fenomen det spørres etter.

I litteraturen om krysskulturelle surveyer anbefales det også å legge arbeid i å definere konteksten rundt spørsmålene; hva er poenget med undersøkelsen, hva er temaet, og hvordan skal respondenten best forstå gangen i spørreskjemaet. Gode overgangstekster og innledende setninger er eksempler på slike virkemidler.

I tillegg er det økende bevissthet omkring den sosiale situasjonen som oppstår under et intervju, og at ulik kulturell vekt på individualisme eller gruppetilhørighet påvirker intervjuobjektenes tendens til å være enig/uenig i det han/hun oppfatter som intervjuerens ”standpunkt”. Tendensen til å uttrykke enighet og fellesskap eller distanse og individualisme overfor intervjueren varierer mellom kulturer.

Visuelle virkemidler tolkes også ulikt i forskjellige kulturer, og tendensen til å unngå ytterpunktene (som er kjent fra surveyforskningen) er ifølge Smith ikke universelle (2004).

En oppsummering av gjennomgangen viser altså at spørreskjemametodikken for flerkulturelle undersøkelser har en vel så lang liste over problematiske spørsmålselementer og spørsmål ”vi bør passe oss for”, i tillegg til den lista vi presenterte i kapittel 4.9 (etter Haraldsen 1999). Sagt på spissen kan vi si at det er vanskelig å lage gode spørsmål, og enda vanskeligere å lage dem så gode at de fungerer for alle overalt. Konsekvensen av det siste er at ulike spørsmålsformuleringer faktisk kan fungere likt og være ekvivalente på tvers av kulturer.

En annen viktig lærdom fra disse to perspektivene for spørreskjemautvikling (det kognitive og det flerkulturelle) er at en konkret spørsmålsutforming alltid bør vurderes i forhold til tid, sted og kultur.

Les også i delkapittel 4.10:


* Vi har ikke klart å finne gode norske betegnelser for disse begrepene, bortsett fra ”universelle” og ”kulturelt betinga”. Det er viktig at ”etic” ikke forveksles med ”ethic”.