MMWAH Q&A

Här hittar du svar på frågår om MMWAH-korpusen och om datadonationer.

Nedan finns svar på vanliga frågor kring korpusen MMWAH. Om du inte finner svar på din fråga ber vi dig kontakt oss personligen på martti.makinen@hanken.fi eller ines.frojdo@hanken.fi.

Korpusen MMWAH står för the Multilingual Multimodal WhatsApp corpus Hanken. Den är en kurerad textsamling som består utav WhatsApp chattar som förts bland finlandssvenskar i åldersgruppen 18-30.

Chattarna har frivilligt donerats till korpusen i samband med språkforskningsprojektet Snabbmeddelanden på flera språk: fokus på WhatsApp i finlandssvensk digital kommunikation.

Korpusar är textsamlingar som skapats med ändamålet att användas för forskning enligt vissa utgångskriterier, såsom texttyp, språk, eller genre. De utgör basen till majoriteten av modern språkforskning.

Korpusar används även inom datavetenskapen till NLP - natural language processing - som möjliggör stora språkmodeller som används för ChatGPT och liknande applikationer.

Martti Mäkinen är projektledare vid pojektet och Ines Fröjdö är forskningsassistent. I projektets första period arbetade även Leyla Shojaeifard med oss på de tekniska lösningarna och datahantering.

Som talare av ett minoritetsspråk förmår finlandssvenskar använda ett flertal språk för att navigera det finlandssvenska samhället. I MMWAH reflekteras talarnas språkliga kunskaper, bland annat i byten mellan språk.

Digital kommunikation på plattformar, såsom WhatsApp, kombinerar drag från skriftligt och muntligt språkbruk. I traditionella sammanhang hör det till att finlandssvenskar följer skriftreglerna för standardsvenska och då faller de unika finlandssvenska dragen ofta bort. Däremot behåller vi ofta dessa drag i våra mindre formella konversationer i vardagen. De multimodala verktygen som används på kommunikationsplatformar såsom WhatsApp, dvs. emojis, ljudmeddelanden eller memes skiljer denna språkform från de andra dokumenterade varianterna av finlandssvenskt språkbruk.

Till följd av MMWAH kommer kartläggning av naturliga språkblandningar mellan svenska, finska och engelska möjliggöras. Språkens samlevnad och vardagliga kodbyten mellan språken i nuläget är en relevant fråga inom lingvistiken. Korpusen kommer även fånga upp förändringen inom stilistiska fenomen i digitala språkmiljöer, t.ex. skiljetecken och emojis.

Kortfattat sagt skapar vi material för forskning av den finlandssvenska identiteten som blir tillgänglig för övriga forskare enligt principerna för Öppen vetenskap. På så sätt fångas språkliga förändringar och fenomen specifika till digital kommunikation bland finlandssvenskar.

  1. Donera en chatt
    • Öppna valfri chatt i WhatsApp-appen 
    • Klicka ⋮ > Mer > Exportera chatt > Inkludera media 
    • Skicka innehållet per e-post till mmwah@hanken.fi
  2. Ge samtycke till deltagande i forskningen ( du får en blankett per e-post att besvara)
  3. Svara på kort enkät om din språkliga bakgrund (ca.5 min)
  4. Redigera din donation (om nödvändigt) 

Du har möjlighet att gå igenom materialet före anonymiseringsprocessen börjat för att själv kamma bort innehåll de inte vill ska ingå i forskningen genom att följa instruktionerna i e-posten du får då du skickar in din donation. Forskningsteamet kommer sedan anonymisera det donerade materialet då vi fått in samtycke av samtliga chattdeltagare.

Det behövs data över användningen av svenska i Finland för att kartlägga och framförallt föreviga språket så som det används i nuläget. Språket förändras snabbt och utan forskningsmaterial går det inte att undersöka förändringarna eller trenderna i språket. För att skapa en så fullständig representation av språket som möjligt krävs det att vi når många olika språkanvändare av olika bakgrunder.

Kort svar: Jo!

Korta såsom långa WhatsApp chattar duger väl. Du behöver inte vara orolig kring innehållet i chattarna, för allt språkbruk välkomnas i MMWAH. Språkforskning centrerar kring hur människor utrycker sina tankar och idéer, dvs. själva innehållet får vara precis vad som helst. Konversationerna får handla om helt vardagliga saker; det är just det enklaste vardagspratet vi vill komma åt. 

Chatten kan innehålla multimodala element som bilder, videor eller ljudmeddelanden. Dessa anonymiseras precis som resten av materiaet.

Kompischattar, gruppchattar, sportlagschattar eller dylika är alla passliga för MMWAH-korpusen. Så länge vi kan kontakta de individuella chattdeltagarna för samtycke kan du donera vilken chatt du önskar. Deltagarantalet kan alltså ligga på allt mellan 2-20 deltagare. Det kan löna sig att dubbelkolla med de andra chattdeltagarna innan du skickar in din donation, så ökar chansen att donationen lyckas!

Även om syftet är att fånga finlandssvenskt språkbruk, betyder det inte att chatten nödvändigtvis måste vara på svenska. Språkblandningar är lika språkligt värdefulla. Förutsatt att forskargruppen på ett säkert sätt kan utföra anonymisering är alla språk och språkblandningar välkomna!

Vi samlar i första hand in språkdata från människor i åldergruppen 18 till 30. Det förorsakar inga hinder ifall enstaka deltagare faller utanför åldersgruppen. Chattdeltagarna bör dock vara minst 15 år gamla för att samtycka till att delta i forskningen.

Chatten får innehålla multimodala element såsom bilder, videor eller ljudmeddelanden. Dessa anonymiseras och/eller ersättas med kod.

Användare av den färdigställda korpusen kommer inte kunna identifiera de som donerat materialet i korpusen. Innehållet kommer vara pseudonymiserat (personnamn har bytts ut mot kodnamn) och anonymiserat (identifierbart innehåll raderats). Då de enskilda chattarnat bearbetats och anonymiserats sammanställs de till korpusen, där meddelanden blir så att säga "en i mängden". De som donerar ska känna sig trygga i att deras data inte kan koplplas tillbaka till dem.

Forskningteamet kommer samla in samtycke och väsentliga bakgrundsupggifter av var och en av de personer som deltar i donerade chattar .Bakgrundsuppgifterna möjliggör att korpusen blir filtrerbar, så att användare kan söka efter t.ex. meddelanden enligt åldersgrupp, geografiskt område eller talarens modersmål. Deltagarna förblir anonyma i korpusen även då försiktigt valda metadata publiseras med korpusen.

Det är möjligt att återkalla ditt samtycke att delta i projektet. Ifall du ångrar ditt deltagande kan du kontakt oss och be att vi raderar materialet du skänkt eller de instanser där du är författaren bakom meddelanden. I samband med detta raderas även de enkäter och kontaktuppgifter vi samlat av dig.

Ifall du vill återkalla ditt samtycke ber vi dig kontakta oss via e-post.