Som ni vet har vi i projektet Not Just Semantics haft som ett av våra mål att samla in, analysera och tillgängliggöra sekvenser av ordbetydelseförhandling – från både talad interaktion och skriftliga samtal på sociala medier. Nu lanserar vi en ny forskningsresurs: NeWMe-korpusen, en sökbar samling av manuellt annoterade sekvenser där samtalsdeltagare förhandlar om vad ett visst ord betyder, kan betyda eller bör betyda i sitt sammanhang.
NeWMe innehåller i dagsläget 404 sekvenser av ordbetydelseförhandling. Varje sekvens är annoterad utifrån vilken typ av förhandling det rör sig om – antingen en förhandling som uppstår ur bristande förståelse för vad ett ord betyder, eller en förhandling som bygger på oenighet om hur ett ord bör tolkas. Dessutom har vi analyserat vilket slags betydelse som står i fokus: om deltagarna förhandlar om ordets betydelse i den aktuella samtalssituationen, alltså den situerade betydelsen, eller om förhandlingen rör mer generella aspekter av ordets inneboende semantiska egenskaper – dess potentiella betydelse.
Sekvenserna är hämtade från tre existerande engelskspråkiga språkresurser:
- Switchboard Dialog Act Corpus – telefonsamtal mellan främlingar
- British National Corpus (BNC) – vardagliga och institutionella samtal i olika sammanhang
- Reddit / ChangeMyView – skriftliga, ofta argumentativa diskussioner på nätforumet Reddit
Korpusen kan användas av forskare, studenter eller andra språkintresserade som vill undersöka hur mening uppstår, utmanas, förändras och ibland krockar i autentisk interaktion. Du kan använda den för att studera metalingvistiska strategier, förhandlingstekniker, semantiska skiftningar – eller ställa helt nya frågor som vi själva inte har tänkt på.
Webb-appen gör det möjligt att filtrera sekvenser efter samtalstyp, typ av betydelseförhandling, betydelsefokus och mer. Bakom den tekniska utvecklingen står Kaj Ailomaa, systemtekniker och projektmedarbetare, som byggt upp infrastruktur, gränssnitt och funktionalitet.
Vi tillhandahåller även annoteringsriktlinjer, uttrycksbaserade sökstrategier och kod för vidareanalys – allt fritt tillgängligt.
Vad händer härnäst?
Korpusen innehåller just nu endast engelskspråkig data, men vi kommer under projektets gång att utöka den med svenska sekvenser från både talad och skriftlig interaktion. Vi planerar också att utveckla mer effektiva sätt att hitta nya sekvenser – bland annat genom maskininlärning och språkmodeller.
Välkommen att utforska NeWMe i webb-appen: https://dev.clasp.gu.se/newme