Banebrytende forskning om det er det hun sa

Den overraskende effektiviteten og levetiden til den nå legendariske det var det hun sa vits, nylig popularisert igjen ved hjelp av Kontoret , har gjort mer enn å gi millioner et kneppet svar på uformell samtale. Det har nå nådd et nytt nivå av sosial betydning, ved å inspirere til seriøs språklig forskning. Den kommer i form av en forskningsoppgave kalt Det er det hun sa: Identifikasjon av dobbelt entender , skrevet av to informatikkstudenter, Chloe kiddon og Yuriy Brun .

I papiret deres skisserer paret deres opprettelse av Dobbelt entender via substantivoverføring eller DEviaNT tilnærming som automatisk identifiserer at det er det hun sa (TWSS) vitser. De kaller tilnærmingen metaforisk analyse, som bærer en dobbelbetydning helt egen, og er basert på å veie visse ord som mer sexy enn andre. Teamet veide flere sexy substantiver og verb, og kjørte deretter algoritmen sin.

I sin forskning avdekket paret også noen interessante regler for TWSS-vitser. For eksempel risikoen for å påkalle en TWSS-vits feil. Fra studien:

For eksempel i sosiale omgivelser er kostnadene ved å si det hun sa uhensiktsmessig høye, mens kostnadene ved å ikke si det når det kan ha vært hensiktsmessig er ubetydelige.

For å løse dette, og for å gi bedre resultater, benyttet teamet en læringsalgoritme. Blant annet satte dette opprettelsen av falske positive 100 ganger høyere enn falske negativer.

Etter å ha kjørt DEviaNT gjennom en serie forhåndsidentifisert TWSS vitsemateriale og tilfeldig sitat. I testen brukte de 1,5 erotiske setninger og 57 000 ikke-erotiske setninger. Teamet sier at de oppnådde en suksessrate på over 71,4%. Selv om det kanskje ikke virker så mye, sier teamet at med et større datasett, ville de forvente resultater nærmere 99,5%. I tillegg returnerte DEviaNT noen interessante resultater. Igjen, fra studien:

DEviaNT returnerte 28 slike setninger (alle er bundet for mest sannsynlig å være en TWSS), hvorav 20 er sanne positive. Imidlertid er 2 av de 8 falske positive faktisk TWSS-er (til tross for at de kommer fra de negative testdataene): Ja, gi meg all kremen, og han er borte. og ja, men hullet hans lukter virkelig noen ganger.

Noen kan forringe denne undersøkelsen og kaller den bare en lerke og av liten verdi. Dette ville være et lavt slagangrep, ettersom selv forskerne beskriver sitt arbeid som et vanskelig problem med naturlig språkforståelse. (Det var det hun sa.)

( Ny forsker via Escapisten )