datorassistans vid lyrikskrivande - kth

35
Datorassistans vid lyrikskrivande Går det att tillverka en mjukvara som på ett effektivt sätt assisterar vid tillverkning av lyrik? FREDRIK BYSTAM 910727-3097 076 65 15 200 [email protected] MÅRDSTIGEN 15 17075 SOLNA JONAS SKÖLD 890316-1951 0707 47 05 27 [email protected] VIREBERGSVÄGEN 17 16930 SOLNA Kandidatexamenrapport vid NADA Handledare: Gabriel Skantze Examinator: Mårten Björkman DD143X, Degree Project in Computer Science, First Level

Upload: others

Post on 24-Oct-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Datorassistans vid lyrikskrivande - KTH

Datorassistans vid lyrikskrivandeGår det att tillverka en mjukvara som på ett effektivt sätt assisterar vid tillverkning av

lyrik?

FREDRIK BYSTAM910727-3097

076 65 15 [email protected]ÅRDSTIGEN 15

17075 SOLNAJONAS SKÖLD

890316-19510707 47 05 27

[email protected]ÄGEN 17

16930 SOLNA

Kandidatexamenrapport vid NADAHandledare: Gabriel SkantzeExaminator: Mårten Björkman

DD143X, Degree Project in Computer Science, First Level

Page 2: Datorassistans vid lyrikskrivande - KTH
Page 3: Datorassistans vid lyrikskrivande - KTH

ReferatDatorer och kultur är två saker som inte beblandas i särskiltstor utsträckning. Det blir dock mer och mer vanligt attmusik skapas digitalt med hjälp av en dator. Olika typerav lyrik är dock någonting som fortfarande görs för handoch “från hjärtat”. I denna studie undersöks frågan om detär möjligt att ta hjälp av en dator för att skriva en mjukkonstform så som poesi och låttexter.

I studien utvecklas en mjukvara för att assistera vid ly-rikskrivande. Denna hjälper till med att generera text ochförsöker känna av sammanhang. Programmet kan föreslårim på ord utifrån enkla, existerande poetiska former. Detanvändes i testmiljöer där de olika egenskaperna och verk-tygen sattes på prov. Resultaten visade att idén om mjuk-vara för att skriva lyrik är möjlig, men att de bakomliggan-de algoritmerna som användes i studien eventuellt var förnaiva för att ge tillräcklig effekt.

Slutligen diskuteras möjligheterna att bygga vidare föratt åtgärda de brister som visade sig finnas i den implemen-tation som gjordes. Mjukvara för att tillverka lyrik verkarinte vara en dum idé, men metodiken för ordförslag kräveri så fall en mer avancerad strategi.

Page 4: Datorassistans vid lyrikskrivande - KTH

AbstractComputer assistance when writing lyrics

Computers and culture are two things often found to bedifficult to mix. Today, music is made digitally with helpfrom computers, but lyrics remains an art form createdby hand and ‘’from the heart”. This study examines thepossibilities of making a computer assist when creating artsuch as poetry and song lyrics.

A software was developed to assist in poetry writingby generating text based on the already written context.The program can also suggest words that rhyme with theexisting text based on simple, existing poetic forms. It wasused in testing environments where the different featuresand tools of the program were put to the test. The resultsindicate that the idea of writing poetry using software as-sistance is plausible, but that the underlying algorithms ofthe implemented tools were too naive to be efficient in thiscase.

Finally, the possibilities of improving the program inorder to minimise the deficiencies comes to discussion. Soft-ware built to automatically complete lyrics does not appearto be a poor idea, but the methodology used for word pre-diction requires a more advanced strategy.

Page 5: Datorassistans vid lyrikskrivande - KTH

Innehåll

1 Introduktion 11.1 Problemformulering . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Rapportens struktur . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.3 Fördelning av arbete . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2 Bakgrund 32.1 Rim . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.2 Poetiska kriterier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.3 Automatisk komplettering av text . . . . . . . . . . . . . . . . . . . 4

3 Metod 53.1 Mjukvara . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3.1.1 Program . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53.1.2 Tillverkning av sökdata . . . . . . . . . . . . . . . . . . . . . 7

3.2 Undersökning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.2.1 Utförande av tester . . . . . . . . . . . . . . . . . . . . . . . . 9

4 Resultat 114.1 Allmänt om programmet . . . . . . . . . . . . . . . . . . . . . . . . . 114.2 Om julklappsrimmen . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

5 Diskussion 155.1 Möjlig vidareutveckling . . . . . . . . . . . . . . . . . . . . . . . . . 16

6 Slutsats 19

Litteraturförteckning 21

Bilagor 22

A Testpersonernas texter från undersökningen 23A.1 Julklappsrim baserade på dikter . . . . . . . . . . . . . . . . . . . . 23A.2 Julklappsrim baserade på tidningstexter . . . . . . . . . . . . . . . . 25A.3 Fritt test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

Page 6: Datorassistans vid lyrikskrivande - KTH
Page 7: Datorassistans vid lyrikskrivande - KTH

Kapitel 1

Introduktion

Att skriva lyrik anses vara en mjuk konstform. Ofta handlar det om kärleksdiktereller andra laddade texter som är tänkta att komma direkt från hjärtat. Av sammaanledning som folk kämpar aggressivt emot digital tillverkning av musik känns idénom att en dator skulle hjälpa oss skriva poesi om möjligt ännu mer främmande. Påsamma sätt som populärmusik blir alltmer digitaliserad kanske det nu är dags attvälkomna den nya tekniken och utnyttja den även i litterära sammanhang. Syftetmed den här studien är att utforska möjligheterna kring att låta ett mjukvarupro-gram assistera och tillverka lyrik av olika former. Området kan generaliseras somen kombination av sökning efter rimförslag och automatisk generering av text.

Att komplettera ord och hantera rättstavning är ett av de mest populära om-rådena som utforskas inom språkteknologi idag. Användningsområdena har allaen gemensam nämnare; de assisterar vid formuleringen av ett redan uttänkt sam-manhang. När en användare skriver och utnyttjar rättstavning samt automatiskkomplettering så har denne redan en idé som ska förmedlas. Skriver man däremotlyrik söker man ofta rim, och då kan sammanhanget istället komma till att base-ras på vad som passar in lyriskt. Vi söker skriva ett program som kan föreslå ordför en användare just när man skriver poesi, låttexter eller andra enkla rim. Medandra ord handlar det om mjukvara som kan hjälpa en användare att tillverka ettsammanhang utifrån givna poetiska och lyriska strukturer.

1.1 Problemformulering

Syftet med studien är att undersöka hur väl ett datorprogram kan assistera vidskrivande av lyrik. Förhoppningen är att studien ska klargöra vad som krävs föratt användaren ska finna verktyget användbart. Studien ämnar besvara huruvidaen dator kan tillhandahålla användbar assistans vid lyrikskrivande.

1

Page 8: Datorassistans vid lyrikskrivande - KTH

KAPITEL 1. INTRODUKTION

1.2 Rapportens strukturDenna rapport inleder med en introducerande text med bland annat rapportensproblemformulering, där arbetets frågeställning definieras. Därefter följer en kortarebakgrund om rim, poetiska kriterier samt om andra program som berör liknandeområden som vårt program. Metoddelen beskriver vad som har gjorts för att svarapå frågeställningen, inklusive hur programmet är uppbyggt samt vilka tester somutförts för att komma fram till rapportens resultat. Resultaten presenteras sedan ien egen sektion varefter dessa analyseras och diskuteras under avsnittet Diskussion.Här diskuteras också vad som skulle kunna göras för att förbättra ett program avdet här slaget. Sist följer rapportens slutsats.

1.3 Fördelning av arbeteFörfattarna till denna rapport har arbetat med studien nästan uteslutande tillsam-mans. Målsättningen har varit att arbetsbördan ska fördelas jämnt mellan förfat-tarna, vilket till stor del har lyckats.

Arbetet med mjukvaran har skett i nära samarbete mellan gruppmedlemmarna.Det grafiska gränssnittet har skrivits av Fredrik Bystam, medan Jonas Sköld varitansvarig för ordförslagssammanställningen. Övriga delar har utvecklats av bådaförfattarna.

Även vad gäller rapporten har författarna skrivit stora delar tillsammans. Detfinns dock avsnitt som mestadels skrivits av den ena författaren. Fredrik Bystam harframför allt arbetat med rapportens introduktion, avsnitten om rim och poetiskakriterier i bakgrunden, resultat samt diskussion om möjlig vidareutveckling. JonasSköld, å andra sidan, har varit huvudsaklig skribent av avsnittet i bakgrunden omautomatisk komplettering av text, utförandet av undersökningen, diskussion samtslutsats.

2

Page 9: Datorassistans vid lyrikskrivande - KTH

Kapitel 2

Bakgrund

2.1 Rim

Att rimma är ett språkfenomen som spelar en väldigt central roll i lyrik. Vad ettrim är sträcker sig till klart fler definitioner än de man vanligtvis bekantats med.I vardagliga sammanhang brukar man tänka sig att ord rimmar om de uttalaslikadant på slutet. En mer systematisk analys av vad det innebär krävs för att endator ska kunna arbeta med det. Man börjar enklast med att se på de olika typerav rim som faktiskt finns.

I boken Barron’s SAT Subject Test Literature 2009 skriver författaren ChristinaMyers-Shaffer om rim[1, s. 83]. I boken definieras ett rim (översatt) som när tvåeller fler ord har ett ljud gemensamt eller ekar i varandra. En bred definition somdenna ger upphov till många delkategorier av rim. Till exempel finns alliteration,eller stavrim; ord rimmar om de öppnas av likadana konsonanta fonetiska ljud.

Läser man i Patterns of poetry: an encyclopedia of forms finner man följandedefinition (översatt); rim är förhållandet mellan ord med olika konsonanter fram-för den sista betonade vokalen, och som är fonetiskt identiska från och med denvokalen[2, s. 13].

Med en bred definition på ett rim finns möjligheten att välja en egen bild av hurvår dator ska tolka dem. Definitionen som används i den här studien ligger nära densenare av de två som beskrivits ovan. Undantaget är att kravet på olika konsonanterinnan den sista betoningen tas bort. Definitionen lyder Två ord rimmar om de ärfonetiskt identiska från och med den sista betonade vokalen.

Teoretiskt är rimsökning inte speciellt svårt om man har tillgång till ett fonetisktlexikon. Det handlar enbart om att kunna mappa ett ord till ord med likadanfonetisk ändelse. Sådant kan uppnås med smarta algoritmer, datastrukturer elleren kombination av både och.

2.2 Poetiska kriterier

Rimförslag kan väljas att passa in på så kallade rimscheman. Dessa beskrivs i Bar-ron’s SAT Subject Test Literature 2009[1, s. 84] som hur raderna i en text rimmar

3

Page 10: Datorassistans vid lyrikskrivande - KTH

KAPITEL 2. BAKGRUND

på varandra. Till exempel kan ett schema se ut som ABABC, som betyder att av-sluten på rad ett och tre rimmar, två och fyra rimmar och att rad fem inte rimmarpå någon av de föregående.

En poetisk form är någonting som sätter begränsningar på hur en dikt kan se ut.Det kan handla om allt från antalet stavelser på en rad till rytmiken och betoningenpå dess ord[3]. Även rimscheman är en del av det som beskriver en poetisk form. Omett lyrikprogram kan ta hänsyn till en given form kan det bidra till hur övertygandeden genererade texten är.

Rytmen i en dikt baseras på ordens betoning. I en mening kan man välja attvila sitt uttal på vissa stavelser mer än andra, och de blir då betonade[4].

Ett exempel på en poetisk form är limerick. En limerick är en dikt med rimsche-mat AABBA, där alla rader med benämningen A betonas med totalt tre stavelser,och de med benämningen B med två[5]. En limerick har ofta ett väldigt skämtsamtinnehåll, och den första raden brukar sluta på en geografisk plats.

2.3 Automatisk komplettering av textMjukvara som erbjuder automatisk komplettering av text är någonting som frånbörjan utvecklades för att underlätta produktion av text för personer som har nå-gon typ av funktionshinder[6, s. 105-114]. Idag utnyttjas det flitigt i allt från mo-biltelefoner till ordbehandlare i stora datormaskiner. Det effektiviserar framföralltskrivandet av långa ord som börjar tillräckligt unikt för att avgöra vilket ord detär användaren syftar på. Mer moderna och avancerade program som föreslår ordkan även känna av vilket sammanhang ordet skrivs i, och ta hänsyn till det i sinaförslag. Ett sätt att avgöra sammanhang är att utnyttja Markovska sannolikhets-modeller så som n-gram[7]. Sådan teknologi används av Tommi A Pirinen, MiikkaSilfverberg och Krister Lindén i deras implementation av ett sammanhangskänsligträttstavningsprogram[8].

För att analysera språk med hjälp av en dator krävs att datorn har tillgångtill en språkmodell. Det finns många typer av modeller, men en av de vanligastekallas för statistisk språkmodell. Den bygger på sannolikheten att en viss ordföljdska förekomma i en text, där statistiken fås genom att läsa in stora texter och räknaförekomsten av ordföljder[9]. Ordföljderna kan vara olika långa och representerasav så kallade n-gram. Ett n-gram är så enkelt som en uppsättning av n stycken ordi följd. Att mäta förekomsten av n särskilda ord i en viss följd och dess frekvenskan vara ett verktyg för att tolka sammanhang. Genom att ta de n-1 första orden iett n-gram, går det att hitta sannolikheten för förekomsten av det påföljande (n:te)ordet, genom att jämföra alla n-gram som börjar på de n-1 orden. På det sättetkan en dator veta vilket ord som statistiskt sätt borde komma efter en viss ordföljd.Sådan statistik har gjorts av Google vid sammanställningen av alla de skrifter somfinns samlade i Google Books[10]. Där har man fört statistik på förekomster av ordoch ordföljder i böcker från flera olika århundraden.

4

Page 11: Datorassistans vid lyrikskrivande - KTH

Kapitel 3

Metod

3.1 MjukvaraMjukvaran består av två delar. Den första delen, installationsprogrammet, är densom tillverkar sökdata, medan den andra delen är den som slutanvändaren kommeranvända, dvs. det program som genererar ordförslag utifrån sökdatan. Mjukvarankommer att skrivas i Java, eftersom gruppmedlemmarna anser sig särskilt bekvämai det språket. All mjukvara skrivs av gruppmedlemmarna själva, dvs. inga färdigaprogram eller bibliotek utöver Javas standardbibliotek kommer att användas.

3.1.1 Program

Programmet som slutanvändaren kommer att interagera med visas i form av ett en-kelt grafiskt gränssnitt. I sin helhet består gränssnittet av ett textfält, med knapparför att spara text och öppna befintliga filer, samt menyer för att välja poetisk formoch träningstexter.

Ordförslag

Programmet behöver kunna ge ordförslag som antingen passar in i sammanhangeteller som rimmar med ett tidigare ord. Därför kommer programmet att kunna utföratvå olika sorters sökningar, en som hittar ord som passar in i meningen och en somhittar rim. Anledningen till att två olika sökningstyper finns är att ordförslagen skapassa in så bra som möjligt. Om användaren inte önskar ett rim just för stundenså ska inte förslagslistan kladdas ner med rim som kanske inte passar in så brai meningen. Om användaren tvärtom verkligen vill ha ett rim så ska alla förslagfaktiskt rimma.

Vanliga ordförslagssökningen sker om användaren trycker på TAB, medan rim-förslagssökningen sker om användaren trycker på SHIFT+TAB. Sökresultaten pre-senteras i en popup med 10 ordförslag åt gången, där användaren kan trycka framfler förslag via en “Visa fler...”-knapp. Trycker användaren på ett förslag så stängspopupen och ordet sätts in där markören står i textfältet.

5

Page 12: Datorassistans vid lyrikskrivande - KTH

KAPITEL 3. METOD

Figur 3.1. En bild på mjukvaran under körning.

Vanligt förekommande ordföljder

Ordförslagen kan baseras på vanligt förekommande ordföljder. Då används en språk-modell med n-gram. Implementationen i denna studie utnyttjar enbart n-gram avlängd tre, så kallade trigram. Ett förslag baseras då på de två (2) ord som stårföre ordet som ska genereras. Orden skickas till en sökalgoritm som använder sigav språkmodellen för att generera förslag. Användaren kan själv välja vilken trä-ningstext som ordförslagen ska baseras på. Förslagen som hittas sorteras efter hurtroligt det är att ordet ska förekomma efter de två sökorden. Hur sökningen ochsorteringen går till beskrivs mer detaljerat i avsnittet “Tillverkning av sökdata”.

Rim

Programmet utnyttjar ett fonetiskt lexikon för att hitta ordförslag som rimmarmed ett tidigare ord. En rimsökning börjar med att hitta det ord som användarenvill rimma på. Vilket ord som rimförslagen bygger på beror på vilken poesiformanvändaren har valt att skriva i. Standard är att det sista ordet i föregående radanvänds som bas för rimmet. Ordet skickas sedan till sökningsalgoritmen, som hittaralla ord som rimmar på ordet i fråga. Rimförslagen sorteras också efter hur troliga

6

Page 13: Datorassistans vid lyrikskrivande - KTH

3.1. MJUKVARA

de är att finnas i det nuvarande sammanhanget. Även denna sökning och sorteringbeskrivs i mer detalj i avsnittet “Tillverkning av sökdata”. De sorterade förslagenpresenteras sedan till användaren som får välja vilket ord som ska användas.

3.1.2 Tillverkning av sökdata

Sökdatan består av två delar, en för rimförslag och en för vanliga ordförslag.Grunden till rimförslagen är ett fonetiskt lexikon som mappar bokstaverade

ord till deras fonetiska representation. Det fonetiska lexikonet som utnyttjas hartillhandahållits av språktekniskt centrum vid KTH och består av ca 300 000 ordoch deras uttal. På varje rad i filen står ett ord följt av dess fonetiska representation.Orden är sorterade i bokstavsordning. Denna fil används för att hitta ett ords uttal.

Lexikonet kompletteras med en fil som genereras utifrån lexikonet. I denna filhar den fonetiska representationen av ordet vänts bak och fram, så att det stårbaklänges. Här har även ordet och dess uttal bytt plats, så att uttalet står först ochdet riktiga ordet sist på raden. Orden har även sorterats om, så att de är sorteradeefter den bakvända fonetiska representationen. Se figur.

Figur 3.2. Spegelvänd fonetisk sökdata för rim.

Sökningen efter ord som rimmar på ett annat ord sker i två steg. Först letasordets uttal upp i det vanliga fonetiska lexikonet. Därefter vänds dess fonetiska skriftbak och fram, och rimändelsen tas fram ur ordet. Detta sker genom att ta bort alltsom står efter ordets sista betoning. Exempelvis har ordet akademisk den fonetiskarepresentationen AKAD’E:MISK. Ordets sista (och enda) betoning finns innan E,vilket gör att den bakvända rimändelsen är KSIM:E. När den bakvända rimändelsen

7

Page 14: Datorassistans vid lyrikskrivande - KTH

KAPITEL 3. METOD

erhållits så söks ord med samma rimändelse. Detta görs i filen med omvänd fonetiskskrift. Algoritmen söker sig till den första förekomsten av ändelsen, och kan sedanreturnera alla rimmande ord genom att läsa rad för rad tills rimändelsen inte längreöverensstämmer.

Den andra sökningen som görs är efter n-gram. Tillverkningen av sökdatan be-står i att en fil med n-gramsfrekvenser tillverkas utifrån en textkorpus. Detta görsgenom att läsa in varje treordskombination i texten och räkna antal förekomster.Programmet läser först in n ord och gör detta till ett n-gram och sätter antalet före-komster av det n-grammet till 1. Sedan läser programmet in nästa ord och bildar ettn-gram av det tillsammans med de två sista orden i förra n-grammet. På det sättetfortsätter programmet tills det nått slutet av texten. Om samma ordföljd påträffasflera gånger summeras antalet förekomster. När hela texten har lästs in kommerprogrammet att sortera n-grammen efter bokstavsordning och skriva ut dem till enfil, se figur.

Figur 3.3. Genererad sökdata i form av trigram.

Sökningen tar in en sträng bestående av två ord. Resultatet av sökningen är enlista på de ord som i träningstexten har använts efter söksträngen samt hur oftade använts, till exempel {jag 2, du 6, hej 9}. Eftersom n-grammen i sökfilen ärsorterade i bokstavsordning så står alla ord som eftersöks under varandra i filen.Därför letar algoritmen upp den första förekomsten av söksträngen och läser sedanrad för rad tills söksträngen inte längre matchas. För varje rad läses det tredje ordet in-grammet in tillsammans med dess antal förekomster i träningstexten. Detta sparasi en lista som sedan returneras till användaren.

För att kunna göra snabba och effektiva sökningar används latmanshashning,

8

Page 15: Datorassistans vid lyrikskrivande - KTH

3.2. UNDERSÖKNING

som beskrivs i Viggo Kanns föreläsningsanteckningar[11]. Denna teknik har valtspå grund av dess egenskap att uppslagning i filen sker mycket snabbt, samt att detkräver näst intill inget fysiskt minne. Tekniken används för alla sökningar i pro-grammet. Grundtanken är att datafilerna indexeras på ett ords första tre tecken.En indexfil håller då koll på var i datafilen som första förekomsten av en viss tre-bokstavskombination finns. Detta gör att det går snabbt att hitta till rätt del av enstor fil med sorterade strängar. Efter att rätt område i filen har hittats så användsbinärsökning för att leta upp precis den rad som eftersöks.

3.2 UndersökningMålet är att avgöra vad det är som gör ett program för tillverkning av lyrik an-vändbart. Behovet av tester är då stort, och de ska generera så mätbara resultatsom möjligt. En möjlighet är att sätta programmet på prov i ett sammanhang somär tillräckligt simpelt för att parametrarna för sökdata ska påverka så mycket sommöjligt. Därmed togs beslutet att låta försökspersoner skriva julklappsrim.

3.2.1 Utförande av testerTanken är att presentera en uppsättning föremål för försökspersonen som denne skaskriva varsitt julklappsrim till. För varje rim ska personen få besvara frågor relaterattill hur mycket hjälp programmet visade sig vara i sammanhanget. Frågorna kangälla saker så som vilken träningsdata som används för att analysera sammanhang,eller hur ordförslagen sorteras när personen ber om sådana

Varje försöksperson får skriva tre texter var. Till de första två texterna fårpersonen strikta förhållningsregler. Texterna ska i stort sett bara byggas på ord somföreslagits av programmet. Det innebär att personen inte ska skriva texten själv,utan enbart påverka den genom att välja ordförslag. Undantaget är att personen fårstarta varje mening med två ord, för att programmet ska kunna generera förslag.

De första två texterna ska vara julklappsrim. Den ena julklappen är en bok ochden andra är en kniv. Vilken av de två rimmen som skrivs först slumpas så att inteordningen ska spela någon roll för resultaten.

Två olika träningstexter används vid de olika rimmen. Till det ena rimmet skaordförslagen baseras på en stor text (ca 10 miljoner ord) bestående av tidningsar-tiklar. Artiklarna är hämtade från tre stora dagstidningar och de skrevs under 1998.Till det andra rimmet ska förslagen istället baseras på en mindre text (ca 100 000ord) bestående av dikter av kända svenska poeter. Både samtida och gamla dikterhar använts. Tidningsartiklarna har hämtats från språkbanken [12] och dikternafrån Svenska dikter [13]. Vilken ordning och för vilket rim de två träningstexternaanvänds i kommer att slumpas för att inte ordningen ska påverka resultatet.

Den tredje texten som skrivs av försökspersonen är friare. Då får personen självvälja vilken träningstext som ska användas (ett tiotal olika texter av varierandestorlek finns att tillgå). Personen får också välja vad han eller hon ska skriva om.Till den här texten finns heller inget krav på att ordförslag ska väljas. Personen

9

Page 16: Datorassistans vid lyrikskrivande - KTH

KAPITEL 3. METOD

väljer själv att ta hjälp av programmet när så önskas, både för rim och för vanligaförslag. Detta scenario är mer likt ett verkligt användande av programmet.

Efter varje deltest får försökspersonen svara på frågor. Personen får betygsättasitt alster på en skala mellan 1 och 10. Dessutom får personen beskriva hur skrivan-det upplevdes, om programmet var till nytta, och hur bra ordförslagen bedömdesvara. Efter alla tre deltester får personen beskriva hur de upplevde programmetsom helhet. Fokus läggs på hur väl personen tyckte att programmet underlättadeskrivandet, och hur bra förslagen ansågs vara. Rimmen som försökspersonerna skri-ver betygssätts också av rapportskrivarna med avseende på hur väl de håller sig tillämnet, hur språkligt korrekta de är och hur sammanhängande texterna är.

10

Page 17: Datorassistans vid lyrikskrivande - KTH

Kapitel 4

Resultat

4.1 Allmänt om programmet

Utvärderingen av mjukvaran i sin helhet gav övervägande positiv respons. Sju avtio testpersoner skriver direkt hur de kände att rimförslagen var hjälpsamma ochanvändbara när de försökte avsluta rader i dikterna. En delmängd av dessa somgav mer utarbetade svar beskriver hur en stor ordlista var till fördel när de försökterimma på ovanliga ord.

Tre personer beskriver programmet som roligt att använda, varav en föreslogatt det borde släppas kommersiellt.

Två testpersoner skriver att de upplevde programmet som väldigt snabbt, ochatt det var behagligt när man begär förslag så pass ofta. Det var inte någon somuttrycker sig om att de upplevde programmet som långsamt.

Möjligheten till allmänna ordförslag var något som inte beskrevs som specielltvälfungerande. Hälften av personerna kände att det var svårt att finna ordförslagsom byggde grammatiskt och semantiskt korrekta meningar. Att få meningarna atthandla om rätt sak var ännu svårare. Nämnvärt är dock att en person skriver hurdennes upplevelse om samma sak är rakt motsatt, det vill säga att det var lätt attbygga korrekta meningar.

4.2 Om julklappsrimmen

Att skriva rim med dikter som träningsdata upplevdes som svårt. Sju av tio skri-ver att de hade problem antingen med att hitta ordförslag som kändes vettiga isammanhanget, eller att över huvud taget få julklappsrimmet att handla om denangivna presenten. Samtliga testpersoner verkar vara mer eller mindre missnöjdamed hur deras texter hängde samman. Däremot uttrycker endast en person direktmissnöje med rimförslagen.

Resultatet av att skriva med tidningsartiklar som träningsdata var annorlunda.Åtta av tio upplevde att de kunde få trovärdiga ordförslag av programmet, varavfem av dessa också blev nöjda med sina sammanhang i slutändan. Två personer ut-

11

Page 18: Datorassistans vid lyrikskrivande - KTH

KAPITEL 4. RESULTAT

tryckte specifikt hur de uppskattade att hitta fler ovanliga ord att sätta in. Däremotfanns det en person som tyckte att ordförslagen baserade på tidningsartiklar var förintetsägande för att användas i rim, och därför föredrog dikter som träningsdata.

Testpersonerna hade delade åsikter efter att ha använt programmet fritt. Två avtestdeltagarna ansåg att det var svårt att skriva något när de inte fick något specielltämne att skriva om och inte behövde autokomplettera hela texten. En person tyckteatt det var lätt att hitta rim, medan en inte var nöjd med rimförslagen. En personanvände inte alls funktionen för att hitta vanliga ordförslag, utan vill enbart harimförslag. Denne resonerade att han redan visste vad han vill skriva och att hanville skriva texten själv.

Den genomsnittliga betygsättningen av varje dikt är sammanställt i följandetabell:

Träningsdata \Betyg-sättare

Testpersonen Författarna

Dikter 4,8 3,7Tidningsartiklar 6,5 4,3Fritt test 6,8 5,1

Nedan presenteras en text från varje del av undersökningen, dvs. ett julklappsrimbaserat på dikter, ett rim baserat på tidningsartiklar, samt en text som är baseradpå olika träningstexter. Gemensamt för dessa tre är att de bedömdes något högreän genomsnittet. Samtliga alster presenteras i bilaga A.

Följande rim är baserat på tidningstexter och handlar om en bok.

Fy fan vad illaAtt du inte kan vara blickstillaOch läsa om en sådan situationSom sker på en pendeltågsstationBara ta det lugnt och sköntMed en massa gröntTe. Som är så gottTill boken som är så hott

Detta rim bedömdes som tio av testpersonen och åtta av författarna på entiogradig skala.

Följande rim är baserat på dikter och handlar också om en bok.

Jag är lycklig när jag soverVad önskar jag mer än faderns pulloverDu är rödSom det doftande studiestödKan du tänka och handlaSe in i förvandla

12

Page 19: Datorassistans vid lyrikskrivande - KTH

4.2. OM JULKLAPPSRIMMEN

Läs och njutDen svenske björnen har sexdebut

Detta rim bedömdes som en sjua av testpersonen och en sexa av författarna påen tiogradig skala.

Nedan presenteras en text som skrivits genom att författaren fått använda pro-grammet på det sätt han själv vill.

I julklapp önskar jag mig en gåtaEn grogg på hotellrummet och en ny toyotaOm jag får det skulle jag kunna tackaDig för att han inte har någon läderjacka

Den bedömdes vara en fyra av testpersonen och en sjua av författarna på entiogradig skala.

Alla de ovanstående rimmen betraktas av rapportförfattarna som lyckade i nå-gon mening. Följande är däremot ett exempel på där resultatet är allt annat änönskat:

I år efter år göteborg har vuxitOch frodats som andra vuxitAtt säga något är viktigtÄr en gammal drömbok riktigtNär jag är lyckligMin vän du endast kan mig godtyckligAv mig tar du på ditt bladIngen oren vågar kinden lärstad

Den bedömdes med en fyra av testpersonen och en etta av författarna på entiogradig skala.

13

Page 20: Datorassistans vid lyrikskrivande - KTH
Page 21: Datorassistans vid lyrikskrivande - KTH

Kapitel 5

Diskussion

Något som både testpersonerna och övervakarna noterade var att det var svårt attfå rimmet att handla om rätt sak. Texterna gled ofta iväg åt något håll vilket gjordeatt resultatet inte blev särskilt tillfredsställande. Detta skedde främst då användarnainte fick skriva själva, utan enbart fick välja hur meningarna skulle fortsätta med degivna ordförslagen. Detta problem är förväntat, då programmet inte har något somhelst mål med ordförslagen, utan enbart baserar det på existerande texter. Dettaär dock ett problem som delvis uppstår på grund av testets utformning. När enanvändare själv får skriva egna ord kan den på ett bättre sätt forma meningarna såatt de får den tilltänkta betydelsen.

Den funktion som användarna tyckte sig ha mest nytta av var rimförslagen.Detta kan bero på att testpersonerna inte är duktiga på att själva komma på rimpå ett ord. Eftersom det finns ett krav på hur ordet måste vara blir det svårare än attkomma på ett godtyckligt ord som endast behöver passa in i meningen. Dessutomansågs rimförslagen i allmänhet vara bättre än de vanliga ordförslagen. Det kanockså vara en orsak till att rimförslagen bedömdes som mer användbara.

Överlag betygsattes testpersonernas texter relativt lågt. Något som drog nerbetygen på många av texterna var att meningarna inte hade någon betydelse, utanenbart var en följd av ord. Detta beror troligtvis på att programmet inte tar hänsyntill ett större sammanhang, utan bara de två senaste orden. Hade programmet haften algoritm för att känna igen vad texten handlar om, skulle ordförslagen kunnasorteras på ett bättre sätt, och meningarna skulle kunna bli mer enhetliga.

Något som fungerade relativt bra är hur grammatiskt korrekta texterna blev.Det var sällan meningarna var grammatiskt felaktiga. Detta är ett resultat av sättetprogrammet genererar förslag på. Ordförslagen bygger på ordföljder som har använtsi en riktig text. Dessa ordföljder är grammatiskt korrekta, eller i alla fall en del aven grammatiskt korrekt mening. Därmed är sannolikheten stor att förslagen somges också blir grammatiskt korrekta givet de redan skrivna orden i meningen. Deti kombination med att användarens förmåga att välja ord som passar tillsammansgör att meningarna oftast blir språkligt korrekta. Det största undantaget från dettaär då orden som sätts in baseras på rimförslag. Programmet föreslår alla rim den

15

Page 22: Datorassistans vid lyrikskrivande - KTH

KAPITEL 5. DISKUSSION

hittar, och sorterar dem endast efter hur väl de passar in i meningen. Detta gör attvissa förslag inte passar in i meningen, och att grammatiken blir fel.

5.1 Möjlig vidareutveckling

Konceptet bakom mjukvaran är till synes någonting som fungerar. Det som upp-levdes som den största nackdelen i den testade implementation var att ordförslagensällan stämde bra överens med sammanhanget. I implementationen fanns enbarten hantering av sammanhang, och det var en frekvensanalys av trigram (n-grammed n = 3). Den typen av prioritering är väldigt naiv, och hade den ersatts av enmer sofistikerad strategi hade eventuellt ordförslagen blivit mycket bättre, utan attbehöva så mycket större mängder träningsdata. Här följer en lista på förslag, som ien viktad kombination hade kunnat utgöra en effektivare strategi.

Exempelvis hade fler sökningar kunnat utföras bland olika typer av n-gram. Medtre storlekar på n (2, 3 och 4) hade många fler ordförslag erhållits i de situationerdär den inmatade ordföljden sällan förekommer i träningstexten. Att söka eftertrigram som börjar på exempelvis “liten gråzon” kanske inte genererar så mångaresultat. Om programmet däremot kan falla tillbaka på att leta efter bigram sombörjar på “gråzon” ökas chanserna att hitta resultat. Med mer generiska ordföljerså som “det var då” hade programmet kunnat förlita sig på ett 4-gram som har ensäkrare känsla för sammanhang.

I fallet då användaren skriver om ett särskilt ting, så som julklappsrim, så haderesultatet kanske kunnat förbättras om samtliga förslag baserades på det ordet.Programmet hade exempelvis kunnat göra en indexerad sökning på ordet i denursprungliga textfilen och ladda in alla sammanhang (t ex en mening innan och enefter) som orden förekommer i. Orden i de sammanhangen hade kunnat utgöra enannan grund för ordförslag.

Om det hade funnits tillgång till någon typ av data för att hantera synonymer såhade sådana tagits med i sökningen. Det hade varit komplicerat att hitta synonymertill samtliga övriga förslag, men en tanke är att leta bland de tio högst rankadei övrigt. Det hade eventuellt kunnat rendera fler, målande förslag som passar isammanhanget. Det skulle också öka chansen att hitta rim som passar in i meningen,eftersom det kan finnas passande ord som har en synonym som rimmar.

Med en mer avancerad behandling av poetisk form hade mycket mer kunnat tasi beräkningen av huruvida ord passar in i sammanhang eller inte. Hade mjukvaranklarat av att analysera hur väl ett ord passar in i den poetiska formen så hade detkunnat tas med i viktningen av förslagen. Exempelvis hade det gått att avgöra omden fonetiska betoningen hos ett ordförslag passar in i rytmen, eller om antalet sta-velser stämmer överens med den poetiska formens specifikation. Även dessa attributgår att vikta in i sorteringen av ordförslag.

Ytterligare en möjlighet som rör rimmen är att få programmet att avgöra omtvå ord ungefär matchar varandra fonetiskt. Det finns ofta ett visst lyriskt tillfreds-ställande att låta ord nästan rimma på varandra. På så sätt hade fler ord kunnat

16

Page 23: Datorassistans vid lyrikskrivande - KTH

5.1. MÖJLIG VIDAREUTVECKLING

tas i beräkningarna som kanske enligt alla andra kriterier stämmer in bättre än deord som rimmar exakt.

I en väldigt smart typ av sökning hade flera eller alla av ovanstående förslagkunnat göras som sökningar samtidigt. Sökresultaten hade då kunnat ges en vikt(ett mått på hur stor roll de spelar) som utgör grunden för sorteringen. Att ordpassar in rytmiskt kan till exempel tänkas väga tyngre än hur ofta ordet förekommeri den ordföljden enligt sammanställda bigram (2-gram). Med en väldigt sofistikeraduppsättning sökalgoritmer och väl valda kriterier för viktningen så behövs troligtvismycket mindre träningsdata än med något så naivt som enbart trigram.

17

Page 24: Datorassistans vid lyrikskrivande - KTH
Page 25: Datorassistans vid lyrikskrivande - KTH

Kapitel 6

Slutsats

Vår studie visar att datorassistans vid skrivande av lyrik kan vara användbart.Resultaten från undersökningen visar att rimförslag går att utnyttja väl trots enväldigt simpel strategi vid sortering av förslagen. Användbarheten hade dock ökatom det hade varit lättare att hitta rim och andra ord som passar in i sammanhang-et, dvs. om sorteringen av förslagen förbättrades. Att föreslå övriga ord i en meningär något som kräver mer avancerade algoritmer för att funktionen verkligen ska un-derlätta för användaren. Att enbart basera ordförslagen på trigram ger någorlundabra resultat, men för att få verkligt tillfredsställande resultat krävs kompletterandetekniker för ordförslagsgenerering. Storleken på texten som språkmodellen byggerpå är av betydelse där en större text ger fler och bättre ordförslag, samt vid färretillfällen misslyckas med att föreslå ord.

19

Page 26: Datorassistans vid lyrikskrivande - KTH
Page 27: Datorassistans vid lyrikskrivande - KTH

Litteraturförteckning

[1] Christina Myers-Shaffer. Barron’s SAT Subject Test Literature 2009, 4th edi-tion. Barron’s Educational Series, Hauppauge, New York, 2008.

[2] Miller Williams. Patterns of poetry: an encyclopedia of forms. Louisiana StateUniversity Press, 1986.

[3] The Poetry Archive. Definition of poetic form. http://www.poetryarchive.org/poetryarchive/glossaryItem.do?id=8094, April 2013.

[4] The Poetry Archive. Definition of stress. http://www.poetryarchive.org/poetryarchive/glossaryItem.do?id=8075, April 2013.

[5] The Poetry Archive. Definition of limerick. http://www.poetryarchive.org/poetryarchive/glossaryItem.do?id=8082, April 2013.

[6] Cynthia Tam BScOT MSc and David Wells PhD. Evaluating the benefits ofdisplaying word prediction lists on a personal digital assistant at the keyboardlevel. Assistive Technology: The Official Journal of RESNA, 2009.

[7] Dave Raggett Michael K. Brown, Andreas Kellner. Stochastic language models(n-gram) specification. http://www.w3.org/TR/ngram-spec/, Januari 2001.Hämtad 8 april 2013.

[8] Tommi A Pirinen, Miikka Silfverberg, and Krister Lindén. Improving finite-state spellchecker suggestions with part of speech n-grams. Technical report.

[9] Fei Song W. Bruce Croft. A general language model for information retri-eval. Proceedings of the eighth international conference on Information andknowledge management, pages 316–321, 1999.

[10] Google Inc. Google n-gram viewer. http://books.google.com/ngrams/, April2013.

[11] Viggo Kann. Föreläsningsanteckningar om datastrukturer och sök-ning. http://www.csc.kth.se/utbildning/kth/kurser/DD1352/adk12/schema/ADK12-F3.pdf, April 2013.

21

Page 28: Datorassistans vid lyrikskrivande - KTH

LITTERATURFÖRTECKNING

[12] Språkbanken. Press98. http://spraakbanken.gu.se/swe/resurs/press98,April 2013.

[13] Svenska dikter. Press98. http://sv.dikt.org/Kategori:Alla_dikter_alfabetisk, April 2013.

22

Page 29: Datorassistans vid lyrikskrivande - KTH

Bilaga A

Testpersonernas texter frånundersökningen

A.1 Julklappsrim baserade på dikterHär presenteras samtliga julklappsrim som testpersonerna skrev där träningstextenvar dikter.

Jag är lycklig när jag soverVad önskar jag mer än faderns pulloverDu är rödSom det doftande studiestödKan du tänka och handlaSe in i förvandlaLäs och njutDen svenske björnen har sexdebut

Den är värd att röra klaveretAnnars kommer försvarshögkvarteret.I denna amulett det är sant att uti purpurns glans.Men nu stod leda där skrifven den zigenerskans.Dikten låter fin och fyndig en note ur hans hjärta.Läs den väl och förtära tills man tumlar trycksvärta.Att rimma på dikter är inte mitt skinn över det yttre.Sammanhängande är den kärlek jag gav yttre.

Jag tror att jag föll i gråtNär jag sist satt vid din första atomubåtJag vill ledas av mjuka armarSom att se en spetälsk kastar tarmarAtt läsa i den gröna sängenÄr som om en man med tiden blir huvudpoängen

23

Page 30: Datorassistans vid lyrikskrivande - KTH

BILAGA A. TESTPERSONERNAS TEXTER FRÅN UNDERSÖKNINGEN

Att läsa i den djupa biktenÄr att dö i toner och i kuwaitkonflikten

I år efter år göteborg har vuxitoch frodats som andra vuxitAtt säga något är viktigtär en gammal drömbok riktigtNär jag är lyckligmin vän du endast kan mig godtyckligAv mig tar du på ditt bladingen oren vågar kinden lärstad

här har du i grytandu tar bort bildytandu har hjälpt att segrajag är lycklig när jag stegraåt dig ämnas men min fogelhär har du att vogljag kan ej av tomma ord få lugndu är en moltke strategiskt lärd och kakelugn

Jag ville följa dig på juleqvällen som en skuggaFör jag vet att du har makten över att huggaIn i hjärtegropen hvar letare fick hvad var välMen sedan vill jag ej mer skriva ihjälMig. Och låt oss gå under naken himmelJag vill sova vid din sänghimmelEn sådan dyrbar vän är denSom du skär allt med. Kniven.

Här är glädjens timme kommen måmig gud så visst förlåta som eskimåMen hur än lustans bölja vaggar oförfäradi sin hundsommarglöd över hedar trosa-vagnhäradSå kan du dock en vålnad stigande urgraven och när hon slöt sin distributionsstrukturEn fin épitre åt tjuserskanliberté menhon stod mig när solen sakta tittar igen

han kom allena förbi min banaskum och dyster syntes skogen marjaanahan som heter både kraft och hederfinns här inga hjonelag att stifta stockholmslederom han kände sig främmande på gamla tingoch delade jordens klassrumsundervisning

24

Page 31: Datorassistans vid lyrikskrivande - KTH

A.2. JULKLAPPSRIM BASERADE PÅ TIDNINGSTEXTER

jag har fått min själdu har talat med underbefäldu får ej en enda önskandu får ju den blomma önskankanske en gång och går jag ensammen utan tvekan utan häpnad ensamoch utan fruktan stiger anden som en sucknär jag får se din oskuld lika klart lasttruck

Här får jag sparaom än med lyxvaraden är kall och blekanvänd för låtsaslekom du vill vetaborde du samarbetajag vill levalåt mig skreva

A.2 Julklappsrim baserade på tidningstexterHär presenteras samtliga julklappsrim som testpersonerna skrev där träningstextenvar tidningstexter.

i köket är det svårtatt göra supportdenna kan förklaras med mindrebra i livet och sindrebehöver du köpa det rättakan du få mättadin man hamnade i bilköerförhållandet mellan könen fröer

Sommaren är hemsk ibland.Men under ytan finns skjöldebrand.Om du inte vet vad som utlovats.Kommer hästar för greken begåvats.Läsa är en del av förklaringen.Kom och lämna över förvaringen.Om du skulle rangordna bland floran.Så finns det inget att skylla på bondmoran.

jag är övertygad om att det är en mycket uppskattad kräftskivahär får du en jude som låter som en divaen fin revansch för nederlaget mot italien

25

Page 32: Datorassistans vid lyrikskrivande - KTH

BILAGA A. TESTPERSONERNAS TEXTER FRÅN UNDERSÖKNINGEN

för den svenska regeringens större framgångar i australienen man som inte är särskilt intressant i sammanhangetmed en annan värld under kampen mot etablissemangeten cool tjej som nu är den enda möjlighetenden enda vägen till puberteten

Manlighet är föremål för intensivasammandrabbningar taymor som förvandlar korporativaNågot du kanske inte haren mycket bra som en kvinnokarllätt vunnet men också för grovtolaga hot är nu inte räknas grovtI den här säsongen har det funnits bristernu får du naturligtvis förklara dessa personlighetsbrister

Fredrik har spelat golfhan sticker till och sedan rudolphåker till landet och inte en chansatt han inte kan komma till rätta med finansjag hatar att handla med kunskap om barnkonventionenmen du har en annan och yngre optionenfan hur ska man göra för att få en ny bokät den som vill ha bort henne från dookh

Fy fan vad illaAtt du inte kan vara blickstillaOch läsa om en sådan situationSom sker på en pendeltågsstationBara ta det lugnt och sköntMed en massa gröntTe. Som är så gottTill boken som är så hott

Det här är en mycket bra bokmen efter ett tag blir man klokKanske handlar det om en ung kvinnasom är på många sätt är en älskarinnadet lärde jag mig själv när jag lästeden som en slags behovsventil och jästejag kom som reaktionpå den här sexpartimotion

du har redan fått miljardermed kaffe och kaka på leoparderkan han tänka sig en knäck

26

Page 33: Datorassistans vid lyrikskrivande - KTH

A.3. FRITT TEST

om han inte längre har någon matsäckblir du efter några timmar av dödsångestinte besviken på den här panikångestpest och pina trots att jag är en märklig och udda konstkommer den här sortens soulmakare starka i språk och ordkonst

du har tidigare gjorten stor grupp människor förgjortjag gillar inte att man måste gåför jag är inte så mycket påmamma kommer från den svenska marknadenpappa kommer med stor sannolikhet exportmarknadeni säcken löser sig politikerna utombil utan att vara med i rygg dessutom

har du läst damtidningar nu?du behöver utforska mer jufler ord här finns mycketmånga gamla komiker och kvinnoförtrycketkan du få information om europas judarhistoria är spännande gudaröppna och undersökadags att försöka

A.3 Fritt testFöljande texter skrevs av testpersonerna när de fick använda programmet fritt.

Anna är ledsen över SkottlandHon har blivit slåttlandOm hon bedrog sig härnästFanns inte heller bingolottohästIdag är sökarens lekande gillbrand

Den här kvinnan skulle knäcka.Alla män i min lägenhet släcka.Kom in dit trodde du verkligen att mitt gäng var myndigt.Den övre raden var inte alls speciellt syndigt.Hästar har alla fötter mellan benen jag tog körsträcka.

I julklapp önskar jag mig en gåtaEn grogg på hotellrummet och en ny toyotaOm jag får det skulle jag kunna tackaDig för att han inte har någon läderjacka

27

Page 34: Datorassistans vid lyrikskrivande - KTH

BILAGA A. TESTPERSONERNAS TEXTER FRÅN UNDERSÖKNINGEN

Hästkött är det bästa som finnsfråga bara findus och phil collinsIdag ska vi äta det som drek lagarmen skulden är inte bara onsdagarAtt drek inte kan jämföras med dkm är syndmen tekniken är inte bara pengafyndDet är häst som fixar det bra med matdrek har lärt sig att det är ger bra resultat

Det var en gång en valross som förirrathan hade en chans att få vara zirathmen jag hade hoppatsatt få komma till stoppatsden här gången är det som irrat

Min vän Jonas är från FalunOch han är helt jävla galunMen det finns ingen anledningAtt inte ha någon vägledningFör att syssla med förtal. Un.

Vad gör du med hästen somhade premiär på dramaten och omkompå stockholms läns landsting där han bodde.Här gäller det att man icke skoddesig på mjuka människor från tjikkom

allt som inte kan köpas för pengarför pengarkrossa alla fönster slå in hans dörrlåt honom veta att inget är som förrsäg som det är nu finns ingen väg tillbaks för nån som är en looserett riktigt jävla asett riktigt jävla ashan har missat din mammas begravningcheck han har bränt alla tänkbara pansarglas

blommor är rödasköld är en kvinna flödabystam kan suga födahur sin mammas infraröda

maskinen är ett originaldärför vill humankapitalspyr i ditt öra

28

Page 35: Datorassistans vid lyrikskrivande - KTH

A.3. FRITT TEST

det ska du omöjliggörabystam är kulhan vet något matskjuldär han äter soporoch vill hitta grävskopor

29