Objektiivinen lukija
Jos haluaisi täydellisen kirjan,
sellaisen voisi kai tilata tekoälyltä. Sellaisia lieneekin, mutta uskon, etten
ole vielä tullut sellaista lukeneeksi ja pyrinkin sitä välttämään.
Tekoälyn tuotokset kai nyt välttämättä ovat teennäisiä ja matkittuja,
vaikka voisin kuvitella, että se helpostikin voisi omaksua myös erilaisia elämänasenteita
ja näkemyksiä siinä kuin tyylejäkin.
Ehkäpä tyypillinen bestseller olisi
juuri sopiva tekoälyn kirjoitettavaksi. Sille tuskin on ongelma ottaa huomioon
suurin mahdollinen lukijakunta, jonka ainakin Hollywoodissa aikoinaan
arvioitiin merkitsevän 11-vuotiaan henkiselle tasolle asettumista.
Mitä tekoäly sitten ei voisi oppia?
En itse asiassa uskalla väittää sellaista asiaa olevankaan. Kun tekoäly seuraa
miljoonien ihmisten ajattelua, se pystyy löytämään sieltä tarvitsemansa.
Odottaessamme
kirjallisuuspalkintojen menemistä yhä uudelleen tekoälylle, voimme ajatella
sitäkin, miten etevästi se jo nyt pystyy erottamaan toisistaan tekijöitä ja
tyylejä.
Tässä muuan vanha blogi, jossa
asiaa käsitellään. Mahtaakohan suomalaisesta kirjallisuudesta jo olla
paljonkin tietokoneanalyysejä? Ne voisivat olla jopa kiinnostavia.
torstai 9. elokuuta 2018
Kun kone lukee
Ben Blatt, Nabokov’s Favourite Word is Mauve. The Literary
Quirks and Oddities of our Most-loved Authors. Simon & Schuster 2017,
271 s.
Suuret kirjat ovat suuria ja kehnot
ovat roskaa. Vladimir Nabokov sijoitti jälkimmäiseen kategoriaan amerikkalaiset
bestsellerit, tarkoittamatta luultavasti, että puhui jokaisesta tapauksesta
(kaikki kehnot kirjat ovat roskaa ja kaikki amerikkalaiset…).
Kirjallisuudessa ihminen joutuu
lukemaan ja kokemaan asioita, joita ei ole hänelle selvästi esitetty eikä aina
voidakaan selvästi ja tarkasti esittää. Ehkä me juuri siksi niin paljon
tarvitsemme kaunokirjallisuutta ja sitä rakastamme.
Olipa miten tahansa, Nabokov on
yksi niistä kirjailijoista, jotka Ben Blatt on ottanut mukaan anglosaksisen
kirjallisuuden kärkijoukkoon, jonka laatua hän tutkii tietokoneen avulla.
Itse asiassa kysymys ei ole
valinnasta. Blattin käytössä on valtava aineisto, toisinaan miljoonien sanojen
tekstikorpukset, joita hän nuohoaa kehittämiensä ohjelmien avulla. Näillä
aineistoilla ja metodeilla on mahdollista saada vastauksia jopa naiivin yksinkertaisiin
ja siksi mahdottomilta tuntuviin kysymyksiin kuten: kirjoittavatko
amerikkalaiset äänekkäämmin kuin britit?
Vastaus on muuten myönteinen.
Amerikkalaiset todella käyttävät enemmän kovaa ääntä ilmaisevia sanoja kuin
brittikollegansa. Muitakin eroja veljesten välillä on. Monet sanat ovat toisen
osapuolen englannissa niin harvinaisia, että ne suurella varmuudella kertovat,
kumpaa kirjoittaja edustaa, ainakin usein toistuessaan.
Tällaisiin sanoihin kuuluu
esimerkiksi brilliant, mistä ei vielä pidä tehdä päätelmiä
amerikkalaisen kulttuurin tasosta. Ne voi ja on syytä tehdä muun aineiston
perusteella ja ne ovat silloin vakuuttavampia.
Yhtä kaikki, Blattin algoritmit
ovat kiehtovia ja tulokset usein vähintäänkin huvittavia, mikä on jo saavutus
sinänsä.
Blatt tutkii niin miesten ja
naisten erilaisia tapoja kirjoittaa, kuin välimerkkien käyttöä, romaanien
aloitusta ja lopetusta ja jopa kirjojen kansia ja sitä, miten suurella
kirjoittajan nimi niissä on painettu.
Kliseet eli suomalaisittain
pikemmin fraasit tarjoavat myös herkullisen aiheen.
Muuan kirjoittajaa vaivannut
kysymys on, voiko hyvän ja huonon kirjan tunnistaa objektiivisesti,
tietokoneella.
Vaikka on toki selvää, ettei kirja
ole enempää hyvä kuin huono siksi, että käyttää tiettyjä kliseitä tai
välimerkkejä tai englannin –ly –loppuisia adverbejä, näyttää siltä,
että erot ovat suuria ja paremmat kirjat voidaan objektiivisesti erottaa. Tämä
koskee myös saman kirjoittajan tekstejä.
Toki esimerkiksi fraasit ovat ensi
kertaa esiintyessään tuoreita, eikä yllätä, että niitä tavataan klassikoilla.
Kirjoittaja etsii myös huonon
kirjan tuntomerkkejä. Klassinen esimerkki huonosta aloituksesta on luonnon
kuvaus: Oli synkkä ja syksyinen yö (It was a dark and stormy night…),
mutta onko sekään välttämättä huono?
Ei tietenkään. Kirjallisuus pyrkii
niin syvälle ajattelumme rajoille, ettei hyvän kirjallisuuden osoittaminen
kvantitatiivisin keinoin taida useinkaan olla mahdollista. Joskus se kyllä on.
Nyrkkisäännöt, sellaiset kuin show, don’t tell ovat yleensä
aina päteviä. Jo Goethe sanoi saman asian: Schaff Bilder, Künstler,
rede nicht!
Laiska kirjoittaminen,
jossa käytetään paljon adjektiiveja ja adverbeja, saattaa tosiaan olla
puuduttavaa lukijalle. Toisaalta myös ylenmääräinen konstikkuus vähentää
luettavuutta ja tympäisee, kun sen huomaa tekemällä tehdyksi.
Blatt esittää kirjassaan
huomattavan määrän tuloksia ja selostaa myös käyttämiään metodeita, jotka
auttavat ymmärtämään, millä pohjalla päätelmät ovat ja millaisia muita teitä
asioiden tutkimiseen olisi olemassa.
Saattaa olla, että kaikkein
ilmeisimmät tulokset ovat tässä kirjassa kiinnostavimpia, ainakin ne lyövät
korvalle sitä muodikasta huuhaata, joka aivan ensimmäisenä tunkeutui juuri
kirjallisuuden tutkimukseen.
Ajatelkaamme sellaisia lauseita
kuin he/she screamed. Kumpi sukupuoli esittää useammin toisen
kirkumassa?
Klassisessa anglosaksisessa
kirjallisuudessa miehet esittävät naisen kaksi kertaa useammin kirkujana kuin
miehen. Naiset tekevät samoin.
Onko tämä merkittävä tulos vai ei?
Sehän heijastaa reaalimaailmaa, jossa kirkujia ovat nimenomaan naiset. Tulokset
eivät kuitenkaan ole kauttaaltaan näin banaaleja.
He/she grinned esitetään
samoin monta kertaa useammin miehiseksi tapahtumaksi molempien sukupuolten
toimesta ja tämä koskee niin klassista, kuin populaarikirjallisuutta.
He/she sobbed poikkeaa
edellisistä. Mies ei nyyhkytä fiktiossa, jos miehet ovat kuvittelemassa. Naiset
kuvittelevat toisin.
Kun tullaan seksiin, ovat odotukset
nimenomaan toisen osapuolen aktiivisuuden suhteen korkealla: he/she
kissed on koko kirjallisuudessa miehillä naisvoittoinen tapahtuma ja
naisilla miehinen. Eroottisessa kirjallisuudessa naiset kertovat miesten olevan
paljon naisia aktiivisempia, miesten kirjoittamissa teksteissä taas vallitsee
tasa-arvo, käyttääkseni tähän yhteyteen kuulumatonta ilmausta.
Mitä naisten näkyvyyteen tulee, se
on kirjallisuudessa pienempi kuin miesten, mikäli indikaattorina pidetään he/she pronominia.
Mainittakoon kuitenkin, että New York Timesin 50
viimeaikaisessa naisen kirjoittamassa bestsellerissä vain 17 käytti
useammin sanaa she ja 33 sanaa he.
Todistaako tällainen yhtään mitään
mistään?
Olisi ainakin typerää mitata näillä
indikaattoreilla sukupuolten (niiden kahden) tasa-arvoa. Näkyvyydestä voinee
sen sijaan puhua, mutta sen olettaminen, että kyseessä olisi jonkinlainen
epäkohta, veisi ajattelun jo Helsingin Sanomien kulttuuriosaston tasolle.
Joka tapauksessa tietokoneen käyttö
tällaisessa yhteydessä ei ole vailla mielenkiintoa. Myös muilla kielillä kuin
englanniksi kirjoitettu kirjallisuus ansaitsee tämän käsittelyn, jota voinee
lähes rajattomasti muunnella eri kirjailijoiden ja kirjallisuudenlajien ja
niiden kehityksen tutkimisessa.
"Jos haluaisi täydellisen kirjan, sellaisen voisi kai tilata tekoälyltä. ..
VastaaPoistaMitä tekoäly sitten ei voisi oppia? En itse asiassa uskalla väittää sellaista asiaa olevankaan. Kun tekoäly seuraa miljoonien ihmisten ajattelua, se pystyy löytämään sieltä tarvitsemansa."
Epäilen, että vastaus on UUTTA LUOVUUS. Tekoäly pystyy toistamaan ja matkimaan sille syötettyä materiaalia, mutta ei pysty luomaan kokonaan uutta, pohjamateriaalista riippumatonta teosta; voin kyllä olla väärässäkin.