torstai 11. tammikuuta 2024

Taulukoiden kummallisuudet

Leikkaus taulukosta, jossa on päivämääriä vuodelta 1899
Kun Luonnonvarakeskuksen sivujen rajapinnalta lataa dataa, saa mielenkiintoisia päivämääriä. Tuskin tiedot todellisuudessa ovat edellisvuosisadalta. 


Valhe, emävalhe, tilasto - näinhän sitä usein sanotaan. Tilastot löytyvät usein taulukoista, ja vaikka tässä en otakaan kantaa tilastojen valheellisuuteen tai väärällisyyteen, olen viime aikoina törmäillyt ja kompastellut kaikenlaisiin outouksiin taulukoissa ja datoissa. 
LajiGIS on ympäristöhallinnon yhteisesti käyttämä tietokanta, jonne mm. kaikki Velmu-data eli valtakunnallisen vedenalaiskartoituksen lajitiedot viedään. Sieltä ne kerran viikossa kulkeutuvat netistä avoimena löytyvään Suomen lajitietokeskuksen Luomuksen tietokantaan www.laji.fi 
Vaikka kuinka jokainen parhaansa yrittääkin, tietokantaan pääsee aina livahtamaan virheitä. Mitään "vuorenvarmaa" keinoa välttää virheitä ei ole, vaikka Metsähallituksellakin on erillinen ohjelma virheiden etsintään. Suurin osa karkeista virheistä löytyykin tällä tavalla, mutta kaikki kuitenkaan ei. 
Erityisesti ennen virheenetsintäohjelmia ja vakiintuneita Excel-pohjia uuteen LajiGIS-tietokantaan tuli syötettyä kaikenlaisia virheitä. Ei ole mikään ihme, että aiemmin virheitä tuli, koska kenelläkään ei ollut vakioitua sisäänsyöttö-Exceliä ja tietoja leikattiin ja liimattiin käsin taulukosta toiseen ja seuraavana vuonna ehkä kolmanteen.
Näitä vanhoja syntejä on nyt kartoitettu, ihmetelty ja lähdetty korjaamaan. Ilmeisen lehmänhermoinen Max katseli tuhansien rivien mittaista virhe-Exceliä syksyllä 2023 monta kuukautta putkeen ja kirjasi ylös, mikä näitä pisteitä vaivasi. Välillä samalle koordinaatille oli könttiintynyt lukuisia pisteitä, välillä saman pisteen lajit ovat syystä tai toisesta jakaantuneet useille eri näytepisteille. Virhe pitää ensin löytää, sitten ymmärtää, sitten korjata.
Virheitä korjattaessa löytyy välillä hupaisia muistiinpanoja, joita ei selvästi ole tarkoitettu muille kuin itselle muistiinpanoksi. Kävin läpi vanhoja Excel-lomakkeita, joita on syötetty LajiGISiin muiden toimesta ennen vuotta 2019. Oma suosikkini on sarake nimeltään "saatana tämäkö tässä nyt on ongelma". Kollega on myös nimennyt jonkun taulukon nimellä "saatanan_työmaa" - siitä tuli kertaheitolla legenda.

Leike Excel-taulukosta, jossa on sarake nimeltään "Saatana tämäkö tässä nyt on vikana"
Jotkut muistiinpanot on ehkä tarkoitettu vain itselle.

 
Leikkaus Excel-taulukoita sisältävästä kansiosta, jossa on taulukko nimeltä TOSIFINAL
Kun Excel-taulukoiden kanssa puljaa eikä halua tallentaa aina edellisen version päälle vaan vaihtaa nimeä niin että kaikki versiot säilyvät, voi joskus olla vaikeaa keksiä aina vain uusia "vielä valmiimpi" -nimiä.

Tärkeintä kuitenkin on, että virheet saadaan korjattua ja tiedon laatu paranee koko ajan. Tietokantaa ja sinne vietävien Excel-taulukoiden tarkistamista pyritään helpottamaan koko ajan, ja virheidenetsintäohjelmaakin käytetään nykyisin lähes aina. 

Silti me olemme vain ihmisiä, ja virheitä tulee olemaan vähintään yhtä kauan kuin ns. inhimillinen tekijä pääsee käsiksi sisäänsyötettäviin datoihin.

Essi Keskinen