Kuvittele ajavasi autolla sumuisessa säässä, ja tien reunassa näkyy hahmo. Onko se ihminen, liikennemerkki vai vain varjo? Itseajavat autot kohtaavat tällaisia tilanteita päivittäin, ja niiden täytyy tunnistaa ympäristönsä luotettavasti. Tämän mahdollistaa data-annotointi – prosessi, jossa tekoälymallille syötettävää dataa esiprosessoidaan. Annotoidun aineiston avulla tekoälymalli oppii koulutuksen jälkeen tunnistamaan muotoja, kuten rakennuksen tai auton.
Mitä on data-annotointi?
Data-annotointi on prosessi, jossa raakadata (kuten kuvat, ääni tai pistepilvet) merkitään ja luokitellaan koneoppimismallien kouluttamista varten. Jotta ajoneuvo voi tunnistaa edessään olevan esteen, se hyödyntää koneoppimismalleja, jotka on opetettu aiemmin annotoidulla datalla. Tämä data on käsitelty joko ihmisen toimesta tai erityisesti tätä tarkoitusta varten kehitetyn mallin avulla. Koulutuksen aikana koneoppimismalli oppii tunnistamaan erilaisia kohteita, kuten liikkuvat ja paikallaan olevat autot, jalankulkijat ja esteet. Kun malli on koulutettu riittävän suurella määrällä annotoitua dataa, se pystyy tekemään havaintoja ja ennusteita itsenäisesti ilman suoraa vertailua esimerkkidataan.

Kuvassa 1 esitetään pistepilvi annotoituna ja annotoimattomana. Tyhjään pistepilveen (oik.) ei ole merkitty luokkia, joten se näkyy kuvassa sinisenä. Annotoitu pistepilvi (vas.) näyttäytyy värikkäänä, sillä jokainen väri edustaa tiettyä luokkaa. Käytännössä ihmisen tekemä annotointi tapahtuu niin, että käyttäjä valitsee objektia muistuttavan pistekokonaisuuden ja merkitsee sen haluamallaan luokalla, kuten kuvassa 2 näkyy. Kun tarpeeksi monta esimerkkiä on annotoitu, malli oppii tunnistamaan sen edessä olevat esteet ilman ihmisen apua. Jokaiselle yllä olevassa kuvassa 1 näkyvälle objektille on oma luokkansa, mitkä ovat listattuna alempana kuvassa 3.

Annotoitavia datatyyppejä on monenlaisia: on olemassa audio-, pistepilvi-, kuva ja tekstidataa, mitä on mahdollista annotoida erilaisilla työkaluilla. Ihminen toimii annotoinnissa ikään kuin kääntäjänä laitteelle, mikä tarvitsee annotoitua dataa toimiakseen turvallisesti ja käyttötarkoitukseen sopivasti.
ROADVIEW -hanke
ROADVIEW-hanke on EU:n rahoittama Horizon Europe -innovaatiohanke, jonka tavoitteena on kehittää kestäviä ja kustannustehokkaita ajoneuvojen havainto- ja päätöksentekojärjestelmiä yhteydessä oleville ja automatisoiduille ajoneuvoille (ROADVIEW, 2024). Lyhenne ROADVIEW tulee sanoista Robust Automated Driving in Extreme Weather. Hankkeen erityisenä painopisteenä on parantaa suorituskykyä haastavissa sääolosuhteissa ja erilaisissa liikennetilanteissa, kuten lumi- tai vesisateessa. Tähän mennessä suurin osa automatisoiduista ajoneuvoista on koulutettu ja testattu pääasiassa optimaalisissa sää- ja tieolosuhteissa, missä näkyvyys on hyvä (FrostBit 2024). Projektin aikana on tarkoitus kehittää ajoneuvoon upotettu havainto- ja päätöksentekojärjestelmä, joka perustuu parannettuun sensorointiin, paikannukseen ja tarkempaan kohde- ja henkilöluokitteluun.
Data-annotointi on osa ROADVIEW -projektin kehitystyötä. Hankkeessa luodaan julkisesti jaettava esimerkkidata ympäristöstä, jossa auto, johon on kiinnitetty LiDAR -sensori, ajaa eri reittejä ja samalla luo pistepilviä ajamastaan ympäristöstä. Annotoija käy tämän pistepilven läpi ja merkitsee, mitä esteitä auton ympärillä on. Tätä annotoitua dataa käytetään koneoppimismallien koulutuksessa, jotta ne oppivat tekemään tarkkoja ennusteita myös haastavissa olosuhteissa. Erityisesti tarkastellaan dataa, joka on kerätty vaikeissa sääolosuhteissa, kuten rankassa vesi- tai lumisateessa.
Yhden pistepilven annotointiin kuluu arviolta viisi tuntia. Ennen kuin dataa voi käyttää kouluttamiseen, se on käytävä vielä kertaalleen lävitse virheiden varalta. Data voidaan tarkistaa useita kertoja, jotta sen tarkkuus ja luotettavuus paranee. Käytännössä siis annotoidun datan tarkastukseen kuluu lähes yhtä paljon aikaa, kuin mitä annotointiin.
Työkalut ja alustat
Roadview-hankkeen data-annotoinnissa käytetään Segments.ai-työkalua, joka julkaistiin vuonna 2020 Otto Debalsin ja Bert De Brabanderen toimesta (Segments.ai, 2024). Segments.ai valittiin ROADVIEW-hankkeeseen erityisesti helpon 3D-pistepilvidatan annotointitavan vuoksi. Tämän työkalun avulla on mahdollista annotoida monia erilaisia datatyyppejä, kuten kuva- ja pistepilvidataa.
Segments.ai-työkalun lisäksi on olemassa muitakin annotointityökaluja ja -alustoja, kuten Labelbox, CVAT, Supervisely ja Amazon Sagemaker Ground Truth, mitkä kaikki erikoistuvat jonkin tietyn datatyypin annotointiin. Esimerkiksi Segments.ai erikoistuu 3D-datan, kuten pistepilvidatan annotointiin ja Labelbox kuva-, video-, teksti-, ja äänidatan annotointiin. Erilaiset annotointityökalut tarjoavat monipuolisia ominaisuuksia. Alla olevassa taulukossa vertaillaan suosituimpia työkaluja ja niiden erikoistumisalueita. Näistä työkaluista Label Studiota on käytetty Marjamasiina -hankkeessa, missä kehitettiin automaattinen marjojen tunnistus- ja laskentajärjestelmä tekoälyä hyödyntämällä (FrostBit, 2021).

SemanticKITTI
ROADVIEW-hankkeessa käytetään SemanticKITTI:ssä määriteltyjä luokkia, mikä on Bonnin yliopiston Photogrammetry & Robotics Groupin, Computer Vision Groupin ja Autonomous Intelligent Systems Groupin yhteistyössä tuottama datasetti. SemanticKITTI:ssä on yhteensä 28 luokkaa. Alla olevassa kuvassa esiteltynä SemanticKITTI-luokat.

ROADVIEW-hankkeessa annotoinnissa on lisätty muutama ylimääräinen luokka, jotta voidaan paremmin kuvata auton edessä nähtäviä esteitä, kuten erottelua liikkuvien ja paikallaan olevien autojen välillä. Myös SemanticKITTI-datasetissä on luokat liikkuville objekteille, mutta ne on yhdistetty samaan kyseisen objektin liikkumattomaan luokkaan. Esimerkiksi liikkuvasta autosta (moving car) tulee tämän logiikan avulla car-luokka.
Mikä on LiDAR -sensori?
LiDAR (Light Detection and Ranging) on etäisyydenmittaustekniikka, joka hyödyntää laserpulssien heijastumista kohteista mitatakseen etäisyyksiä ja luodakseen tarkkoja kolmiulotteisia pistekarttoja ympäristöstä (National Oceanic and Atmospheric Administration, 2024). LiDAR-teknologia on yksi keskeisimmistä sensoritekniikoista automaattisten ajoneuvojen kehityksessä. Sen avulla itseajavat autot voivat havainnoida ympäristöään tarkasti ja reaaliaikaisesti. Alla on kuvassa 4 on esimerkki LiDAR-sensorista. Sensoreita on monenlaisia, mutta kuvassa näkyvä Ouster OS1 on säänkestävä ja toimii jopa -40 asteen lämpötilassa.

LiDAR-sensorit lähettävät laserpulsseja, jotka heijastuvat ympärillä olevista esteistä ja palaavat takaisin LiDAR-anturiin. Tämän avulla luodaan tarkka kolmiulotteinen pistepilvi ajoneuvon ympäristöstä, mikä mahdollistaa esteiden tunnistamisen ja turvallisen ajamisen myös haastavissa olosuhteissa.
Yhteenveto
Data-annotointi on välttämätön osa itseajavien autojen kehitystä, sillä se mahdollistaa tekoälymallien tarkan ja luotettavan kohteidentunnistuksen erilaisissa ympäristöissä ja sääolosuhteissa. ROADVIEW-hanke pyrkii parantamaan havaintojärjestelmiä erityisesti haastavissa sääolosuhteissa, ja annotoitu data on keskeisessä roolissa tämän tavoitteen saavuttamisessa.
Käytössä olevat työkalut, kuten Segments.ai, mahdollistavat tehokkaan ja tarkasti hallitun annotoinnin, mikä vie itseajavien autojen kehitystä eteenpäin.
ROADVIEW on EU:n rahoittama Horizon Europe -projekti, jossa on 16 kumppania 7 maasta. Hankkeen kokonaisbudjetti on 9,7 miljoonaa. Hankkeen toteutusaika on 1.9.2022 – 31.8.2026.

Lähdekirjallisuus
Behley, J., Garbade, M., Milioto, A., Quenzel, J., Behnke, S., Stachniss, C. & Gall, J. 2019. SemanticKITTI: A Dataset for Semantic Scene Understanding of LiDAR Sequences. Viitattu 19.02.2025. https://arxiv.org/abs/1904.01416.
FrostBit. 2021. Marjamasiina. Viitattu 17.03.2024. FrostBit portfolio, Marjamasiina.
FrostBit. 2024. Roadview. Viitattu 16.10.2024. FrostBit Portfolio, Roadview.
National Oceanic and Atmospheric Administration (NOAA). 2024. What is lidar? Viitattu 17.04.2024. Oceanservice.noaa.gov.
ROADVIEW. 2024. Robust Automated Driving in Extreme Weather. Viitattu 16.10.2024. https://roadview-project.eu/.
Segments.ai. 2024. Our History. Viitattu 04.03.2025. https://segments.ai/company/.
University of Bonn. 2021. Overview. Viitattu 16.10.2024. https://www.semantic-kitti.org/dataset.html.
Artikkelijulkaisut ovat FrostBitin asiantuntijakirjoituksia Lapin ammattikorkeakoulun projektien toiminnasta ja tuloksista sekä muita TKI-toimintaa ja ICT-alaa koskevista aiheista. Artikkelit arvioi FrostBitin julkaisutoimikunta.

Sofie Väisänen
Asiantuntija ja tieto- ja viestintätekniikan insinööri (AMK) Sofie Väisänen työskentelee Lapin ammattikorkeakoulun Digitaaliset ratkaisut-osaamisryhmässä.