Viikon konsulttikysymys: Mikä on Data Lake?

viikon kosnulttikysymys data lake
Viikon konsulttikysymys pureutuu termeihin, joita asiantuntijoiltamme välillä hieman pelätään kysyä ”tyhmien” kysymysten pelossa. Mitä siis tarkoittaa Data Lake?

Mikä on Data Lake?

Data Lake on yksinkertaisesti tapa kerätä ja säilyttää suuria määriä dataa esimerkiksi analytiikkaa tai koneoppimista varten. Data Lake:ssa tallennettavan datan formaattia ei ole etukäteen määritelty, vaan samaan varastoon voidaan tallettaa esimerkiksi raakadataa erilaisista sensoreista ja rakenteellista dataa tietokantasovelluksista.

Koska dataa ei tallennusvaiheessa tarvitse käsitellä, on datan tallentaminen Data Lakeen nopeaa ja halpaa, ja dataa voidaankin kerätä suuria määriä siltä varalta, että sitä tarvitaan myöhemmin johonkin. Jos datan tallentaminen ei ole riittävän suunnitelmallista, eikä tallennettua dataa dokumentoida riittävästi, on vaarana Data Laken muuttuminen Data Swampiksi. Tällöin dataa olisi kyllä olemassa, mutta sen löytäminen ja hyödyntäminen on hankalaa tai mahdotonta.

Jari Avikainen
Data Engineer, Cloud Architect, konsultti