-->

Vii­me vuo­si­na Data Lake­house ‑ark­ki­teh­tuu­ris­ta on muo­dos­tu­nut pää­sään­töi­nen data-ark­ki­teh­tuu­ri pil­vi­poh­jai­siin data-alus­toi­hin. Medal­lion-ark­ki­teh­tuu­ris­ta (prons­si, hopea, kul­ta) on tul­lut de fac­to Lake­housea raken­net­taes­sa. Tähän asti Mic­ro­sof­tin rat­kai­su pil­vi­poh­jai­sia data-alus­to­ja var­ten on ollut Azu­re Synap­se Ana­ly­tics PaaS ‑rat­kai­su tai Data­bricks on Azu­re. Vii­me kuus­sa Mic­ro­soft jul­kai­si uuden SaaS-poh­jai­sen ana­ly­tiik­ka-alus­tan nimel­tä Mic­ro­soft Fabric. Jos Fabric ei ole vie­lä sinul­le tut­tu, tutus­tu Mic­ro­soft Lear­nin yleis­kat­sauk­seen.

Alla on muu­ta­mia aja­tuk­siam­me Fabricis­ta liit­tyen Data Lake­house ‑toteu­tuk­siin ja mik­si orga­ni­saa­tioi­den tuli­si ottaa Fabric käyttöön.

Synap­se vs Fabric

Synap­se Ana­ly­tic­sin tar­koi­tus oli tuo­da yhden sateen­var­jon alle Azu­res­sa saa­ta­vil­la ole­vat data-pal­ve­lut. Sitä se käy­tän­nös­sä myös teki, mut­ta kone­pel­lin alla ne eivät sil­ti aina toi­mi­neet sau­mat­to­mas­ti yhteen. Näis­tä esi­merk­kei­nä mm. se, että Spark- ja SQL-työ­kuor­mat eivät kes­kus­te­le natii­vis­ti kes­ke­nään, yhtey­det eri pal­ve­lui­den välil­lä eivät toi­mi out of the box ja datas­ta täy­tyy tal­len­taa useam­pia kopioi­ta, jot­ta se on opti­maa­li­ses­ti hyö­dyn­net­tä­vis­sä eri työ­kuor­mis­sa. Nämä eivät ole ylit­se­pää­se­mät­tö­miä asioi­ta, mut­ta aiheut­ta­vat yli­mää­räis­tä työ­tä, joka ei tuo­ta lisä­ar­voa lop­pu­käyt­tä­jil­le. Toki monet näis­tä asiois­ta pys­ty­tään hoi­ta­maan auto­maa­tiol­la, kuten Isle­til­lä teke­mäm­me templa­te-poh­jai­set rat­kai­sut teke­vät­kin. Molem­mis­sa rat­kai­suis­sa Lake­house-ark­ki­teh­tuu­rin yti­mes­sä on Spark-note­boo­kit, joil­la var­si­nai­set datan käsit­te­lyt teh­dään. Tätä­kin var­ten olem­me kehit­tä­neet omat Spark-kir­jas­tot, joi­den avul­la toteu­tus on nopeam­paa ja laa­duk­kaam­paa, ja ne ovat täy­sin yhteen­so­pi­via Fabricin note­boo­kien kanssa.

Miten Fabric muut­taa kuviota? 

Fabric ei muu­ta Data Lake­housen ja Medal­lion ‑ark­ki­teh­tuu­rin perus­pe­ri­aat­tei­ta vaan tar­jo­aa täy­sin uuden­lai­sen alus­tan näi­den raken­ta­mis­ta var­ten. Kos­ka kysees­sä on SaaS-pal­ve­lu, sen pys­tyt­tä­mi­nen ja yllä­pi­tä­mi­nen vaa­tii vähem­män työ­tä kuin PaaS-poh­jai­sen Synap­sen. Fabricin yhtei­nen käyt­tö­liit­ty­mä kai­kil­le työ­kuor­mil­le on toki hyvä asia ja vähen­tää tar­vit­ta­vien työ­ka­lu­jen mää­rää ja siir­ty­mis­tä nii­den välil­lä. Niin ne työ­kuor­mat. Fabricis­sa on mis­tä vali­ta: Data Fac­to­ry, Data Engi­nee­ring + Lake­house, Data Ware­house, Data Science, Real-time Ana­ly­tics, Data Acti­va­tor ja Power BI. Näis­tä­kin voit lukea lisää em. lin­kin takaa löy­ty­väs­tä Fabricin esit­te­lys­tä. Kaik­kia työ­kuor­mia ei tie­tys­ti tar­vit­se käyt­tää vaan jokai­seen tar­pee­seen vali­taan sopi­vin väli­ne. Eri työ­kuor­mil­la pys­ty­tään toteut­ta­maan osit­tain samo­ja­kin asioi­ta esim. vaih­toeh­toi­set toteu­tuk­set low-code tai code first ‑tyyp­pi­ses­ti.

Tär­kein omi­nai­suus kui­ten­kin on kone­pel­lin alla ole­va One Lake tal­len­nus­ti­la ja kaik­kien Fabric työ­kuor­mien käyt­tä­mä Apac­he Del­ta Lake tal­len­nus­for­maat­ti. One Laken taus­tal­la on Azu­re Data Lake Sto­ra­ge Gen2, jon­ka myö­tä One Lake tukee kaik­kia samo­ja omi­nai­suuk­sia kuin Data Lake Sto­ra­ge. Del­ta Lake taas on avoin tal­len­nus­for­maat­ti, joka tukee ACID-tran­sak­tioi­ta sekä datan ver­sioin­tia ja samais­ta for­maat­tia käyt­tää myös mm. Data­bricks. Synap­sen Note­boo­kit toki pys­ty­vät yhtä lail­la käyt­tä­mään Del­ta Lakea ja Ser­ver­less SQL Pool myös luke­maan sitä, mut­ta Fabricis­sa kaik­ki työ­kuor­mat sekä luke­vat että kir­joit­ta­vat Del­ta Lakea natii­vis­ti. Tämä tie­tys­ti hel­pot­taa eri työ­kuor­mien välis­tä datan hyö­dyn­tä­mis­tä ja myös eri roo­leis­sa toi­mi­vien hen­ki­löi­den mah­dol­li­suut­ta hyö­dyn­tää alus­tal­la ole­via dato­ja eli juu­ri sitä, mitä moder­nin data-alus­tan tuli­si­kin olla.

Yhte­näi­sen Del­ta Lake for­maa­tin myö­tä tar­ve kopioi­da samaa dataa eri for­maa­teis­sa eri väli­nei­tä tai käyt­tö­tar­pei­ta var­ten vähe­nee mer­kit­tä­väs­ti. Tämän lisäk­si Fabricis­sa on täy­sin uusi­na omi­nai­suuk­si­na shortcut ja data­ba­se mir­ro­ring, joi­den avul­la ole­mas­sa ole­via dato­ja esim. AWS:n S3:sta, Azu­ren Sto­ra­ges­ta tai Azu­ren SQL ja Snow­fla­ke ‑tie­to­kan­nois­ta ei tar­vit­se vält­tä­mät­tä erik­seen siir­tää One Lakeen vaan ne voi­daan lin­kit­tää One Lakeen. Jokai­nen tapaus tulee tie­tys­ti tut­kia tar­kem­min ja hakea sopi­vin rat­kai­su kysei­seen tarpeeseen.

Uusis­ta omi­nai­suuk­sis­ta mai­nit­ta­koon vie­lä erik­seen Power BI:n Direct Lake con­nec­tor, joka pys­tyy luke­maan datan One Lakes­ta reaa­liai­kai­ses­ti ja erit­täin suo­ri­tus­ky­kyi­ses­ti eli käy­tän­nös­sä yhdis­tää par­haat puo­let Direct Que­ry ja Import Mode ‑tyyp­pi­sis­tä yhteyk­sis­tä: tie­to­mal­lin ajan­ta­sai­suus ja tehokkuus.

Edel­lä mai­nit­tu­jen lisäk­si Fabricis­sa on lukui­sia mui­ta­kin uusia omi­nai­suuk­sia ja tuo­te kehit­tyy jat­ku­vas­ti. On hyvä huo­mioi­da, että vaik­ka Mic­ro­soft jul­kai­si tuo­tan­to­kel­poi­sen (GA) ver­sion Fabricis­ta mar­ras­kuus­sa 2023, on sen omi­nai­suuk­sis­sa edel­leen puut­tei­ta. Näi­tä kui­ten­kin pai­ka­taan kovaa vauh­tia ja uusia omi­nai­suuk­sia jul­kis­te­taan viikoittain.

Mil­loin on hyvä aika ottaa Fabric käyttöön?

Orga­ni­saa­tioi­den, jot­ka vas­ta aloit­ta­vat siir­ty­mi­sen pil­vi­poh­jai­seen data-alus­taan, kan­nat­taa ehdot­to­mas­ti har­ki­ta Fabricia ensi­si­jai­se­na vaih­toeh­to­na. Toi­saal­ta niil­lä orga­ni­saa­tioil­la, jot­ka ovat jo raken­ta­neet data-alus­tan­sa Synap­seen tai Data­brick­siin, ei ole mikään kii­re siir­tää jo teh­ty­jä osia Fabriciin, Synap­se pysyy edel­leen täy­sin tuet­tu­na pal­ve­lu­na. Mut­ta näil­le orga­ni­saa­tioil­le voi olla mie­len­kiin­toi­nen vaih­toeh­to imple­men­toi­da Fabric jon­kin tie­tyn osa-alu­een käyt­töön ja kerä­tä siten koke­muk­sia uudes­ta alustasta.

Viit­tei­tä on, että migraa­tioi­ta var­ten on tulos­sa Mic­ro­sof­til­ta apu­vä­li­nei­tä jos­sain vai­hees­sa. Jos orga­ni­saa­tion nykyi­nen Synap­se-poh­jai­nen rat­kai­su on Lake­house Spark-note­boo­ke­ja käyt­täen, kuten Isle­tin­kin toteu­tus­mal­li on, tulee migraa­tio Fabriciin ole­maan mel­ko kevyt ope­raa­tio riip­pu­mat­ta sii­tä tekee­kö sen nyt vai muu­ta­man vuo­den kuluttua.

Kitey­tet­ty­nä, mitä hyö­ty­jä Fabric tuo organisaatiolle?

Saman pal­ve­lun alta löy­ty­vät nyt kaik­ki data ja ana­ly­tiik­ka ‑tar­pei­siin liit­ty­vät asiat datan integroin­nis­ta läh­tien sen muok­kaa­mi­seen, tal­len­ta­mi­seen ja rapor­toin­tiin sekä lisäk­si koneop­pi­mis- ja AI-työkalut.

Kos­ka kaik­ki Fabricin työ­ka­lut tun­nis­ta­vat kes­ki­te­tyn One Laken ja käyt­tä­vät samaa datan tal­len­nus­for­maat­tia, on eri roo­leis­sa työs­ken­te­le­vien hen­ki­löi­den help­po hyö­dyn­tää alus­taan tal­len­net­tua tie­toa. Aikaa ja rahaa sääs­tyy, kun hen­ki­lön ei tar­vit­se miet­tiä, miten saa luet­tua halua­man­sa datan.

Samoin työs­ken­te­lyä tehos­taa Copi­lot. Se integroi­daan osak­si kaik­kia Fabricin työ­kuor­mia ja sil­lä on käy­tös­sään sama näky­vyys alus­tas­sa ole­vaan dataan kuin kehit­tä­jäl­lä, jol­loin kehit­tä­jät voi­vat pyy­tää Copi­lo­tia esim. kir­joit­ta­maan koo­dia, las­ken­ta­kaa­vo­ja tai ana­ly­soi­maan dataa.

Fabricin kus­tan­nuk­set perus­tu­vat kapa­si­teet­tiyk­sik­köi­hin, joi­ta kaik­ki työ­kuor­mat kulut­ta­vat. Kun datan mää­rä kas­vaa ja käyt­tö­tar­peet laa­je­ne­vat, kapa­si­teet­tia oste­taan lisää tai päin vas­toin. Power BI ‑lisens­sit tosin oste­taan edel­leen erik­seen ellei käy­te­tä F64-kapa­si­teet­tia eli entis­tä Power BI Premiumia.

Islet ja Fabric

Me Isle­til­lä olem­me jo pit­kän aikaa toteut­ta­neet Data Lake­house ark­ki­teh­tuu­rei­ta perin­teis­ten tie­to­va­ras­to­jen sijaan, kuten esim. Wihu­ril­la. Olem­me kehit­tä­neet genee­ri­siä, tois­tet­ta­via mal­le­ja ja kir­jas­to­ja Medal­lion-ark­ki­teh­tuu­rin tehok­kaa­seen toteu­tuk­seen ja käy­täm­me Del­ta Lakea datan tal­len­nus­for­maat­ti­na. Nämä huo­mioi­den, siir­ty­mi­nen Fabriciin ei muu­ta suu­res­ti tapaam­me toteut­taa Lake­house, mut­ta tuo pal­jon uusia mah­dol­li­suuk­sia ja omi­nai­suuk­sia data-alus­tan raken­ta­mis­ta ja datan hyö­dyn­tä­mis­tä varten.

- — - — -

Blo­gin kir­joit­ta­ja Mika Kui­va­nen on Isle­tin data-ark­ki­teh­ti, jol­la on yli 15 vuo­den koke­mus tie­to­kan­nois­ta, datasta&analytiikasta ja kon­sul­toin­nis­ta.  

Lisä­tie­to­ja:

Jan­ne Anttila

CBO — Data and Ana­ly­tics, Isletter

janne.​anttila@​isletgroup.​fi

+358 45 672 8569

#Mic­ro­soft­Fa­bric #Azu­re #lake­house #del­ta­la­ke #power­BI #data #ana­ly­tiik­ka #AI #one­la­ke #Mic­ro­soft

Like what you read? Sha­re this!