Med all oppmerksomheten AI får om dagen, er det veldig forståelig om du ønsker å ta det i bruk i din bedrift. Spydspissen av generative AI-modeller er tross alt svært imponerende, og har potensial til å være disruptiv i mange industrier – kanskje også i din. Analytisk AI kan sannsynligvis også skape verdi for din bedrift. Det er lett å kjenne på et økende press om å kaste seg på bølgen, i frykt for å havne bakpå.
Med det sagt er det viktigste aspektet av alle suksessfulle AI-prosjekter ofte undervurdert, og fortjener mer oppmerksomhet, nemlig data med høy kvalitet og tilgjengelighet. Uten å ha kontroll på dataene vil investeringer i AI nesten garantert feile, eller i beste fall gi mye mindre verdi enn det faktisk kunne gjort. I dette innlegget tar jeg til orde for å legge et skikkelig fundament, ved å samle og strukturere data samt etablere rutiner for å sikre datakvalitet.
Dårlig datakvalitet og dårlig datastyring (data governance) er nemlig blant de største fallgruvene for suksess i AI-prosjekter.[BCG, Gartner] Hullete data, skjevheter, og inkonsistens fører til dårlige prediksjoner, og dårlig tilgjengelighet gjør det vanskelig å bruke modeller online i produksjon. Uten et ordentlig system for å håndtere dette er det rett og slett vanskelig å skape verdi med AI.[Google] Det er mulig å ta i bruk maskinlæringsmodeller som henter data direkte fra de operative tjenestene, men uten et sentralt sted å hente kvalitetsdata fra, er det vanskelig å skalere bruken av AI i organisasjonen.
En dataplattform er et nettopp et slikt system. Det er en teknisk løsning som samler data fra ulike kilder, transformerer dem til et brukbart format, og gjør dem tilgjengelig for både analyse, dataintensive applikasjoner og AI-modeller. Jeg vil derfor argumentere for at det er klokt å investere i en slik plattform, før organisasjonen din setter i gang store AI-prosjekter.
Som leder eller beslutningstaker bør du vite hvorfor en dataplattform er et smart første steg, og hvorfor det vil sette bedriften din opp til suksess.
Hvorfor dataprosessering er nødvendig
Ethvert system som bruker maskinlæring (ML) har et steg for å klargjøre data for ML-modellen. På samme måte som når du lager mat, så må du vaske, skrelle og kutte grønnsakene før de havner i gryta. Data må også “vaskes”, aggregeres, og bearbeides til et format som maskinlæringsmodellen kan fordøye.
Hvordan dette gjøres, avhenger både av hvilke type data man har, og hva modellen prøver å predikere. For eksempel kan hendelsesdata prosesseres til en slags brukerprofil for å si noe om hvilke preferanser en bruker har. På samme måte må fritekstdokumenter bearbeides til tallbaserte representasjoner (såkalte vektorer) som modellen kan forstå.
Det tekniske fundamentet for AI-suksess
Selv om bedriften din kanskje har mange velfungerende tjenester og databaser spredt rundt, kan det være smart å samle relevante datakilder før du setter i gang med større AI-prosjekter. Implementasjonen kan skje smidig, på samme måte som annen systemutvikling. Starter man i det små, så kan man integrere én datakilde av gangen, bygge nye transformasjoner etter behov og skalere team og drift etterhvert som plattformen skaper verdi. Dette gjør at arbeidet med dataplattform og AI-adopsjon til en viss grad kan gjøres parallell.
Fra perspektivet til de som utvikler og forvalter de operasjonelle tjenestene, er det fordeler med at data lastes inn i en dataplattform, fremfor å integreres direkte med AI-modellene. Ved å hente dataene én gang i stedet for hver gang de trengs, reduseres antall spørringer og unødvendig belastning på tjenestene. I tillegg er databasene som typisk brukes med applikasjonene dine uegnet til AI, fordi de er optimalisert til å hente ut rader med data raskt (Online Transaction Processing, OLTP), men fungerer dårlig til større aggregeringer. Formålet med databasen er å tjene den operative tjenesten, ikke å hente ut og aggregere store datamengder. Økt trafikk med krevende spørringer kan derfor begrense tilgjengeligheten av øvrige systemer.
Når formålet er AI, innsikt og analyse, så finnes det databaser som er mye bedre egnet, og som kan være kostnadsbesparende, nemlig OLAP-databaser (Online Analytical Processing). [Snowflake om OLTP vs. OLAP] Datavarehusene tilknyttet dataplattformer er som regel OLAP, og er derfor optimalisert for å hente ut kolonner med data. Dette gjør aggregeringer og større analyser langt mer effektive enn med OLTP-databaser. Resultatet er at spørringer kan utføres raskere, som kan medføre lavere skykostnader.
Fra perspektivet til ML-ingeniører og dataforskere gir det også verdi å sentralisere innsamling av data i en dataplattform. Da kan arbeidet med å sikre datakvalitet samles på ett og samme sted, blant annet ved å identifisere og korrigere feil, mangler og inkonsekvenser. Dette gjøres gjerne med datakvalitetstester som overvåker nye data, og varsler om eventuelle avvik. Når noen har ansvar for å sikre kvalitet og tilgjengelighet i dette steget, så kan andre fokusere på å skape verdi med dataene, eksempelvis ved å operasjonalisere AI-modeller.
Å bygge en robust dataplattform gir varige gevinster, fordi dataene er gjenbrukbare til andre prosjekter, som andre AI-prosjekter, rapportering, og analyse. Ferdig transformerte data ligger tilgjengelig i datavarehus og feature-stores, og er derfor klare til bruk av både nye og eksisterende modeller. Siden dataene er samlet (og forhåpentligvis dokumentert), så er det veldig mye enklere å finne frem til dem, slik at ikke alle må kjenne til hver eneste database i organisasjonen.
Dataplattformer har veldig mange andre bruksområder utover ML. De transformerte dataene kan brukes til rapportering som for eksempel leveres gjennom e-poster eller dashboard. Dataene kan brukes til å lage segmenter, og kobles med CRM-systemer for mer målrettet kommunikasjon med kundene. Dataplattformer kan også kobles direkte mot BI-verktøy, som gjør det lett for ledere, beslutningstakere, og analytikere å anskaffe kvantitativ innsikt på egen hånd. Med andre ord kan en dataplattform gjøre det enklere å jobbe datadrevet gjennom hele organisasjonen.
Datastyring: den andre halvdelen av fundamentet
Til nå har jeg omtalt hvorfor det gir mening å bygge dataplattform før man begir seg ut på store AI-prosjekter, både fra perspektivet til maskinlæringsingeniører, dataforskere, og utviklere. Jeg har også nevnt fordeler utover bruk av ML. Selv om investering i dataplattform primært handler om teknologi, spiller datastyring (data governance) også en nøkkelrolle for å lykkes med data og AI.
Datastyring handler i korte trekk om å etablere regler, retningslinjer og prosesser for hvordan data skal håndteres i organisasjonen din. Det sørger for at alle konsumenter kan stole på at dataene er korrekt, følger riktige standarder, og er i henhold til sikkerhet og personvernregler. Det kan høres tørt ut, men uten gode rutiner kan bedriften din risikere store bøter for brudd på GDPR, og man har ingen garanti for at dataene betyr det du faktisk tror den betyr.
Både de store metrikkene og de små nøkkeltallene er avhengig av datadefinisjoner. Mangel på disse gjør det vanskelig for interessenter å stole på prediksjoner, prognoser, analyser og nøkkeltall, og fører ofte til uenigheter om hvordan dataene skal tolkes.
For eksempel har kanskje utviklerne i brukerbetalingsteamet én oppfatning av antall aktive brukere på tjenesten din, samtidig som økonomiavdelingen har en helt annen. Holder det at brukeren har aktiv konto, må de ha besøkt tjenesten i løpet av de siste 30 dagene, eller må kontoen deres ha blitt belastet i løpet av denne måneden? Hva om brukeren har en aktiv kampanje som gjør at kortet deres ikke blir belastet på tre måneder? Hvordan passer det inn? Dette blir fort komplisert, og det gjelder for absolutt alle metrikker. Resultatet er at man sammenligner epler med pærer, og har lite tillit til dataene.
Videre kan mangel på rutiner, eksempelvis i forbindelse med anonymisering og sletting, gjøre det vanskelig å ta i bruk modellene fra et juridisk perspektiv. GDPR sikrer sluttbrukerens rett til å bli glemt, og til å få innsyn i persondata. Datatilsynet tar dette på blodig alvor, så brudd kan føre til betydelige bøter. Hvis man bygger mange datapipelines direkte fra tjeneste og database til ML-modell, så kan man fort miste oversikten over hvor data lagres og prosesseres, samt hvilke data som ligger til grunn i modellen. Det er lettere å holde styr på dette og sikre at man følger reguleringer når dataene er samlet på én plattform.
Datastyring kan tilnærmes fra bunnen og opp, fra toppen og ned, eller en slags hybridtilnærming. I en bunnen-og-opp-tilnærming oppdrives datadefinisjoner og rutiner fra teamet som utvikler og forvalter dataplattformen. Disse ressursene sitter nærmest rådataene, og har derfor best forutsetning til å utlede nøkkeltallene. Samtidig kan de slite med å tilpasse datadefinisjonene til firmaets bredere mål, fordi de ikke sitter med samme kontekst som ledelsen, i tillegg til at de mangler den juridiske kompetansen til å samsvare GDPR. Fra motsatt perspektiv vil en toppen-og-ned-tilnærming sørge for sentralisert kontroll av definisjoner og retningslinjer, men kan føre til friksjon fordi ledelsen sitter langt unna rådataene. En hybridtilnærming vil ofte være best, hvor tett samarbeid mellom dataplattform-teamet og ledelsen fører til gode definisjoner, rutiner og prosesser som i sum ivaretar teknisk nøyaktighet, forretningsmessig relevans og regulatoriske krav.
Valget er ditt: Satse smart eller satse raskt
De største fallgruvene med AI er dårlig datakvalitet og mangel på datastyring. Det krever investering å få orden på dataene, i form av datapipelines som henter ut og transformerer data, og det krever rutiner som sikrer kvalitet, tilgjengelighet og GDPR-overholdelse. Dersom man gjør det via en dataplattform så setter man bedriften opp for suksess, og det finnes mange gode argumenter for det. Det er enklere å skalere ML-bruken fordi ferdig transformerte data er gjenbrukbare, og datakvaliteten blir jevnt over bedre når innsatsen gjøres på samme sted. Det er også mye lettere å drive datastyring på én plattform fremfor mange usystematiske pipelines.
Ikke la deg skremme av den initielle investeringen, fordi dataplattformen kan bygges gradvis og smidig, samtidig som dere utforsker verdien AI kan gi. Mange hopper rett til modellen i håp om raske gevinster, men det er de som investerer i struktur, kvalitet og bærekraft som henter den største verdien over tid.
Valget er ditt: Satse smart eller satse raskt? Vi hjelper deg gjerne med å satse smart.
- Kunstig intelligens
- AI
- Dataplattform
- Datastyring
- AI-suksessfaktorer
- Maskinlæring
- GDPR