Data management i en AI-satsning

En AI-lösning är helt beroende av de data den försörjs med. Den behöver data i skick och form för ändamålet. Vi behöver identifiera, värdera, kartlägga, kurera och hantera data. Samt bygga leveranskedjor för data. I den här artikeln tar jag upp hur vi kan jobba med data management inför och under en AI-satsning.
/Peter Tallungs, IRM, 2025-04-10
Artificiell intelligens behöver data
Artificiell intelligens har visat sig användbar i en mängd sammanhang. Många organisationer har satsningar i gång – andra står på tröskeln.
En organisation som ska vara redo för att implementera artificiell intelligens behöver ha tillgång till tre saker: rätt teknik, rätt kompetens och relevanta data.
Teknik och kompetens går alltid att skaffa sig. Men avgörande är att man får tillgång till rätt data, data i rätt skick och data i form som passar ändamålet.
AI-system använder olika typer av data från en mångfald av datakällor – ofta i kombination.
Former av data
Så här kan man kategorisera dataformer som förekommer i AI-sammanhang:
Strukturerade data (Structured data)
Data strukturerat i tabeller, poster eller fält.
Exempel på tekniker/tillämpningar: Maskininlärning (Machine learning, ML).
Ostrukturerade data (Unstructured data)
Data som inte är strukturerat i tabeller, poster eller fält, till exempel text, bild, ljud, video.
Exempel på tekniker/tillämpningar: Naturlig språkbehandling (Natural language processing, NLP) och datorseende (Computer vision).
Semistrukturerade data (Semi-structured data)
Kombination av strukturerade och ostrukturerade data, organiserad på någon nivå, till exempel JSON- eller XML-filer.
Exempel på tekniker/tillämpningar: Webbskrapning (Web scraping) och överföring av data.
Tidseriedata (Time-series data)
Registrering av observationer med regelbundna tidsintervall.
Exempel på tekniker/tillämpningar: Finans, sakernas internet (Internet of things, IoT), hälsovård och tillverkning för att prognostisera och upptäcka trender eller avvikelser.
Textdata (Textual data)
Alla former av skrivna texter, till exempel e-post, artiklar och dokument.
Exempel på tekniker/tillämpningar: Naturlig språkbehandling (Natural language processing, NLP) för att analysera känslolägen, klassificering och sammanfattning av texter, begreppsigenkänning, översättning och chatbots.
Bilddata (Image data)
Visuell information som fångas med kameror eller bildbehandlingsteknik, till exempel Foton, medicinska bilder och satellitbilder.
Exempel på tekniker/tillämpningar: Uppgifter inom datorseende (Computer vision) för att identifiera objekt, klassificera bilder, ansiktsigenkänning, medicinsk analys, styrning av självkörande fordon och analys av satellitbilder.
Ljuddata (Audio data)
Ljudinformation som fångas med mikrofoner eller ljudsensorer, till exempel inspelat tal, musik och omgivningsljud.
Exempel på tekniker/tillämpningar: Taligenkänning (Speech recognizion), identifiering av talare, analys av känslolägen, analys av musik, röstassistans och avlyssning.
Sensordata (Sensory data)
Data från fysiska givare, till exempel temperaturgivare, accelerometrar och gyroskop.
Exempel på tekniker/tillämpningar: Sakernas internet (Internet of things, IoT), bärbara sensorer (wearables), industriautomation, smarta byggnader, hälsoövervakning och miljötillsyn.
Typer av datakällor
AI-lösningar använder data från många slags datakällor – ofta i kombination:
Publika datakällor
Ger data som är fritt tillgängliga för forskning, analys och undervisning.
Exempel på innehåll/tekniker/tillämpningar: Många olika fält, till exempel maskininlärning (Machine learning, ML), benchmarking av algoritmer, prediktiva modeller och trendanalyser.
Interna datakällor
För data som verksamheten själv genererar eller samlar in genom sin drift, som transaktioner eller interaktioner med kunder, medarbetare eller partners.
Exempel på innehåll/tekniker/tillämpningar: Kunddata, försäljningssiffror, finansiella uppgifter, driftsdata mm.
Webbskrapning (Web scraping)
Fångat data från webbplatser (automatiskt). Kan vara text, bilder, länkar, metadata och även ibland strukturerade data.
Exempel på innehåll/tekniker/tillämpningar: Produktinformation, nyheter, jobbannonser, innehåll i sociala medier med mera, för analys och bevakning.
API:er och online-tjänster
Ger enklare åtkomst till många slags bakomliggande datakällor som sociala media (exempelvis X/Twitter API) eller finansiella informationstjänster (exempelvis Bloomberg API).
Exempel på innehåll/tekniker/tillämpningar: Diverse tillämpningar där man kan dra nytta av färdigbearbetade data av skilda slag.
Sensorer
Samlar data som temperatur, ljud, fuktighet, rörelser, ljud med mera från fysiska objekt och miljöer.
Exempel på innehåll/tekniker/tillämpningar: Smarta hem, industriautomation, hälsomonitorering, miljöbevakning, smarta byggnader, smarta miljöer.
Crowdsourcing
En större grupp människor som engagerats att utföra någon uppgift eller samla data, ofta via någon app eller online-plattform.
Exempel på innehåll/tekniker/tillämpningar: Mänsklig input som klassificering av data, moderering av innehåll, analys av känslolägen i innehåll eller återkoppling från användare.
Transaktionssystem
Register med transaktioner eller andra interaktioner mellan parter.
Exempel på innehåll/tekniker/tillämpningar: Köp, bokningar med mera. Denna typ av data är en kärna då det gäller kundanalyser, rekommendationssystem, monitorering för upptäckt av bedrägerier och personaliserad marknadsföring.
Multimedia
Innehåller kombinationer av digitala mediatyper som bilder, video, ljud och animeringar.
Exempel på innehåll/tekniker/tillämpningar: Innehållsrekommendationer, övervakning, bildigenkänning, förstärkt verklighet (augmented reality, AR) och underhållning.
Sociala media och webforum
Ger användargenererat innehåll.
Exempel på innehåll/tekniker/tillämpningar: Analys av känslolägen eller trender, för varumärkesbevakning eller krishantering och forskning om sociala nätverk.
Leveransmodeller
Data kan levereras till en AI-lösning på många olika sätt. Vi kan skilja mellan två breda och grundläggande kategorier av leveransmodeller med avseende på temporala faktorer:
- Batchinläsning
Data hämtas, levereras och laddas vid bestämda tillfällen, vare sig det är vid behov eller regelbundet. Detta är vanligt när fördröjningen från att data genereras tills att dessa presentera inte är kritisk. - Strömmande data
Data levereras och laddas som ett kontinuerligt flöde av dataposter, som processas och analyseras i realtid. Används för tillämpningar där det är viktigt att reagera på händelser så snart de har hänt.
Men kan också användas för skalning då datavolymen är så stor att bearbetningen behöver fortgå kontinuerligt.
Data management
Relevant, förstått och kvalitetssäkrat data är själva förutsättningen för genomförbarheten och nyttan av en AI-satsning. AI-modellernas användbarhet är direkt beroende av kvaliteten på de data de matas med.
Om datamängder är ofullständiga, oriktiga eller dåligt strukturerade kommer resultatet att bli opålitligt och missledande, vilket kan leda till direkt farliga situationer. I värsta fall kan ogrundad tilltro till en AI-modell ge kedjeeffekter, såsom partiska algoritmer, felaktiga prognoser och ineffektivitet i verksamheten. Fel smyger sig igenom – och förstärks.
Det slitna talesättet ”Skräp in – skräp ut” gäller fortsatt och i än högre grad än tidigare. Förr fanns mänsklig närvaro med i loopen i större utsträckning som kunde avvärja de uppenbara felen.
AI-modeller lever på massiva dataset, men rådata duger sällan som de är. Datamängderna behöver tvättas, struktureras och optimeras. Data behöver vara av hög kvalitet och lämplig struktur för att tydas och användas av modeller för till exempel maskininlärning och prediktiv analys.
Att identifiera, värdera, kartlägga, kurera och hantera data och leveranskedjor för data blir därmed en avgörande förmåga i en organisation som vill utvärdera och använda sig av AI-tekniker. Alltså det arbete som vi med en bred term kallar för data management eller dataförvaltning och där arbetet med informationsarkitektur är en nyckel.
Mitt budskap blir att informationsarkitektur och data management inte kan slarvas över. Vi behöver arbeta med informationsmodellering i olika former, datalogistik och data management i största allmänhet, inför, under och efter en AI-satsning.
Hur kan vi arbeta med data management i ett AI-projekt?
Man kan se ett AI-projekt som att det går i faser. Varje fas kan delas ner i ett antal steg. I varje steg är arbeten med informationsarkitektur och data management centralt, men de olika konkreta metoderna och arbetssätten vi använder får lite olika tyngdpunkt i de olika stegen.
Detta får inte tolkas som att processen är strikt linjär, utan man behöver, som alltid då det gäller utvecklingsprojekt, iterera över de olika stegen och ibland även över faserna.
Här är en översikt över vilka roller data management spelar i ett AI-projekts olika faser:
Utforskarfas
I denna första fas har man en hypotes om vad man vill åstadkomma och var man kan finna data som är användbart för ändamålet. Man behöver då utforska och värdera olika datakällor inför beslut om hur man kan gå vidare.
Steg 1: Identifiera och värdera kandiderande datakällor
Vi undersöker olika datamängder för att bedöma om de kan vara relevanta för oss i det vi vill åstadkomma och därmed föremål för fortsatt utvärdering.
Arbetsuppgifter för informationsarkitekter och data management: Informationsmodellering, datautvärdering, kartläggning av dataflöden.
Steg 2: Bygg leveranskedjor
När vi har identifierat vilka data vi vill gå vidare med så bygger vi datatjänster, till exempel i form av api:er eller filöverföringar för att hämta och ladda in data.
Arbetsuppgifter för informationsarkitekter och data management: Utformning av datatjänster med tydliga kontrakt. Design och dokumentation av datastrukturer med hjälp av informationsmodell. Utformning av datalagring och transformationer med hjälp av informationsmodellering med metoder som ER-modellering, Data Vault eller dimensionsmodellering.
Steg 3: Utforska möjligheter
Utforska möjligheterna med de data vi nu har tillgängligt för vidare analys och bearbetning.
Arbetsuppgifter för informationsarkitekter och data management: Bidra till den deskriptiva analysen som görs med hjälp av verktyg som ETL och analysverktyg.
Utvecklingsfas
Om man kommer fram till att de data man nu har tillgång till kan vara användbara blir arbetet mer målinriktat för att bygga något som kan användas på riktigt i verksamheten.
Steg 4: Kurera data
Rådata behöver i de flesta fall tvättas, filtreras, sorteras, etiketteras, aggregeras och struktureras för att passa användningen i vår AI-modell. Vi bygger mekanismer för detta.
Arbetsuppgifter för informationsarkitekter och data management: Olika former av informationsmodellering och kartläggning av data.
Steg 5: Träna/utveckla/testa AI-modellen
Nu är vi mogna för att på allvar träna och utveckla vår AI-modell.
Arbetsuppgifter för informationsarkitekter och data management: Olika former av informationsmodellering.
Steg 6: Bygg AI-system
Vi är nu klara för att etablera en mer formell dataförsörjning och system som kan användas i verksamheten.
Arbetsuppgifter för informationsarkitekter och data management: Olika former av dokumentation baserat på informationsmodellering. Utformning av organisation och ansvar för de olika rollerna i organisationen.
Steg 7: Produktionssättning
Nu förbereds och genomförs produktionssättningen av den färdiga AI-lösningen.
Arbetsuppgifter för informationsarkitekter och data management: Dokumentera för både användning, drift och förvaltning samt utbilda både användare, drift- och förvaltningspersonal. Uppdatera beskrivningar för verksamhets- och it-arkitektur.
Produktionsfas
Nu används AI-lösningen i verksamheten och ger förhoppningsvis nytta.
Steg 8: Använd/förvalta AI-lösning
Nu sker lärandet på allvar. Vilket ger impulser till vidareutveckling.
Arbetsuppgifter för informationsarkitekter och data management: Fånga upp och formulera vidare behov och möjligheter med hjälp av olika former av informationsmodellering och kartläggning av data som är kandidater till vidareutveckling.
Och mer…
Det finns fler delar i data management än vad som ryms här – som datasäkerhet och etik. Men allt vilar på att man har ordning på strukturen: informationsarkitekturen. Utan den blir inget annat hållbart. Så vill man göra AI på riktigt, börja med data management.
