Den semantiska interoperabiliteten – hur får vi till den?

Myndigheten för digital förvaltning, Digg, verkar för att svenska myndigheter ska göra mera av sina data digitalt tillgängliga. Då blir den semantiska interoperabiliteten viktig, det vill säga att data behöver kunna förstås över organisationsgränser. Hur får vi till det?

Vi behöver göra data tillgängliga och användbara

Det är en lovvärd satsning från Digg att verka för att offentliga data görs digitalt tillgängliga. Många av de data som våra offentliga organisationer sitter på skulle kunna vara till stor nytta, både för näringslivet och för samhället i stort.

Men vad krävs egentligen för att en datamängd ska bli både tillgänglig och användbar?

Interoperabilitet – att kunna samverka

Det är sällan man redan när data skapas tänker att de ska kunna delas brett. Det vanliga är att data skapas och används i ett avgränsat sammanhang, ofta inom en viss verksamhetsfunktion.

Redan när andra funktioner i samma organisation behöver använda dessa data uppstår ofta tolkningsproblem. Problemet blir mer märkbart när data ska delas med andra organisationer, och ännu mer när det sker mellan olika branscher och samhällssektorer.

Interoperabilitet definieras i sin bredaste mening så här:

Förmågan hos olika it-system, programvaror eller organisationer att kommunicera, utbyta data och använda informationen på ett samordnat och effektivt sätt.

Det innebär att information kan delas och förstås oberoende av plattform eller leverantör.

Man kan se interoperabilitet som en kedja av länkar, där varje länk är ett villkor som behöver vara uppfyllt:

Juridisk interoperabilitet
Att lagar och regler tillåter samordning mellan parterna i fråga.
Organisatorisk interoperabilitet
Att policys, processer och arbetsflöden, i respektive part liksom mellan parterna, understödjer samordning.
Teknisk interoperabilitet
Att system och nätverk kan utbyta data på det sätt som behövs, till exempel i realtid då så krävs.
Syntaktisk interoperabilitet
Att data är kodat i format som är känt av mottagande parter.
Semantisk interoperabilitet
Att mottagare kan förstå meningen av av de data som utbyts.

Som informationsarkitekter är vi inblandade i arbetet med att säkerställa hela kedjan, fast i olika grad i de olika länkarna.

Att förstå vad saker betyder – den semantiska flaskhalsen

Jag tror att alla som arbetar med data håller med om att den svagaste länken i kedjan ofta är den sista: den semantiska interoperabiliteten. Det är lätt att missa att vi inte lägger samma betydelse i de använda termerna. Ofta kan även subtila skillnader i betydelse vara viktiga.

En datamängd är tillgänglig och användbar först när den faktiskt kan användas av de tänkta mottagarna.

Den är skapad, definierad och namnsatt i en viss kontext, det vill säga i ett visst it-system och inom en viss verksamhetsfunktion. Sedan ska den kunna tas emot, tolkas och användas i ett annat sammanhang.

Semantisk interoperabilitet är därför en kärnfråga för alla oss som arbetar med att tillgängliggöra data. Det är något som vi som informationsarkitekter behöver adressera i våra arbeten. Det har egentligen aldrig räckt för oss att bara bry sig om själva informationsstrukturen. Men definitioner och namnsättning blir ännu viktigare när data rör sig över organisatoriska gränser.

Kravet på bra förståelse, tydliga definitioner och namn blir dessutom större när kommunikationen sker direkt mellan informationstekniska system, utan mänsklig inblandning. Ty människor kan ofta uppfatta och hantera betydelseskillnader beroende på kontextförskjutningar, ofta mer eller mindre automatiskt och omedvetet.

Algoritmer däremot förutsätter att en term alltid står för exakt samma sak.

Det är därför kravet på semantisk interoperabilitet uppmärksammas så mycket just nu, i takt med den ökande digitaliseringen och alla AI-satsningar. Problemet har egentligen alltid funnits, men i en mer begränsad skala.

Arbetet med att skapa semantisk interoperabilitet har i grunden inget med teknik att göra, utan det handlar om att känna sina data väl och förstå vad de representerar. Det handlar också om att kunna leda arbetet med att ta fram riktigt bra definitioner, benämningar och beskrivningar. Och om att kunna dokumentera detta på ett sätt som fungerar för människor och som i förlängningen också kan bli maskinläsbart.

Myndigheten för digital förvaltning, Digg, säger att detta är viktigt men ger ingen vägledning om hur arbetet ska gå till.

Jag menar att detta är en flaskhals i våra organisationer och därmed ett hinder i arbetet med att tillgängliggöra data i vårt land. Och inte bara ett hinder utan också en risk, vilket är värre. För om data delas med bristande definitioner och namngivning kan det bli allvarliga missförstånd.

Det är också här jag tror att vi informationsarkitekter kan göra som mest nytta.

Kommunikationsstandarder är målet men inte resan

Det första som man brukar hävda i dessa sammanhang är att de data man delar ska följa någon kommunikationsstandard som definierar begreppen i fråga. Det kan vara en befintlig standard eller en ny som man etablerar. Det är förstås sant. Vi behöver standarder.

Men här finns en fallgrop. Det är farligt att mappa sina data mot en standard om man inte först:

skaffar sig noggrann kännedom om sina data,
förstår exakt vilka företeelser i verksamheten de representerar,
har förmåga att ta fram riktigt bra, korrekta och exakta benämningar och definitioner, och
kan kommunicera detta på ett tydligt och konsekvent sätt.

Många verksamheter har tagit en genväg. Man har försökt anamma en standard utan att först göra arbetet med att bygga en gedigen förståelse av de verksamhetsbegrepp som deras data representerar. Resultatet blir att man mappar sina data mot standarden på ett trubbigt och ofta felaktigt sätt. Benämningar och definitioner blir för breda eller för snäva, ibland helt enkelt missförstådda.

Då börjar det skava och skeva i kommunikationen. Det är ett effektivt sätt att förstöra verksamhetens gemensamma språk. Benämningar, även sådana som kanske bara används i digital kommunikation, sätter sig snabbt i organisationer. Dåliga namn på verksamhetsbegrepp blir ofta kvar för lång tid, och hindrar både förståelse, kommunikation och samverkan.

Man har då, med sin standard, hamnat ur askan i elden. I stället för att skapa gemensam förståelse har man byggt in nya hinder och på sikt hämmat verksamhetens möjlighet att utvecklas.

Verksamhetens gemensamma språk, alltså benämningar och definitioner, är något av det viktigaste vi har. Det behöver vi vårda och utveckla med omsorg.

”Mitt språk är min värld”, sa Wittgenstein. Våra begrepp formar inte bara hur vi kommunicerar utan också vad vi kan uppfatta och tänka. Och i ännu högre grad hur vi kan tänka tillsammans. Det som är själva kärnan i verksamhetsutveckling.

Vi som modellerar behöver fokusera på definitioner och benämningar

Arbetet med benämningar och definitioner är något vi informationsarkitekter behöver driva. Just semantiken är ett område som vi traditionellt har slarvat över när vi modellerar information och data. Nästan all litteratur och utbildningar på området hoppar över detta, som om verksamhetens data inte skulle vara intimt förenat med verksamhetens begrepp och språk.

Jag menar att inget är viktigare för oss som arbetar med informationsmodellering än själva begreppsarbetet. På IRM driver vi den frågan både i våra kunskapsartiklar och i våra utbildningar. Under de senaste åren har vi också anställt informatiker som traditionellt har en fot i terminologiarbete och en annan i data.

Det finns fortfarande en tendens i branschen att se arbetet med begrepp och terminologi som något som är separerat från arbetet med att strukturera och benämna data. Visst är det två olika aspekter, men vi behöver hantera dem tillsammans, sömlöst och integrerat.

Ty i de flesta verksamheter är det i databaserna och filerna, i de befintliga datamängderna, vi finner vilka företeelser verksamheten faktiskt hanterar och vilka egenskaper hos dessa företeelser man bryr sig om.

Vi kan visserligen inte dra slutsatser direkt av det vi hittar i databaserna, utan det behöver först analyseras och tolkas tillsammans med sakkunniga. Det är samma roll som arkeologin har inom historievetenskapen. I jorden hittar man föremål som utgör fakta, säkrare än hörsägen och gamla texter, fast inte utan tolkning.

Verksamhetsbegrepp och data är på så sätt som två kommunicerande kärl.

Därför är informationsmodellering nyckeln till att bygga semantisk interoperabilitet. Men bara om våra modeller hanterar begrepp och benämningar samtidigt med logiska informationsstrukturer. Det finns inget som är viktigare för oss.

Hur gör vi?

Hur ska då detta gå till?

Först och främst behöver vi släppa föreställningen att informationsmodeller bara handlar om informationsstrukturer. Vi behöver lägga större fokus på arbetet med definitioner och benämningar.

Jag har skrivit några artiklar tidigare om begreppsarbete och semantik i samband med informationsmodellering. Här följer ett urval.

Om begreppsanalys

Om begreppsmodellering

Det viktigaste du gör som informationsarkitekt: Arbetet med verksamhetens begrepp och språk

Vad är en bra definition?

Sjutton missuppfattningar om arbetet med verksamhetens begrepp

Informationsmodellering: Om namngivning

Hur får vi ordning på vår dataresurs? Del 1: Om röran i struktur, begrepp och namn

Hur får vi ordning på vår dataresurs? Del 2: Hantering av struktur, begrepp och namn

Vad kommer först, ontologi eller informationsmodell?

Jag hoppas du vill läsa och reflektera.

Återkom gärna med dina synpunkter.