Flytta till Stockholm och dö? Vi städar upp och visualiserar kulturarvsdata

Wikidata och museer är en självklar kombination. Våra kulturarvsinstitutioner skapar och förvaltar stora mängder information om sina samlingar och deras skapare. Under 2021 har Wikimedia Sverige arbetat ihop med två svenska museer för att öppna upp deras data och göra det tillgängligt på Wikidata, den globala, flerspråkiga databasen, där det kan kopplas till andra datamängder, förbättras och återanvändas av alla – helt gratis och utan upphovsrättsmässiga begränsningar.

Det har varit en spännande resa, med målet att göra datat synligt, dra nytta av Wikidatas befintliga kunskapsskatt och berätta en historia. På köpet har flera GLAM-experter blivit aktiva Wikidataner!

Vad håller vi på med, egentligen?

Projektet Användbara auktoriteter för datadriven samlingsforskning är ett samarbete mellan Nationalmuseum, Statens Historiska Museer och Wikimedia Sverige och finansieras av ett ett forsknings- och utvecklingsanslag från Riksantikvarieämbetet. Projektledare är Karin Glasemann på Nationalmuseum, som har en lång erfarenhet av att arbeta med Wikimediaplattformarna, bland annat med att ladda upp museets digitaliserade konstverk till Wikimedia Commons.

Projektet sträcker sig från 2021 till 2023 och har för syfte att utforska Wikidata som en gemensam plattform för kulturarvsdata. Under projektets första år har vi arbetat med auktoritetsdata, det vill säga biografisk information om historiska personer i de två museernas databaser.

I praktiken innebär det att vi har arbetat med två egenskaper på Wikidata: Nationalmuseum aktör-ID och Statens historiska museer agent-ID. Dessa har gjort det möjligt för oss att, genom att lägga till identifierare, koppla flera tusen Wikidataobjekt till deras poster i respektive museums system. Ihopkopplingen är tvåsidig, då museernas poster länkar tillbaka till Wikidataobjekten – titta här!

Lärande tillsammans

Wikimedia Sverige har i många år samarbetat med kulturarvsinstitutioner. Vi har framför allt hjälpt dem att ladda upp stora mängder material, som digitaliserade bilder och data, på Wikimedias plattformar. Men det här projektet har krävt ett ganska annorlunda arbetssätt. Det var inte WMSE:s personal som skulle göra själva uppladdningsarbetet. Projektgruppen – några personer från Nationalmuseum och Statens Historiska Museer – skulle nämligen göra uppladdningarna själva. De känner ju sitt data bäst.

Innan datat kunde laddas upp till Wikidata behövde en stor del förarbete göras internt hos museerna. De fick granska sina datamängder, identifiera och åtgärda fel och inkonsekvenser, samt inte minst hitta och ta bort dubblettposter. Ett inte obetydligt arbete när det rör sig om data från flera olika källor som vuxit fram under många år. Projektet blev alltså ett utmärkt tillfälle till att ägna sig åt lite datahygien och se till att informationen är både korrekt och konsekvent.

WMSE:s roll bestod till stor del av stöd och utbildning. För en nybörjare kan Wikidata te sig som en komplex och svåröverblicklig plattform. Vi strukturerade därför vår arbetsprocess kring regelbundna möten där alla i projektgruppen fick utrymme att prata om sina uppgifter och behov. Vi började projektet med en utbildning om Wikidata, modellering av kulturarvsdata och SPARQL (det frågespråk som används för att söka på Wikidata). Vi gjorde även en djupdykning i Wikidatas kultur – vem är det som bestämmer, hur diskuterar man, vad händer om man gjort fel? Mellan mötena jobbade deltagarna självständigt med sina datamängder och redigerade Wikidata.

En viktig del av arbetet var att bekanta sig med och börja använda programmet OpenRefine för att snygga till datasamlingarna och synkronisera dem med Wikidata.

Varför OpenRefine?

OpenRefine är en fri applikation, utvecklad med öppen källkod, som fungerar på Linux-, Apple- och Windowsdatorer. Med OpenRefine kan man städa sitt data, se till att alla värden har ett konsekvent format och upptäcka och åtgärda allsköns fel.

Och när man är nöjd med sitt data kan man jobba direkt mot Wikidata. Säg att du har ett kalkylark med flera tusen konstnärer och deras biografiska data. OpenRefine kan automatiskt matcha deras namn mot Wikidata, vilket gör det möjligt att redigera Wikidataobjekten, till exempel genom att lägga till annan information från kalkylarket (som deras födelsedatum eller identifierare i museets system) till objekten. Samt skapa nya Wikidataobjekt om de inte finns sedan tidigare.

Med OpenRefine kan man jobba med stora dataset i olika format. Oavsett om ditt data finns i en enkel textfil, ett kalkylark, en JSON-fil eller ligger i en SQL-databas kan man importera det till programmet med några klick. Och efter att du städat upp datat kan man, förutom att ladda upp det till Wikidata, även exportera det för vidareanvändning – till exempel i museets egna system.

En av OpenRefines styrkor är att det erbjuder mycket flexibilitet och stora redigeringsmöjligheter utan att kräva kunskaper i programmering. Många av operationerna finns tillgängliga i menyer, som att slå ihop kolumner eller ändra text från stora till små bokstäver. För att göra mer komplexa operationer kan man använda sig av ett särskilt kodspråk, GREL (General Refine Expression Language). Programmet har en omfattande dokumentation där man kan få en översikt över dess många funktioner.

Berättande data

Att få upp sitt data till Wikidata är bara ett första steg. Vilken nytta gör datat? Vad kan vi lära oss av det nu när det har kopplats till Wikidatas globala kunskapsmängd?

För att kunna svara på den här frågan har projektgruppen haft nöjet att arbeta med Albin Larsson, Wikimedian och utvecklare som har koll på det mesta (bland annat) i det svenska kulturarvsdatalandskapet. Albin har utvecklat flera visualiseringar som belyser det data som finns både på Wikidata och i museernas system från olika synvinklar. Ta gärna en kik på https://byabbe.se/datadriven-samlingsforskning/!

Vår favorit är nog kartvisualiseringarna som omvandlar den torra biografiska information som finns på Wikidata till något riktigt spännande. På kartan Konstnärsliv kan man få en överblick över var konstnärerna i Nationalmuseums databas föddes respektive dog. Man kan välja att fokusera på en särskild tidsperiod eller visa alla personer på en gång. Ett mönster som träder fram är alla personer som föddes på mindre orter och dog i storstäder. I Sverige är Stockholm ett vanligt ställe att dö på. Är inte detta essensen av ett konstnärsliv, att flytta till Stockholm och dö?

På kartan Konstnärsliv träder mönster fram. Många konstnärer flyttar till Stockholm för att utöva sin gärning och dö.

Kartan och landskapet

Betyder allt detta att Wikidata ger oss en samlad och korrekt bild av museernas samlingar och de personer som varit involverade i deras uppkomst? Svaret är nej. Wikidata är långt ifrån heltäckande. Visualiseringarna ger oss en inblick i det data som finns på Wikidata, som förts in där av såväl GLAM-experter inom strukturerade projekt som frivilliga redigerare som då och då förbättrar några objekt.

Detta är både Wikidatas svaghet och styrka. De tusentals personer som genom åren lagt till information, som födelsedata, om världens konstnärer har gjort ett massivt jobb vars frukter vi nu kan åtnjuta. Ett jobb som ett enskilt museum inte behöver göra om.

Att se på Wikidata som ett färdigt projekt där all världens kunskap serveras på ett silverfat är fel. Det är snarare en ständigt växande, föränderlig och levande organism, likt en prunkande trädgård som alla kan vara med och sköta.

Arbetet med museerna fortsätter, med fler datamängder som väntar på att bli fröer i den fria kunskapens trädgård. Vi ser fram emot ännu mer svenskt kulturarvsdata på Wikidata!