Hackathon 2011

Hackathon 20011Wikimedia foundation satsar på att förbättra användbarheten på sina webbplatser och det är ett högprioriterat projekt att ta fram en visuell texteditor till MediaWiki, dvs själva wikiprogramvaran som används på bl.a. Wikipedia.  Problemet är dock att en formell specifikation av wikitextens nuvarande format saknas.  Det gör det mycket svårt att omvandla texten till en struktur som kan hanteras på ett korrekt sätt av en visuell editor.  Därför har projektet Wikitext.next lanserats för att skriva om den programkomponent som för närvarande översätter wikitexten till html-kod så att den kan utgöra en mer formell specifikation av textformatet och möjliggöra olika typer av automatiserad behandling av texten, utan att behöva ta till olika ”hack” som aldrig fungerar till hundra procent.

I egenskap av att ha skrivit en exprimentell sk parser – dvs programkomponenten som överför wikitexten till en strukturerad form – för MediaWikis wikitext deltog jag på Hackathon i Berlin där detta projekt skulle diskuteras.  Brion Vibber leder projektet och kommer att koordinera insatser från både frivilliga och stiftelsens egna programmerare för att sammanställa testfall.  Svårigheten är dock uppenbar – det finns ett mycket stort antal artiklar i detta format.  Enbart engelskspråkiga Wikipedia har över 3,6 miljoner artiklar.  Till det kommer alla andra språkversioner och Wikiprojekt.  Varje artikel har dessutom en fullständig historik med de redigeringar artikeln genomgått.  För att inte någon del av denna samling skall gå förlorad, krävs stor nogrannhet i formatspecifikationen.

En ytterligare svårighet är att formatet inte låter sig sorteras under någon befintlig formalism för programspråk eller dataformat.  En specialiserad sådan formalism måste därför troligvis tas fram som en del av projektet om wikitexten skall kunna specificeras utan att man gör några större ändringar.

Tidsplanen är optimistisk, men inte orealistisk.  Ett grafiskt redigeringsverktyg av tillräckligt hög kvalitet skall vara klart under 2012.  Detta är dock inte den enda anledningen att specificera formatet.  Det är också ett sätt att höja tillgängligheten till artiklarnas innehåll då det möjliggör automatisk behandling av artikeltexter med andra verktyg än MediaWiki självt.

Frivilliga kan hjälpa till bland annat med att hitta exempel på udda användning av Wikitexten som kan användas som testfall.