The Dutch Republic
Home Profiel Actueel Portfolio Contact
Het bedrijf Artikelen en brochures

DE ZIN EN ONZIN VAN XML
XML is de laatste jaren het buzz word van de IT-branche. Dat het iets te maken heeft met de opslag van informatie en misschien wel medium neutrale opslag mogelijk maakt is iedereen waarschijnlijk wel eens ter oren gekomen. InCT legt uit wat we nu met XML kunnen en wat we er van mogen verwachten.

XML, 'eXtensible Markup Language', is een standaard om gegevens op te slaan en te verzenden. De meeste gegevens zijn niet zo gestructureerd, ze zijn bijvoorbeeld niet overzichtelijk opgeslagen in records en tabellen zoals in een database. Om ongestructureerde gegevens electronisch te kunnen verwerken is al meer dan twintig jaar geleden SGML, 'Standard Generalized Markup Language', ontwikkeld. Zowel in XML als in SGML staat een M, de M van 'markup'. Markup betekent opmaak, de opmaak van een document zou omschreven kunnen worden als datgene over (de inhoud van) het document dat niet tot de eigenlijke inhoud behoord. Nu denken de meeste mensen bij opmaak aan zaken als tekststijlen, kantlijnen, kolommen, en dergelijke. Dit soort opmaak zouden we 'stijl-opmaak' kunnen noemen. Maar opmaak is meer. Naast stijl-opmaak is er 'omschrijvende opmaak'. Omschrijvende opmaak (in het Engels: 'generic markup') betreft de structuur van de informatie, het beschrijft bijvoorbeeld wat in een document een hoofdstuk is, of wat een paragraaf is, wat een persoonsnaam is, wat een jaartal, enzovoort. Allerlei stukken en stukjes data kunnen met behulp van een markup language worden gelabeld, de labels geven aan wat de betekenis van de informatie is. De SGML standaard beschrijft een manier waarop omschrijvende opmaak in een document kan worden opgenomen. Ook kan met behulp van SGML de structuur van een document worden beschreven. XML is een variant op SGML, in eerste instantie speciaal voor web-toepassingen ontwikkeld.

Nu brak SGML nooit echt breed door. Dat zou kunnen komen doordat het ingewikkeld is, het is niet echt toegankelijk, en dat het ontwikkeld is zonder rekening te houden met internet-toepassingen. Enkele doelen bij het ontwikkelen van XML waren dan ook:

  • XML bestanden moeten makkelijk te maken zijn.
  • Het moet makkelijk zijn software te schrijven die XML documenten maakt of verwerkt.
  • XML documenten moeten ook door mensen min of meer goed leesbaar zijn.
  • XML documenten moeten ook voldoen aan de SGML standaard, met andere worden, een goed XML document is ook een goed SGML document. Andersom geldt dit niet.
  • XML is goed toepasbaar via internet.
  • XML is voor allerlei toepassingen inzetbaar.

SGML is vooral iets dat in de wereld van de documentaire informatiesystemen wordt toegepast, XML komt men tegenwoordig overal tegen. Aan zoiets als XML was ook wel behoefte bij de makers van internet-toepassingen, dat helpt natuurlijk voor de populariteit. En het is waar, XML is veel makkelijker dan SGML, maar XML is inmiddels zo wijdverbreid en uitgebreid dat ook al die XML ontwikkelingen niet meer zo erg toegankelijk zijn.

XML versus HTML
HTML is de taal waarin webpagina's worden beschreven. In HTML wordt de presentatie van een document gespecificeerd. Zaken zoals indeling in paragrafen en tekststijlen. HTML gaat niet, zoals SGML wel doet, in op de betekenis van de aangeboden informatie. HTML is eenvoudig waardoor het erg snel doorbrak. Aan de andere kant is veel met HTML niet mogelijk.

Een klassiek voorbeeld is een artikel dat we electronisch willen publiceren. Omdat we sowieso een internet-versie van het document willen hebben zetten we de tekst om in HTML. Maar van HTML zijn verschillende versies, niet iedereen gebruikt immers dezelfde webbrowser. Maar gebruikt iedereen wel een bureaucomputer? Wellicht willen we dat ons artikel ook leesbaar is op een organiser zoals een Palm of op een mobiele telefoon. Sommige telefoons maken gebruik van WML, een heel eenvoudige variant van HTML, modernere telefoons kunnen al meer. Een I-mode toestel bijvoorbeeld werkt met HTML 3.2, dat is erg geavanceerd voor een telefoon, maar een computer is toch al weer een paar versies verder. Dus om alle potentiële klanten te kunnen bedienen moeten we, alleen om de internet markt goed te kunnen bedienen, het artikel in ongeveer tien verschillende varianten omzetten. En dat over een jaar weer opnieuw, want dan zijn HTML en alle andere standaarden weer vernieuwd. XML lost dit probleem op, de truuk is het complete document een keer om te zetten naar XML en dan de software de omzetting naar het de juiste versie van HTML te laten doen. Die software kan het artikel dan ook omzetten naar PDF (portable document format) waardoor een versie voor de drukker en/of ebooks ontstaat. Ebooks en drukkers die met een ander type bestanden dan PDF werken zijn er ook, maar ook naar die bestandstypen kan worden geëxporteerd.

Het komt er eigenlijk op neer dat alle documenten en de informatie over de inhoud van de documenten en de informatie over de documenten worden opgeslagen in een database. Zo'n database noemt met een XML-database.

MNO
Op deze manier ontstaat medium neutrale opslag (MNO), waar u als uitgever wellicht van droomt. Maar er zitten haken en ogen aan het verhaal. De software waar hierboven van gesproken wordt is niet goedkoop en het veranderingstraject waar een uitgeverij doorheen moet kost veel tijd, heeft waarschijnlijk hulp van buiten nodig en is dus ook niet goedkoop. Daarbij komt dat hoe groter de variëteit van uw uitgaven, hoe moeilijker het wordt. Zoiets eenvoudigs als een afbeelding levert al problemen op, meestal worden afbeeldingen toch weer apart opgeslagen. Verder heeft ieder medium z'n eigen specifieke eigenschappen die de MNO-droom ook niet reëler maken. Allerlei varianten van HTML zijn zeker realiseerbaar, maar als uit dezelfde XML data ook cd-rom's en dvd's geproduceerd moeten worden is wordt het al weer een stuk lastiger.

Wanneer men MNO wil realiseren is XML de oplossing, zo veel staat wel vast. Maar, zoals uit het bovenstaande duidelijk wordt, kan een dergelijk project vooralsnog alleen rendabel worden als het om heel veel materiaal gaat en er zowel aan de invoer kant niet te veel variaties in de brondata zitten en de diverse uitvoer-media ook niet te gevarieerd zijn. Das organisatie zoals de SDU scoort met het ver-XML-len van wetteksten wekt dan ook geen verbazing. Het ontsluiten van de informatie bij het European Patent Office of van grote tijdschriften die er iedere uitgave ongeveer hetzelfde uitzien, dat zijn de toepassingen die het eerste succes hebben. Landelijke dagbladen zouden ook kunnen scoren, maar die gebruiken vaak nog systemen die nog niet met XML overweg kunnen.

Uitwisseling van gegevens
XML is gelukkig meer dan alleen een opslagmedium. Het vormt tevens de basis voor de manier waarop de uitwisseling van gegevens tussen twee computers plaats vindt. Het is eigenlijk een standaard voor het ontwikkelen van standaarden voor gegevensuitwisseling. Of het nu gaat om krantenartikelen, bestellingen van auto-onderdelen, het versturen van hele boeken inclusief de drukopdracht naar een drukker of een informatieaanvraag, door een standaard op basis van XML te definiëren kan iedere techneut er vervolgens iets mee. Voor een branche-brede doorbraak van XML is dus nog wel het een en ander nodig, om te beginnen zouden meer software pakketten XML moeten ondersteunen.

Dat gaat de goede kant op maar het is zeker niet zo dat alle uitgeverijen hun gegevens met de drukkers, het Centraal Boekhuis, het ISBN bureau, boekhandels en al die andere organisaties op een gestandaardiseerde manier uitwisselen. Als die standaard er zou zijn zou die ongetwijfeld gedefinieerd worden op basis van XML. Alle leveranciers van software weten vervolgens waar ze rekening mee moeten houden en hoeven niet zelf het wiel weer uit te vinden. Voor de gebruikers van al die pakketten is het weer handig dat alle pakketen met elkaar informatie kunnen uitwisselen. Bij de keuze van het ene software pakket hoeft men geen rekening te houden met de vraag of een ander pakket wel goed aansluit. Dankzij XML zal dat immers wel het geval zijn. Microsoft bijvoorbeeld is een van de trekkers achter XML, en iedere versie van Office ondersteunt het gebruik van XML weer beter. De meeste databases, bijvoorbeeld die van Oracle of Microsoft, kunnen hun data ook als XML exporteren. Dat betekent niet dat het ook meteen een XML-database is, in de structuur van een database is al veel vastgelegd over de opgeslagen informatie en die kan worden geëxporteerd op basis van XML. Het mooie van XML is nou juist dat het ook goed overweg kan met minder gestructureerde informatie.

Conclusie
XML heeft de toekomst en als het een keer tot medium neutrale opslag zal komen zal XML daar een grote rol in spelen. Vanwege de hoge investeringen is opslag in XML vooralsnog alleen iets voor de grotere uitgeverijen. Maar XML heeft ook een toekomst waar het de uitwisseling van informatie betreft. Zodra er goede standaarden op basis van XML zijn, zal iedereen zich daar aan conformeren, of beter gezegd, zal de software die iedereen gebruikt zich daaraan conformeren.

Op het web:
Er is ontzettend veel informatie over XML op het web te vinden. Een paar goede beginpunten zijn de volgende drie sites.

http://www.sgml-ug.nl/
De SGML/XML User Group Holland biedt allerlei interessante informatie waaronder enkele casu.

http://www.arbortext.com/
Het Amerikaanse Arbortext is een van de pioniers op het gebied van XML en MNO. Ook hier is veel niet per se technische achtergrond informatie beschikbaar.

http://www.w3.org/XML/
Via 'world wide web consortium' worden veel internet standaarden ontwikkeld en vastgesteld. Standaarden met betrekking tot XML horen daar natuurlijk ook bij.

Tekst: Roelof Roos
© 2003 The Dutch Republic / Roelof Roos; Alle rechten voorbehouden.

back
top