![]() |
||||
|
||||
|
||||
|
DE ZIN EN ONZIN VAN XML XML, 'eXtensible Markup Language', is een standaard om gegevens op te slaan en te verzenden. De meeste gegevens zijn niet zo gestructureerd, ze zijn bijvoorbeeld niet overzichtelijk opgeslagen in records en tabellen zoals in een database. Om ongestructureerde gegevens electronisch te kunnen verwerken is al meer dan twintig jaar geleden SGML, 'Standard Generalized Markup Language', ontwikkeld. Zowel in XML als in SGML staat een M, de M van 'markup'. Markup betekent opmaak, de opmaak van een document zou omschreven kunnen worden als datgene over (de inhoud van) het document dat niet tot de eigenlijke inhoud behoord. Nu denken de meeste mensen bij opmaak aan zaken als tekststijlen, kantlijnen, kolommen, en dergelijke. Dit soort opmaak zouden we 'stijl-opmaak' kunnen noemen. Maar opmaak is meer. Naast stijl-opmaak is er 'omschrijvende opmaak'. Omschrijvende opmaak (in het Engels: 'generic markup') betreft de structuur van de informatie, het beschrijft bijvoorbeeld wat in een document een hoofdstuk is, of wat een paragraaf is, wat een persoonsnaam is, wat een jaartal, enzovoort. Allerlei stukken en stukjes data kunnen met behulp van een markup language worden gelabeld, de labels geven aan wat de betekenis van de informatie is. De SGML standaard beschrijft een manier waarop omschrijvende opmaak in een document kan worden opgenomen. Ook kan met behulp van SGML de structuur van een document worden beschreven. XML is een variant op SGML, in eerste instantie speciaal voor web-toepassingen ontwikkeld.
Nu brak SGML nooit echt breed door. Dat zou kunnen komen doordat het ingewikkeld is, het is niet echt toegankelijk, en dat het ontwikkeld is zonder rekening te houden met internet-toepassingen. Enkele doelen bij het ontwikkelen van XML waren dan ook:
SGML is vooral iets dat in de wereld van de documentaire informatiesystemen wordt toegepast, XML komt men tegenwoordig overal tegen. Aan zoiets als XML was ook wel behoefte bij de makers van internet-toepassingen, dat helpt natuurlijk voor de populariteit. En het is waar, XML is veel makkelijker dan SGML, maar XML is inmiddels zo wijdverbreid en uitgebreid dat ook al die XML ontwikkelingen niet meer zo erg toegankelijk zijn.
XML versus HTML Een klassiek voorbeeld is een artikel dat we electronisch willen publiceren. Omdat we sowieso een internet-versie van het document willen hebben zetten we de tekst om in HTML. Maar van HTML zijn verschillende versies, niet iedereen gebruikt immers dezelfde webbrowser. Maar gebruikt iedereen wel een bureaucomputer? Wellicht willen we dat ons artikel ook leesbaar is op een organiser zoals een Palm of op een mobiele telefoon. Sommige telefoons maken gebruik van WML, een heel eenvoudige variant van HTML, modernere telefoons kunnen al meer. Een I-mode toestel bijvoorbeeld werkt met HTML 3.2, dat is erg geavanceerd voor een telefoon, maar een computer is toch al weer een paar versies verder. Dus om alle potentiële klanten te kunnen bedienen moeten we, alleen om de internet markt goed te kunnen bedienen, het artikel in ongeveer tien verschillende varianten omzetten. En dat over een jaar weer opnieuw, want dan zijn HTML en alle andere standaarden weer vernieuwd. XML lost dit probleem op, de truuk is het complete document een keer om te zetten naar XML en dan de software de omzetting naar het de juiste versie van HTML te laten doen. Die software kan het artikel dan ook omzetten naar PDF (portable document format) waardoor een versie voor de drukker en/of ebooks ontstaat. Ebooks en drukkers die met een ander type bestanden dan PDF werken zijn er ook, maar ook naar die bestandstypen kan worden geëxporteerd. Het komt er eigenlijk op neer dat alle documenten en de informatie over de inhoud van de documenten en de informatie over de documenten worden opgeslagen in een database. Zo'n database noemt met een XML-database.
MNO
Wanneer men MNO wil realiseren is XML de oplossing, zo veel staat wel vast. Maar, zoals uit het bovenstaande duidelijk wordt, kan een dergelijk project vooralsnog alleen rendabel worden als het om heel veel materiaal gaat en er zowel aan de invoer kant niet te veel variaties in de brondata zitten en de diverse uitvoer-media ook niet te gevarieerd zijn. Das organisatie zoals de SDU scoort met het ver-XML-len van wetteksten wekt dan ook geen verbazing. Het ontsluiten van de informatie bij het European Patent Office of van grote tijdschriften die er iedere uitgave ongeveer hetzelfde uitzien, dat zijn de toepassingen die het eerste succes hebben. Landelijke dagbladen zouden ook kunnen scoren, maar die gebruiken vaak nog systemen die nog niet met XML overweg kunnen.
Uitwisseling van gegevens Dat gaat de goede kant op maar het is zeker niet zo dat alle uitgeverijen hun gegevens met de drukkers, het Centraal Boekhuis, het ISBN bureau, boekhandels en al die andere organisaties op een gestandaardiseerde manier uitwisselen. Als die standaard er zou zijn zou die ongetwijfeld gedefinieerd worden op basis van XML. Alle leveranciers van software weten vervolgens waar ze rekening mee moeten houden en hoeven niet zelf het wiel weer uit te vinden. Voor de gebruikers van al die pakketten is het weer handig dat alle pakketen met elkaar informatie kunnen uitwisselen. Bij de keuze van het ene software pakket hoeft men geen rekening te houden met de vraag of een ander pakket wel goed aansluit. Dankzij XML zal dat immers wel het geval zijn. Microsoft bijvoorbeeld is een van de trekkers achter XML, en iedere versie van Office ondersteunt het gebruik van XML weer beter. De meeste databases, bijvoorbeeld die van Oracle of Microsoft, kunnen hun data ook als XML exporteren. Dat betekent niet dat het ook meteen een XML-database is, in de structuur van een database is al veel vastgelegd over de opgeslagen informatie en die kan worden geëxporteerd op basis van XML. Het mooie van XML is nou juist dat het ook goed overweg kan met minder gestructureerde informatie.
Conclusie
Op het web:
http://www.sgml-ug.nl/
http://www.arbortext.com/
http://www.w3.org/XML/
Tekst: Roelof Roos
|
||||
![]() |
||||