Een Elektronische ANS in XML-formaat

(In: STDH-nieuwsbrief 12 (juni 2000))

Folkert de Vriend

Afdeling Nederlands, Katholieke Universiteit Nijmegen

 

Inleiding

Binnen het project 'Elektronisering van de ANS' wordt aan de Katholieke Universiteit Nijmegen een elektronische versie ontwikkeld van de tweede editie (uit 1997) van de Algemene Nederlandse Spraakkunst (ANS). De elektronisering zal niet alleen gevolgen hebben voor de gebruikers van de ANS. Ook het redactionele proces zal ingrijpende wijzigingen ondergaan waardoor de redactie de grammaticale beschrijvingen van de ANS onder meer efficiënter zal kunnen actualiseren op basis van nieuwe onderzoeksgegevens. Voor de gebruikers van de ANS betekent elektronisering dat de grammaticale informatie beter toegankelijk zal worden voor de verschillende doelgroepen. Over de vraag via welk publicatiemedium de Elektronische ANS (E-ANS) haar weg naar de gebruikers zal gaan vinden is op dit moment nog geen beslissing genomen. Binnen het project gaat de voorkeur uit naar publicatie op Internet maar ook een cd-romproductie wordt vooralsnog niet uitgesloten. Onze aandacht gaat momenteel hoofdzakelijk uit naar de conversie van de originele ANS-bestanden in WordPerfect-formaat naar XML, een formaat dat in tegenstelling tot WP geheel is toegesneden op elektronisch publiceren. Het is de bedoeling dat de redactie van de E-ANS zich in de toekomst zal baseren op een in XML gecodeerd moederbestand. De gebruikers zal de E-ANS worden aangeboden in (X)HTML-formaat of rechtstreeks in XML in combinatie met een style sheet.

In mijn bijdrage zou ik om te beginnen willen schetsen hoe de ontwikkeling van XML en gerelateerde technieken er op dit moment voor staat. Vervolgens zal ik ingaan op het conversietraject dat bij de ontwikkeling van de E-ANS wordt gevolgd. Bij de ANS converteren we een relatief ‘arme’ WP-codering naar een rijkere XML-codering (up-conversion). Vergeleken met de door Arjan Loeffen in STDH-Nieuwsbrief nummer 8 beschreven overstap van SGML naar XML (down conversion), verloopt het bij ons te volgen traject dus in de omgekeerde richting.

 

XML: de stand van zaken

Loeffen (1998) merkt terecht op dat men met een in XML gecodeerd document niets kan aanvangen wanneer niet is vastgelegd welke functionaliteit het heeft. Jammer genoeg blijken nu, bijna twee jaar later, de drie door Loeffen (1998) genoemde proposals die een gedeelte van die functionaliteit zouden moeten bieden, te weten XLink, XPointer en XSL, zich nog steeds in het stadium van de Working Draft te bevinden. Dit betekent echter beslist niet dat de ontwikkelingen rond XML stil hebben gestaan of dat we nog steeds geen bruikbare XML-toepassingen zouden kunnen implementeren. Zo is het aantal XML-applicaties, waar ook Loeffen over spreekt, in aantal zeker toegenomen. Wie zich een indruk wil vormen van wat er momenteel zoal voor XML-initiatieven bestaan, kan eens kijken naar de lange lijst van applicaties op The XML Cover Pages van Robin Cover. Veel van deze applicaties worden, net zoals veel parsers en tools, ontwikkeld binnen kleinschalige open-sourceprojecten. Maar ook de softwaregiganten doen mee. Getuige het toenemend aantal professionele producten met XML-ondersteuning is er geen twijfel meer mogelijk dat ook vanuit de industrie XML als zeer serieus wordt beschouwd. Zo wordt van de makers van HoTMetaL PRO binnenkort versie 2.0 van XMetaL verwacht. Dit is een zeer professionele XML-editor die niet alleen functionaliteit biedt aan de programmeur, maar ook aan diegenen die voor het editten van met XML gecodeerde tekst een ‘tekstverwerkerachtige’ omgeving wensen. Internet Explorer ondersteunt vanaf versie 5 gedeeltelijk XML in combinatie met een style sheet in CSS of in XSL en Netscape 6, waarvan momenteel een eerste Preview Release beschikbaar is, zal met een vroege Working Draft van de XLink-specificatie overweg kunnen (St. Laurent 2000). Het nog niet tot volle wasdom groeien van een specificatie hoeft dus in het geheel niet te betekenen dat softwareontwikkelaars zich ervan laten weerhouden de techniek al in hun producten te integreren.

Toch zal het duidelijk zijn dat nog niet iedereen over de laatste versie van Internet Explorer beschikt. Dit hoeft echter geen probleem te zijn wanneer we een webpublicatiesysteem willen baseren op XML. Het is namelijk ook mogelijk in eerste instantie XML alleen toe te passen binnen het redactionele proces. Wanneer er gebruik wordt gemaakt van server side scripting (PHP bijvoorbeeld) is het zelfs niet nodig de documenten voor het uploaden naar de server eerst naar HTML te converteren. Met behulp van deze technieken kan namelijk worden geregistreerd of de browser van een client XML ondersteunt. Zo ja, dan wordt direct de originele XML-code teruggezonden in combinatie met een style sheet. Zo niet, dan bestaat de mogelijkheid ‘on the fly’ een HTML-versie af te leiden van de XML-bron en deze terug te sturen.

Binnen het project 'Elektronisering van de ANS' was in eerste instantie besloten tot het coderen van het tekstmateriaal in HTML (Coppen & Haeseryn 1998). We zijn echter teruggekomen op die beslissing nu blijkt dat de ontwikkeling van XML, zoals hiervoor geschetst, duidelijk doorzet. Dankzij de modulariteit van XML zijn de documenten binnen het redactionele proces namelijk aanzienlijk beter te onderhouden. Zo wordt het met XML Linking bijvoorbeeld mogelijk de verwijzingen documentextern te definiëren (De Vriend 1999). Ook komen we met XML dichter in de buurt van een mediumneutrale opslag van informatie zoals die ook al jaren bij de uitgever plaatsvindt. Met een extreem voorbeeld: wanneer de voorspelde verschuiving van de desktop naar zogenaamde Mobile Computing inderdaad werkelijkheid wordt, kunnen we over een paar jaar van de bestanden van E-ANS met gemak een versie afleiden in bijvoorbeeld het op XML gebaseerde(!) ClearType-formaat zodat de tekst kan worden vertoond op een Pocket eBook.

 

Conversie van WordPerfect naar XML

Het bij de elektronisering van de ANS te volgen conversietraject valt uiteen in twee hoofdstappen. Eerst wordt de WP-codering geconverteerd naar HTML. Vervolgens wordt de HTML-codering verder geconverteerd naar het beoogde XML-formaat. We kiezen voor een strategie waarbij eerst nog naar HTML wordt geconverteerd omdat directe volledig automatische conversie van WP naar XML niet mogelijk is. De lay-outcodering WP laat zich immers niet zomaar 1-op-1 vertalen naar een inhoudelijke (logische) codering. Met een voorbeeld: in de tekst worden zowel zelfnoemfuncties als woorden of zinnen die de redactie wil benadrukken cursief weergegeven. De tekstelementen behoren echter duidelijk tot verschillende logische categorieën. De conversie van WP naar HTML kan wèl automatisch gebeuren. Het zijn namelijk allebei overwegend lay-outcoderingen, de ene voor de gedrukte media en de andere voor de elektronische media. Doordat de conversie kan worden uitgevoerd door moderne tekstverwerkers zoals WP8 is ook de aanschaf van dure software niet nodig. De conversie naar HTML levert ons zodoende op een relatief eenvoudige èn goedkope wijze een tussenproduct op dat wat betreft zijn 'aard' beduidend dichter in de buurt komt van de XML-specificatie: HTML is net zoals XML gebaseerd op SGML en zuiver bedoeld voor elektronische publicatie.

Toch bleek bij een eerste conversie naar HTML dat deze niet helemaal feilloos verliep. Bij de door WP8 uitgevoerde conversie verdwenen er speciale tekentjes waaronder de vertical bars en de zogenaamde kastlijntjes. Daarnaast ging de veelvuldig toegepaste weergave met kleine kapitalen verloren. De oorzaak van het verdwijnen van de speciale tekentjes was niet meteen duidelijk. Bij nadere inspectie bleken het echter geen tot de ASCII-set behorende tekentjes te zijn maar specifieke WP-varianten. Het weergavetype 'kleine kapitalen' kan eenvoudigweg niet in HTML worden uitgedrukt. Alvorens de definitieve conversie uit te voeren hebben we daarom de WP-bestanden op broncodeniveau aangepast. Met speciaal voor dit doel geschreven programmatuur hebben we bij alle afzonderlijke bestanden de speciale tekentje vervangen door ASCII-equivalenten en het weergavetype 'kleine kapitalen' vervangen door 'onderstreept'. Van 'onderstreept' kan WP8 immers de tag <u> maken en van de tag <u> kunnen wij dan weer een inhoudelijke en ANS-specifieke XML-tag maken.

De volgende stap, de vertaalslag van HTML naar XML, zal moeten worden uitgevoerd op basis van een DTD. Een eerste versie van die DTD is inmiddels in samenwerking met het in Tilburg uitgevoerde project A Modern Grammar of Dutch tot stand gekomen. Zoals gesteld is een 1-op-1-conversie van fysieke naar logische codering niet mogelijk. Toch illustreert het volgende voorbeeld dat de conversie van HTML naar XML in sommige gevallen nog voor een gedeelte kan worden geautomatiseerd wanneer de structuur van het materiaal wordt doorgrond:

Het eerder genoemde weergavetype 'kleine kapitalen' wordt in de folioversie van de ANS voor een aantal tekstelementen gebruikt. Na een kleine inventarisatie kunnen we een tweedeling maken tussen gesloten groepen waaronder bijvoorbeeld de aanduidingen van tabellen vallen (bijv. 'TABEL 3') en open groepen waaronder letterwoorden en introducties van termen vallen. Wanneer we ons nu realiseren dat de introducties van termen als enige groep ook voorkomen in het register, dan kunnen we een programma schrijven dat alle instanties van de weergave 'kleine kapitalen' langsloopt en vervolgens kijkt tot welke groep de tekst met die opmaak kan worden gerekend. Op basis van die informatie kan de tekst met een toepasselijke inhoudelijke code worden gemarkeerd. Het programma moet namelijk beslissen of: 1) de tekst behoort tot een lid van een van de gesloten groepen (de leden zijn hard te coderen in het programma) of: 2) de tekst is terug te vinden in het register. Wanneer de tekst is terug te vinden in het register dan is het een introductie van een term, wanneer de tekst niet is terug te vinden in het register dan betreft het een letterwoord. Afhankelijk van de uitslag kan zo bij de drie inhoudelijke groepen de fysieke HTML-code <u> automatisch worden vervangen door de juiste inhoudelijke XML-code.

 

Tot slot

We hebben gezien dat de standaardisatie aan de kant van het World Wide Web Consortium niet zo snel gaat als we misschien zouden willen. Maar tegelijkertijd zien we ook dat de ontwikkelingen rond XML zich hierdoor niet laten remmen. XML kan inmiddels op een brede ondersteuning rekenen en het verwezenlijken van een op XML gebaseerd webpublicatiesysteem hoeft dan ook niet langer meer te worden uitgesteld.

Binnen het project 'Elektronisering van de ANS' is de volgende stap in het ontwikkelproces het op basis van de DTD redactioneel vervolmaken van de XML-codering. Gelijktijdig zal de redactie de lineaire structuur van de tekst om moeten zetten naar een hypertextstructuur. Laatstgenoemde conversie van de tekststructuur houdt in dat de tekst op veel plaatsen gedeeltelijk zal moeten worden herschreven. Gezien het aantal bladzijden dat de ANS telt, moet het meeste werk dus nog worden gedaan.

 

 

Literatuur

Coppen, P.A. & Haeseryn, W. (1998). Elektronisering van de ANS. Nederlandse Taalkunde, 3, 291-297.

Loeffen, A. (1998). Van SGML naar XML? STDH-Nieuwsbrief, 8.

Vriend, F. de (1999). Naar een elektronische ANS. Vooronderzoek naar ergonomische aspecten en implementatie. Doctoraalscriptie ATW, KU Nijmegen.

 

Webadressen:

A Modern Grammar of Dutch
ClearType
Internet Explorer 5
St. Laurent, S. (2000): XML.com - On Display: XML Web Pages with Mozilla
PHP
XMetaL
XML, XLink, XPointer en XSL
The XML Cover Pages

[ Naar het begin van deze pagina ]

Laatste wijziging op 1 juli 2007 door Walter Haeseryn.