Content engineering

Contentmanagement today
De afgelopen jaren heeft de ontwikkeling van content management zich vooral geconcentreerd rondom de gereedschappen voor de webmaster en redacteur als beheerders van de website.
Het bouwen en beheren van een website is nog steeds een belangrijke functionaliteit van een content management systeem (CMS).  CMS systemen hebben vooral de productie van content dramatisch verhoogd. Met gevolg een enorme toevloed aan content op veel websites en dus eigenlijk weer een probleem creërend.

Veel bezoekers van websites raken gefrustreerd door de hoeveelheid content, gebrek aan context, zoekmachines die de gebruiker niet begrijpen en niet ondersteunen bij de zoektocht van de bezoeker.  De content is dan wel dynamisch gepubliceerd met het CMS systeem, maar eenmaal gepubliceerd doet content niet zoveel meer. Het blijft statisch en wat we willen is dat die content voor ons meerwaarde oplevert, dat hij zijn ‘geheimen’ prijsgeeft.

Wat voorbeelden
Een burger die een nieuwsbericht van de gemeente over een nieuwbouwproject leest wil graag weten of het project in zijn buurt is, hoeveel het gaat kosten, welke bouwbedrijven er bij betrokken zijn, welke inspraakprocedures gevolgd kunnen worden, waar de vragen over het project gesteld kunnen worden, zijn er al eerdere nieuwsberichten gepubliceerd over het project, is er besluitvorming geweest in de gemeenteraad, etcetera. De antwoorden op deze vragen zitten voor een deel in de content van het nieuwsbericht, maar veelal elders of in een andere vorm.

Een ander voorbeeld: een verpleegkundige die op het intranet van het ziekenhuis een protocol voor voorbereiding van een knieoperatie leest, wil een overzicht hebben van alle benodigde instrumenten (inclusief afbeelding), welke medische hulpmiddelen er klaar gezet moeten worden, wat de betekenis van de gebruikte jargontermen is, wie er allemaal verantwoordelijk zijn en in welke rol, welke werkinstructies aan het protocol zijn verbonden en welk voorlichtingsmateriaal aan de patiënt verstrekt moet worden. Al die informatie is beschikbaar: op het intranet, de internetsite van het ziekenhuis of elders op het grote world-wide-web.
Achter de tekst van het uitgeschreven protocol zit dus een wereld van pragmatische informatie die niet getoond wordt. Maar die wel met behulp van de content van het protocol achterhaald en gepubliceerd kan worden. Om dat te realiseren hebben we naast Content Management ook Content Engineering nodig.

Wat is Content Engineering?
Content Engineering is het verrijken van gepubliceerde content naar content met hersens. Content die zichzelf slim presenteert. Daarbij gaat het over samenhang met de beschikbare content op de website, het hergebruik van de aanwezige content, het verrijken van content, het slim filteren van informatie uit die content en gebruik maken van de context oftewel de omgeving van de gebruiker. Dat laatste is zeker toepasbaar bij mobile devices zoals smartphone en tablet.
Content Engineering zorgt ervoor dat al deze ‘verborgen’ informatie ook getoond wordt. Hoe? Door de content te analyseren, te classificeren, door de concepten en trefwoorden eruit te halen, context te gebruiken en vervolgens daarmee op zoek te gaan naar andere, relevante informatie. Hieronder een voorbeeld (klik op de afbeelding) van het toepassen van Content Engineering bij een bericht over Uber.

Content Engineering en Machine Learning

Om Content Engineering toe te kunnen passen, hebben we tools nodig. Hieronder staat een aantal tools dat bijvoorbeeld een CMS als Smartsite standaard beschikbaar heeft.

Concepten Thesaurus/taxonomie
Allereerst de thesaurus/taxonomie tool. Hiermee kunnen we een nieuwe laag van samenhangende content creëren. Een goede thesaurus kan op verschillende manieren gestructureerd worden: lineair, hiërarchisch of als netwerk. Elke contentitem kan gekoppeld worden aan een of meerdere concepten uit de thesaurus en de bezoeker kan vervolgens door de structuur van concepten navigeren en de informatie vinden die voor hem van belang en zinvol is. Hiermee bereiken dat we afhankelijk van de insteek van een bezoeker, een ander perspectief op navigatie en op het ontdekken van relevante content kunnen realiseren. De thesaurus kan ook gebruikt worden om gevonden trefwoorden te aggregreren naar meer algemene concepten. Een voorbeeld is om met de thesaurus via het trefwoord bloeddrukmeter, concepten als hoge bloeddruk, hart- en vaatziekten, en gezondheidsadviezen te presenteren.

Content Relaties
De tweede tool is de Content – Content relatie. Content items zijn niet alleen drager van content maar kunnen ook als (complexe) metadata een rol spelen. Bijvoorbeeld het toekennen van een Project als metadata aan een Nieuwsbericht item. Normaal gesproken kiest de redacteur een Projectnaam uit een Projectenlijst. In het geval van Content Relaties kan de redacteur metadata kiezen uit een verzameling Project-items in plaats van een lijst met simpele Projectnamen. Waarmee we feitelijk complexe metadata toekennen aan de content. Zelf zo complex dat een als metadata toegekend Project-item allerlei slimme dingen gaat doen met de content van het Nieuwsbericht.
Bijvoorbeeld door bij het Nieuwsbericht een antwoord te geven op de vraag hoeveel het Project kost, wie de Projectleider is, wanneer het Project start, etc. Immers al die informatie zit in de metadata Project opgesloten.

Content Intelligence
Deze geavanceerde tool werkt zowel aan de redactiekant als aan de bezoekerskant. Ter ondersteuning van de redacteur kan Content Intelligence (CIM) ingezet worden voor het automatisch bepalen van trefwoorden, samenvatting, gerelateerde content en classificatie van de content. Een bijzondere mogelijkheid is dat de gevonden trefwoorden gematched worden tegen een thesaurus waardoor er gestandaardiseerde trefwoorden worden toegekend en via de theasurus gekoppelde concepten, gebruikt kunnen worden.

Aan de bezoekerskant geeft CIM de mogelijkheid om bijvoorbeeld de belangrijkste trefwoorden en concepten te tonen waarmee verder gezocht en genavigeerd kan worden. Allerlei mogelijkheden zijn voorhanden. Content Intelligence is geavanceerd, op vele manieren inzetbaar en een goed voorbeeld van Machine Learning. Bijvoorbeeld als een Vraag en Antwoord engine, waarbij de in natuurlijke taal gestelde vraag wordt gematched met de Kennisbank. De achterliggende Machine Learning technologie is beproefd en scoort hoog op het vlak van het classificatie van informatie.

Content Intelligence en Machine Learning

Content Repository
Een Repository Model biedt verschillende content engineering mogelijkheden om hergebruik van content in meerdere publicaties te faciliteren.  Het basis idee achter het Content Repository concept is dat content zich kan abonneren op andere content. Door dit systeem van abonnementen kan hergebruik gefaciliteerd worden, maar ook de inhoud van de content afhankelijk maken van de abonnee of van het type abonnement.

Bijvoorbeeld de situatie waarin een multinational zijn productspecificaties wil publiceren naar verschillende landensites. Het probleem is vaak dat niet elk land gebruik kan maken van de centraal geredigeerde productinformatie. Prijzen kunnen verschillen (zowel in hoogte als valuta), garantiebepalingen kunnen lokaal afwijken, etc. De productspecificaties zullen echter voor elk land identiek zijn. Hiervoor hebben we een uitgebalanceerd mechanisme nodig waarbij aangegeven kan worden welke deelinformatie over het product hergebruikt wordt  en welke informatie per channel (lees land) kan verschillen.
Onder regie van workflow kan een complete cyclus van creatie, vertaling en publicatie van herbruikbare content door het repository model gerealiseerd worden.

Content Engineering en Content Repository

Dit is wat Content Engineering kan doen. Niet het simpel publiceren van tekst en media, maar content naar een hoger niveau tillen door slim gebruik te maken van beschikbare technologie.