Concept searching en gevoelige content

PII
Veel bedrijven, organisaties en overheden beschikken over content die privacy gevoelig is. In de VS noemen ze dat PII oftewel Personal Identifiable Information. PII is content waarmee je de identiteit van personen, eventueel in combinatie met andere content, kunt achterhalen. En daarmee zou je personen kunnen benaderen, benadelen of andere goede of slechte dingen meedoen.

Dit geldt niet alleen voor content in het publieke domein zoals het internet, maar zeker ook, en misschien wel vooral binnen een organisatie. Denk aan een intranet of CRM omgeving. Het probleem is echter dat veel van die content ongestructureerd is en daarom moeilijk te classificeren als PII.

Voorbeeld
Callcenters ontvangen veel content van hun klanten, leveranciers, medewerkers. Vaak in de vorm van e-mailberichten, documenten, social media updates en ge-scripte voicemail berichten. De inhoud bevat informatie over personen, producten of bedrijven in de vorm van vragen, complimenten maar ook klachten en bedreigingen. Meestal onschuldig, maar mogelijk ook vallend in de categorie PII.

In het kader van information governance zal een bedrijf of organisatie, zeker in de VS, zich hierom moeten bekommeren. Maar wie gaat al die content doorspitten en classificeren als PII of mogelijk PII? In veel gevallen is dat niet te doen en het wordt dan ook niet of halfslachtig gedaan.

Bestaande oplossingen voor dit probleem richten zich op het redigeren van de content alvorens die te publiceren of op het opsporen van PII content aan de hand van bijvoorbeeld reguliere expressies. Denk bij dat laatste aan het zoeken naar persoonsnamen, e-mail- en fysieke adressen, telefoonnummers, sentiment van de tekst. Een mogelijk alternatief is om Concept Searching in te zetten. Als onderdeel van Content Engineering kan Concept Searching een prima aanpak zijn om te bepalen of content wel of niet privacy gevoelig is.

Hoe werkt het
Door een gestructureerde thesaurus met samenhangende termen te definiëren kun je een netwerk van termen construeren waarmee je concepten kunt presenteren die een relatie hebben met gevoelige of privacy begrippen. Zo’n netwerk wordt ook wel een Concept Map genoemd. Binnen een Concept Map worden relaties gedefinieerd tussen begrippen en termen. Vind je een of meer specifieke termen, dan kun je via de Concept Map de verwante concepten bepalen. Op deze manier bepaal je in hoeverre content PII gevoelig is en op grond daarvan kun je besluiten de toegankelijkheid tot de betreffende content te beperken.

Voorbeeld van een Concept Map

Stel onderstaande tekst is de te onderzoeken content:
Ook dit jaar zal de man met de mijter op een wit paard weer rijden met zijn knecht. Deze laatste heeft vrijwel altijd een zak en roe bij zich. In de zak zitten kadootjes die hij door de schoorstenen gooit.

ConceptMap2

Concept Map Sinterklaasfeest

Met de Concept Map aanpak kunnen we met bovenstaande map achterhalen dat het om Sinterklaas en Zwarte Piet gaat, dat er Discussie rondom hun persoon is en dat ze in Spanje wonen. Verrassend niet?