Ongestructureerde gegevens beveiligen – uitdagingen en kansen van geautomatiseerd labelen
Lessen van financiële organisaties
Labelen maakt het veel makkelijker om gegevens te beheren, te organiseren en te beveiligen. Het labelen van gegevens is echter tijdrovend en foutgevoelig. Het automatiseren van dit proces kan een aanzienlijke waarde toevoegen en er zijn veel tools verkrijgbaar voor dit doel. Er zijn echter nog uitdagingen die een grootschalig gebruik in financiële organisaties in de toekomst in de weg kunnen staan.
Dit artikel beschrijft de lessen die zijn geleerd van het PCSI bij het toepassen van machine learning op het labelen van ongestructureerde gegevens over medische en fraudegerelateerde persoonlijke identificeerbare informatie (PII). We beschrijven vijf waardeproposities voor financiële organisaties in termen van nauwkeurigheid, flexibiliteit, complexiteit, resolutie en uitlegbaarheid. We nodigen leveranciers en andere geïnteresseerden uit om samen met ons te bespreken hoe deze voorstellen voor het geautomatiseerd labelen van gegevens in de praktijk kunnen worden gebracht.
Labelen van gegevens: wat is het en waarom hechten we er waarde aan?
‘Data is het nieuwe goud’ is een populaire mantra die van toepassing is op veel industrieën. Hiermee wordt bedoeld dat er substantiële waarde mee te winnen valt, maar ook dat het niet altijd eenvoudig is om die waarde eruit te halen. Organisaties beschikken over enorme hoeveelheden gegevens en creëren en verzamelen steeds meer gegevens. Veel van deze gegevens zijn ongestructureerd – audiobestanden, video en e-mails, evenals de meeste tekstbestanden. De ongestructureerde aard van de gegevens maakt goed beheer, organisatie en bescherming tot een uitdaging, omdat het zowel voor de computer als voor de gebruikers onduidelijk is waarvoor de gegevens gebruikt kunnen en mogen worden.
Labels kunnen worden verkregen door eindgebruikers te vragen een oordeel te vellen over een bepaald stuk ongestructureerde gegevens, maar het labelen van gegevens op deze manier is foutgevoelig en arbeidsintensief, waardoor eindgebruikers kostbare tijd moeten investeren. Neem een organisatie met 10.000 werknemers. Elke werknemer maakt of bewerkt gemiddeld ongeveer vijf bestanden met ongestructureerde gegevens. Het bedenken van de juiste labels en het selecteren van die labels kost minstens 10 seconden per bestand. Dit betekent dat medewerkers samen bijna 700 uur van hun werkweek besteden aan het labelen van gegevens. En de labels zijn vaak niet correct of volledig. Mensen maken regelmatig fouten bij het handmatig labelen van gegevens, zelfs als ze voorzichtig zijn.
Hier kan het geautomatiseerd labelen van gegevens een oplossing bieden. Bij het labelen van gegevens worden gegevens voorzien van attributen of metadata, zoals ‘bankafschrift’ of ‘bevat persoonlijke identificeerbare informatie’, om ze te beschrijven. Met behulp van deze labels kunnen gegevens worden geïdentificeerd, indien nodig worden opgevraagd en op de juiste manier worden behandeld met betrekking tot bescherming. Gegevens kunnen gelabeld worden op bestands- of documentniveau, maar het is ook mogelijk om labels toe te wijzen aan secties binnen een bestand of zelfs bepaalde woorden te taggen. Twee van de belangrijkste voordelen van het labelen van gegevens zijn: (1) traceerbaarheid: bestanden kunnen worden opgeslagen en teruggevonden op basis van de gegeven labels, wat het gegevensbeheer vergemakkelijkt; en (2) gegevensclassificaties: gegevenslabels bieden objectieve ondersteuning voor gegevensclassificaties. Er zijn bijvoorbeeld verschillende beveiligingsclassificatieniveaus vereist volgens overheidsvoorschriften, zoals de Algemene Verordening Gegevensbescherming (AVG).
Labelen van gegevens versus classificeren van gegevens
Labelen en classificeren van gegevens worden vaak door elkaar gebruikt om de toewijzing van attributen aan gegevens aan te duiden. Om onderscheid te maken tussen de twee termen worden in dit artikel de volgende definities gebruikt:
- Labelen van gegevens: het attribuut dat door een label wordt toegekend is bedoeld om een objectieve beschrijving van de gegevens te verstrekken. Het bestand bevat bijvoorbeeld persoonlijke identificeerbare informatie (PII) of medische informatie. Er zou weinig of geen onenigheid moeten zijn tussen personen over het al dan niet toekennen van een bepaald label, en het label wordt niet beïnvloed door veranderingen in regelgeving.
- Classificeren van gegevens: het attribuut dat wordt toegekend door een classificatie is een subjectievere beschrijving van de gegevens, bijv. het vereiste beveiligingsniveau. Hoewel classificaties meestal worden gebruikt voor handhavingsdoeleinden (vertrouwelijke informatie mag bijvoorbeeld niet worden gedeeld via e-mail), is de toewijzing ervan meer open voor interpretatie en kan deze in de loop van de tijd veranderen. Informatie kan na verloop van tijd minder gevoelig worden en twee gebruikers kunnen de waarde verschillend beoordelen.
Gezien de bovenstaande definities is het zinvol om te beginnen met het labelen van gegevens en die informatie te gebruiken om de juiste gegevensclassificatie te bepalen. Labels kunnen dus worden gebruikt om gegevens te ontdekken en de juiste classificaties toe te wijzen, terwijl die classificaties op hun beurt kunnen worden gebruikt om te bepalen welke maatregelen eventueel moeten worden genomen, zoals een passend beveiligingsniveau (de stroom wordt weergegeven in figuur 1). Dit in tegenstelling tot veel van de huidige werkwijzen, waarbij gegevens onmiddellijk een beveiligingsclassificatie krijgen (bijv. openbaar, geheim). Door gegevens daarentegen te labelen met beschrijvende metadata en deze labels te gebruiken om de classificatie af te leiden, is het veel eenvoudiger om aan te passen aan veranderende eisen (bijv. veranderingen in regelgeving of classificatieregelingen).
Figuur 1: Objectieve gegevenslabels kunnen worden gebruikt om dynamisch de juiste gegevensclassificatie te bepalen, die op zijn beurt bepaalt welke maatregelen moeten worden genomen voor bescherming en delen.
Wat maakt het labelen van gegevens moeilijk?
Geautomatiseerd labelen is wenselijk, maar verre van eenvoudig. Er moeten dan ook verschillende uitdagingen worden aangepakt:
Ten eerste kunnen ongestructureerde gegevens sterk variëren in inhoud, indeling en zelfs taal. Er zijn veel verschillende bestandstypes, zoals e-mail, video, rapporten en spraaknotities, die ook verschillende indelingen kunnen hebben, zoals PDF, DOCX, WMV en MP4. Een geautomatiseerde oplossing voor het labelen van gegevens moet zo onafhankelijk mogelijk zijn van het bestandstype. Voor zover we weten is er momenteel echter geen hulpmiddel dat alle soorten gegevens kan labelen, en dat zal er in de nabije toekomst ook niet komen [[2]].
Ten tweede heeft het labelen van gegevens op basis van inhoud te maken met subjectiviteit. Er zijn veel scenario's waarin personen het gemakkelijk eens zullen worden over een specifiek en correct label, zoals het toekennen van het label 'bevat PII' aan een kopie van een paspoort. Maar in andere gevallen is dit misschien niet zo eenvoudig. Moet een document van 50 pagina's met de naam en contactgegevens van de auteur ook worden gelabeld als 'bevat PII' of geeft dat een verkeerd beeld van de werkelijke inhoud?
Ten derde is geautomatiseerde evaluatie van gegevens en toekenning van labels moeilijk en niet altijd perfect. Wat als een ‘goede’ prestatie wordt beschouwd, hangt af van de context, aangezien sommige labels makkelijker te herkennen zijn dan andere. De behoefte aan automatisering is enorm, omdat het bekijken van verschillende soorten objectieve labels te veel kostbare tijd van werknemers vergt. Verder is er een onderscheid in automatisering tussen precisie en recall (figuur 2), waarvoor organisaties een afweging moeten maken die zelfs kan verschillen tussen typen labels. Dit maakt het lastig om prestaties te classificeren, te vergelijken en te beoordelen.
Figuur 2: Visuele uitleg van de evaluerende meetgegevens precisie en recall. Elk label vereist een contextafhankelijke beslissing over hoe deze meetgegevens moeten worden afgewogen in het labelproces.
Ten slotte is het ontwerpen of trainen van een model om nieuwe labels te classificeren een complexe taak die veel middelen vergt. Het is afhankelijk van experts die de vereiste regelsets ontwerpen (‘als dit, dan dat’) of van grote hoeveelheden trainingsgegevens om van te leren. Dit laatste wordt vaak verder bemoeilijkt door het feit dat de trainingsgegevens handmatig gelabeld moeten worden om het systeem in staat te stellen ervan te leren. Dit maakt het moeilijk voor een systeem om zich in de loop van de tijd aan te passen aan nieuwe of veranderende vereisten, vooral als het gaat om zeer specifieke labels of labels met een hoge resolutie.
State-of-the-art en verder
Er is al een grote verscheidenheid aan geautomatiseerde oplossingen voor het labelen van ongestructureerde gegevens beschikbaar. Aanbieders van volwassen oplossingen zoals Microsoft en Proofpoint bieden services die labels kunnen maken op basis van de locatie van het bestand, metadata, trefwoorden, woordenboeken, soorten gevoelige informatie zoals IBAN en specifieke bestandsmatches (specifieke contracten, klantformulieren). Veel van deze mechanismen zijn in hoge mate gebaseerd op regels, wat betekent dat bestanden gelabeld worden als ze voldoen aan vooraf gedefinieerde voorwaarden die zijn ontworpen door menselijke experts. Dit werkt in veel gevallen goed en biedt een enorme meerwaarde in vergelijking met het handmatig labelen van bestanden. Het werkt echter vooral goed voor eenduidige labels, zoals het labelen van een bestand als zijnde een CV of een bestand met sofinummer, maar het is niet altijd geschikt voor specifiekere of fijnkorreligere labels. Op AI gebaseerde oplossingen worden steeds gebruikelijker om dergelijke uitdagingen aan te gaan.
Een populaire op AI gebaseerde methode voor het labelen van bestanden die zich niet houden aan een eenvoudig identificeerbare indeling is het gebruik van op frequentie gebaseerde machine learning modellen. Dergelijke modellen leren bestanden te identificeren op basis van gemeenschappelijke woorden of patronen die ze bevatten. Grote sets voorbeeldbestanden worden gebruikt om de woorden of patronen te leren die typisch voorkomen in een bepaald type document, zodat de modellen impliciete woordenboeken leren van woorden en zinnen die geassocieerd worden met die types. Nieuwe bestanden kunnen dan worden geanalyseerd en vergeleken om te bepalen op welk type een specifiek bestand het meest lijkt. Door bijvoorbeeld grote aantallen hypotheekdocumenten te bekijken, kunnen modellen nieuwe documenten herkennen en identificeren die waarschijnlijk ook betrekking hebben op hypotheken. Voldoende voorbeeldgegevens maken een krachtig, dynamisch en zelflerend systeem mogelijk. In de praktijk gaat het meestal om methoden gebaseerd op frequenties van woorden of woordcombinaties, zoals de methoden Term Frequency – Inverse Document Frequency (TF-IDF) of CountVectorizer.
Onze vijf waardeproposities
Het PCSI onderzoekt het potentieel van geavanceerde machine learning methoden die verder kijken dan woordtellingen als input om een document te labelen. Dit komt omdat voor sommige labels simpelweg zoeken naar de aanwezigheid van bepaalde woorden niet genoeg is. Een beperkte hoeveelheid tekst, specifieke labels of de contextuele betekenis van woorden of zinnen kunnen het moeilijk maken om nauwkeurig te labelen met behulp van dergelijke methoden. De zeer geavanceerde machine learning op tekst – Natural Language Processing – maakt het mogelijk om de semantische betekenis van tekst te begrijpen en te gebruiken, in plaats van simpelweg woordspecifieke analyses uit te voeren. We zien de eerste implementatie van dergelijke technieken in machine learning pakketten zoals spaCy en Transformers van Hugging Face. Populaire modellen die worden gebruikt voor een dergelijke analyse zijn Word2Vec, Doc2Vec of een BERT-model (Bidirectional Encoder Representations for Transformers). In onze verkenning zien we deze mogelijkheden echter nog niet terug in commerciële gereedschappen en diensten.
Hoewel de huidige oplossingen enige waarde bieden, kunnen volwassen organisaties profiteren van innovaties op dit gebied, waardoor de bedrijfswaarde nog verder toeneemt door het gebruik van geavanceerde machine learning oplossingen voor het labelen van niet-gestructureerde gegevens. Hiertoe willen we de volgende vijf stellingen voorstellen:
- Nauwkeurigheid: de meeste productleveranciers geven een geschatte nauwkeurigheid van ongeveer 80% voor de meeste labels. Hoewel dit een enorme verbetering is ten opzichte van niets, betekent het ook dat ruwweg 1 op de 5 bestanden nog steeds wordt gemist of verkeerd wordt gelabeld. Deze schatting wordt normaal gesproken gegeven voor het labelen van documenten, zoals ‘CV’ of ‘financieel overzicht’. Complexere of gedetailleerdere labels zullen waarschijnlijk veel lagere nauwkeurigheidsscores halen. Het is wenselijk om een systeem te hebben waarmee klanten een afweging kunnen maken tussen prestatiegegevens zoals precisie en recall.
- Flexibiliteit: vereisten, inzichten en regelgeving veranderen na verloop van tijd en dit heeft invloed op de labelbehoeften. Mogelijk moeten grote aantallen bestaande labels worden bijgewerkt (wat de noodzaak van automatisering nog eens benadrukt) en moeten er nieuwe typen labels worden toegevoegd. Dit vraagt om een systeem dat zich zonder langdurig proces kan aanpassen aan dergelijke veranderende omstandigheden. Op regels gebaseerde systemen vereisen dat experts de regelsets ontwerpen en beheren, wat een tijdrovende taak kan zijn, vooral als het gaat om het ontwerpen van regels voor nieuwe labels. Hoewel machine learning oplossingen zelfstandig kunnen leren, hebben ze een trainingsset nodig, en het kan een uitdaging zijn om deze te verkrijgen. Nieuwe implementaties moeten hier rekening mee houden door de handmatige annotatie van labels te vergemakkelijken en door gebruik te maken van recente ontwikkelingen, zoals 'few-shot learning' en actief leren.
- Complexiteit: typische voorbeelden van labels die aan documenten worden toegekend zijn ‘CV’ of ‘contract’. Het is waardevol om specifiekere en meer beschrijvende labels te gebruiken, zoals ‘huurovereenkomst’ in plaats van ‘contract’. Dit maakt specifiekere zoekopdrachten en nauwkeurigere classificaties mogelijk. Onderscheid maken tussen verschillende soorten contracten is echter duidelijk een veel moeilijkere taak dan simpelweg bepalen dat een document een soort contract is. Het model heeft daarom complexere regelsets of specifiekere datasets nodig om op te trainen.
- Resolutie: hoewel de meeste tools labels aan documenten kunnen toekennen, zijn er maar een paar die op individuele woorden of zinnen kunnen identificeren en labelen. Dit kan een aanzienlijke toegevoegde waarde hebben, omdat gebruikers van meer details worden voorzien en ze de mogelijkheid wordt geboden om documenten op te zoeken en te beheren. Het maakt het ook mogelijk om bepaalde informatie te extraheren of te redigeren, zoals gevoelige PII, met de toegevoegde mogelijkheid tot automatisering.
- Uitlegbaarheid: op regels gebaseerde systemen maken het relatief eenvoudig om een duidelijke uitleg te geven waarom een bepaald label is toegekend, bijvoorbeeld door de exacte woorden in het bestand te markeren die zijn gebruikt om dat label af te leiden. Voor systemen die gebaseerd zijn op machine learning is het echter veel moeilijker om dergelijke uitleg te geven. Leren van hoogdimensionale patronen is krachtig, maar het maakt het voor een mens ook moeilijk om te begrijpen waarom een beslissing is genomen. Explainable AI (XAI) technieken zoals SHAP-waarden kunnen helpen inzicht te verschaffen en de menselijke controle te herstellen. Ze stellen de menselijke controleur ook in staat om het systeem feedback te geven (bijvoorbeeld door een onjuist toegekend label aan te geven) waarvan het kan leren om zich in de loop van de tijd te verbeteren.
We moedigen leveranciers aan om hun oplossing te beoordelen op nauwkeurigheid, flexibiliteit, complexiteit, resolutie en uitlegbaarheid. Deze aspecten zijn essentieel om hun bestaande en potentiële klanten meer transparantie te bieden over wat hun product wel en niet kan doen. We moedigen hen aan om hun producten op elk van deze aspecten te verbeteren en na te denken over de mogelijkheid om state-of-the-art machine learning aan hun oplossing toe te voegen.
Wat we hebben geleerd
Voor de meeste organisaties die beginnen met het labelen van gegevens zijn er veel goede tools op de markt die een enorme toegevoegde waarde hebben. En ook voor volwassenere organisaties valt er nog veel winst te behalen. Marktoplossingen missen nauwkeurigheid, flexibiliteit, resolutie, uitlegbaarheid en het vermogen om met complexiteit om te gaan. Geavanceerde technieken met Natural Language Processing (NLP) kunnen een oplossing bieden voor het overbruggen van de kloof tussen gebruikersbehoeften en innovatie, waardoor de modellen inzichtelijker worden.
Wij nodigen leveranciers van label-oplossingen, specialisten in informatiebeveiliging en ontwikkelaars van machine learning uit om samen met ons te bespreken hoe toekomstige ontwikkelingen op deze gebieden kunnen worden afgestemd op de gebruikersbehoeften in de financiële sector. Herken je onze uitdagingen en mogelijkheden? Ervaar je andere behoeften en uitdagingen of zie je andere mogelijkheden? We horen graag wat jullie ervan vinden en wisselen graag ideeën uit!
Als je wilt deelnemen aan onze discussie, neem dan contact op met de projectleider, Rick van der Kleij: Rick.vanderkleij@tno.nl.
Authors: Steven Vethman (TNO), Maaike de Boer (TNO), Wouter Langenkamp (TNO), Sjoerd van Leersum (Achmea), Noor Spanjaard (ABN AMRO), Michaël Stekkinger (Achmea), Olaf Streutker (ABN AMRO), Willem van der Valk (Achmea), Ron Werther (de Volksbank), Rick van der Kleij (TNO).
Deel deze pagina