Machine learning model en pijplijn beschikbaar op aanvraag


Wij hebben software ontwikkeld waarmee een binaire zinsclassificatie kan worden uitgevoerd om persoonlijke identificeerbare informatie (PII) te detecteren.

Het doel van het PCSI-project Automated Data Labelling is om ongestructureerde gegevens te helpen beschermen door gegevens te labelen. Een van de resultaten van het project is een pijplijn. Deze pijplijn is flexibel in het extraheren van kenmerken en het maken van classificaties. We staan Engelse en Nederlandse teksten toe als invoer. De voorgestelde pijplijn biedt vier methoden voor kenmerkextractie: countvectorizer, word2vec, BERT en finetuned BERT. 

De afgeleide kenmerken worden gebruikt om een breed scala aan classifiers te creëren die kunnen worden vergeleken op basis van trainingstijd en testset-prestaties, aangezien de beste methode per dataset / toepassing kan verschillen. Daarnaast wordt er enige uitleg gegeven over het meest informatieve kenmerk. In het project wordt de pijplijn geëvalueerd op twee synthetische datasets die (Engelse) medische en (Nederlandse) aan fraude gerelateerde PII bevatten. 

De software kan op verzoek beschikbaar worden gesteld. Geïnteresseerd? Neem contact met ons op!
Stuur een e-mail naar info@pcsi.nl

Onze 3e Cybertalk-sessie over de trend "Stricter rules and enforcement on information sharing" gaat dieper in op de ontwikkelde oplossing binnen ons PCSI-project Automated Data Labelling. Het kijken waard!

Deel deze pagina

Beeldmerk PCSI
PCSI is een samenwerking van
    ABN-AMRO Achmea ASML Belastingdienst ING TNO