Zscaler, un leader du Gartner® Magic Quadrant™ 2024 pour le Security Service Edge (SSE)

Découvrez la puissance d’une transformation avec le Zero Trust.

La différence Zscaler

Découvrez le plus grand cloud de sécurité du monde

Témoignages de réussite de nos clients

Reconnaissance des analystes

Machine Learning et IA avec Zscaler

Maîtrisez votre empreinte carbone

Principes de base du Zero Trust

Qu’est-ce que le Zero Trust ?

Qu’est-ce que le Security Service Edge (SSE) ?

Qu'est-ce que Zero Trust Network Access (ZTNA) ?

Qu’est-ce qu’une passerelle Web sécurisée (SWG) ?

Qu’est-ce qu’un Cloud Access Security Broker (CASB) ?

Qu’est-ce que Secure Access Service Edge (SASE) ?

What is Data Security Posture Management (DSPM)?

Ressources concernant Zero Trust

Sécuriser vos utilisateurs

Offrez aux utilisateurs un accès transparent, sécurisé et fiable aux applications et aux données.

Sécuriser vos charges de travail

Créez et exécutez des applications cloud sécurisées, activez la connectivité cloud Zero Trust et protégez les charges de travail du data center au cloud.

Sécuriser votre IoT et OT

Assurez une connectivité Zero Trust pour les dispositifs IoT et OT et un accès à distance sécurisé aux systèmes OT.

Produits

Transformer votre entreprise avec des services 100 % cloud native

Accès sécurisé à Internet (ZIA)

Accès privé sécurisé (ZPA)

Expérience digitale (ZDX)

Protection des données (CASB, DLP)

Domaines des solutions

Dynamiser votre entreprise avec des solutions Zero Trust qui sécurisent et connectent vos ressources

Protection contre les menaces en ligne

Data Protection

Zero Trust Networking

Business Analytics

VPN Alternative

SASE Zero Trust

Intégration accélérée des fusions et acquisitions

Optimiser l’expérience digitale

Zero Trust SD-WAN

Zero Trust Cloud Connectivity

Zero Trust pour l’IoT/OT

Data Security Posture Management (DSPM)

Trouver un produit ou une solution

Intégrations du partenaire Solutions pour l’industrie et le marché

Plateforme Zero Trust Exchange

Découvrez comment Zscaler propose le Zero Trust avec une plateforme cloud native qui constitue le plus grand cloud de sécurité au monde

Votre transformation avec une architecture Zero Trust

Dynamisez votre parcours de transformation

Transformation numérique sécurisée

Transformation d'application

Transformation du réseau

Transformation de la sécurité

Sécurisez vos objectifs commerciaux

Concrétisez vos projets commerciaux et informatiques

Assurer en toute sécurité la continuité de vos activités

Accelerate M&A and Divestitures

Protégez votre entreprise contre la récession

Sécuriser votre personnel hybride

Télécharger Zscaler Client Connector

Apprenez, connectez-vous et obtenez de l’aide.

Découvrez les outils et les ressources qui vous permettront d’accélérer votre transformation et de sécuriser votre monde

Amplifier les voix des pionniers du monde numérique réel et du Zero Trust

Consulter

Restez informé des bonnes pratiques

Bibliothèque de ressources

Blog

Témoignages de réussite de nos clients

Webinars

Zpedia

Trouvez des programmes, des certifications et des événements

Événements à venir

Zenith Live

Académie Zscaler

Les recherches et les informations à portée de main

Analyse de ThreatLabz

Des outils conçus pour vous

Aperçu de sécurité

Sécurité et évaluation des risques

Mises à jour des avis de sécurité

Révéler une vulnérabilité

Executive Insights App

Calculateur de retour sur investissement de la protection contre les ransomwares

Connectez-vous et trouvez de l’aide

Centre de réussite client

Zenith Community

CXO REvolutionaries

Portail d'aide Zscaler

Télécharger Zscaler Client Connector

Voir les solutions pour votre secteur d’activité et votre pays

Centre de ressources

Restez informé des bonnes pratiques

Bibliothèque de ressources

Blog

Témoignages de réussite de nos clients

Webinars

Zpedia

Événements et formations

Trouvez des programmes, des certifications et des événements

Événements à venir

Zenith Live

Académie Zscaler

Recherche et services de sécurité

Les recherches et les informations à portée de main

Analyse de ThreatLabz

Outils

Des outils conçus pour vous

Aperçu de sécurité

Sécurité et évaluation des risques

Mises à jour des avis de sécurité

Révéler une vulnérabilité

Executive Insights App

Calculateur de retour sur investissement de la protection contre les ransomwares

Communauté et assistance

Connectez-vous et trouvez de l’aide

Centre de réussite client

Zenith Community

CXO REvolutionaries

Portail d'aide Zscaler

Télécharger Zscaler Client Connector

Solutions pour l’industrie et le marché

Voir les solutions pour votre secteur d’activité et votre pays

Découvrez comment tout a commencé et les perspectives d’avenir

Partenaires

Rencontrez nos partenaires et consultez les intégrateurs de systèmes et les alliances technologiques

Nouveautés et annonces

Restez informé des dernières nouveautés

Équipe de direction

Découvrez notre équipe de direction

Intégrations du partenaire

Relations avec les investisseurs

Voir les nouveautés, informations boursières et rapports trimestriels

Environnement, social et gouvernance

En savoir plus sur notre approche ESG

Carrières

Rejoindre notre mission

Centre de presse

Trouver tout ce dont vous avez besoin pour aborder Zscaler

Conformité

Comprendre notre adoption de normes rigoureuses

Zenith Ventures

Comprendre notre adoption de normes rigoureuses

Blog Zscaler

Recevez les dernières mises à jour du blog de Zscaler dans votre boîte de réception

Products & Solutions

Data validation on production for unsupervised classification tasks using a golden dataset

EDEN MEYUHAS - Senior Staff Data Science Engineer and Researcher

janvier 05, 2024 - 4 Min de lecture

Protect Data

Contenu

Abstract
Why is it needed?
What about data integrity?
Margin of error
The flow of work for end-to-end data integrity:
Autres blogs

Abstract

Have you ever been working on an unsupervised task and wondered, “How you I validate my algorithm at scale?”

In unsupervised learning, in contrast to supervised learning, our validation set has to be manually created and checked by us, i.e. we will have to go through the classifications ourselves and measure the classification accuracy or some other scores. The problem with manual classification is the time, effort, and work that is required for classifications, but this is the easy part of the problem.

Let’s assume that we developed an algorithm and tested it very well while manually passing on all the classifications, what about future changes to that algorithm? After every change we should check the classifications manually ourselves again. While the data classified might change with time, it might also grow to huge scales with the evolution of our product, and the growth of our customers, then our manual classification problem would of course be much more difficult.

Have you started to worry about your production algorithms already? Well, you shouldn’t!

After reading this, you will be familiar with our proposed method to validate your algorithm score easily, adaptively, and effectively against any change in the data or the model.

So let's start detailing it from the beginning.

Why is it needed?

Algorithm continuous modifications always happen. For example, we are having:

Runtime optimizations
Model improvements
Bug fixes
Version upgrades

How are we dealing with those modifications? We usually use QA tests to make sure the system keeps working. At the same time, the best among us might even develop some regression tests to make sure, for several constant scenarios, that the classifications would not be changed

What about data integrity?

But what about the real classifications on prod? Who verifies their change? We need to make sure that we won’t have any disasters on prod when deploying our new changes in the algorithm.

For that, we have two optional solutions:

Naive solution - pass through all the classifications on prod (which is of course not possible)

Practical solution - use samples of each customer data on prod - using the margin of error equation.

Margin of error

To demonstrate, we are going to take a constant sample from each customer’s data, which would represent the real distribution of the data with minimal deviation, which we will do using the Margin of Error equation, sometimes known from election surveys, where the surveys are sometimes based on some equation derived from the Margin of Error equation.

So, how does it work?

We can use the first equation used for calculating the margin of error, to extract the needed sample size desired.

We would like to have a maximum margin of error of 5%, while we should use a constant value of Z = 1.96 if we want the confidence of 95% (might be changed if we would like to have another confidence level)

The extraction of the required sample size is demonstrated in the following equation:

While this equation is an expansion of the equation above, it might be used when we have the full data size, to be more precise. Otherwise, we’ll be left only with the numerator of that equation - which is also fine if we don’t have the full data size.

This is a code block demonstrating the implementation of this equation in Python:

We can now freeze those samples, which we call a “golden dataset,” and use them as a supervised dataset that will be used by us in the future when making modifications, and serves us as a data integrity validator on real data from prod.

We should mention that because optional changes on prod data might happen with time, we encourage you to update this golden dataset from time to time.