Afin de mieux les identifier en amont, une approche d’apprentissage automatique a été développée par Orange.
Khiops : la solution d’apprentissage automatique d’Orange permet d’identifier les SoHos, des petites entreprises informelles en Afrique et au Moyen Orient
Difficile pour un opérateur de proposer aux microentreprises des offres qui leur correspondent. Alors que leurs usages numériques et leurs besoins sont spécifiques voire souvent intensifs, le ciblage d’offres et de services dédiés à ces professionnels sans immatriculation s’avère pourtant justifié.
“Le secteur informel représente pour Orange une zone de croissance prometteuse compte tenu de la forte fibre entrepreneuriale dans les marchés émergents. Ce secteur est surtout représenté par les très petites entreprises qui s’équipent naturellement en offres grand public. Ce projet s’inscrit dans une recherche de formule gagnant-gagnant entre l’opérateur et l’entrepreneur SoHo avec l’offre classique de téléphonie, socle sur lequel viendront se greffer des services comme la sécurité, le cloud, les moyens de paiement etc” indique Ismaïl Rebai Directeur Analytics à la elob.
Pour pallier la difficulté à l’identification de ces informels, une solution d’apprentissage automatique a été développée dans le cadre d’une collaboration entre le projet de recherche “Emerg Data”, le programme “SoHo In Retail Acquisition” (SIRA) et les filiales d’Orange au Moyen-Orient et en Afrique (MEA). Son nom : Khiops.
Identification des SoHos
En termes de marketing, ces petites entreprises appelées aussi SoHos, (Small offices, Home offices), constituent une cible spécifique : il s’agit d’un public peu identifié qui a besoin d’offres ciblées, et bon nombre de clients sont des entrepreneurs individuels/télétravailleurs. Ainsi, l’idée de base de Khiops pour cerner les prospects B2B au sein de la clientèle existante est d’explorer leurs données d’utilisation pour dessiner des profils de comportement. Sur cette base, une campagne active peut être mise en place pour vérifier et exploiter les entreprises potentielles ainsi identifiées.
Méthodologie globale
L’approche de gestion des activités clients pour identifier les prospects B2B se compose de plusieurs étapes, chacune impliquant différents acteurs :
- Tout d’abord, les équipes Business Intelligence (BI) et Information Technology (DSI) des filiales d’Orange doivent collaborer avec l’équipe marketing pour sélectionner les données disponibles pertinentes :
- Sélectionner une population de clients standards (non professionnels) et de professionnels connus au sein de la clientèle
- Recueillir les données d’utilisation
- L’équipe de data science conduit l’analyse pour élaborer un modèle discriminant relatif aux clients professionnels.
- Le modèle peut ensuite être utilisé pour attribuer des scores à l’ensemble de la clientèle, de manière à identifier les clients dont le comportement s’apparente à celui de professionnels.
- L’équipe de data science transfère une interprétation du modèle à l’équipe marketing, avec les clients ayant obtenu des scores élevés (à savoir les clients les plus susceptibles d’être des professionnels)
- L’équipe marketing peut ensuite déterminer si le modèle doit être exploité, puis elle élabore une campagne, avec un script spécifique pour vérifier si le prospect est bien un professionnel et quelle offre devrait lui être proposée.
La réussite du processus repose sur plusieurs aspects : la qualité des données en entrée (pertinence des exemples, disponibilité de données d’utilisation détaillées et disponibilité d’un groupe suffisamment important de SoHos identifiés), la performance de l’algorithme d’apprentissage et enfin la bonne conception du script de campagne. Puis, pour évaluer la réussite du processus dans son ensemble, il convient de mesurer le taux de détections positives (prospects qui sont véritablement des professionnels), le taux d’appels fructueux et enfin la hausse des ventes.
Exploration des données
Concernant la phase d’exploration des données (datamining) de l’identification des prospects B2B au sein de la clientèle, celles-ci englobent à la fois les données de télécommunications et les données de transactions d’Orange Money. Pour rappel, les enregistrements détaillés des appels ou Comptes Rendus d’Appels (CRA), récapitulent l’activité du client en termes d’appels vocaux, de SMS, de sessions de données ainsi que de recharges pour les comptes prépayés. Quant aux données brutes Orange Money, elles se composent des transactions détaillées de tous types (cash-in, cash-out, transactions de pair à pair, paiements aux commerçants, etc.).
“Ainsi, la solution est capable de gérer rapidement divers ensembles de données. Chaque pays peut en effet fournir son propre jeu de données particulier : des données détaillées ou bien des données agrégées de façon mensuelle pour l’utilisation des télécommunications tout comme des services bancaires”, explique Romain Trinquart, directeur du projet de recherche Emerg Data.
Attribution de scores
Pour chaque pays, l’objectif est de produire deux types de résultats. Le premier permet de livrer une mesure des performances et une esquisse des principales variables discriminantes. Le second, après explication des résultats à l’équipe d’exploration des données et/ou de marketing dans le pays, d’attribuer des scores à tous les clients de la base de données.
Enfin, afin de renforcer l’efficacité des campagnes de marketing, les équipes de Recherche d’Orange envisagent d’étendre le déploiement des scores non seulement aux individus déjà présents dans la base clients, mais aussi à ceux apparaissant en tant que contacts, soit dans les CRA, soit dans les transactions de paiement électronique. Dans le cadre de ce programme, les départements marketing MEA et eLob (Enterprise Line of Business) poursuivent leurs efforts pour diffuser cette approche à d’autres pays.
Les 4 points forts de Khiops
- La solution est exempte de paramètres, produisant des résultats de premier plan en termes de performance et de résistance au bruit dans les données
- Elle a la capacité unique de gérer des données détaillées brutes comme les CRA plutôt que des valeurs agrégées
- Elle permet l’interprétation du modèle et sa variation
- Elle gère facilement les ensembles volumineux de données