Les algorithmes de classification des animaux et les agents de jeu dominent le cycle de battage médiatique de l’IA, mais les algorithmes ne sont qu’une partie de l’ensemble de l’écosystème des produits de données. Dans la plupart des environnements professionnels, les modèles peuvent en fait représenter le moins d’impact. Un vaste écosystème de soutien doit être en place pour que les données circulent dans les veines de votre organisation:

  1. Les événements et transactions bruts doivent être collectés, stockés et servis
  2. Les données doivent être traitées, découvertes et partagées avec les équipes concernées.
  3. Les modèles doivent être construits, déployés et surveillés en production.

Et toutes ces entreprises doivent produire des résultats concrets. Comment une organisation devrait-elle établir des priorités parmi des milliers de directions potentielles?

Chez Insight, où nous avons aidé des milliers de boursiers à accéder à divers rôles dans l’industrie des données, nous constatons une augmentation de la demande de chefs de produits capables de relever ces défis de hiérarchisation et de coordination entre les équipes de données. Cet article vise à expliquer à quoi ressemble la gestion des produits dans l’espace de données et pourquoi elle est importante.

Pourquoi la Gestion des produits de données ?

Dans les petites équipes de données sans SGP formel, les responsabilités standard des produits telles que l’évaluation des opportunités, la cartographie routière et la gestion des parties prenantes sont probablement assumées par les responsables techniques et les contributeurs individuels (CI). Cela ne s’adapte pas bien pour de nombreuses raisons, les quatre principales étant:

  1. Le travail du produit finit par comptabiliser tout le temps du CI.
  2. Tous les circuits intégrés ne sont pas bien équipés ou disposés à gérer le travail du produit à grande échelle.
  3. Les écarts entre les unités opérationnelles et les équipes techniques se creusent.
  4. Les écarts entre les équipes techniques individuelles se creusent.

À ce point d’inflexion, il y a deux réponses potentielles. La première approche consiste à décomposer le travail en projets suffisamment autonomes pour qu’un seul CI ou une petite équipe technique puisse gérer de bout en bout, ce qui réduit le besoin de certains types de coordonnateurs centraux.

La deuxième approche consiste à créer une organisation formelle de gestion des produits chargée de maintenir des feuilles de route sur la source de vérité et de coordonner les différentes équipes et les CI à exécuter. Ceci est particulièrement courant pour les produits hautement transversaux tels que le commerce électronique et les services à la demande.

S’il est possible pour un seul circuit intégré d’apporter des ajustements à un produit, d’obtenir immédiatement des commentaires objectifs sur ses performances et de revenir en arrière dans les pires scénarios sans ramifications majeures, la première approche est extrêmement puissante. Bien que cela puisse fonctionner pour un produit de réseau social gratuit, c’est potentiellement catastrophique pour un produit payant et lourd en exploitation comme les services à la demande. La plupart des entreprises à grande échelle optent finalement pour la deuxième approche consistant à avoir une organisation de produits.

L’état des rôles de gestion des produits de données

Au début de la révolution des données, les compétences en données orthogonales telles que le génie logiciel, les statistiques et la modélisation ont été regroupées sous le même parapluie que la science des données. Ces compétences sont rapidement formalisées dans des rôles distincts, tels que les ingénieurs de données, les scientifiques de données, les chercheurs et les ingénieurs en ML.

Au sein de la gestion des produits, une tendance similaire se dessine. À l’instar de leurs homologues techniques, nous voyons le vaste ensemble de PMS de données se diviser en sous-domaines: infrastructure, analyse, ML/IA appliquée, découverte et normalisation, et plate-forme. Ce ne sont pas nécessairement des titres de données formelles pour le moment même. Ils reflètent plutôt des domaines relativement distincts du travail sur les produits de données.

Bien que chaque cas d’utilisation des données nécessite un type de compréhension technique et de domaine légèrement différent, que nous abordons ci-dessous, il est important de souligner que les compétences en gestion de produits généralistes restent les moteurs les plus importants du succès. 90% de ce qu’un gestionnaire de données fait au quotidien sera toujours la priorisation, les communications, la gestion des parties prenantes, la conception et les spécifications.

Infrastructure

À grande échelle, les équipes de produits auront différents cas d’utilisation et besoins en données. La tendance naturelle de ces équipes est de construire leurs propres infrastructures de données afin de démarrer rapidement. Cette tendance entraîne des travaux en double, des silos de données et, finalement, les équipes rencontreront des problèmes d’évolutivité des données similaires.

Le livrable ultime pour une infrastructure PM est une infrastructure de données commune qui collecte, stocke et traite les données pertinentes de manière performante pour permettre des cas d’utilisation réduits. Cette infrastructure commune aide les équipes à se concentrer sur l’utilisation plutôt que sur la collecte et le stockage des données brutes.

Les principaux indicateurs clés de performance des PMS d’infrastructure sont la disponibilité, l’évolutivité et la fiabilité des données. Ils connaissent bien les technologies d’ingénierie des données telles que l’ingestion de données, le traitement par lots et en temps réel, le système de fichiers et la livraison.

Analyses

Les décisions sur le lieu de travail moderne sont de plus en plus éclairées par les données. L’analytique doit prendre en charge un large éventail de décisions, de la stratégie au produit et aux opérations, à la fois hors ligne et en temps réel. Alors que les PMS d’infrastructure garantissent que les requêtes peuvent être exécutées efficacement sur des ensembles de données massifs (le comment), les PMS d’analyse se concentrent sur la façon de transformer ces données brutes en informations exploitables pour les décideurs tels que les exécutifs, les PMS et l’équipe ops. Dans d’autres cas, les PMS analytiques participent également activement à la définition d’indicateurs de performance clés et à l’exploration de données pour aider à recommander des décisions commerciales.

Dans le contexte de la création de produits, un gestionnaire de gestion analytique est chargé de créer un mélange d’analyses en libre-service, de tableaux de bord personnalisés et d’outils de reporting pour aider à faire apparaître et à partager des informations au sein d’une organisation. Leurs parties prenantes sont diverses, des scientifiques avertis des données aux consommateurs en lecture seule comme les cadres.

Les KPI qu’ils examinent sont probablement le nombre de requêtes exécutées, les rapports générés, etc. ce qui indique la facilité pour les utilisateurs de données d’extraire les informations dont ils ont besoin à partir de données brutes.

ML/ AI appliqué

Certains produits et fonctionnalités tels que la recherche, la recommandation, la détection de fraude, etc. se prêtent naturellement aux solutions ML/AI. Les PMS ML appliqués réfléchissent à la façon dont les données peuvent être exploitées pour améliorer un produit existant (par exemple, analyser les journaux de discussion pour automatiser le routage du service client) ou comment concevoir une expérience entièrement nouvelle à l’aide d’une IA avancée (par exemple, des filtres pour les applications de partage de photos). En fin de compte, ils travaillent tous sur l’amélioration directe des métriques clés pour une fonctionnalité orientée utilisateur.

Les PM travaillant sur ces fonctionnalités, bien que pas toujours intitulées Data PM, ont généralement une bonne compréhension du flux de travail de la science des données et des modèles d’apprentissage automatique sous-jacents. Ils ont une forte intuition de tirer parti de la puissance du ML tout en concevant autour de ses limites pour offrir une expérience utilisateur supérieure par rapport aux approches basées sur des règles.

Plates-formes

À mesure qu’une entreprise grandit en taille, le besoin de cadres standardisés devient plus évident, en particulier dans l’expérimentation et l’apprentissage automatique. Les cas d’utilisation de ces deux flux de travail sont souvent très étroitement intégrés à la nature du produit lui-même, de sorte que peu de solutions open source peuvent vraiment répondre aux besoins de chacun.

Pour cette raison, les équipes de données individuelles des grandes entreprises ont commencé avec leurs propres systèmes uniques, ce qui a entraîné un travail en double et un délai de mise sur le marché plus lent. Les goûts de Google, Facebook et Uber se sont ainsi lancés dans la plate-forme: des cadres communs pour aider à réduire les efforts consacrés aux tâches courantes telles que l’outillage, le déploiement et la surveillance.

Ces plates-formes visent à éliminer la nécessité de gérer les données, de déployer et de surveiller les résultats, libérant ainsi les équipes de données de se concentrer plutôt sur l’itération des modèles et des expérimentations elles-mêmes. Ils favorisent également la réutilisabilité en rendant les données et fonctionnalités communes accessibles à tous les utilisateurs de la plateforme.

Les PMS de la plate-forme commencent par démontrer comment la plate-forme pourrait être utile et convaincre les premiers utilisateurs de l’essayer. Une fois que la plate-forme a atteint le point d’inflexion, le rôle se déplace vers l’identification de dénominateurs communs à haut retour sur investissement à intégrer à la plate-forme. Ils examinent les KPI tels que les modèles ou les expérimentations exécutés sur la plate-forme, le délai moyen de mise sur le marché, etc.

Normalisation et découverte

La normalisation et la découverte est un autre problème avec les équipes de données en croissance. Au fur et à mesure qu’une entreprise se développe, la quantité de données créées par les équipes et les personnes augmente également de manière exponentielle. Cette sortie rapide de données crée un problème où il n’y a pas de place centrale pour voir toutes les données qui existent dans une organisation.

Sans structure pour documenter, centraliser et afficher les métadonnées, la connaissance institutionnelle des sources de données est limitée aux propriétaires de données. Il devient difficile de savoir ce que les données signifient réellement, d’où elles proviennent, à quel point elles sont fiables, etc. De plus, toute connaissance de ces aspects des sources de données disparaît lorsque les employés les plus familiers avec ces données quittent l’équipe. Un autre problème courant est que les équipes qui utilisent les mêmes données définissent souvent différemment des métriques similaires. Par exemple, une équipe peut définir les 7 derniers jours comme les 7 derniers jours complets alors qu’une autre équipe peut les définir comme les 168 dernières heures.

Un PM de normalisation et de découverte des données est chargé de veiller à ce que l’ensemble de l’organisation prenne connaissance des données existantes et les utilise de manière cohérente. Une manifestation courante de cet effort est un catalogue de données ou un portail de données qui facilite la découverte et la définition de données / tableaux de bord / métriques ainsi que l’identification des propriétaires de données qui peuvent être contactés pour d’autres conversations. Une version plus avancée d’un dataportal rend également les métriques calculées facilement accessibles et intégrées dans différents cas d’utilisation (modélisation, analyse).

Derniers mots

Le paysage de la gestion des produits de données évolue encore et il ne s’agit en aucun cas d’un aperçu exhaustif des rôles des produits de données disponibles dans l’industrie. Selon le stade et la structure organisationnelle d’une entreprise, le rôle de gestion des données peut être un mélange de ces différentes responsabilités. L’analyse peut faire partie de l’infrastructure, et la normalisation et la découverte peuvent faire partie de la plate-forme. En tant que PM ML appliqué, vous pourriez vous retrouver à céder des ressources pour créer l’infrastructure et les environnements de déploiement nécessaires à la production de votre modèle.

En fin de compte, ces rôles se résument à la création d’une expérience utilisateur précieuse basée sur les données et à la suppression de tous les obstacles empêchant une équipe de fournir cette valeur.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.

lg