Data Science
Utilisez la Data Science pour révéler le potentiel de vos données
Notre équipe de Data Scientists accompagne les entreprises à la fois au niveau de leurs projets stratégiques autour de la Data mais également plus opérationnellement en tant que Data Lab externe au service des problématiques métiers, pour générer via la Data une POC, un modèle ou un outil.
Ils nous font confiance
Les enjeux liés à la data science
La Data science couvre plusieurs disciplines et a pour objectif, à partir d’un set de données, de faire émerger des tendances, des motifs, des connexions et des corrélations, des estimations ou encore des prédictions.
Les possibilités immenses offertes par la Data science ne doivent pas faire oublier les enjeux qui y sont associés. Parmi ces enjeux, on retrouve notamment :
Pour aider à ces objectifs ambitieux, la Data science a besoin de données de qualité accessibles et surtout de s’interfacer en amont avec les détenteurs de la Data et en aval avec les utilisateurs des conclusions qui auront été tirées. Valoriser les données pour les entreprises requiert donc des transformations vers une stratégie data-driven qui permettent d’exploiter au mieux le travail des Data Scientists.
Cette science de la donnée consiste à explorer et exploiter les gisements de données. Pour la mettre en œuvre, au-delà du nécessaire interfaçage avec les détenteurs de la donnée et le business, chaque Data Scientist est confronté à plusieurs enjeux, dont le premier est de faire comprendre ce qu’est la Data science et ses limites.
Quelles opportunités la Data science peut-elle générer pour mon activité ? Comment mieux valoriser cette activité dans mon entreprise ?
Cette étape cruciale de tout processus de Data science conditionne la réussite de l’analyse au niveau technique mais aussi sa valeur au niveau interprétatif. Elle peut nécessiter de faire des choix afin d’augmenter le ratio signal sur bruit qui peut conduire à éliminer une partie du signal. En particulier, le domaine de la Data science focalisé sur l’analyse de données textuelles, le Natural Langage Processing, ou NLP, peut nécessiter un nettoyage particulièrement important des données en fonction de la source utilisée. La récolte d’informations sur les réseaux sociaux par exemple requiert un travail important si l’on veut réussir à détecter et à interpréter des mots mal orthographiés ou des abréviations.
Quelles données sont suffisamment riches pour que leur analyse apporte de la valeur ? Comment tirer de la valeur de bases de données internes ou externes que l’on possède ?
La qualité et la représentativité des données d’entrée est clé pour pouvoir tirer des conclusions pertinentes. En particulier, des données mal équilibrées ou « imbalanced », peuvent biaiser l’apprentissage. Si on cherche à entraîner un algorithme à classifier des images de chats et de chiens sur la base de 1000 images de chats et 100 de chiens, la notion d’une plus grande fréquence d’occurrence de chats va ressortir dans la classification des nouvelles images. Ce déséquilibre peut être facile à identifier s’il concerne l’objectif principal de détection mais beaucoup moins s’il s’agit d’un élément parmi d’autres, par exemple une surreprésentation de chatons parmi les images. Les bases de données historiques peuvent être biaisées, comme par exemple les bases de données d’essais cliniques dans lesquels les hommes caucasiens sont surreprésentés par rapport au ratio de la population générale. Il s’agit de repérer ces biais et de les corriger en diminuant la taille de l’échantillon sur-représenté (undersampling) ou en augmentant artificiellement celle de l’échantillon sous-représenté (oversampling).
Comment par exemple mieux cibler les centres cliniques pour atteindre une bonne représentativité de la population incluse ?
Dans la mise en place de modèles de machine learning, un autre enjeu technique est lié au fait de ne pas suradapter le modèle au jeu de données existant, qu’on appelle le phénomène d’overfitting. En effet, la qualité du modèle est testée par différents indicateurs qui rendent compte de la fiabilité de la prédiction telle que la précision (taux de détection correcte), la sensibilité (capacité à bien détecter les « vrais ») et la spécificité (capacité à bien détecter les « faux »). Essayer de maximiser ces indicateurs peut conduire à inclure énormément de variables dans l’analyse ou d’utiliser des modèles toujours plus complexes. Il est important de garder un échantillon de son jeu de données non pas pour entraîner le modèle mais pour le tester. Sachant que les données d’entraînement sont souvent plus homogènes que les données réelles, il est aussi important de limiter la complexité du modèle de machine learning choisi au minimum requis. Assembler les résultats de plusieurs modèles est aussi une technique pour limiter les biais inhérents à chacun des modèles.
Comment adapter un modèle de forecast pour anticiper des scenarios avec des évènements n’ayant jamais eu lieu dans le passé ?
Enfin, l’interprétabilité des résultats des modèles est un enjeu crucial. Certains modèles de machine learning parmi les plus puissants, les modèles de Deep Learning, ne permettent pas de remonter aux paramètres qui ont permis à la machine de proposer par exemple une classification donnée. Il peut parfois être préférable d’avoir une moins bonne précision du modèle mais de pouvoir l’expliquer. Par exemple si l’on veut créer une segmentation client, il est intéressant de savoir quels paramètres définissent les segments pour ensuite pouvoir créer des interactions et contenus adaptés. Enfin, une rigueur dans l’interprétation des données doit s’imposer et doit se transmettre aux destinataires des résultats. En particulier, il est souvent tentant d’interpréter la corrélation entre deux variables comme un lien de causalité de l’une sur l’autre, conclusion qui doit le plus souvent s’appuyer sur la connaissance métier ou des études spécifiques en plus des analyses déjà conduites.
Comment rendre les résultats des analyses Data Science utilisables et compréhensibles pour une diffusion en interne ?
Comment nous vous accompagnons dans vos projets data science
Depuis plus de 25 ans, Alcimed accompagne ses clients dans leurs projets d’innovation et de développement de nouveaux marchés.
Fort de cette expérience métier et de compétences en Data science avec une équipe dédiée, Alcimed se positionne comme un Data Lab externe, au service de vos problématiques métiers, et visant via des projets Data à générer une POC, un modèle ou un outil. Cette démarche peut constituer aussi bien une brique d’un projet comme une étude de marché qu’une mission à part entière.
Les données utilisées peuvent être vos données internes, des données externes en OpenData, privées ou obtenues par Web scraping. Il peut s’agir de données chiffrées, de texte, d’image, etc. Enfin, nous utilisons toute la palette des outils de nos Data Scientists pour mener ces projets à bien.
Au-delà de ces réalisations concrètes, notre contribution peut également s’inscrire dans un cadre stratégique plus large : mise en place d’une stratégie et d’une culture Data driven, création d’un processus innovation drivé par la data, etc.
Ils témoignent
« Il y a trois points que j'ai particulièrement appréciés, en travaillant avec vos consultants : la pertinence des équipes, la structuration des données et l'engagement des équipes. Alcimed ne lâche rien ! »
Philippe Caillat
Directeur Marketing
« Ensemble, Alcimed et Nestlé Health Science, nous avons véritablement pu prendre une décision éclairée sur où se trouvent les meilleures opportunités, et pourquoi et comment sélectionner les actifs ayant le plus de valeur. »
Bernard Cuenoud
Responsable Monde de la Recherche et du Développement Clinique
Exemples de projets récents menés pour nos clients dans le domaine de la data science
Création d’un indice de mesure de l’engagement client pour un industriel pharmaceutique
Alcimed a accompagné un leader de l’industrie pharmaceutique dans la construction d’un indicateur agrégé de la mesure de l’engagement client.
A partir des bases de données internes de son client, l’équipe Alcimed a imaginé une méthode d’agrégation permettant de prendre en compte l’impact de toutes les interactions de l’entreprise avec les professionnels de santé. L’indicateur permet de mesurer l’évolution de l’engagement client au niveau individuel ou par profil client au cours du temps pour mieux mesurer l’impact d’évènements et de campagnes marketing, par exemple.
Détection de signaux faibles dans des requêtes textuelles de professionnels de santé, pour un acteur pharma
Alcimed a accompagné la filiale France d’un acteur pharmaceutique international dans la définition, la conception, et la mise en place d’un outil de visualisation des données recueilles dans sa base de données d’Information Médicale, permettant à l’équipe produit de suivre mensuellement les sujets de préoccupation inhabituels des professionnels de santé.
Notre équipe a mis en place des techniques de NLP et une analyse statistique poussée des requêtes textuelles permettant une détection automatique des thèmes et des mots inhabituellement mentionnés et a accompagné le déploiement de cette démarche dans l’équipe produit et dans les systèmes de notre client.
Prédiction du nombre de permis de construire pour un leader industriel du BTP
Afin de soutenir notre client industriel leader du BTP dans l’anticipation de son volume de business, Alcimed a développé un algorithme de machine learning pour prédire, avant qu’ils ne soient tous officiellement référencés par les administrations locales, le nombre de permis de construire total effectivement déposés dans le mois en cours sur la base de données publiques historiques.
Ce projet a ainsi permis à notre client d’anticiper ses projections de vente et d’adapter nombreuses de ses activités en amont en conséquence.
Identification de la diffusion de thèmes clés dans des réseaux de Digital Opinion Leaders
L’équipe de Data scientists d’Alcimed a mis en place un modèle de machine learning pour mener une analyse non supervisée des thèmes évoqués sur Twitter en lien avec le congrès Américain sur le Diabète, l’ADA2021 ainsi que des communautés d’utilisateurs de Twitter communiquant sur ce thème.
Notre analyse, publiée dans notre Data use case 2, permet de mettre en valeur 2 communautés concernées majoritairement par des thèmes différents avec la visualisation des données en réseau.
Comparaison de l’empreinte de différents acteurs pharmaceutiques dans les organisations professionnelles européennes
Alcimed a travaillé avec un acteur de l’industrie pharmaceutique afin de comprendre leur empreinte parmi les associations professionnelles dans la santé en Europe.
Dans 15 marchés clés de notre client, nous avons agrégé et consolidé les informations disponibles sur des sources publiques (sites web des associations, LinkedIn, communiqués de presse) dans une base de données, identifiant ainsi les principales associations professionnelles, les groupes de travail qui leur sont rattachés, et enfin les membres élus dans ces associations.
Cette exploration a permis à notre client d’avoir une vision claire des associations existantes sur ses marchés clés, de son empreinte ainsi que celle d’autres acteurs en termes de représentation au sein de ces associations, et enfin d’avoir un plan d’actions concernant le renforcement de leur position actuelle dans certaines associations ou l’intérêt d’entrer dans de nouvelles.
Identification de tendances dans le marché des compléments alimentaires pour un acteur de l’agro-alimentaire
Alcimed a accompagné un acteur de l’agro-alimentaire à comprendre les besoins et attentes concernant les ingrédients du point de vue de ses clients et des consommateurs finaux sur le marché des compléments alimentaires.
À partir d’une base de données recensant plus de 1000 lancements de compléments alimentaires sur les 5 dernières années et décrivant les listes d’ingrédients et les formes des produits, nous avons structuré un tableau de bord complet présentant notamment les tendances émergentes sur les nouveaux ingrédients utilisés, leurs combinaisons les plus courantes, et les nouvelles galéniques.
Grâce à ce tableau de bord, notre client dispose d’un support dynamique consolidant l’ensemble des connaissances acquises via les lancements de produits récents, ainsi que les enseignements clés lui permettant de travailler la stratégie d’expansion de son offre d’ingrédients sur le marché des compléments alimentaires.
Vous avez un projet ?
Pour aller plus loin
Santé
Vision par ordinateur en santé : les applications et les défis de cette nouvelle solution d’IA
La vision par ordinateur s’impose en santé, avec une variété de solutions d'IA médicale. Mais comment est-elle utilisée et quels sont les défis à relever ?
Cross-sectoriel
Data use case #1 : Décrypter les données pour repenser le modèle d’engagement clients en dermatologie
Comment une meilleure compréhension de l’évolution de la démographie médicale et de la demande de soin permet d’adapter les modèles d’engagement clients des laboratoires pharmaceutiques ?
Cross-sectoriel
Data Use Case #2 : Décrypter les mécanismes de partage d’informations en ligne dans un domaine thérapeutique
Sur les réseaux sociaux, qui sont les acteurs influents dans une pathologie sur un sous thème donné ? Comment s’organise la communauté en ligne sur ces sujets ? Découvrez comment analyser les ...
Créée en 1993, Alcimed est une société de conseil en innovation et développement de nouveaux marchés spécialisée dans les secteurs innovants : sciences de la vie (santé, biotechnologie, agroalimentaire), énergie, environnement, mobilité, chimie, matériaux, cosmétiques, aéronautique, spatial et défense.
Notre vocation ? Aider les décideurs privés et publics à explorer et développer leurs terres inconnues : les nouvelles technologies, les nouvelles offres, les nouveaux enjeux géographiques, les futurs possibles et les nouvelles manières d’innover.
Répartie dans nos 8 bureaux dans le monde (en France, en Europe, à Singapour et aux Etats-Unis), notre équipe est composée de 220 explorateurs de haut niveau, multiculturels et passionnés, ayant une double culture scientifique/technologique et business.
Notre rêve ? Être 1000, pour dessiner toujours plus avec nos clients le monde de demain.
La Data Science est un domaine assez vaste qui vise à donner du sens à des données brutes. Pour ce faire, la Data Science met en œuvre une large variété d’outils et de techniques telles que le développement d’algorithmes, les mathématiques appliquées et statistiques avancées, jusqu’à l’intelligence artificielle, pour réaliser différents types de modèles. Ces derniers peuvent être déterminés ou bien apprenants, grâce au machine learning, qui permet de façon supervisée ou non supervisée de faire de l’analyse et de la prédiction des données.
La Data science est un domaine spécifique du monde de la data et le Data Scientist se distingue des profils de Data Analyst, de Data Engineer, etc. Un processus de Data Science nécessite d’avoir une donnée accessible, ce qui peut être mis en œuvre dans les grandes organisations par des Data Architects, ou Data Engineers, qui vont structurer les systèmes et les bases de données. Rendre cette donnée accessible est souvent la première étape incontournable d’un projet de Data Science.
On retrouve différents objectifs selon les approches de Data Science :
- L’analyse des liens entre les différentes variables, la recherche de motifs récurrents et d’anomalies statistiques, permet de trouver des associations et corrélations et d’identifier les plus fortes, mais aussi de regrouper et segmenter les données pour, par exemple, identifier des sous-populations dans des groupes d’études ou bien créer des persona de comportements client.
- La régression et la classification permettent de prédire dans le temps ou d’estimer au-delà des données disponibles la valeur d’une variable, tel que le nombre d’hospitalisations liées à une pathologie, l’appartenance d’un nouveau point de données à une catégorie, par exemple la prédiction de l’acceptation d’un vaccin en fonction du profil patient ou la probabilité d’un certain diagnostic basé sur des données médicales et radiologiques.
La différence entre le travail des Data Analysts et des Data Scientists repose principalement pour les seconds sur l’exploitation de « Big Data » et la réalisation de modèle complexes pour mener à bien les analyses. Cette différence se résume par 5 grands concepts en « V » :
- Le Volume et la Vélocité, les données sont obtenues en grand nombre et sont accumulées par l’entreprise à une vitesse telle qu’elles ne peuvent être exploitées. Par exemple, de très nombreux indicateurs de performance, collectés lors d’une campagne marketing, sont reportés dans des templates qui doivent permettre aux experts métier d’en tirer les enseignements. Pourtant, sans l’aide de la Data science, ces données sont trop diffuses et brutes pour en tirer des enseignements sur la prochaine action à entreprendre.
- La Variété, contrairement aux business analysts qui vont souvent pouvoir utiliser des rapports produits annuellement par des agences et des études de marché, les données à exploiter sont parfois très hétérogènes, sous forme de données structurées ou de données brutes.
- La Véracité des données, qui sera liée à la rigueur et aux réflexes du Data Scientist dans la vérification de la qualité des données et à sa connaissance métier qui lui permettra d’en attester la crédibilité et de ne pas introduire de biais d’interprétation.
- La Valeur qui permet d’obtenir des insights nouveaux pour guider les décisions scientifiques, techniques, médicales ou business.
La data science permet de recueillir des enseignements quantitatifs, tels que des tendances, des prédictions, etc., en croisant et en analysant des jeux de données brutes.
Ces enseignements sont ensuite utilisés :
- pour apporter une perspective supplémentaire dans la prise de décisions stratégiques,
- dans l’identification de nouvelles opportunités,
- dans la création de modèles prédictifs,
- dans des processus d’amélioration interne.