

Data science

Utilizzate la Data Science per rivelare il potenziale dei vostri dati
Il nostro team di Data Scientists accompagna le aziende sia a livello dei loro progetti strategici legati ai Dati, sia in modo più operativo come Data Lab esterno al servizio delle problematiche aziendali, per generare tramite i Dati una POC, un modello o uno strumento.
Si fidano di noi


















Le sfide legate alla Data Science
La Data Science copre diverse discipline e ha come obiettivo, a partire da un set di dati, far emergere tendenze, modelli, connessioni e correlazioni, stime o anche previsioni.
Le enormi possibilità offerte dalla Data Science non devono far dimenticare le sfide ad essa associate. Tra queste sfide, troviamo in particolare:
Per supportare questi obiettivi ambiziosi, la Data Science ha bisogno di dati di qualità accessibili e, soprattutto, di interfacciarsi a monte con i detentori dei dati e a valle con gli utenti delle conclusioni che saranno estrapolate. Valorizzare i dati per le aziende richiede quindi trasformazioni verso una strategia basata sui dati che permetta di sfruttare al meglio il lavoro dei Data Scientists.
Questa scienza dei dati consiste nell’esplorare e sfruttare i giacimenti di dati. Per implementarla, oltre alla necessaria interfaccia con i detentori dei dati e il business, ogni Data Scientist si trova di fronte a diverse sfide, la prima delle quali è far comprendere cos’è la Data Science e quali sono i suoi limiti.
Quali opportunità la Data Science può generare per la mia attività? Come valorizzare meglio questa attività nella mia azienda?
Questa fase cruciale di ogni processo di Data Science condiziona il successo dell’analisi sia a livello tecnico che interpretativo. Può essere necessario fare delle scelte per aumentare il rapporto segnale/rumore, il che potrebbe portare ad eliminare parte del segnale. In particolare, nel campo della Data Science focalizzato sull’analisi dei dati testuali, il Natural Language Processing (NLP), potrebbe essere necessario un lavoro di pulizia particolarmente significativo dei dati, in base alla fonte utilizzata. La raccolta di informazioni dai social media, ad esempio, richiede un notevole sforzo se si vuole riuscire a rilevare e interpretare parole mal scritte o abbreviazioni.
Quali dati sono abbastanza ricchi affinché la loro analisi apporti valore? Come estrarre valore da basi di dati interne o esterne che possediamo?
La qualità e la rappresentatività dei dati di ingresso sono fondamentali per poter trarre conclusioni pertinenti. In particolare, dati mal bilanciati o “imbalanced” possono distorcere l’apprendimento. Se ad esempio si cerca di allenare un algoritmo per classificare immagini di gatti e cani sulla base di 1000 immagini di gatti e 100 di cani, la maggiore frequenza di gatti risulterà nella classificazione di nuove immagini. Questo squilibrio può essere facilmente identificato se riguarda l’obiettivo principale di rilevamento, ma molto meno se si tratta di un elemento tra altri, ad esempio una sovrarappresentazione di gattini tra le immagini. Le basi di dati storiche possono essere distorte, come nel caso delle basi di dati degli studi clinici in cui gli uomini caucasici sono sovrarappresentati rispetto al rapporto con la popolazione generale. È necessario individuare questi pregiudizi e correggerli riducendo la dimensione del campione sovrarappresentato (undersampling) o aumentando artificialmente quella del campione sotto-rappresentato (oversampling).
Come ad esempio migliorare il targeting dei centri clinici per raggiungere una buona rappresentatività della popolazione inclusa?
Nella creazione di modelli di machine learning, un altro problema tecnico è legato al rischio di sovra-adattare il modello al set di dati esistente, un fenomeno noto come overfitting. Infatti, la qualità del modello viene testata attraverso diversi indicatori che misurano l’affidabilità delle previsioni, come la precisione (tasso di rilevamento corretto), la sensibilità (capacità di rilevare correttamente i “veri positivi”) e la specificità (capacità di rilevare correttamente i “falsi positivi”). Cercare di massimizzare questi indicatori può portare a includere un numero elevato di variabili nell’analisi o a utilizzare modelli sempre più complessi. È importante mantenere un campione separato dal set di dati, non per allenare il modello, ma per testarlo. Poiché i dati di addestramento sono spesso più omogenei rispetto ai dati reali, è altresì importante limitare la complessità del modello di machine learning scelto al minimo necessario. Combinare i risultati di più modelli è anche una tecnica utile per limitare i bias intrinseci a ciascun modello.
Come adattare un modello di previsione per anticipare scenari con eventi che non si sono mai verificati in passato?
Infine, l’interpretabilità dei risultati dei modelli è una questione cruciale. Alcuni dei modelli di machine learning più potenti, come i modelli di Deep Learning, non consentono di risalire ai parametri che hanno permesso alla macchina di fare, ad esempio, una determinata classificazione. A volte, può essere preferibile avere una precisione inferiore del modello, ma poterlo spiegare. Ad esempio, se si desidera creare una segmentazione dei clienti, è interessante sapere quali parametri definiscono i segmenti per poi poter creare interazioni e contenuti mirati. Infine, è necessario adottare una rigorosità nell’interpretazione dei dati, che deve essere trasmessa ai destinatari dei risultati. In particolare, è spesso allettante interpretare la correlazione tra due variabili come un legame di causalità tra l’una e l’altra, conclusione che dovrebbe spesso essere supportata dalla conoscenza del settore o da studi specifici oltre alle analisi già condotte.
Come rendere i risultati delle analisi di Data Science utilizzabili e comprensibili per una diffusione interna?
Come vi aiutiamo nei vostri progetti di Data Science
Da oltre 25 anni, Alcimed supporta i propri clienti nei loro progetti di innovazione e nello sviluppo di nuovi mercati.
Forti di questa esperienza nel settore e di competenze in Data science con un team dedicato, Alcimed si posiziona come un Data Lab esterno, al servizio delle vostre problematiche aziendali, con l’obiettivo di generare una POC, un modello o uno strumento attraverso progetti Data. Questo approccio può costituire sia un elemento di un progetto, come uno studio di mercato, che una missione a sé stante.
I dati utilizzati possono essere i vostri dati interni, dati esterni in OpenData, dati privati o ottenuti tramite Web scraping. Possono trattarsi di dati numerici, di testo, di immagini, ecc. Infine, utilizziamo tutta la gamma di strumenti dei nostri Data Scientist per portare a termine questi progetti.
Oltre a queste realizzazioni concrete, il nostro contributo può anche inserirsi in un quadro strategico più ampio: implementazione di una strategia e di una cultura Data driven, creazione di un processo di innovazione guidato dalla data, ecc.
Dicono di noi
« Ci sono tre aspetti che ho particolarmente apprezzato lavorando con i vostri consulenti: la pertinenza e l'impegno di essi, così come la strutturazione dei dati. Alcimed non molla mai! »
Philippe Caillat
Direttore Marketing
"Insieme, Alcimed e Nestlé Health Science, siamo stati davvero in grado di prendere una decisione informata su dove si trovano le migliori opportunità, e perché e come selezionare gli asset di maggior valore."
Bernard Cuenoud
Head of Global Research & Clinical Development
Esempi di recenti progetti realizzati per i nostri clienti nel campo della data science
Creazione di un indice di misurazione dell'engagement del cliente per un'industria farmaceutica
Alcimed ha accompagnato un leader dell’industria farmaceutica nella costruzione di un indicatore aggregato per la misurazione dell’engagement del cliente.
Partendo dalle basi di dati interne del suo cliente, il team di Alcimed ha ideato un metodo di aggregazione che consente di considerare l’impatto di tutte le interazioni dell’azienda con i professionisti sanitari. L’indicatore consente di misurare l’evoluzione dell’engagement del cliente a livello individuale o per profilo cliente nel tempo, per meglio misurare l’impatto di eventi e campagne marketing, ad esempio.
Rilevazione di segnali deboli in richieste testuali da professionisti sanitari, per un attore farmaceutico
Alcimed ha supportato la filiale francese di un attore farmaceutico internazionale nella definizione, progettazione e implementazione di uno strumento di visualizzazione dei dati raccolti nella sua base di dati di Informazioni Mediche, consentendo al team di prodotto di monitorare mensilmente i temi di preoccupazione inusuali sollevati dai professionisti sanitari.
Il nostro team ha implementato tecniche di NLP e un’analisi statistica avanzata delle richieste testuali, consentendo la rilevazione automatica di temi e parole menzionati in modo anomalo e ha supportato il deployment di questo approccio nel team di prodotto e nei sistemi del nostro cliente.
Previsione del numero di permessi di costruzione per un leader dell'industria edile
Per supportare il nostro cliente leader nel settore delle costruzioni nell’anticipare il volume di affari, Alcimed ha sviluppato un algoritmo di machine learning per prevedere, prima che fossero ufficialmente registrati dalle amministrazioni locali, il numero totale di permessi di costruzione effettivamente depositati nel mese in corso sulla base di dati pubblici storici.
Questo progetto ha permesso al nostro cliente di anticipare le sue proiezioni di vendita e di adattare numerose attività precedentemente in base a queste previsioni.
Identificazione della diffusione di temi chiave in reti di Digital Opinion Leaders
Il team di Data Scientist di Alcimed ha implementato un modello di machine learning per eseguire un’analisi non supervisionata dei temi discussi su Twitter in relazione al congresso americano sul diabete, l’ADA2021, e alle comunità di utenti di Twitter che comunicano su questo tema.
La nostra analisi, pubblicata nel nostro Data use case 2, consente di mettere in evidenza due comunità interessate principalmente da temi diversi, con la visualizzazione dei dati in rete.
Confronto dell'impronta di diversi attori farmaceutici nelle organizzazioni professionali europee
Alcimed ha collaborato con un attore dell’industria farmaceutica per comprendere la sua impronta tra le associazioni professionali nel settore della salute in Europa.
In 15 mercati chiave per il nostro cliente, abbiamo aggregato e consolidato le informazioni disponibili su fonti pubbliche (siti web delle associazioni, LinkedIn, comunicati stampa) in una base di dati, identificando le principali associazioni professionali, i gruppi di lavoro a esse associati e, infine, i membri eletti in queste associazioni.
Questa esplorazione ha permesso al nostro cliente di avere una visione chiara delle associazioni esistenti nei suoi mercati chiave, della sua impronta e di quella di altri attori in termini di rappresentanza all’interno di queste associazioni, e di avere un piano d’azione per rafforzare la loro posizione attuale in alcune associazioni o per valutare l’interesse di entrare in nuove.
Identificazione delle tendenze nel mercato degli integratori alimentari per un attore dell'agro-alimentare
Alcimed ha supportato un attore dell’agro-alimentare a comprendere i bisogni e le aspettative riguardo agli ingredienti dal punto di vista dei suoi clienti e dei consumatori finali nel mercato degli integratori alimentari.
Partendo da una base di dati che raccoglie oltre 1000 lanci di integratori alimentari negli ultimi 5 anni, descrivendo le liste di ingredienti e le forme dei prodotti, abbiamo strutturato un cruscotto completo che presenta, tra le altre cose, le tendenze emergenti sugli ingredienti più recenti utilizzati, le combinazioni più comuni e le nuove formulazioni.
Grazie a questo cruscotto, il nostro cliente dispone di uno strumento dinamico che consolida tutte le conoscenze acquisite tramite i lanci di prodotti recenti, nonché le informazioni chiave che gli consentono di lavorare sulla strategia di espansione della sua offerta di ingredienti nel mercato degli integratori alimentari.
Avete un progetto?
Per saperne di più
Fondata nel 1993, Alcimed è una società di consulenza per l’innovazione e lo sviluppo di nuovi mercati specializzata in settori innovativi: scienze della vita (salute, biotecnologie, agroalimentare), energia, ambiente, mobilità, chimica, materiali, cosmetica, aeronautica, spazio e difesa. La nostra missione? Aiutare i decisori del settore pubblico e privato a esplorare e sviluppare il territorio inesplorato: nuove tecnologie, nuove offerte, nuove sfide geografiche, futuri possibili e nuovi modi di innovare. Distribuito in 8 uffici in tutto il mondo (Francia, Europa, Singapore e Stati Uniti), il nostro team è composto da 220 esploratori di alto livello, multiculturali e appassionati, con una doppia cultura scientifica/tecnologica e commerciale. Il nostro sogno? Essere un team di 1.000 persone, per continuare a plasmare, insieme ai nostri clienti, il mondo di domani.
La Data Science è un campo abbastanza vasto che ha l’obiettivo di dare senso a dati grezzi. A tal fine, la Data Science utilizza una vasta gamma di strumenti e tecniche, come lo sviluppo di algoritmi, la matematica applicata e le statistiche avanzate, fino all’intelligenza artificiale, per creare diversi tipi di modelli. Questi modelli possono essere deterministici o apprendere autonomamente grazie al machine learning, che consente di fare analisi e previsioni dei dati in modo supervisionato o non supervisionato.
La Data Science è un campo specifico nel mondo dei dati, e il Data Scientist si distingue dai profili di Data Analyst, Data Engineer, ecc. Un processo di Data Science richiede che i dati siano accessibili, il che può essere attuato nelle grandi organizzazioni da Data Architects o Data Engineers, che strutturano i sistemi e le basi di dati. Rendere questi dati accessibili è spesso il primo passo fondamentale in un progetto di Data Science.
Si trovano diversi obiettivi a seconda degli approcci della Data Science:
L’analisi delle relazioni tra le diverse variabili, la ricerca di schemi ricorrenti e di anomalie statistiche, consente di trovare associazioni e correlazioni, identificando quelle più forti, ma anche di raggruppare e segmentare i dati per, ad esempio, identificare sotto-popolazioni in gruppi di studio o creare dei persona basati sui comportamenti dei clienti. La regressione e la classificazione permettono di fare previsioni nel tempo o stimare oltre i dati disponibili il valore di una variabile, come il numero di ospedalizzazioni legate a una patologia, l’appartenenza di un nuovo punto dati a una categoria, ad esempio la previsione dell’accettazione di un vaccino in base al profilo del paziente o la probabilità di una determinata diagnosi basata su dati medici e radiologici.
La differenza principale tra il lavoro dei Data Analysts e dei Data Scientists risiede principalmente nell’uso del “Big Data” e nella realizzazione di modelli complessi per condurre le analisi. Questa differenza può essere riassunta in 5 grandi concetti “V”:
- Volume e Velocità, i dati sono ottenuti in grande quantità e accumulati dall’azienda a una velocità tale che non possono essere sfruttati. Ad esempio, numerosi indicatori di performance raccolti durante una campagna di marketing vengono riportati in modelli che dovrebbero permettere agli esperti di trarne conclusioni. Tuttavia, senza l’aiuto della Data Science, questi dati sono troppo diffusi e grezzi per trarre insegnamenti sull’azione successiva da intraprendere.
- Varietà, a differenza degli analisti di business che spesso possono utilizzare report annuali prodotti da agenzie e ricerche di mercato, i dati da sfruttare sono talvolta molto eterogenei, sotto forma di dati strutturati o grezzi.
- Veridicità dei dati, che sarà legata alla rigorosità e agli automatismi del Data Scientist nella verifica della qualità dei dati e alla sua conoscenza del settore che gli permetterà di garantirne la credibilità, evitando di introdurre bias interpretativi.
- Valore, che permette di ottenere nuove intuizioni per orientare le decisioni scientifiche, tecniche, mediche o aziendali.
La data science consente di raccogliere insegnamenti quantitativi, come tendenze, previsioni, ecc., incrociando e analizzando set di dati grezzi.
Questi insegnamenti vengono poi utilizzati:
- per fornire una prospettiva aggiuntiva nella presa di decisioni strategiche,
- nell’identificazione di nuove opportunità,
- nella creazione di modelli predittivi,
- nei processi di miglioramento interno.