

Data science

Utilizzate la Data Science per rivelare il potenziale dei vostri dati
Il nostro team di Data Scientists accompagna le aziende sia a livello dei loro progetti strategici legati ai Dati, sia in modo più operativo come Data Lab esterno al servizio delle problematiche aziendali, per generare tramite i Dati una POC, un modello o uno strumento.
Le sfide legate alla Data Science
La Data Science copre diverse discipline e ha come obiettivo, a partire da un set di dati, far emergere tendenze, modelli, connessioni e correlazioni, stime o anche previsioni.
Le enormi possibilità offerte dalla Data Science non devono far dimenticare le sfide ad essa associate. Tra queste sfide, troviamo in particolare:
Per supportare questi obiettivi ambiziosi, la Data Science ha bisogno di dati di qualità accessibili e, soprattutto, di interfacciarsi a monte con i detentori dei dati e a valle con gli utenti delle conclusioni che saranno estrapolate. Valorizzare i dati per le aziende richiede quindi trasformazioni verso una strategia basata sui dati che permetta di sfruttare al meglio il lavoro dei Data Scientists.
Questa scienza dei dati consiste nell’esplorare e sfruttare i giacimenti di dati. Per implementarla, oltre alla necessaria interfaccia con i detentori dei dati e il business, ogni Data Scientist si trova di fronte a diverse sfide, la prima delle quali è far comprendere cos’è la Data Science e quali sono i suoi limiti.
Quali opportunità la Data Science può generare per la mia attività? Come valorizzare meglio questa attività nella mia azienda?
Questa fase cruciale di ogni processo di Data Science condiziona il successo dell’analisi sia a livello tecnico che interpretativo. Può essere necessario fare delle scelte per aumentare il rapporto segnale/rumore, il che potrebbe portare ad eliminare parte del segnale. In particolare, nel campo della Data Science focalizzato sull’analisi dei dati testuali, il Natural Language Processing (NLP), potrebbe essere necessario un lavoro di pulizia particolarmente significativo dei dati, in base alla fonte utilizzata. La raccolta di informazioni dai social media, ad esempio, richiede un notevole sforzo se si vuole riuscire a rilevare e interpretare parole mal scritte o abbreviazioni.
Quali dati sono abbastanza ricchi affinché la loro analisi apporti valore? Come estrarre valore da basi di dati interne o esterne che possediamo?
La qualità e la rappresentatività dei dati di ingresso sono fondamentali per poter trarre conclusioni pertinenti. In particolare, dati mal bilanciati o “imbalanced” possono distorcere l’apprendimento. Se ad esempio si cerca di allenare un algoritmo per classificare immagini di gatti e cani sulla base di 1000 immagini di gatti e 100 di cani, la maggiore frequenza di gatti risulterà nella classificazione di nuove immagini. Questo squilibrio può essere facilmente identificato se riguarda l’obiettivo principale di rilevamento, ma molto meno se si tratta di un elemento tra altri, ad esempio una sovrarappresentazione di gattini tra le immagini. Le basi di dati storiche possono essere distorte, come nel caso delle basi di dati degli studi clinici in cui gli uomini caucasici sono sovrarappresentati rispetto al rapporto con la popolazione generale. È necessario individuare questi pregiudizi e correggerli riducendo la dimensione del campione sovrarappresentato (undersampling) o aumentando artificialmente quella del campione sotto-rappresentato (oversampling).
Come ad esempio migliorare il targeting dei centri clinici per raggiungere una buona rappresentatività della popolazione inclusa?
Nella creazione di modelli di machine learning, un altro problema tecnico è legato al rischio di sovra-adattare il modello al set di dati esistente, un fenomeno noto come overfitting. Infatti, la qualità del modello viene testata attraverso diversi indicatori che misurano l’affidabilità delle previsioni, come la precisione (tasso di rilevamento corretto), la sensibilità (capacità di rilevare correttamente i “veri positivi”) e la specificità (capacità di rilevare correttamente i “falsi positivi”). Cercare di massimizzare questi indicatori può portare a includere un numero elevato di variabili nell’analisi o a utilizzare modelli sempre più complessi. È importante mantenere un campione separato dal set di dati, non per allenare il modello, ma per testarlo. Poiché i dati di addestramento sono spesso più omogenei rispetto ai dati reali, è altresì importante limitare la complessità del modello di machine learning scelto al minimo necessario. Combinare i risultati di più modelli è anche una tecnica utile per limitare i bias intrinseci a ciascun modello.
Come adattare un modello di previsione per anticipare scenari con eventi che non si sono mai verificati in passato?
Infine, l’interpretabilità dei risultati dei modelli è una questione cruciale. Alcuni dei modelli di machine learning più potenti, come i modelli di Deep Learning, non consentono di risalire ai parametri che hanno permesso alla macchina di fare, ad esempio, una determinata classificazione. A volte, può essere preferibile avere una precisione inferiore del modello, ma poterlo spiegare. Ad esempio, se si desidera creare una segmentazione dei clienti, è interessante sapere quali parametri definiscono i segmenti per poi poter creare interazioni e contenuti mirati. Infine, è necessario adottare una rigorosità nell’interpretazione dei dati, che deve essere trasmessa ai destinatari dei risultati. In particolare, è spesso allettante interpretare la correlazione tra due variabili come un legame di causalità tra l’una e l’altra, conclusione che dovrebbe spesso essere supportata dalla conoscenza del settore o da studi specifici oltre alle analisi già condotte.
Come rendere i risultati delle analisi di Data Science utilizzabili e comprensibili per una diffusione interna?
Come vi aiutiamo nei vostri progetti di Data Science
Da oltre 25 anni, Alcimed supporta i propri clienti nei loro progetti di innovazione e nello sviluppo di nuovi mercati.
Forti di questa esperienza nel settore e di competenze in Data science con un team dedicato, Alcimed si posiziona come un Data Lab esterno, al servizio delle vostre problematiche aziendali, con l’obiettivo di generare una POC, un modello o uno strumento attraverso progetti Data. Questo approccio può costituire sia un elemento di un progetto, come uno studio di mercato, che una missione a sé stante.
I dati utilizzati possono essere i vostri dati interni, dati esterni in OpenData, dati privati o ottenuti tramite Web scraping. Possono trattarsi di dati numerici, di testo, di immagini, ecc. Infine, utilizziamo tutta la gamma di strumenti dei nostri Data Scientist per portare a termine questi progetti.
Oltre a queste realizzazioni concrete, il nostro contributo può anche inserirsi in un quadro strategico più ampio: implementazione di una strategia e di una cultura Data driven, creazione di un processo di innovazione guidato dalla data, ecc.
Dicono di noi
Esempi di recenti progetti realizzati per i nostri clienti nel campo della data science
Avete un progetto?
Per saperne di più
Fondata nel 1993, Alcimed è una società di consulenza per l’innovazione e lo sviluppo di nuovi mercati specializzata in settori innovativi: scienze della vita (salute, biotecnologie, agroalimentare), energia, ambiente, mobilità, chimica, materiali, cosmetica, aeronautica, spazio e difesa. La nostra missione? Aiutare i decisori del settore pubblico e privato a esplorare e sviluppare il territorio inesplorato: nuove tecnologie, nuove offerte, nuove sfide geografiche, futuri possibili e nuovi modi di innovare. Distribuito in 8 uffici in tutto il mondo (Francia, Europa, Singapore e Stati Uniti), il nostro team è composto da 220 esploratori di alto livello, multiculturali e appassionati, con una doppia cultura scientifica/tecnologica e commerciale. Il nostro sogno? Essere un team di 1.000 persone, per continuare a plasmare, insieme ai nostri clienti, il mondo di domani.
La Data Science è un campo abbastanza vasto che ha l’obiettivo di dare senso a dati grezzi. A tal fine, la Data Science utilizza una vasta gamma di strumenti e tecniche, come lo sviluppo di algoritmi, la matematica applicata e le statistiche avanzate, fino all’intelligenza artificiale, per creare diversi tipi di modelli. Questi modelli possono essere deterministici o apprendere autonomamente grazie al machine learning, che consente di fare analisi e previsioni dei dati in modo supervisionato o non supervisionato.
La Data Science è un campo specifico nel mondo dei dati, e il Data Scientist si distingue dai profili di Data Analyst, Data Engineer, ecc. Un processo di Data Science richiede che i dati siano accessibili, il che può essere attuato nelle grandi organizzazioni da Data Architects o Data Engineers, che strutturano i sistemi e le basi di dati. Rendere questi dati accessibili è spesso il primo passo fondamentale in un progetto di Data Science.
Si trovano diversi obiettivi a seconda degli approcci della Data Science:
L’analisi delle relazioni tra le diverse variabili, la ricerca di schemi ricorrenti e di anomalie statistiche, consente di trovare associazioni e correlazioni, identificando quelle più forti, ma anche di raggruppare e segmentare i dati per, ad esempio, identificare sotto-popolazioni in gruppi di studio o creare dei persona basati sui comportamenti dei clienti. La regressione e la classificazione permettono di fare previsioni nel tempo o stimare oltre i dati disponibili il valore di una variabile, come il numero di ospedalizzazioni legate a una patologia, l’appartenenza di un nuovo punto dati a una categoria, ad esempio la previsione dell’accettazione di un vaccino in base al profilo del paziente o la probabilità di una determinata diagnosi basata su dati medici e radiologici.
La differenza principale tra il lavoro dei Data Analysts e dei Data Scientists risiede principalmente nell’uso del “Big Data” e nella realizzazione di modelli complessi per condurre le analisi. Questa differenza può essere riassunta in 5 grandi concetti “V”:
- Volume e Velocità, i dati sono ottenuti in grande quantità e accumulati dall’azienda a una velocità tale che non possono essere sfruttati. Ad esempio, numerosi indicatori di performance raccolti durante una campagna di marketing vengono riportati in modelli che dovrebbero permettere agli esperti di trarne conclusioni. Tuttavia, senza l’aiuto della Data Science, questi dati sono troppo diffusi e grezzi per trarre insegnamenti sull’azione successiva da intraprendere.
- Varietà, a differenza degli analisti di business che spesso possono utilizzare report annuali prodotti da agenzie e ricerche di mercato, i dati da sfruttare sono talvolta molto eterogenei, sotto forma di dati strutturati o grezzi.
- Veridicità dei dati, che sarà legata alla rigorosità e agli automatismi del Data Scientist nella verifica della qualità dei dati e alla sua conoscenza del settore che gli permetterà di garantirne la credibilità, evitando di introdurre bias interpretativi.
- Valore, che permette di ottenere nuove intuizioni per orientare le decisioni scientifiche, tecniche, mediche o aziendali.
La data science consente di raccogliere insegnamenti quantitativi, come tendenze, previsioni, ecc., incrociando e analizzando set di dati grezzi.
Questi insegnamenti vengono poi utilizzati:
- per fornire una prospettiva aggiuntiva nella presa di decisioni strategiche,
- nell’identificazione di nuove opportunità,
- nella creazione di modelli predittivi,
- nei processi di miglioramento interno.