Data Science
Nutzen Sie Data Science, um das Potenzial Ihrer Daten zu erschließen
Unser Team aus Datenwissenschaftlern begleitet Unternehmen sowohl bei strategischen Projekten rund um die Nutzung von Daten als auch operativ als externes Data Lab, um mithilfe von Daten POCs, Modelle oder Werkzeuge zu erstellen, mit denen Geschäftsprobleme bearbeitet werden können.
Sie vertrauen uns
Herausforderungen im Zusammenhang mit der Data Science
Data Science umfasst mehrere Disziplinen und verfolgt das Ziel, auf der Basis von Daten Trends, Muster, Zusammenhänge und Korrelationen, Schätzungen oder auch Vorhersagen usw. herauszuarbeiten.
Die immensen Möglichkeiten, welche die Data Science bietet, dürfen nicht über die damit verbundenen Herausforderungen hinwegtäuschen. Zu diesen Herausforderungen gehören:
Die Verheißungen von Data Science sind groß, insbesondere im Gesundheitswesen und für die Gesundheitsbranche: Entdeckung neuer therapeutischer Möglichkeiten, Beschleunigung und größere Fairness klinischer Studien, personalisierte Medizin und optimierte Patientenbetreuung usw.
Um diese ehrgeizigen Ziele zu erreichen, muss die Data Science auf qualitativ hochwertige Daten zugreifen können und vor allem eine Schnittstelle zu den Eigentümern der Daten und zu den Nutzern der daraus gezogenen Schlüsse bilden. Die Aufwertung von Daten für Unternehmen erfordert daher eine Umstellung auf ein stärker datengesteuertes Modell, um die Arbeit von Data Scientists optimal zu nutzen.
Welche Chancen bieten Data-Science-Services für mein Unternehmen? Sind wir heute so ausgestattet und aufgestellt, dass wir diesen Nutzen schaffen können?
Dieser entscheidende Schritt in jedem datenwissenschaftlichen Prozess entscheidet über den Erfolg der Analyse auf technischer Ebene, aber auch über ihren Wert auf interpretativer Ebene. Es kann erforderlich sein, Entscheidungen zu treffen, um das Signal-Rausch-Verhältnis zu erhöhen. Insbesondere der Bereich der Datenwissenschaft, der sich auf die Analyse von Textdaten konzentriert, Natural Language Processing (NLP), kann je nach verwendeter Quelle eine besonders umfangreiche Datenbereinigung erfordern (Beispiel: Sammeln von Informationen in sozialen Netzwerken, um falsch geschriebene Wörter oder Abkürzungen zu erkennen und zu interpretieren).
Welche Daten sind so reichhaltig, dass ihre Analyse einen Mehrwert bringt? Wie kann man aus den internen oder externen Datenbanken, die wir haben, einen Mehrwert ziehen?
Die Qualität und Repräsentativität der Eingabedaten ist entscheidend, um relevante Schlussfolgerungen ziehen zu können. Insbesondere schlecht ausgewogene oder „unausgewogene“ Daten können das Lernen beeinträchtigen. Wenn wir versuchen, einen Algorithmus zur Klassifizierung von Katzen- und Hundebildern auf der Grundlage von 1000 Katzen- und 100 Hundebildern zu trainieren, wird sich die Tatsache, dass Katzen häufiger vorkommen, auf die Klassifizierung der neuen Bilder auswirken. Dieses Ungleichgewicht ist leicht zu erkennen, wenn es sich um das Hauptziel der Erkennung handelt, aber viel weniger, wenn es ein Element unter anderen ist, z. B. eine Überrepräsentation von Kätzchen unter den Bildern. Historische Datenbanken können verzerrt sein, z. B. Datenbanken für klinische Studien, in denen kaukasische Männer im Vergleich zur allgemeinen Bevölkerung überrepräsentiert sind. Ziel ist es, diese Verzerrungen zu ermitteln und sie zu korrigieren, indem die Größe der überrepräsentierten Stichprobe (Unterstichprobe) verringert oder die der unterrepräsentierten Stichprobe (Überstichprobe) künstlich erhöht wird.
Wie können beispielsweise die klinischen Zentren besser ausgewählt werden, um eine gute Repräsentativität der einbezogenen Population zu erreichen?
Bei der Implementierung von Modellen des maschinellen Lernens besteht ein weiteres technisches Problem darin, das Modell nicht zu sehr an den vorhandenen Datensatz anzupassen, was als Phänomen des „Overfitting“ bezeichnet wird. Die Qualität des Modells wird anhand verschiedener Indikatoren für die Zuverlässigkeit der Vorhersage geprüft, wie z. B. Genauigkeit (korrekte Erkennungsraten), Sensitivität (Fähigkeit, die „wahren“ Fälle zu erkennen) und Spezifität (Fähigkeit, die „falschen“ Fälle zu erkennen).
Der Versuch, diese Indikatoren zu maximieren, kann dazu führen, dass viele Variablen in die Analyse einbezogen oder immer komplexere Modelle verwendet werden. Es ist wichtig, eine Stichprobe Ihres Datensatzes nicht zum Trainieren, sondern zum Testen des Modells zu verwenden. Da die Trainingsdaten oft homogener sind als die realen Daten, ist es auch wichtig, die Komplexität des gewählten Modells für Machine Learning auf das erforderliche Minimum zu beschränken. Die Zusammenstellung der Ergebnisse mehrerer Modelle ist ebenfalls eine Technik zur Begrenzung der in den einzelnen Modellen enthaltenen Verzerrungen.
Wie lässt sich ein Prognosemodell anpassen, um Szenarien mit Ereignissen zu antizipieren, die in der Vergangenheit nie eingetreten sind?
Schließlich ist die Interpretierbarkeit der Modellergebnisse ein entscheidender Punkt. Einige der leistungsfähigsten Modelle des maschinellen Lernens, die Deep-Learning-Modelle, ermöglichen es nicht, auf die Parameter zurückzugreifen, die es der Maschine ermöglicht haben, beispielsweise eine bestimmte Klassifizierung vorzuschlagen. Manchmal kann es besser sein, eine geringere Genauigkeit des Modells zu haben, aber in der Lage zu sein, sie zu erklären. Wenn man zum Beispiel eine Kundensegmentierung erstellen möchte, ist es interessant zu wissen, welche Parameter die Segmente definieren, um dann entsprechende Interaktionen und Inhalte erstellen zu können.
Schließlich muss bei der Interpretation der Datenmengen Strenge walten und sie muss den Empfängern der Ergebnisse vermittelt werden. Insbesondere ist es oft verlockend, die Korrelation zwischen zwei Variablen als kausale Verbindung von einer zur anderen zu interpretieren. Diese Schlussfolgerung sollte in den meisten Fällen durch betriebswirtschaftliche Kenntnissen oder spezifische Studien zusätzlich zu den bereits durchgeführten Analysen bestätigt werden.
Wie kann man die Ergebnisse von Data-Science-Analysen für die interne Verteilung nutzbar und verständlich machen?
Wie wir Sie bei Ihren Data-Science-Projekten begleiten
Seit mehr als 25 Jahren begleitet Alcimed seine Kunden bei ihren Innovations- und Geschäftsentwicklungsprojekten.
Mit dieser langjährigen Erfahrung und Kompetenz im Bereich Data Science Consulting und einem engagierten Team positioniert sich Alcimed als externes Data Lab für Unternehmen, das sich um Ihre geschäftlichen Belange kümmert und mit Hilfe von Data-Projekten einen POC, ein Modell oder ein Tool generieren will. Dieser Beratungsansatz kann ebenso Teil eines Projekts sein wie eine Marktstudie oder ein vollständiger Auftrag.
Dabei können Ihre internen Daten, externe Daten in OpenData, private oder durch Web Scraping gewonnene Daten verwendet werden. Es kann sich um verschlüsselte Daten, Text, Bilder usw. handeln. Schließlich arbeiten wir mit der gesamten Bandbreite der Werkzeuge unserer Data Scientists, um diese Projekte durchzuführen.
Neben diesen konkreten Leistungen und Lösungen können unsere Beratungsdienste auch Teil eines breiteren strategischen Projekts sein: Implementierung einer datengesteuerten Strategie und Kultur in Ihrem Unternehmen, Schaffung eines datengesteuerten Innovationsprozesses usw.
Sie berichten
„Zusammen haben wir also, Alcimed und Nestlé Health Science, eine wirklich fundierte Entscheidung treffen können in Bezug auf die besten Möglichkeiten und die Frage, warum und wie man die Assets mit dem größten Nutzen auswählen könnte.“
Bernard Cuenoud
Global Head of Research and Clinical Development
„Mir haben drei Punkte an der Arbeit mit Ihren Entdeckern besonders gefallen: die passende Zusammenstellung der Teams, die Datenstrukturierung und das Engagement der Teams. Alcimed gibt niemals auf!“
Philippe Caillat
Marketing Director
Beispiele aktueller Projekte zur Data Science, die wir für unsere Kunden durchgeführt haben
Erstellung eines Index zur Messung des Kundenengagements für einen Pharmahersteller
Alcimed unterstützte ein führendes Unternehmen der Pharmaindustrie bei der Erstellung eines aggregierten Indikators zur Messung des Kundenengagements.
Auf der Grundlage der internen Datenbanken des Kunden entwickelte das Alcimed-Team eine Aggregationsmethode, welche die Auswirkungen aller Interaktionen des Unternehmens mit Fachleuten des Gesundheitswesens berücksichtigt. Der Indikator ermöglicht es, die Entwicklung des Kundenengagements auf individueller Ebene oder nach Kundenprofil im Laufe der Zeit zu messen, um beispielsweise die Auswirkungen von Veranstaltungen und Marketingkampagnen des Unternehmens besser zu erfassen.
Erkennung schwacher Signale in Textanfragen von medizinischem Fachpersonal für einen Pharmakonzern
Alcimed unterstützte ein internationales Pharmaunternehmen bei der Definition, Gestaltung und Implementierung eines Tools zur Visualisierung schwacher medizinischer Signale (Arztanliegen), das es unserem Kunden ermöglicht, medizinische Kommunikationsprobleme zu antizipieren.
Unser Team implementierte NLP-Techniken und fortschrittliche statistische Analysen von Textelementen, die eine automatische Erkennung von Signalen und deren Weiterleitung an spezifische Produktteams ermöglichen. Wir unterstützten unseren Kunden auch bei der internen Umsetzung dieses neuen Ansatzes.
Vorhersage der Anzahl von Baugenehmigungen für ein führendes Unternehmen in der Baubranche
Wir unterstützten unseren Kunden, ein führendes Unternehmen der Baubranche, bei der Vorhersage seines Geschäftsvolumens.
Dazu entwickelte Alcimed einen Algorithmus für Machine Learning, der auf der Grundlage historischer öffentlicher Daten die Gesamtzahl der im laufenden Monat tatsächlich eingereichten Baugenehmigungen vorhersagt, bevor diese von den lokalen Verwaltungen offiziell referenziert werden.
Dieses Beratungsprojekt ermöglichte es unserem Kunden, seine Umsatzprognosen zu antizipieren und viele der vorgelagerten Aktivitäten des Unternehmens entsprechend anzupassen.
Identifizierung der Verbreitung von Schlüsselthemen in Netzwerken von digitalen Meinungsführern
Die Data Scientists von Alcimed entwickelten ein maschinelles Lernmodell, um eine unüberwachte Analyse der Themen durchzuführen, die auf Twitter im Zusammenhang mit dem amerikanischen Diabetes-Kongress ADA2021 erwähnt werden, sowie der Twitter-Nutzergemeinschaften, die über dieses Thema kommunizieren.
Unsere Analyse, die in unserem Data Use Case 2 veröffentlicht wurde, ermöglicht es, mit der Visualisierung von vernetzten Daten zwei Gemeinschaften hervorzuheben, die sich hauptsächlich mit unterschiedlichen Themen beschäftigen.
Vergleich der Präsenz verschiedener Pharmaunternehmen in europäischen Berufsverbänden
Alcimed arbeitete mit einem Akteur der Pharmaindustrie zusammen, um dessen Präsenz in den europäischen Fachverbänden des Gesundheitswesens zu verstehen.
In 15 der wichtigsten Märkte unseres Kunden sammelten wir Informationen aus öffentlichen Quellen (Verbandswebseiten, LinkedIn, Pressemitteilungen) und konsolidierten diese in einer Datenbank, um die wichtigsten Berufsverbände, die ihnen angeschlossenen Arbeitsgruppen und die gewählten Mitglieder dieser Verbände zu identifizieren.
Diese Analyse ermöglichte es unserem Kunden, sich einen klaren Überblick über die bestehenden Verbände in seinen wichtigsten Märkten sowie über seine eigene Vertretung und die anderer Akteure in diesen Verbänden zu verschaffen. Dies erlaubte schließlich die Erstellung eines Aktionsplans für die Stärkung ihrer derzeitigen Position in einigen Verbänden oder den Eintritt in neue Verbände.
Identifizierung von Trends auf dem Markt für Nahrungsergänzungsmittel für ein Unternehmen der Lebensmittelindustrie
Alcimed begleitete einen Akteur der Lebensmittelindustrie dabei, den Bedarf und die Erwartungen seiner Kunden und Endverbraucher an Inhaltsstoffe auf dem Markt für Nahrungsergänzungsmittel zu verstehen.
Basierend auf einer Datenbank mit über 1000 Nahrungsergänzungsmitteln, die in den letzten 5 Jahren auf den Markt gebracht wurden, erstellten wir ein umfassendes Dashboard, das insbesondere die sich abzeichnenden Trends bei neuen Inhaltsstoffen, deren häufigste Kombinationen und neue galenische Formen aufzeigt.
Dank dieses Dashboards verfügt unser Kunde nun über ein dynamisches Unterstützungssystem, in dem das gesamte durch die jüngsten Produkteinführungen erworbene Wissen sowie die wichtigsten Erkenntnisse zusammengefasst sind. Diese ermöglichen es ihm, an der Erweiterungsstrategie für sein Angebot an Inhaltsstoffen auf dem Markt für Nahrungsergänzungsmittel zu arbeiten.
Sie haben ein Projekt?
Weiterführende Informationen
Alcimed wurde 1993 gegründet und ist ein Beratungsunternehmen für Innovation und die Erschließung neuer Märkte, das sich auf innovative Sektoren spezialisiert hat: Life Sciences (Gesundheitswesen, Biotechnologie, Agrarwirtschaft und Ernährungswirtschaft), Energie, Umwelt, Mobilität, Chemie, Werkstoffe, Kosmetik, Luft- und Raumfahrt und Verteidigung.
Unsere Berufung? Wir begleiten private und öffentliche Entscheidungsträger bei der Erkundung und Entwicklung ihrer unerforschten Gebiete: neue Technologien, neue Angebote, neue geografische Räume, Zukunftsperspektiven und neue Innovationswege.
Unser Team besteht aus 220 hochqualifizierten, multikulturellen und leidenschaftlichen Entdeckern, die in acht Büros weltweit (in Frankreich, Europa, Singapur und den Vereinigten Staaten) tätig sind und eine duale Expertise aus Wissenschaft/Technologie und Wirtschaft mitbringen.
Unser Traum? Ein Team von 1.000 Entdeckern aufzubauen, um gemeinsam mit unseren Kunden die Welt von morgen zu gestalten.
Data Science ist ein ziemlich weites Feld, das darauf abzielt, Rohdaten eine Bedeutung zu verleihen. Zu diesem Zweck nutzt die Data Science eine Vielzahl von Instrumenten und Techniken wie die Entwicklung von Algorithmen, angewandte Mathematik und fortgeschrittene Statistik bis hin zu Künstlicher Intelligenz, um verschiedene Arten von Modellen zu erstellen. Letztere können dank des Maschinellen Lernens (engl.: machine learning), das eine überwachte oder unüberwachte Analyse und Vorhersage von Daten ermöglicht, bestimmt oder erlernt werden.
Data Science ist ein spezifischer Bereich in dem Studium der Daten, und der Data Scientist unterscheidet sich von den Profilen des Data Analyst, Data Engineer usw. Data-Science-Prozesse und -Dienste erfordern zugängliche Daten, die in großen Organisationen von Datenarchitekten oder Dateningenieuren, die Systeme und Datenbanken strukturieren, implementiert werden können. Diese Daten zugänglich zu machen, ist oft der erste wichtige Schritt in einem Data-Science-Beratungsprojekt.
Je nach Ansatz der Data Science finden sich verschiedene Ziele:
- Die Analytics der Verbindungen zwischen den verschiedenen Variablen, das Studium wiederkehrender Muster und statistischer Anomalien ermöglicht es, Assoziationen und Korrelationen zu finden und die stärksten zu identifizieren. Zudem erlaubt diese Untersuchung, die Daten zu gruppieren und zu segmentieren, um beispielsweise Untergruppen in Studiengruppen zu identifizieren oder Personas für das Kundenverhalten zu erstellen.
- Regression und Klassifizierung ermöglichen es, den Wert einer Variablen im Laufe der Zeit vorherzusagen oder über die verfügbaren Daten hinaus zu schätzen, z. B. die Anzahl der Krankenhausaufenthalte im Zusammenhang mit einer Krankheit, die Zugehörigkeit eines neuen Datenpunkts zu einer Kategorie, z. B. die Vorhersage der Akzeptanz eines Impfstoffs entsprechend dem Patientenprofil oder die Wahrscheinlichkeit einer bestimmten Diagnose auf der Grundlage medizinischer und radiologischer Daten.
Der Unterschied zwischen der Arbeit von einem Data Analyst und einem Data Scientist besteht für letzteren hauptsächlich in der Verwendung von „Big Data“ und der Erstellung komplexer Modelle zur Durchführung der Analysen.
Dieser Unterschied lässt sich durch 5 große „V-Konzepte“ zusammenfassen:
- Volume und Velocity (dt.: Volumen und Geschwindigkeit): Daten werden in großer Zahl gewonnen und vom Unternehmen in einer solchen Geschwindigkeit angehäuft, dass sie nicht genutzt werden können. Zum Beispiel wird eine große Anzahl von Leistungsindikatoren, die während einer Marketingkampagne gesammelt werden, in Vorlagen übertragen, die es den Geschäftsexperten ermöglichen sollten, aus ihnen zu lernen. Ohne die Hilfe von Data Science sind diese Datenmengen jedoch zu diffus und zu roh, um daraus Lehren für die nächsten Maßnahmen zu ziehen.
- Variety (dt.: Vielfalt): Im Gegensatz zu den Unternehmensanalysten, die oft auf Jahresberichte von Agenturen und Marktstudien zurückgreifen können, sind die zu verwendenden Datenmengen manchmal sehr heterogen und liegen in Form von strukturierten Daten oder Rohdaten vor.
- Verocity (dt.: Wahrheitsgehalt) der Daten: Dies hängt mit der Strenge und den Reflexen des Data Scientist bei der Überprüfung der Datenqualität und mit seinen Geschäftskenntnissen zusammen, die es ihm ermöglichen, die Glaubwürdigkeit der Daten zu bestätigen und eine voreingenommene Interpretation zu vermeiden.
- Value (dt.: Wert): Er ermöglicht es, neue Erkenntnisse zu gewinnen, um wissenschaftliche, technische, medizinische oder geschäftliche Entscheidungen für das Unternehmen zu treffen.
Data Science ermöglicht die Gewinnung quantitativer Erkenntnisse, wie z. B. Trends, Vorhersagen usw., durch Querverweise und die Analyse von Rohdatensätzen.
Diese Erkenntnisse werden dann:
- genutzt, um eine zusätzliche Perspektive in die strategische Entscheidungsfindung einzubringen,
- um neue Chancen zu erkennen,
- um Prognosemodelle zu erstellen,
- und in internen Verbesserungsprozessen genutzt.