Von Dr. Sarah-Magdalena Leschke

16. Mai 2022

Einsatz von Verfahren des Maschinellen Lernens für Media Mix Modellings

In diesem Artikel lernen Sie die verschiedenen Attributionsverfahren und ihre Vor-und Nachteile kennen. Einen besonderen Fokus wird auf das Maschinelle Lernen gesetzt, dass Media Mix Modellings mit einer hohen Modellgüte ermöglicht.

In den letzten Jahren ist in der Mediaberatung bzw. -planung die Anforderung gestiegen, dass der Erfolg von Mediakampagnen nicht nur messbar sein soll, sondern diese bereits möglichst effizient und datengetrieben geplant werden. Zu Beginn stehen demnach die Fragen, wie verschiedene Mediakanäle bei einem gegebenen Budget möglichst sinnvoll kombiniert werden und welches Ziel in Bezug auf Markenkennzahlen oder Verkäufe mit der Kampagne erreicht werden kann bzw. welches Budget zur Zielerreichung notwendig ist. Folglich werden Attributionsverfahren benötigt welche den Ergebnisbeitrag der Mediakanäle aufzeigen.

Inhalt

Media Mix Modellings
Lineare Modelle
Modelle des maschinellen Lernens

Media Mix Modellings

Antworten auf diese Fragen kann ein Media Mix Modelling geben (MMM). Hierbei wird mittels statistischer Verfahren:

Der Beitrag jedes Mediakanals zu einer definierten Zielvariable ermittelt
auf dieser Basis lassen sich anschließend Prognosen für zukünftige Kampagnen anhand der Mediaplanung ableiten und die relevanten Mediakanäle ermitteln und
Empfehlungen treffen wie das Budget zu verteilen ist.

Bei einem MMM wird also eine übergeordnete Perspektive eingenommen und mit aggregierten Daten gearbeitet. Die verschiedenen Mediakanäle werden gemeinsam betrachtet und auch externe Faktoren berücksichtigt (wie z.B. Preis- und Promotionaktionen, Wettbewerbsverhalten oder die gesamtwirtschaftliche Situation). Das bringt den Vorteil mit sich, dass nicht ein Mediakanal für sich allein optimiert wird und z. B. keine nutzerbezogenen Daten benötigt werden, sondern lediglich Daten zur Medialeistung je Kanal und der jeweiligen Zielvariable im Zeitverlauf. Die Optimierung des Mediabudgets, so dass das Kampagnenergebnis durch das Zusammenspiel aller Kanäle maximiert wird, ist allerdings ein komplexes multidimensionales Problem, bei dem Aspekte wie nicht-Linearität und Sättigungseffekte, zeitversetzte Mediaeffekte sowie Interaktionseffekte zu beachten sind.

Lineare Modelle

Ein in der Praxis bewährtes Vorgehen ist seit Langem der Einsatz von linearen Modellen bei der Umsetzung von MMM. Damit werden gute Erfolge erzielt und sie sind weit verbreitet, da sie einfach erklärbar und transparent sind und sehr präzise sein können. Allerdings sind auch die Grenzen weithin bekannt. Konzeptionell bedingt lassen sich die nicht-linearen und zeitversetzten Zusammenhänge zwischen Media und der Zielvariable und Interaktionen zwischen den Mediakanälen mit linearen Modellen oft nur schlecht abbilden, was zudem einen sehr großen Zeitaufwand bedeutet, wenn viele Iterationen durchlaufen werden müssen, um das Modell richtig zu kalibrieren. Darüber hinaus bedeuten lineare Modelle eine Reduktion der Komplexität, wodurch Information verloren geht, wenn z.B. digitale Kanäle zusammengefasst werden müssen, weil ihr Effekt einzeln nicht abbildbar ist, obwohl gerade der digitale Bereich immer wichtiger im Media-Mix wird.

Grenznutzenkurven zeigen den nicht-linearen Zusammenhang zwischen Medialeistung und Zielvariable sowie Sättigungsniveau und Optimum als Punkt des effizientesten Mediaeinsatzes.

Nicht-Linearität

Zentrales Ergebnis aus einem MMM sind die Grenznutzenkurven je Kanal. Diese folgen typischerweise einem logarithmischen Zusammenhang. Das heißt, zu wenig Mediabudget bedeutet, dass Potenziale nicht ausgenutzt und zu wenig Wirkung erzielt wird. Dagegen führt ein zu hohes Mediabudget dazu, dass die Kampagne nicht mehr profitabel ist (Sättigungseffekt). In der Mitte befindet sich das Optimum, wo der Anstieg am höchsten ist und somit die Medialeistung effizient eingesetzt wird. Diese Grenznutzenkurven sind die Grundlage für die Entscheidung, wie das Budget auf die verschiedenen Kanälen möglichst effizient verteilt werden sollte, um damit das Budget zu optimieren.

Zeitversetzte Mediawirkung (Adstock-Effekt)

Media wirkt nicht zwingend direkt in der jeweiligen Kampagnenwoche, sondern verteilt sich ggf. über Wochen nach der Kampagne. Eine Markenbekanntheit muss sich bei den Endkunden durch Wiederholungskontakte zunächst aufbauen, oder sie sehen die Kampagne und entscheiden sich erst später zum Kauf. Dies muss in dem Modell berücksichtigung finden, d.h. für die Mediakanäle muss der Adstock-Effekt ermittelt werden, damit dieser Effekt auch in der Mediaplanung und den auf dem Modell basierenden Prognosen einbezogen werden kann.

Interaktion

In einem MMM soll die gemeinsame Wirkung aller genutzten Mediakanäle betrachtet werden. In einer Kampagne werden die verschiedenen Kanäle meist gemeinsam geplant und oft auch zum gleichen Zeitpunkt eingesetzt. Die Endkunden haben somit über verschiedene Berührungspunkte Kontakt zu der betrachteten Marke. Es wird dabei von einer gegenseitigen Verstärkung der Kanäle ausgegangen, so dass zum Beispiel die Ergänzung einer digitalen Kampagne den Effekt der TV-Kampagne verstärkt. Diese Interaktionseffekte zwischen mehreren Variablen korrekt abzubilden, kann in linearen Modellen problematisch werden, wenn die Mediakanäle gleichzeitig eingesetzt wurden. Gerade den Effekt von unterrepräsentierten Kanälen mit geringem Budget korrekt zu identifizieren ist oftmals schwierig.

Modelle des maschinellen Lernens

Diese komplexen Zusammenhänge zwischen den Variablen können gegebenenfalls mit neueren Verfahren des Maschinellen Lernens (ML) besser abgebildet werden. Als solche werden künstliche Systeme bzw. Algorithmen bezeichnet, welche anhand von Beispieldaten komplexe Modelle entwickeln, sozusagen Wissen generieren, indem sie Muster / Gesetzmäßigkeiten erkennen, die anschließend verallgemeinert und auf neue unbekannte Daten angewendet werden können.¹ Bei ML handelt es sich um einen Teilbereich der künstlichen Intelligenz (KI). Unter KI wird das Idealbild eines künstlichen intelligenten Systems verstanden, wobei eher von einem rational denkenden und handelnden System gesprochen werden sollte, was von den bewussten intelligenten (aber nicht immer rationalen) Entscheidungen eines Menschen abgegrenzt werden muss. Aktuell sind aus dem Bereich KI vorwiegend sehr spezialisierte Anwendungen wie Bilderkennung oder Sprachausgabe tatsächlich in der Praxis etabliert.²

Definition Maschinelles Lernen

Maschinelles Lernen bezeichnet die Anwendung und Erforschung von Verfahren mittels derer Computersysteme befähigt werden, selbständig Muster und Korrelationen in großen Datensätzen zu finden und auf Basis dieser Analyse die bestmöglichen Vorhersagen und Entscheidungen zu treffen und ist als Teilbereich der künstlichen Intelligenz einzuordnen.³

Der Vorteil von komplexeren ML-Algorithmen ist, dass Interaktionseffekte, nicht-lineare Zusammenhänge und auch die zeitverzögerte Wirkung von Media automatisch Berücksichtigung finden. In der Arbeit mit linearen Modellen kann es sehr aufwendig sein, Annahmen zur nicht-linearen Funktion der Variablen zu treffen, den Adstock-Effekt bzw. Variablen für die zeitverzögerte Wirkung zu definieren und diverse Modelle mit unterschiedlichen Variablenkombinationen zu prüfen. Dabei müssen die relevanten Variablen erkannt und redundante Variablen ausgeschlossen werden, um einerseits eine Überspezifikation zu vermeiden, aber die bestmögliche Anpassungsgüte zu erzielen. Werden zu viele Merkmale in ein lineares Modell aufgenommen, kann der Beitrag einzelner Merkmale eventuell nicht mehr zuverlässig geschätzt werden, es müssen aber alle wichtigen Merkmale enthalten sein, um die Zielvariable ausreichend zu erklären.

Das Modell ist nicht ausreichend an die Daten angepasst / Das Modell ist zu genau an die Daten angepasst.

Das Modell weist eine hohe Anpassungsgüte auf.

Dagegen können beispielsweise Algorithmen die auf Entscheidungsbäumen basieren sehr hilfreich in der Erstellung eines MMM sein, da der Einbezug von Variablen durch den Algorithmus geprüft wird und die Wahrscheinlichkeit einer Überspezifikation gesenkt wird. Diese Verfahren können sowohl den individuellen als auch gemeinsamen Effekt der einbezogenen Merkmale aufzeigen. Somit kann der nicht-lineare Zusammenhang der Mediakanäle mit der Zielvariable realistisch dargestellt werden und auch Interaktionseffekte zwischen den einbezogenen Merkmalen, zum Beispiel auch die Mediawirkung in Kombination mit einer gleichzeitigen Preiskampagne oder die im Zeitverlauf unterschiedliche Wirkung von Media bei saisonal getriebenen Produkten.

Definition Entscheidungsbäume

Unter Entscheidungsbäumen werden Verfahren verstanden welche baumähnliche Modelle erstellen, die mehrstufige Entscheidungsregeln abbilden. Grafisch können sie als Baumdiagramm dargestellt werden, welches die hierarchisch aufeinander folgenden Entscheidungen wiedergibt. Auf jeder Ebene wird dabei angegeben, wie das jeweilige Merkmal zur Erklärung der Zielvariable beiträgt. Die Kombination der verschiedenen Merkmale eines Astes ergibt die Vorhersage für die Zielvariable

Darüber hinaus haben sich baumbasierte Verfahren wegen ihrer guten Modellgüte bewährt. Im Modellingprozess werden die Daten in Trainings- und Testdatensatz unterteilt. Anhand der Trainingsdaten wird das Modell erstellt. Die Testdaten dienen zur Überprüfung der Prognose und zeigen wie robust das Modell ist, d.h. wie genau die Prognose auf unbekannten Daten funktioniert. Insbesondere solche Algorithmen welche viele voneinander unabhängige Entscheidungsbäume erstellen, zeichnen sich durch ihre hohe Genauigkeit aus (z. B. Random Forest, Gradient Boosted Trees). Vor allem Boosting-Verfahren führen im Allgemeinen zu sehr guten Ergebnissen. Hierbei wird bei der Modellerstellung aus den Bäumen mit schlechterer Prognose gelernt, so dass mit jedem Durchlauf die zuvor falsch prognostizierten Werte zu einer Verbesserung des Modells führen.

Das Baumdiagramm zeigt ein vereinfachtes Beispiel des Aufbaus eines Entscheidungsbaums mit Absatz als Zielvariable.

Während ML-Algorithmen in der Vergangenheit aufgrund ihrer Komplexität als Black Box angesehen wurden, ist inzwischen ihre Erklärbarkeit auch gegeben. Ein Kritikpunkt war bisher, dass die Modelle zwar präzise sind, aber nicht ersichtlich, wie genau die einbezogenen Merkmale zur Prognose beitragen. Durch Ansätze wie Shapley Values oder LIME (Local Interpretable Model-agnostic Explanations) können die Modelle inzwischen gut interpretiert werden und aufgezeigt werden, welcher Input maßgeblich für das Prognoseergebnis ist. Mit ihrer Hilfe kann der Beitrag der einbezogenen Merkmale, bzw. der verschiedenen Mediakanäle ermittelt und visualisiert werden und zum Beispiel auch die Grenznutzenkurven der Mediakanäle abgeleitet werden. Weiterhin können andere Algorithmen genutzt werden um auf Basis eines fertigen Modells das Optimierungsproblem der Budgetverteilung zu lösen (wie. z. B. Autograd). Damit können nicht nur Szenarien für die Mediaplanung erstellt werden, sondern automatisiert die optimale bzw. effizienteste Budgetverteilung auf die Mediakanäle gefunden werden.

Wie kann MMT helfen?

Die Tools von MMT ermöglichen einfachere, präzisere und schnellere Entscheidungen in der Mediaplanung. Komplexere ML-Algorithmen bieten die Grundlage für eine Automatisierung des Modellingprozesses und damit eine Skalierbarkeit für viele Marken, Produkte oder auch Regionen, da statistisch robuste Modelle zeiteffizient erstellt werden können.

Welches Verfahren schlussendlich verwendet wird, hängt immer vom jeweiligen Anwendungsfall und der Qualität der vorhandenen Daten ab. In der Modellerstellung gilt der Grundsatz “so einfach wie möglich, so kompliziert wie nötig”. Daher haben lineare Modelle ihre Berechtigung in der Praxis. Sie können gegebenenfalls erste Erkenntnisse generieren und in weiteren Ausbaustufen komplexe Algorithmen eingesetzt werden. Für den Erstellungsprozess ist es wichtig, die Leistungsfähigkeit der verschiedenen Verfahren zu verstehen. Um die Auswahl des geeigneten Algorithmus zu treffen muss immer beurteilt werden, wie gut das Verfahren für den Anwendungsfall funktioniert.

Weitere Beispiele für den Einsatz von Machine Learning bei MMT Scope abseits von MMM finden sich bei Test&Scale, MTA und TV Performance.

Quellen

¹ Fraunhofer -Gesellschaft (2018): Maschinelles Lernen - Kompetenzen, Anwendungen und Forschungsbedarf, S. 9.

² https://divis.io/2019/03/ki-fuer-laien-teil-1-was-ist-ki/

³ https://wirtschaftslexikon.gabler.de/definition/maschinelles-lernen-38193/version-261619 und https://www.sap.com/germany/insights/what-is-machine-learning.html

Erhalten Sie viermal im Jahr die für Sie relevantesten Artikel per E-Mail.

Zum Newsletter anmelden

Dr. Sarah-Magdalena Leschke

As a Data Analyst, Dr. Sarah-Magdalena Leschke generates insights from data for MMT's clients in order to quantify advertising impact. Sarah recognizes structures in data and is able to think her way into our clients' questions, understand them, and find possible solutions. She provides information for media planning in the form of individual analyses, modeling, dashboards & tools and continues to develop our analysis methods and tools.

Kontakt

Mercury Media Technology GmbH & Co. KG
Klostertor 1
20097 Hamburg / Germany

hello@mercurymediatechnology.com

Get in touch - we speak 12 languages

Produkte

Media Operations Plattform Marketing Measurement Marketing Mix Modelling Media Inventory Plattform Media Inhousing TV-Attribution

Ressourcen

Beyond AIphoria Über uns Karriere Kontakt

Rechtliches Datenschutzerklärung Datenschutzeinstellungen Impressum