Supervised Learning: Definition, Arten & Beispiele - datasolut Wiki (2024)

Supervised Learning ist eine Methode des maschinellen Lernens, welche aufgrund einer Analyse von Eingangsdaten mit vorgegebener Zielvariable präzise Empfehlungen ausgibt und Prognosen macht. Dieser Prozess ist durch die notwendige Datenvorverarbeitung mit einem relativ hohen menschlichen Aufwand verbunden.

In diesem Artikel gehe ich auf die Funktionsweise, Probleme, Arten und Beispiele von Supervised Learning ein.

Steigen wir direkt ein!

Alles auf einem Blick zu Supervised Learning:

  • Überwchtes Lernen nutzt Beispieldaten mit einer Zielvariable, um aus diesen Daten Muster zu erlernen und diese auf unbekannte Daten anzuwenden
  • Wird für Klassifikationen und Regressionen genutzt, also für die Vorhersage von Wahrscheinlichkeiten oder numerischen Werten
  • Überwachtes Lernen setzt eine aufwendige Datenvorverarbeitung voraus

Was ist Supervised Learning?

Supervised Learning (deutsch: Überwachtes Lernen) ist ein Verfahren des maschinellen Lernens, wo dem Machine Learning Algorithmus ein Datensatz, bei dem die Zielvariable bereits bekannt ist, vorgelegt wird. Der Algorithmus erlernt Zusammenhänge und Abhängigkeiten in den Daten, die diese Zielvariablen erklären. Nach dem Training wird die Qualität der Vorhersage bewertet, um anschließend die erlernten Muster auf unbekannte Daten anzuwenden und Prognosen sowie Vorhersagen zu erstellen.

Supervised Learning: Definition, Arten & Beispiele - datasolut Wiki (1)

Dieser Prozess ist iterativ und wird so oft durchgeführt, bis das gewünschte Ergebnis erreicht ist. Im Grunde basiert der Prozess auf dem Trial-and-Error Prinzip, bei dem die vorherigen Erfahrungen mit in den Lernprozess einbezogen werden.

Sie sehen gerade einen Platzhalterinhalt von Youtube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Inhalt entsperren Erforderlichen Service akzeptieren und Inhalte entsperren

Ein trainiertes Modell kann wird auf unbekannte Daten angewandt werden, um präzise Vorhersagen zu tätigen.

Vergleichen kann man diese Vorgehensweise mit einer Schulung, bei der ein Tutor den Lernprozess überwacht.

Warum setzt man Supervised Learning ein?

Die zentralen Gründe für die Nutzung von überwachtem Lernen sind:

  • Lernerfahrung fließt in den Prozess mit ein
  • Hervorragend für Vorhersagen
  • Kann Empfehlungen generieren
  • Der Lernprozess ist relativ simpel (Datenaufbereitung ist komplex)

Ein Beispiel: Ein potenzieller Kunde einer Bank möchte einen Kredit aufnehmen. Die Bank kann an dieser Stelle überwachtes Lernen nutzen, um festzustellen, wie sich ähnliche Kunden verhalten haben. Mit dieser Datengrundlage kann die Bank nun eine Entscheidung zu Zinssätzen und Laufzeiten treffen und gegebenenfalls den Kredit verweigern, wenn ähnliche Kunden typischerweise negativ aufgefallen sind.

Supervised Learning: Definition, Arten & Beispiele - datasolut Wiki (2)

Wenn du wissen willst, was Machine Learning ist und wie es grundsätzlich funktioniert, dann schau in das Video von uns:

Sie sehen gerade einen Platzhalterinhalt von Youtube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Inhalt entsperren Erforderlichen Service akzeptieren und Inhalte entsperren

Überwachtes Lernen Arten

Es gibt zwei hauptsächliche Problemstellungen, bei denen supervised learning eingesetzt wird: Klassifikation und Regression.

Klassifikation

Soll beispielsweise in einem Bild erkannt werden, ob es sich um einen Hund oder eine Katze handelt, ist das eine Klassifikationsaufgabe. Das Modell wird hier an einem Datensatz trainiert, bei dem das Ergebnis schon bekannt ist. Im Nachgang kann das erfolgreich trainierte Modell die Klassifikation auch bei unbekannten Daten durchführen.

Zu den wichtigsten Algorithmen gehören:

  • Logistische Regression
  • Support vector machines (SVM)
  • K-nearest neighbors-Verfahren
  • Naïve Bayes
  • Entscheidungsbaumverfahren (Decision Trees) und abgeleitete Methoden wie
    • Gradient Boosted Trees
    • Random Forest
  • Künstliche neuronale Netze

Wir haben dir ein Beispiel zu Supervised Learning Klassifikation aufgenommen:

Sie sehen gerade einen Platzhalterinhalt von Youtube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Inhalt entsperren Erforderlichen Service akzeptieren und Inhalte entsperren

Regression

Auch bei gezielten Vorhersagen oder der Erkennung von Trends wird supervised learning eingesetzt. Typische Regressionsaufgaben beinhalten kontinuierliche oder reale Eingangsdaten, wie Alter, Gehalt oder Preise. Diese Daten analysiert der Algorithmus und lernt anhand der vorgegebenen Zielvariable die Muster und Zusammenhänge der Datenpunkte. Aufgrund dieser Informationen kann das trainierte Modell nun auch präzise Vorhersagen und Empfehlungen aussprechen.

Zu den meistgenutzten Algorithmen gehören:

  • Lineare Regression
  • Künstliche neuronale Netze
  • Entscheidungsbaumverfahren (Decision Trees) und abgeleitete Methoden wie
    • Gradient Boosted Trees
    • Random Forest

Sie sehen gerade einen Platzhalterinhalt von Youtube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Inhalt entsperren Erforderlichen Service akzeptieren und Inhalte entsperren

Beispiele für den Einsatz von Supervised Learning

Für überwachtes Lernen gibt es viele Beispiele in Wirtschaft und Forschung:

Churn Predicition im Customer Relationship Management

Möchte man im Customer Relationship Management die Wahrscheinlichkeit einer Abwanderung eines Kunden vorhersagen, nutzt man überwachtes Lernen. Dafür werden die Abwanderungen in der Vergangenheit betrachtet, genauer die Gründe für die Abwanderung. Das Modell findet in den Kundendaten Zusammenhänge, die zum Churn geführt haben und stellt Regeln hierfür auf.

Das Ergebnis ist eine präzise Vorhersage zur Churn-Wahrscheinlichkeit jedes einzelnen Kunden.

Spam Detection bei E-Mails

Moderne E-Mail-Anbieter arbeiten unentwegt an ihren Spam-Filtern, um das Nutzungserlebnis der User zu verbessern. Hier werden überwachte Lernverfahren eingesetzt, um diese Mails zu klassifizieren und eine Aussage zu der Art zu tätigen (Spam | nicht Spam). Trainiert wird das Modell mit im Voraus klassifizierten Mails, bei denen die Antwort auf die Zielvariable schon stehen. Unbekannte Mails können nun auf die Muster von Spam-Mails geprüft und so klassifiziert werden.

Empfehlungssysteme in Online-Diensten

Empfehlungssysteme sprechen Produkt- oder Content Empfehlungen aus, die zum einen auf dem Nutzverhalten (User-Item-Ansatz) des Users und zum anderen auf einer Ähnlichkeitsberechnung zu anderen Usern (User-User-Ansatz) basieren. Streaming-Anbieter, wie Netflix nutzen die Interessen eines Users, zusammen mit den Interessen ähnlicher User als Basis für die Content Empfehlungen auf der Startseite. Dabei kommt eine personalisierte Seite für jeden einzelnen Nutzer heraus.

Supervised Learning vs. Unsupervised Learning

Die Hauptsächlichen Unterschiede von Supervised und Unsupervised Learning auf einen Blick:

Unsupervised learningSupervised learning
ProzessNur Inputdaten sind gegebenInput- und Outputdaten sind vorgegeben
InputdatenBeispieldaten ohne ZielvaribaleBeispieldaten mit Zielvaribale
EchtzeiteinsatzKann in Echtzeit genutzt werdenDas Lernen passiert vor dem Deployment
Anzahl der FeaturesAnzahl ist unbekanntAnzahl ist bekannt
EinsatzgebieteGenerierung von Wissen und Mustern aus großen Datenmengen: z.B. Clustering von Kundenmerkmalen, Dimensionsreduktion von großen Datensätzen oder Extraktion von einem Regelwerk.Vorhersagen von Werten und Klassen: z.B. Vorhersage von einer Kündigung, Kaufwahrscheinlichkeiten oder den Stromverbrauch.

Folgende Grafik veranschaulicht die Unterschiede:

Supervised Learning: Definition, Arten & Beispiele - datasolut Wiki (3)

Unsupervised Learning findet selbständig heraus, dass es zwei Segmente gibt, bei Unsupervised Learning werden die zwei Gruppen vorgegeben.

Welche Herausforderungen gibt es bei überwachtem Lernen?

Das Training des Modells läuft nicht immer genau so, wie man es sich vorstellt:

Overfitting

Bei dem Training vom Modell kann es vorkommen, dass zu viele Merkmale oder Variablen (Features) in die Analyse mit einfließen und das Modell sich so zu sehr an den Trainingsdatensatz anpasst. Dieses Phänomen wird “Overfitting” genannt. Ein gutes Beispiel ist die Klassifizierung von Objekten in einem Bild. Steht im Trainingsdatensatz eine Tasse immer auf einem Tisch mit einer Tischdecke, wird diese Tasse in einem unbekannten Datensatz nur in diesem Zusammenhang erkannt.

Hier kann die Dimensionsreduktion mit unsupervised Learning helfen, den Menge an Features zu verringern.

Underfitting

Werden andererseits zu wenige Features genutzt, kann das Modell keine klaren Zusammenhänge und Muster erkennen, die auf die Zielvariable schließen lassen. In diesem Fall liegt ein “Underfitting” vor. Vergleichen kann man diese Situation mit einer Lernschwäche. In diesem Fall ist es ratsam, die gegebenen Variablen zu überprüfen und anzupassen.

Wer mehr über Machine Learning und den Prozess wissen möchte, hier ist ein ausführlicher Artikel.

Zusammenfassung und Potential: Überwachtes Lernen

Supervised Learning ist eine Methode des maschinellen Lernens, bei der klassifizierte Eingangsdaten mit vorgegebener Zielvariable als Datengrundlage für Klassifikations- und Regressionsaufgaben genutzt wird. Das Modell mit dem gewählten Algorithmus sucht im Datensatz nach Mustern und Zusammenhängen, die auf die Zielvariable schließen lassen. Das Ergebnis ist eine präzise Vorhersage oder Empfehlung für den jeweiligen Use-Case, sei es eine Personalisierung oder eine Vorhersage zu Zahlungsausfällen.

Schon heute ist überwachtes Lernen eine der meist genutzten Methoden des maschinellen Lernens, da die Möglichkeiten schier endlos sind. Von einer automatischen Bild-Indexierung für eine Datenbank bis hin zu Prognosen zu Regenwahrscheinlichkeiten ist sehr vieles möglich. Mit zunehmender Rechenleistung und wachsender Datenmengen werden die Berechnungen immer schneller und präziser.

Supervised Learning: Definition, Arten & Beispiele - datasolut Wiki (2024)

References

Top Articles
Latest Posts
Article information

Author: Mrs. Angelic Larkin

Last Updated:

Views: 5963

Rating: 4.7 / 5 (47 voted)

Reviews: 94% of readers found this page helpful

Author information

Name: Mrs. Angelic Larkin

Birthday: 1992-06-28

Address: Apt. 413 8275 Mueller Overpass, South Magnolia, IA 99527-6023

Phone: +6824704719725

Job: District Real-Estate Facilitator

Hobby: Letterboxing, Vacation, Poi, Homebrewing, Mountain biking, Slacklining, Cabaret

Introduction: My name is Mrs. Angelic Larkin, I am a cute, charming, funny, determined, inexpensive, joyous, cheerful person who loves writing and wants to share my knowledge and understanding with you.