Wenn KI auf Belohnung reagiert

Deep Reinforcement Learning ist eines der aufregendsten Forschungsthemen auf dem Gebiet der Künstlichen Intelligenz. Die Technologie könnte in Zukunft einen großen Nutzen für Unternehmen bieten.

Moderne Haushaltsgeräte erleichtern unseren Alltag enorm. Und wenn etwas nicht stimmt, kommunizieren sie sogar mit uns. Kryptische Fehlercodes geben in der Regel einen ersten Hinweis darauf, wo das technische Problem liegen könnte. In manchen Fällen hilft eine Suchanfrage bei Google, und der Fehler lässt sich von Hand beheben. Aber es gibt auch solche, in denen der Kundenservice anrücken muss, um der Ursache auf den Grund zu gehen.

Blicken wir auf die zuständige Fachkraft des Reparaturdienstleisters. Diese stellt sich bei der Planung ihres Arbeitstags zwei Fragen: Welche Ersatzteile packe ich ein? Und welche Route nehme ich, um so viele Aufträge wie möglich abzuarbeiten? Die Herausforderung: Beide Faktoren bedingen sich gegenseitig. Denn durch die Fehlercodes bzw. die große Varianz an möglichen Ursachen besteht das Risiko, dass die prognostizierte Anzahl an Ersatzteilen nicht ausreicht. Ist das der Fall, muss die Werkstatt unplanmäßig angefahren oder ein weiterer Termin vor Ort geplant werden. In der Folge wird nicht nur die Geduld aller Beteiligten strapaziert – auch die Wirtschaftlichkeit des Unternehmens leidet.

Stand heute gibt es für dieses Problem keine Lösung und schon gar keinen effizienten Algorithmus. Vielmehr greifen die zuständigen Mitarbeiter:innen auf ihre berufliche Erfahrung zurück. Aber der Mensch kann natürlich nicht alle Variablen in seine Planung einfließen lassen. Es stellt sich also die Frage: Wie lassen sich solche Entscheidungsprozesse in Zukunft optimieren?

Die Antwort auf diese Frage lautet: Künstliche Intelligenz. Weltweit setzen Wissenschaft und Industrie große Hoffnungen auf das sogenannte Deep Reinforcement Learning (DRL) – eine Kombination aus Deep Learning und Reinforcement Learning. Diese KI-Methode benötigt im Gegensatz zur klassischen Programmierung problemspezifischer Lösungen weniger Expertenwissen. Im Vorfeld wird lediglich die zu lösende Problemstellung definiert. Auf Basis von historischen Datensätzen simuliert die KI in einer interaktiven Lernumgebung verschiedene Szenarien. Für die Ausführung von zuvor festgelegten Aufgaben erhält sie unmittelbares Feedback in Form einer „Belohnung“ oder „Bestrafung“. Durch diese Trial-and-Error-Funktion lernt die KI eigenständig, welche Aktionen zur maximalen Belohnung und damit zur bestmöglichen Aufgabenerfüllung führen.

So viel zur Theorie. In der industriellen Praxis findet Deep Reinforcement Learning aber bislang kaum Verwendung. Die Gründe dafür sind vielschichtig: Die KI-Methode funktioniert nur dann, wenn die Unternehmen eine entsprechend breite Datenbasis zur Verfügung stellen. Die ist oft nicht vorhanden. Hinzu kommt, dass DRL äußerst rechenintensiv und die Implementierung mit hohem Aufwand verbunden ist. Es braucht also eine leistungsstarke IT-Infrastruktur und kompetente Mitarbeiterinnen und Mitarbeiter. Und zu guter Letzt: Die Unternehmen haben nicht selten Berührungsängste. Es fehlt schlicht am Verständnis, wie die KI-Methode in einer funktionierenden Strategie gipfelt. Wie lassen sich also diese Probleme auflösen, um das Potenzial der DRL-Technologie in naher Zukunft abrufen zu können?

Diese Fragestellung war mitunter Teil eines Workshops, der Interessierte im Herbst vergangenen Jahres an den TUM Campus Heilbronn brachte. Thematischer Schwerpunkt der dreitägigen Veranstaltung war die Anwendung von Deep Reinforcement Learning für dynamische Entscheidungsprobleme in den Bereichen Bestandsmanagement, Transport, Produktion und Gesundheitswesen.

Unter der Leitung eines TUM-Trios, bestehend aus Prof. Gudrun P. Kiesmüller und Prof. Jingui Xie vom TUM Campus Heilbronn sowie Prof. Stefan Minner vom TUM-Standort in München, diskutierten etwa 30 hochrangige internationale Expertinnen und Experten über den aktuellen Forschungsstand und wie die Methode zukünftig im Operations Management eingesetzt werden kann. Mehrere Doktorandinnen und Doktoranden der TUM School of Management, der TUM School of Computation, Information and Technology und anderer internationaler Universitäten hatten außerdem die Gelegenheit, ihre Arbeiten zu präsentieren und sich im Anschluss mit den erfahrenen Forscherinnen und Forschern auszutauschen. Eine bereichernde Erfahrung, wie Yihua Wang, TUM-Doktorandin aus München, bestätigt: „Ich habe wertvolles Feedback erhalten und bedanke mich bei dem Orga-Team für diese fantastische Veranstaltung.“

Der Austausch war großartig. Aber vielleicht war es noch wertvoller, so viele neue Leute kennenzulernen, die aufregende neue Ideen in dieses Gebiet einbringen.

Prof. Willem van Jaarsveld
Professur für stochastische Optimierung und maschinelles Lernen an der Technischen Universität Eindhoven</i></font>

Am Ende stand für alle Teilnehmenden des Workshops fest: Für Unternehmen ergeben sich durch Deep Reinforcement Learning ganz neue Möglichkeiten. Prozesse, die für eine Software bislang als zu komplex galten, werden sich in Zukunft in einer Vielzahl von Anwendungsfeldern optimieren bzw. automatisieren lassen. Vor allem im Hinblick auf Probleme mit großen Aktionsräumen wurden neue und vielversprechende Ideen entwickelt. Um diese Potenziale auszuschöpfen, müssen aber die Voraussetzungen dafür geschaffen werden, und es gibt noch einige Herausforderungen zu meistern. Es braucht Kooperationen zwischen Wissenschaft und Industrie, gute Fachkenntnisse und strukturierte Daten, die von Unternehmen bereitgestellt werden. Nur so lässt sich DRL in der Praxis implementieren und weiterentwickeln.

Zurück

Deep Reinforcement Learning birgt großes Potenzial

Workshop liefert Ideen, Erkenntnisse und Feedback

Slider: Wenn KI auf Belohnung reagiert