Direkt zum Inhalt
header image
Industrie 4.0 Management
37. Jahrgang, 2021, Ausgabe 1, Seite 25-29
Potenziale von Reinforcement Learning für die Produktion

Marco Huber, Tobias Nagel, Raphael Lamprecht und Florian Eiling, Fraunhofer IPA, Stuttgart

Reinforcement Learning (RL) konnte bereits publikumswirksam in Video- und Strategiespielen beeindruckende Erfolge erzielen [1]. Diese Grundlagenforschung schafft die Grundlagen, dass RL für reale Entscheidungsprobleme in der Produktion nutzbar wird. Beispiele hierfür sind: Wie erhält ein Roboter mehr Intelligenz, um Aufgaben selbstständiger und ohne aufwendige Programmierung durchzuführen? In welcher Reihenfolge müssen Aufträge in einer Produktion abgearbeitet werden, um eine optimale Termintreue zu erhalten? Der Beitrag gibt eine Einführung in die Arbeitsweise des RL, sowie dessen bevorzugte Einsatzgebiete und beschreibt Anwendungsbeispiele aus dem produzierenden Alltag. Das präsentierte Überblickswissen über die aktuelle Forschung soll diesen Teilbereich der Künstlichen Intelligenz einem breiteren Interessentenkreis zugänglich machen. Übergeordnetes Ziel der beschriebenen Methoden ist, die Wertschöpfung am Wirtschaftsstandort Deutschland kontinuierlich zu steigern.

Schlüsselwörter: Reinforcement Learning, Autonome Produktions- und Prozessteuerung, Robotik
Quellen:

[1] D. Silver, J. Schrittwieser, K. Simonyan, I. Antonoglou, A. Huang, A. Guez, T. Hubert, L. Baker, M. Lai, A. Bolton, Y. Chen, T. Lillicrap, F. Hui, L. Sifre, G. van den Driessche, T. Graepel und D. Hassabis, „Mastering the game of Go without human knokwledge,“ Nature 550, Oktober 2017.

[2] A. Borghesi, A. Bartolini, M. Lombardi, M. Milano und L. Benini, „Anomaly Detection Using Autoencoders in High Performance Computing Systems,“ in The Thirty-First AAAI Conference on Innovative Applications of Artificial Intelligence, 2019.

[3] R. S. Sutton und A. G. Barto, Reinforcement learning: An introduction, MIT press, 2018.

[4] T. Haarnoja, A. Zhou, K. Hartikainen, G. Tucker, S. Ha, J. Tan, V. Kumar, H. Zhu, A. Gupta, P. Abbeel und S. Levine, „Soft Actor-Critic Algorithms and Applications,“ 2018.

[5] J. Schulman, F. Wolski, P. Dhariwal, A. Radford und O. Klimov, „Proximal Policy Optimization Algorithms,“ arXiv Preprint, 2017.

[6] X. Peng, W. Andrychowicz, W. Zaremba und P. Abbeel, „Sim-to-Real Transfer of Robotic Control with Dynamics Randomization,“ 2017.

[7] Y. Chebotar, A. Handa, V. Makoviychuk, M. Macklin, J. Issac, N. Ratliff und D. Fox, „Closing the Sim-To-Real Loop: Adapting Simulation, Randomization with Real World Experience,“ 2018.

[8] R. Dittmar und B.-M. Pfeiffer, Modellbasierte prädiktive Regelung: Eine Einführung für Ingenieure, Walter de Gruyter, 2009.

[9] B. Waschneck, Autonome Entscheidungsfindung in der Produktionssteuerung komplexer Werkstattfertigungen, Stuttgart: 2020.

[10] T. Altenmüller, T. Stüker, B. Waschneck, A. Kuhnle und G. Lanza, „Reinforcement learning for an intelligent and autonomous production control of complex job-shops under time constraints,“ Production Engineering 14, 2020.

[11] D. Silver und J. Veness, „Monte-Carlo Planning in Large POMDPs,“ (NIPS) Advances in Neural Information Processing Systems, 2010.

[12] M. El-Shamouty, K. Kleeberger, A. Lämmle und M. Huber, „Simulation-driven machine learning for robotics and automation,“ tm - Technisches Messen, pp. 673-684, August 2019.

Weitere Open Access Beiträge

securPharm 
Die Absicherung der pharmazeutischen Lieferkette 

Chantal Mause, Rahel Kröhnert und Dieter Uckelmann, Hochschule für Technik Stuttgart

https://doi.org/10.30844/I40M_21-2_S44-47

 

Ansatz zur Zustandsbeschreibung technischer Bauteile 
Prognose der Restnutzungsdauer basierend auf zeitdiskret erfassten Bauteilzuständen mithilfe mobiler Sensorik 

Lukas Egbert, Anton Zitnikov, Thorsten Tietjen und Klaus-Dieter Thoben, Universität Bremen − BIK, Bremen

https://doi.org/10.30844/I40M_21-2_S35-38