Maschinelles Lernen für die Informatikdienste
Mit Machine Learning wird IT alltagstauglich. War früher die IT durch deterministische Prozesse und Abläufe definiert, können dank Machine Learning grosse Mengen an unstrukturierten Daten verarbeitet werden. Mit anderen Worten: die Daten, welche im Alltag anfallen, müssen nicht mehr speziell aufbereitet werden, sondern können unmittelbar in einen IT-Prozess eingespiesen werden.
Unstrukturierte Daten sind beispielsweise Dokumente oder der Text in einem Eingabefeld auf einem Web-Formular, aber auch Bilder oder Töne. Texte, Bilder und Töne kann man als solche geniessen. Häufig will man damit «etwas anfangen», und zu diesem Zweck müssen diese Daten kategorisiert werden. Früher musste diese Arbeit von Menschen geleistet werden und das war recht mühselig. Machine Learning ersetzt diese mühselige Arbeit und macht das nicht nur deutlich schneller, sondern häufig auch wesentlich präziser.
In den Informatikdiensten wollen wir erstklassige Dienstleistungen für unsere Kunden an der ETH anbieten. Unsere Kunden in den Departementen und Abteilungen sitzen oft vor vielen und unstrukturierten Daten. Zeit, dass wir uns das notwendige Wissen im Gebiet «Machine Learning» aneignen, damit wir in solchen Fällen Hilfe leisten können. Diese Personen sollen forschen oder ihre personennahen Dienste leisten und ihre Zeit nicht mit Kategorisierungsarbeiten verschwenden.
Workshops
Anfang Sommer haben die Sektionen ID SIS und ID SWS zu diesem Zweck zwei dreitägige Workshops durchgeführt. Mit Tim Head (https://www.wildtreetech.com/) haben wir einen ausgezeichneten Workshop-Leiter gefunden. Der erste Workshop orientierte sich eher an den Bedürfnissen der SWS-Software-Entwickler und konzentrierte sich auf die Verarbeitung von Texten. Hier lernten wir beispielsweise spaCy kennen und mit Keras umzugehen. SpaCy ist eine Python-Bibliothek für natural language processing (NLP). Keras ist ebenfalls in Python geschrieben und kann verwendet werden, wenn es darum geht, ein neuronales Netzwerk zu modellieren und damit Deep Learning zu betreiben.
Da der Begriff «deep learning» in den letzten Jahren immer häufiger in der Wissenschaftspresse auftaucht, werden auch diesbezüglich Kenntnisse immer häufiger bei den Scientific IT Services angefragt. Bei den Kunden aus der Biologie spielt z.B das Erkennen von Zellen in Mikroskopbildern und die sogenannte Bild-Segmentierung eine wichtige Rolle und die neuesten Verfahren greifen auf Deep Learning zurück. Auch die Kosmologen an der ETH versuchen Eigenschaften von Galaxien anhand von Bildern durch maschinelles Lernen zu bestimmen. Daher stand im zweiten Workshop die Verarbeitung von Bilddaten im Zentrum.
Neben der Einführung in die Grundlagen konnten wir auch mit neuronalen Netzen experimentieren, um handgeschriebene Ziffern und Bilder von Kleidungstücken zu klassifizieren. Dabei wurde klar, dass Deep Learning nicht out-of-the-box zufriedenstellend funktioniert, sondern auch das unter Umständen aufwendige Ausprobieren von Netzwerkarchitekturen notwendig ist, um gute Ergebnisse zu erzielen.
Wir sind sicher, dass maschinelles Lernen bei unseren Kunden eine zunehmend wichtigere Rolle spielen wird. Dieser Workshop war der erste Schritt, mit welchem wir in den Sektionen ID SWS und ID SIS entsprechende Kompetenzen aufbauen und erweitern. Damit sind wir gewappnet, im Bedarfsfall schnell und professionell unsere Dienstleistungen anbieten zu können.
Text und Kontakt
Benno Luthiger, ID WCMS, LMS & Mobile Applications, Software Services (ID SWS)
Uwe Schmitt, ID Scientific Software & Data Mgmt., ID Scientific IT Services (ID SIS)
Posted on
in News, Software, Arbeitsplätze, Support, Wissenschaftl. Rechnen