{"id":9759,"date":"2015-10-02T17:33:18","date_gmt":"2015-10-02T15:33:18","guid":{"rendered":"https:\/\/wpethzprd.ethz.ch\/id\/?p=9759"},"modified":"2015-10-02T17:33:18","modified_gmt":"2015-10-02T15:33:18","slug":"spark-workshop","status":"publish","type":"post","link":"https:\/\/blogs.ethz.ch\/id\/2015\/10\/02\/spark-workshop\/","title":{"rendered":"Spark Workshop"},"content":{"rendered":"<p>Workshop zur wissenschaftlichen Datenanalyse mit Apache Spark.<!--more--><\/p>\n<p>Die im heutigen Forschungsalltag produzierten, wissenschaftlichen Datens\u00e4tze wachsen rasant und \u00fcbersteigen mehr und mehr unsere M\u00f6glichkeit, diese einfach mit unserem Laptop oder sogar einem leistungsf\u00e4higen Arbeitsplatzrechner zu verarbeiten. Es gibt zwar mittlerweile Rechner mit sehr grossen Mengen an Arbeitsspeicher (ca. 1-3 TB); diese sind jedoch extrem teuer und die Datenanalyse bleibt dabei nach wie vor auf einen einzelnen Computer limitiert. Aber eine Einzelplatzl\u00f6sung skaliert nicht, wenn die Datens\u00e4tze weiter an Gr\u00f6sse zunehmen. Auf der anderen Seite setzen verteilte, skalierbare Datenanalyseverfahren oft die Kenntnis von komplexen, parallelen Programmier-Tools voraus, welche f\u00fcr viele Wissenschaftler eine zu grosse Herausforderung darstellen, um mit ihren gewaltigen Datenmengen klar zu kommen. Zudem kann die Analyse von grossen Datenmengen sehr viel Rechenzeit in Anspruch nehmen, was einen dynamischen, oder gar interaktiven \u00abdata exploration\u00bb Ansatz erschwert oder gar verhindert.<\/p>\n<p>In den letzten Jahren ist jedoch ein neues, verteiltes Datenanalyse Framework \u2013 \u00abSpark\u00bb genannt \u2013 erschienen, welches sowohl robuste Skalierbarkeit \u00fcber hunderte Rechenknoten garantiert, als auch eine einfache Benutzerhandhabung erm\u00f6glicht, dank eines high-level Programmier-Interface. Insbesondere erlaubt Spark auch die interaktive Analyse von grossen Datens\u00e4tzen. Diese M\u00f6glichkeit macht Spark f\u00fcr wissenschaftliche Anwendungen sehr attraktiv, bei denen die Ziele einer Analyse nur erreicht werden k\u00f6nnen, wenn eine effiziente Datenerforschung m\u00f6glich ist.<\/p>\n<p>Im Verlauf dieses Jahres haben die Scientific IT Services (SIS) die Verwendbarkeit von Spark mit der existierenden, zentralen ETH Recheninfrastruktur (d.h. Euler sowie eines stand-alone Hadoop test clusters) evaluiert. Zus\u00e4tzlich haben SIS einen Workshop vorbereitet, mit dem Ziel den ETH Wissenschaftlern dieses neue Framework zur Datenanalyse n\u00e4her zu bringen. Der Workshop vermittelt den Forschenden die Grundlagen des Spark Programmiermodells und gibt ihnen die n\u00f6tigen Tools, um unmittelbar ihre eigenen Datenanalysen auf der ETH Infrastruktur laufen zu lassen.<\/p>\n<p>Die ersten zwei Workshop-Sessions wurden in den ersten beiden Septemberwochen gehalten und von 25 Wissenschaftlern aus D-GESS, D-BSSE und D-BIOL besucht. Jede Session dauert drei Tage: Der erste Tag gibt eine Einf\u00fchrung in die Herausforderungen der verteilten Datenanalyse und vermittelt einige relevante Programmierkonzepte anhand von praktischen \u00dcbungen. W\u00e4hrend den darauffolgenden zwei Tagen f\u00fchren die Teilnehmer ein Mini-Projekt aus, dessen Ziel es ist, eine Pipeline zu entwickeln zur Textanalyse des gesamten B\u00fccherkorpus des Gutenberg Projekts. Ungef\u00e4hr 75% des Workshops basiert auf hands-on sessions, in welchen den Teilnehmern die M\u00f6glichkeit geboten wird, sowohl eine Intuition f\u00fcr Spark als auch f\u00fcr die vorhandene ETH Recheninfrastruktur zu entwickeln. Aufgrund des grossen Interesses am Workshop und den positiven R\u00fcckmeldungen der ersten beiden Gruppen, hoffen wir, diesen Kurs im Herbstsemester weiteren Departementen anbieten zu k\u00f6nnen.<\/p>\n<h2>Text &amp; Kontakt<\/h2>\n<p>Rok Roskar, Research Informatics, ID Scientific IT Services (<a href=\"https:\/\/www1.ethz.ch\/id\/about\/sections\/sis\" target=\"_blank\">ID SIS<\/a>)<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Workshop zur wissenschaftlichen Datenanalyse mit Apache Spark.<\/p>\n","protected":false},"author":838,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[25,1181,1177,890,898,1178],"tags":[179760,176298,179762],"class_list":["post-9759","post","type-post","status-publish","format-standard","hentry","category-news","category-passwort-applikationen","category-software-arbeitsplatze","category-speicher","category-support","category-wissenschaftl-rechnen","tag-spark","tag-spark-workshop","tag-wissenschaftliche-datenanalyse"],"_links":{"self":[{"href":"https:\/\/blogs.ethz.ch\/id\/wp-json\/wp\/v2\/posts\/9759","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blogs.ethz.ch\/id\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blogs.ethz.ch\/id\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blogs.ethz.ch\/id\/wp-json\/wp\/v2\/users\/838"}],"replies":[{"embeddable":true,"href":"https:\/\/blogs.ethz.ch\/id\/wp-json\/wp\/v2\/comments?post=9759"}],"version-history":[{"count":0,"href":"https:\/\/blogs.ethz.ch\/id\/wp-json\/wp\/v2\/posts\/9759\/revisions"}],"wp:attachment":[{"href":"https:\/\/blogs.ethz.ch\/id\/wp-json\/wp\/v2\/media?parent=9759"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blogs.ethz.ch\/id\/wp-json\/wp\/v2\/categories?post=9759"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blogs.ethz.ch\/id\/wp-json\/wp\/v2\/tags?post=9759"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}