About Guillaume Schiltz

Guillaume Schiltz is Educational Developer (Lehrspezialist) at the Department of Physics.

Calling Bullshit: The Art of Skepticism in a Data-Driven World


by Carl Bergstrom and Jevin West

Random House, New York (2020), 318 pages


“Bullshit involves language, statistical figures, data graphics, and other forms of presentation intended to persuade by impressing and overwhelming a reader or listener, with a blatant disregard for truth and logical coherence.”

For most of the book, the authors dig into how scientific results can be compromised at different levels (publications, press releases, social networks). They point at well-known fallacies in statistics and visualizations by providing some surprising examples (many from biology) that they have debunked and well documented by themselves.

In chapter 9, and this was for me the most important part, the authors discuss the primary aims of scientific research, its threats, and why scientific reasoning and scientific methodology still helps us understanding the world better. Especially in the context of the actual discussion on distrust in science (related to the pandemics) this chapter becomes even more relevant.

In their final two chapters the authors provide some general hints on how to identify and on how to refute (call) bullshit. They stress that refuting false claims should be done in a humble, respectful but nonetheless stringent way. Calling bullshit is not a matter of impressing your audience, but it is a moral imperative and at the end it makes ourselves as researchers “more vigilant , a little more thoughtful, a little more careful when sharing information.” (last sentence of the book).

Unfortunately, the book was written in pre-covid19 times. The bulk of actual misinformation and scientific misinterpretation, however, gets easily seizable with the help of this book.

The book is based on a course from the University of Washington, that the authors now have been teaching for some time. Elements from this course and transferred to other subjects suits well for all of our ETH courses and they will empower our students to think more critically on their role as a future researcher and societal policymaker.

I really enjoyed reading this book, written in a funny and personal style, and I can highly recommend it to anyone who is teaching science.

One week of Corona online teaching: experiences and outlooks

The decreed transition from classroom to online teaching caught us off guard at the Department of Physics, as anywhere else. Within a few days, almost 25 central lectures together with five laboratory courses, covering over 3,500 students, had to be switched to online mode. It is due to the high engagement and cooperative commitment of all members from the department that this enormous challenge could be mastered without any transition. None of the courses had to be canceled and since last Monday, all teachers, lecturers as well as teaching assistants, are teaching online.

D-PHYS goes online

Now, after one week of online teaching, it is possible to review the impacts of this switch. In addition, a look into the near and even into the far future should be allowed. How will teaching develop in the coming weeks? What lasting impact will the online shift have on higher education?

In the first days following the shift, the focus was mainly linked to technical problems: What tools should I use to teach online? Here we benefited from the fact that ETH relied on the Zoom platform right from the start. Although other options for teaching, such as recording self-made videos or using Moodle were also recommended, we mainly advertised Zoom at our department and offered an appropriate support. With Zoom, all lectures can be streamed live and students can even ask questions during the event. For courses relying on blackboard writing and experiments, we have set up a special installation in our main lecture halls where lecturers can stream their lecture via Zoom (without students in the hall). Lecturers who do not rely on the large blackboards and on the experiments give their lectures from home by using Zoom as well.

streamed lecture
Live lecture streamed with Zoom from the lecture hall with 141 students in the virtual audience.

With the setting offered by Zoom, it was possible to transfer the concept of the traditional classroom lecture more or less smoothly to online teaching. This was particularly important in the initial phase because the lecturers did not have to redesign their courses. The shift to technical new ground was already demanding enough.

Now, with the lecturers gaining more confidence in using Zoom, didactic reflections are emerging.

Does it really make sense to teach online the same way I have done it before?
Should I try to redesign my course in a more appropriate way for online teaching?

Scenarios such as flipped classroom, question and answer sessions or small project assignments are coming on the agenda. After the technical shift, we now experience a merging didactic shift. Of course, technology still plays an important role, but the focus lies on didactic implications. Lectures profit from their research experience in using communication and cooperation tools. Now they start to transfer those or similar tools to teaching and learning.

At least, the didactic phase is no longer under imminent time pressure. Lecturers have time to plan and to think about creative didactic experiments. Thus, in the near future supporting lecturers in new didactic implementation will become paramount, be it through didactic expertise or by disseminating tested scenarios.

It may seem premature at this point to look at the post Corona period. However, it is already clearly noticeable that traditional teaching is moving to new grounds. An increased number of online courses will continue to be part in higher education when we switch back to face-to-face instruction. Lecturers are now gaining insight in new didactic settings that they will be able to transfer to regular classes. Even brand new ideas might pop up and at the end, students will profit from an increased portfolio of many different teaching and learning opportunities.

With the next exam period ahead in May, the problem of assessments still remains unresolved. Even if oral exams offer a short-term alternative in a few cases, we still have to think about further online alternatives. The next coming months will keep us busy, anyway …

RTOP – ein Bewertungsraster für gute Lehre


Wie bewertet man eine Lehrveranstaltung im Rahmen von einer Hospitation? Von der Hochschuldidaktik werden dazu unterschiedliche Instrumente zur Verfügung gestellt, die meist auf eigenen Erfahrungen beruhen, oder auf spezielle Aspekte des Unterrichts ausgerichtet sind.

An der vergangenen AAPT Konferenz hatte ich die Möglichkeit, im Rahmen eines Workshops, RTOP (Reformed Teaching Observation Protocol) auszuprobieren. RTOP wurde in den späten 1990er Jahren an der Arizona State University entwickelt, um Lehrveranstaltungen aus den MINT-Fächern nach den Standards des studierendenzentrierten Unterrichtens zu evaluieren. Es handelt sich um einen Fragebogen mit insgesamt 25 Items, die jeweils auf einer fünfstufigen Likert-Skala («nicht vorhanden» bis «sehr anschaulich») zu beantworten sind. Die Items sind dabei in drei Hauptkategorien aufgeteilt:

  1. Planung und Umsetzung (lesson design and implementation)
  2. Inhalt (content)
  3. Gegenseitiger Umgang (classroom climate)

Typische Items aus RTOP lauten:

The instructional strategies and activities respected students’ prior knowledge and the preconceptions inherent therein.

Connections with other content disciplines and/or real world phenomena were explored and valued.

There was a climate of respect for what others had to say.

Der gesamte Fragebogen (in Englisch) kann hier eingesehen werden:

Üblicherweise protokolliert der Hospitant seine Beobachtungen während der Lehrveranstaltung und füllt den Fragebogen nachträglich aus. Um einheitliche, vergleichbare und zuverlässige Ergebnisse zu ermöglichen, stehen diverse Anleitungen und Videos mit Trainingsbeispielen zur Verfügung.

Das Instrument basiert auf Ergebnissen der Lehr- und Lernforschung, es ist validiert und kann sogar für Forschungszwecke verwendet werden. In einer grossangelegten Studie benutzen Granger et al. (2012) RTOP zur Bewertung der Lehre und konnten damit die erhöhte Lernwirksamkeit von studierendenzentriertem Unterricht nachweisen.

Bei einer Hospitation lässt sich das Instrument jedoch auch, ohne grossen Trainingsaufwand, als Diskussionsbasis im Rahmen einer Nachbesprechung mit den Dozierenden verwenden. Nächste Woche beginnt das Frühlingssemester und ich werde RTOP bei meinen Hospitationen auf jeden Fall ausprobieren. Zu den konkreten Erfahrungen mit RTOP berichte ich dann gerne hier im Blog.

Alle Infos und Materialien zu RTOP finden sich hier:

Eine deutsche Übersetzung liegt vor und kann bei der Projektverantwortlichen Kathleen Falconer (http://www.physikdidaktik.uni-koeln.de/falconer.html) beantragt werden.

Flipping large university courses: medium-term effects of active learning


In a flipped learning setting, the major part of content delivery is accomplished outside of the classroom and class time is instead used for engaging students in collaborative and hands-on activities. During the past decades, this pedagogical approach has gained much popularity and a large body of research supports its benefits. Implementing flipped learning, however, is not obvious and relies on many factors related to the local learning and teaching culture, the existing assessment regulations, the curricular boundary conditions and, most important, on scalability considerations. Flipping a class with 30 students might be considered as a feasible task, but flipping a lecture with 300 students turns out to be rather challenging and may potentially require considerable investments, such as room reconfiguration and increased teaching manpower. Before any department or university considers adopting flipped learning in a given local context, it will be necessary to identify possible assets and drawbacks beforehand. For this reason, we have conducted a pilot study within a physics lecture class of 370 students at a major Swiss research university.


During the spring semester 2017, we have divided a non-physics undergraduate student cohort into two parallel teaching settings, one focusing on skill development (SCALE-UP) and one focusing on content delivery (LECTURE).

In the SCALE-UP setting, students had to prepare the content prior to coming to class (flipped classroom).

Photos of the lecture hall and of the SCALE-UP classroom

Photos of the lecture hall and of the SCALE-UP classroom

In order to conduct a comparative study of the two different pedagogical settings, we recorded the performance of the complete student cohort (both SCALE-UP and LECTURE) at two different points:

  • Physics mid-term exam: 10th week during the intervention
  • Physics final exam: 8 months after the intervention

The physics mid-term and final exams included conceptual and numerical questions. In the mid-term exam, 50% of the points could be achieved by conceptual multiple-choice questions, whereas the ratio in the final exam was 40%. Therefore, we were able to split the overall achievement into conceptual and numerical performance components. Conceptual questions assess student understanding of the underlying phenomena rather than the application of the physics material within a mathematical framework. Thus, our study enables us to make a clear distinction between the conceptual understanding and its numerical transfer.

Furthermore, the physics final exam was split into one part (Phys1) covering the topics  that were introduced during the flipped classroom intervention in spring and another part (Phys2) with the topics that were covered in autumn without a parallel setting. With this distinction, we are able to draw conclusions on longitudinal effects (Phys1) and on how well the learning achievements of the flipped class can be transferred to new topics (Phys2).

Throughout the performance analysis, we are only considering students who took part in all assessments. As a result, we had to reduce the overall population to 35 students in the SCALE-UP setting and 133 students in the LECTURE setting. The data are still sufficient to run statistical tests, even though we have to deal with an unbalanced design.

Performance Results

Performance gains of the SCALE-UP students

Performance gains of the SCALE-UP students: In order to compare the performance of students from the SCALE-UP setting to those of the LECTURE, we have conducted a series of independent t-tests. The gain is calculated by the difference in the means G = M(SCALE-UP) – M(LECTURE).
Error bars correspond to the 95% confidence intervals. Effect sizes of d=0.2 are considered to be small, whereas d=0.5 is related to a medium effect and d=0.8 to a large effect.

Medium-term performance effects

Medium-term performance effects: We can directly compare the performance recorded in the mid-term exam to the performance in Phys1 by running a series of dependent t-tests. The mean difference is calculated by M(PHYS1) –M(Midterm).
Error bars correspond to the 95% confidence intervals. Effect sizes of d=0.2 are considered to be small, whereas d=0.5 is related to a medium effect and d=0.8 to a large effect.

  • During the intervention period, students from the flipped SCALE-UP group outperformed students from the LECTURE setting. This performance gain, however, was substantially reduced when evaluated over the medium-term scale.
  • For those students who participated in the 14-week flipped SCALE-UP group, we could not identify any transfer or modification of learning behavior that would induce better performance outside of a dedicated flipped learning setting.


  • A single active learning intervention of one semester (14 weeks) is too short to sustain substantial performance gains.
  • Even though students enjoyed the flipped class very much, their performance gains were much lower than those reported from the (mainly U.S.) literature.
  • Curricular constraints such as contact hours and assessment conditions should be considered and adapted when shifting to a flipped class setting.

The full paper, including further results, presented at EDULEARN18 is available from >here<.

Im Duell: Vorlesung vs. «Flipped Classroom» (die erste Runde)

flipped classSeit mehreren Jahren wird «Flipped Classroom» als didaktische Methode mit hohem Lerngewinn angepriesen. Im «Flipped Classroom» sind die Studierenden angehalten, sich die Inhalte vor der Veranstaltung selbst anzueignen. In der Präsenzveranstaltung werden dann hauptsächlich nur noch Aktivitäten in Kleingruppen durchgeführt, welche als Ziel haben, die zuvor gelernten Inhalte anzuwenden und zu verfestigen.

Am Departement Physik hatten wir die Gelegenheit, während eines Semesters eine Physikeinführungsveranstaltung (für Nichtphysiker) parallel als Vorlesung und als «Flipped Classroom» durchzuführen. Prof. Gerald Feldman ist ein Pionier und ausgewiesener Experte im Unterrichten von «Flipped Classroom», in der Physik auch als SCALE-UP bekannt. Während seiner Gastprofessur am Departement Physik bot Jerry Feldman 52 Studierenden einen vorbildlichen «Flipped Classroom» an. Die restlichen 318 Studierenden besuchten die normale Vorlesung. Wir haben beide Gruppen eng begleitet und im Verlauf des Semesters Daten zu ihrem Lernverhalten und zu ihren Leistungen gesammelt.

In dieser ersten Runde vergleichen wir den unmittelbaren Leistungszuwachs beider Gruppen während der Unterrichtperiode. In einer zweiten Runde wird das Lernverhalten gegenüberstellt und eine Abschlussrunde soll Auskunft über die Langzeitleistung ergeben. Zum Schluss wird das gesamte Duell dann kritisch analysiert.

Nun aber zu den Ergebnissen der ersten Runde. Gemessen wurde die Leistung anhand von drei Messreihen, einem Pretest, einem Posttest und einer Zwischenprüfung.


Lernzugewinn zwischen Pretest und Posttest

Zu Beginn der Veranstaltung, im Februar, absolvierten Studierende aus beiden Gruppen einen standardisierten Test zum konzeptionellen Verständnis von Kräften in der Mechanik (FCI). Der gleiche Test wurde ihnen dann am Ende des Semesters im Mai nochmals angeboten. Mit dem Vergleich der Ergebnisse aus Pretest und Posttest lässt sich der Lernzugewinn für die Vorlesungsgruppe und die «Flipped Classroom» Gruppe messen und gegenüberstellen. Studierende des «Flipped Classroom» wiesen dabei einen höheren Lernzugewinn auf als die Studierenden in der Vorlesung. Der Unterschied liegt im Grössenbereich von etwa 11%.

Die Zwischenprüfung erfolgte in der 10. Semesterwoche und bestand aus 3 konzeptuellen Verständnisfragen sowie 3 numerischen Problemfragen. Auch hier konnten wir die Ergebnisse beider Gruppen vergleichen.

Im Gesamtergebnis der Zwischenprüfung schnitt die «Flipped Classroom» Gruppe um etwa 7% besser ab als die Vorlesungsgruppe. Bei den Konzeptfragen liegt der Zugewinn bei etwa 11%, was mit dem Ergebnis aus Pre- und Posttest übereinstimmt. Bei den numerischen Fragen konnte kein signifikanter Unterschied ermittelt werden, beide Gruppen erbrachten hier vergleichbare Leistungen.


Leistungszugewinn der «Flipped Classroom» Gruppe gegenüber der Vorlesungsgruppe in der Zwischenprüfung 

Zusammenfassend schnitt die «Flipped Classroom» Gruppe beim konzeptuellen Verständnis besser ab als die Vorlesungsgruppe. Beim numerischen Problemlösen liegen beide Gruppen gleichauf.  Damit verbucht «Flipped Classroom» in der ersten Runde einen knappen Sieg. Hintergründe und Details zur Untersuchung sind >hier< zu finden.

In den kommenden Monaten werden wir die Daten zum Lernverhalten in beiden Gruppen untersuchen und diese dann als zweite Runde hier vorstellen. Das Duell bleibt daher noch spannend!

Über die Lehre reden

teacher tea timeUnterrichten ist eine hochkomplexe und äusserst anspruchsvolle Tätigkeit. Lee Shulman (2004, S. 258) hat die Komplexität des Lehrens mit den Anforderungen einer ärztlichen Notaufnahme verglichen. Trotz dieser grossen Herausforderung ist der Austausch von Erfahrungen und Gedanken, die mit dem eigenen Unterrichten zusammenhängen, unter den Lehrenden eher gering. Häufig wird das Lehren als privates und isoliertes Handeln aufgefasst. Der kollegiale Erfahrungsaustausch hingegen kann die Wahrnehmung und auch die Entwicklung des eigenen Unterrichts unterstützen.

Um diesen kollegialen Austausch zu fördern, werden am Departement Physik vom Lehrspezialisten und dem Studienkoordinator regelmässige Treffen zwischen den Professoren organisiert. Diese Teacher Tea Time finden 1-2 Mal im Semester statt und befassen sich jeweils mit einem Thema, das von den Professoren selbst vorgeschlagen wird. Beispiele bisheriger Themen waren z.B.:

  • “How can we influence students’ learning behavior?”
  • “Exploring and exploiting free space in our curricula”
  • “Exams at D-PHYS”

Die recht informell gehaltenen Zusammenkunft beginnt mit einem kurzen mündlichen Statement aus der Runde der Teilnehmenden und geht anschliessend in die Gesprächs-  bzw. Diskussionsrunde über. Eine Moderation findet nicht statt. Aus den durchwegs positiven Rückmeldungen der Teilnehmenden scheint das Format gut angenommen zu werden. Im Schnitt beteiligt sich etwa ein Viertel der Professoren des D-PHYS in wechselnder Zusammenstellung an den Treffen.

Auch an anderen Departementen haben Lehrspezialisten entsprechende Treffen initiiert. So finden z.B. am D-ERDW regelmässige Meetings von allen Lehrbeteiligten statt. Am D-MTEC wurde kürzlich das Teaching Innovations Lab mit ähnlicher Zielsetzung eröffnet. Daneben organisiert das D-MATH regelmässige Lunch Meetings, an denen, neben Dozierenden, auch Studierende eingelanden sind.

Ob nun im engen Professorenkreis, oder zusammen mit Assistierenden und Studierenden, in den einzelnen Departementen wird der Erfahrungsaustausch über das Lehren verstärkt kultiviert.

Digitale Trends 2025

Bericht vom Symposium Digitale Trends 2025 – Entwicklungen in der akademischen Bildung

Webseite: https://www.kit.edu/kit/17485.php


Das KIT (Karlsruher Institut für Technologie) lud am 15. Oktober 2015 zu dem Symposium „Digitale Trends 2025 – Entwicklungen in der akademischen Bildung“ ein. Organisiert wurde die Tagung vom kürzlich gegründeten ZML (Zentrum für Mediales Lernen).Gidion_IMG_1015

“Das ZML führt derzeit gemeinsam mit der Universität Stuttgart die Studie Mediale Hochschulperspektiven 2020 in Baden-Württemberg durch. Sie befasst sich mit aktuell relevanten Themen medialen Lehrens und Lernens in der akademischen Bildung und wird im Herbst abgeschlossen sein. Aus diesem Anlass veranstaltet das ZML ein Symposium zum Thema Digitale Trends 2025 – Entwicklungen in der akademischen Bildung. Das Symposium liefert Ergebnisse der Studie und beschäftigt sich mit Entwicklungstrends digitaler Anwendungen im Hochschulbereich.“ (aus dem Ausschreibungstext).


Insgesamt 9 relevante Trends konnten in dieser Studie identifiziert werden:

  1. Integrierte IT-Systeme: das zukünftige System erfasst und offeriert sämtliche digitalen Daten, welche das Studium betreffen. Als Ziel wird eine Vernetzung bzw. Integration von Campus-Management und Learning Management Systemen gesehen.   Relevanz: Rollen und Prozesse müssen für das elektronische System klar definiert werden, was wiederum Einfluss auf die realen Abläufe hat.
  2. Blended Learning als Standard: Hohe Durchmischung elektronischer Lerninhalte mit klassischen Lernsettings aufgrund geänderter Gewohnheiten und Ausstattungen (cloud computing, hyper targeting, internet of things). Relevanz: Bedarf an den Lehrenden ausgerichtet.
  3. Internetbasierte Lehre: prägt die digitalen Märkte der akademischen Bildung. Relevanz: MOOCs.
  4. Student Life Cycle: Dokumentation des individuellen Bildungsverlaufs, nicht auf das Studium beschränkt (Brückenkurse, Weiterbildung). Relevanz: ePortfolios.
  5. Selbstorganisation im Studium: kooperatives und selbstorganisiertes Lernen in digitalen Umgebungen. Relevanz: Austausch (sharing) von Wissen ermöglichen (analog zu Uber, AirBnB).
  6. Forschungsorientierte Lehre: mediale Verknüpfung von Theorie und Praxis in Wissenschaftlichen Laborlandschaften. Relevanz: Ortsunabhängigkeit.
  7. Sprachtransfer: Lecture Translator (Projekt am KIT). Relevanz: Einbezug der Nutzer bei Übersetzungen.
  8. Digitalisiertes Wissen: On-demand Aufbereitung wissenschaftlicher Inhalte (bwSync&Share, Projekt am KIT). Relevanz: wissenschaftliche Kooperation.
  9. Learning Analytics. Relevanz: Datenschutz


Die Trends (1) bis (3) sind zum jetzigen Zeitpunkt bereits weit fortgeschritten, (4) bis (6) befinden sich in der Entwicklungsphase, (7) und (8) sind spezifisch für das KIT und mit entsprechenden Projekten verknüpft. Trend (9) bedarf einer vertieften Diskussion im Rahmen der (in Deutschland) geltenden Datenschutzbestimmungen.

Nach der Vorstellung dieser Trends durch den Leiter des ZML, Gerd Gidion, folgten Referate zum aktuellen Status von Akteuren aus Wirtschaft und Bildung. Wirklich neue Einsichten brachte jedoch keiner der Vortragenden und die von den Referenten geäusserten Entwicklungstendenzen waren dann auch sehr subjektiver und persönlicher Natur.

Vortraege_IMG_1029Einige Vorträge sind unter folgendem Link  als Video verfügbar:


Der im Symposium gelieferte Ausblick auf das Jahr 2025 bot jetzt keine Überraschungen und deckt sich zum Teil mit kurzfristigeren Voraussagen, wie jenen etwa aus dem NMC Horizon Report. In der Diskussion wurde dann auch die Frage nach zu Zulänglichkeit solcher Prognosen gestellt. Immerhin gehen sämtliche Prognosen davon aus, dass die organisationale Einheit (Hochschule) keiner Entwicklung unterliegt. Dass unser Verständnis von Hochschule variiert und doch sehr stark durch digitale Entwicklungen beeinflusst werden kann, hat sich z.B. mit der Diskussion zu MOOCs gezeigt. Zunehmend werden die beiden Standpfeiler Lehre und Leistungskontrolle jetzt ausgelagert. Beides Entwicklungen, die vor zehn Jahren noch undenkbar waren. Laut Kommentar einer Teilnehmerin sind die im Symposium vorgestellten Trends daher zu kurz gefasst und man sollte die viel weitreichenderen institutionellen Folgen einer zunehmenden Digitalisierung in der akademischen Bildung nicht ausblenden.


  • An der RWTH leitet Marcus Gerards die zentralen Einheit „Medien für die Lehre“, welche Blended Learning und Flipped Classroom erfolgreich unterstützt und ausbaut. Insbesondere praktiziert die RWTH ein Leistungskontrollsystem, in dem Studierende während des Semester 0.3-0.4 Notenpunkte an die Leistungskontrolle am Semesterende erarbeiten können. Dies unterstütze das kontinuierliche und nachhaltige Lernen. Die RWTH sieht in der vermuteten Kollaboration der Studierenden während des Semesters einen Lern-Mehrgewinn. Ein Blick nach Aachen wäre sicher auch für die ETH von Gewinn.
  • Fabian Schumann (iversity) bot einen interessanten Einblick in die erforderlichen Zeitaufwendungen bei der Erstellung eines MOOC. Dabei werden knapp 75% der benötigten Zeitressourcen für Videoproduktion und Medienerstellung aufgebraucht. Für didaktische (Instructional Design) und inhaltliche (Instructor) Aufbereitung bleiben lediglich 25% übrig. Dieses Verhältnis steht invers zum Aufgebot für Präsenzveranstaltungen und wirft daher einige Fragen bezüglich der Lehrintention auf.


Bericht aus einer Neuen Welt: Die beste aller möglichen Prüfungen

  • … gibt detaillierte Rückmeldungen über den Erreichungsgrad eines jeden vorher festgelegten Lernziels (verzichtet auf Prüfungsnoten und auf die ganze damit verbundene Arithmetik).
  • … gibt den Studierenden detailliertes Feedback über die erbrachten Leistungen (fordert die Studierenden auf, sich mit dem Prüfungsergebnis auseinanderzusetzen).
  • … bestätigt die nachweisliche Umsetzung fachlicher und überfachlicher Kompetenzen (verzichtet auf allgemeine Formulierungen).
  • … orientiert sich an Real-World Gegebenheiten = authentic assessment (verzichtet auf artifizielle Prüfungssituationen).
  • … ist integraler Teil des Lernprozesses (verzichtet auf eine reine Akkumulation von Einzelprüfungen).

David Boud: challenges

David Boud: What are we assessing for? (keynote)

All das ist nicht neu und wir kennen auch die Argumente, die gegen eine Umsetzung sprechen: zu kompliziert, zu zeitintensiv, methodisch nicht umsetzbar, u.v.m. Dennoch haben vor fünf Jahren David Boud und Kollegen aus über 30 Universitäten einen Katalog von Vorschlägen aufgestellt, wie Prüfungen im Jahr 2020 effektiver, aussagekräftiger und lernfördernder zu gestalten sind (Assessment 2020: Seven propositions for assessment reform in higher education, ← unbedingt lesenswert!):

The propositions have been developed to guide assessment thinking in the light of the increasing focus on standards, and to address criticisms of current practice. They set directions for change designed to enhance learning achievements for all students and improve the quality of their experience.

Bild: zVg (http://www.cetl.hku.hk/conf2015/gallery/)

Im vergangenen Mai haben sich in Hong Kong (International Conference: Assessment for Learning in Higher Education) mehr als 200 Universitätsangehörige aus 28 Ländern getroffen, um über ihre Erfahrungen und Probleme zu diskutieren, die bei der konkreten Umsetzung genau dieser Vorschläge aufgetreten sind.

John Biggs: "good teaching is beating the bell curve"

John Biggs: “good teaching is beating the bell curve”

Beeindruckt hat mich bereits am ersten Tag, mit welchem Selbstverständnis sich die Teilnehmenden zu der doch recht umfassenden Umgestaltung von Prüfungen geäussert haben. In ihren Fachbereichen und Universitäten ist diese Form des Leistungsnachweises bereits zu einem hohen Grad umgesetzt und scheint auch gut zu funktionieren. An der Konferenz musste keiner mehr von den Vorteilen überzeugt werden. Vielmehr ging es darum, Erfahrungen aus den unterschiedlichen Umsetzungen zu gewinnen.

Eigentlich wollte ich mich mit meinem Besuch gezielt über neuere Assessment-Methoden informieren. Dann aber fand ich es weitaus spannender im Verlauf der Konferenz herauszufinden, welche Entwicklung an den Universitäten einen solch fundamentalen Wechsel der Prüfungen überhaupt ermöglicht haben und welche Konsequenzen das für uns haben kann.

In zahlreichen Gesprächen mit den Teilnehmenden hat sich dabei folgender Ablauf konkretisiert:

  1. Studiengänge werden mit Standards (=Qualifikationsprofile im ETH-Jargon) versehen. Standards definieren die fachlichen und überfachlichen Kompetenzen, welche die Studierenden beim Abschluss erworben haben.
  2. Im Curriculum eines Studiengangs werden für jede einzelne Veranstaltung die Lernziele mit den Standards des entsprechenden Studiengangs abgeglichen. D.h. es wird spezifiziert, in welchen Veranstaltungen welche Kompetenzen in welcher Form vermittelt werden. Eventuell muss das Curriculum entsprechend den Standards angepasst werden, oder eine Überarbeitung der Standards steht an.
  3. Die Prüfungen (Leistungsnachweise) geben Aufschluss darüber, zu welchem Grad die Studierenden die vorgegebenen Lernziele erreicht haben. Sie liefern damit auch detaillierten Aufschluss über den Erreichungsgrad der einzelnen Standards und somit schliesst sich der Kreis StandardsLernzielePrüfungen. Prüfungen sind damit integraler Bestandteil der Curriculumsentwicklung.


David Boud: “we need to know HOW a student is excellent, not that he is”

Im Gegensatz zu konventionellen Prüfungen sind die Prüfungsergebnisse nun auf die vorher festgelegten Lernziele ausgerichtet. Zum Beispiel für das Lernziel: „Studierende erlangen Fertigkeiten im Lösen von physikalischen Fragen anhand von Übungsaufgaben“ wird detailliert angegeben, um welche Fertigkeiten es sich hierbei handelt und auf welcher Stufe jede dieser Fertigkeiten erreicht werden. Die Leistungsmessung erfolgt bei dieser Art Prüfung durchgängig anhand von Rubrics (Bewertungsrastern).

Am D-PHYS haben wir vor einiger Zeit ein solches Raster zur Bewertung von Aufgabenlösungen entwickelt. Das Raster wurde bisher nur sehr beschränkt eingesetzt, es illustriert aber gut, wie solche Rubrics auch bei uns aussehen können.

Rubrics waren während der Tagung auch ein wichtiges Thema. Diskutiert wurde z.B. wie man sie Studiengangs weit formulieren kann, um die individuelle Leistungsentwicklung besser abbilden zu können (Workshop 3, Paper 118).

Weitere zentrale Themen umfassten:

Communities of Practice (Workshop 1, Paper 34, Roundtable 2). Um Innovation innerhalb einer Institution zu diffundieren, eignen sich CoP am besten. Zentrale Einheiten, wie das ITL an der University of Sydney bieten hierfür geeignete Netzwerke. Graham Hendry vom ITL hat in diesem Rahmen zusätzlich einen aufschlussreichen Kriterienkatalog (als Rubrics) von sinnvollen Prüfungen vorgestellt. Auch das CETL der Universität Hong Kong hat mit dem Wise Assessment Project eine recht umfangreiche Austauschplattform aufgebaut.

Curriculumsentwicklung (Paper 10, 30, 104). Einige Universitäten haben sogenannte Core Curriculum (University of Hong Kong) oder Connected Curriculum (University College London) entwickelt, in denen überfachliche Kompetenzen fächerübergreifend vermittelt werden. Critical Thinking wurde hier immer wieder als Argument angeführt.

Assessment-Methoden (Workshop 2, Roundtable 1). Eine umfangreiche Sammlung an Methoden mit zahlreichen Beispielen wird vom CETL bereitgestellt und im Wise Assessment Project sukzessive erweitert.


Royce Sadler: “we need to adapt to students’ knowledge when designing assessment tasks”

Daneben wurden auch kritische Anmerkungen aufgeworfen:

  • Zusätzlich zu den Rubrics bedarf es des Erfahrungswissens der einzelnen Examinatoren und des Willens der Institution, Leistungskontrollen zu reformieren. Mit Rubrics allein, stellt sich noch kein Wandel im Prüfungswesen ein: „a rubric is a rubric, it’s just a piece of paper“ (Paper 118).
  • Eine Reform auf institutioneller Ebene soll nicht zu stark an Reglemente und Vorschriften gekoppelt sein. Vielmehr ist es wichtig, geeignete Wege aufzuzeigen und die konkrete Umsetzung den einzelnen Fachbereichen zu überlassen.

Zusammenfassend war der Besuch dieser Konferenz eine äusserst aufschlussreiche Reise in eine recht überzeugende Zukunft. Die bei uns bereits eingeleiteten Entwicklungen bezüglich Curricula weisen deutliche Parallelen auf und falls wir diese ernst nehmen, werden auch wir uns irgendwann ernsthaft mit unseren Leistungskontrollen befassen müssen. An der Konferenz wurden Möglichkeiten der Umsetzung aufgezeigt, die in vieler Hinsicht sicher einen der bestmöglichen Kompromisse zwischen effektiv erbrachter Leistung und deren Nachweis darstellt.

Zum Schluss noch einige Randbemerkungen:

  • An den Universitäten gibt es grössere Unterschiede zwischen den einzelnen Fachbereichen was die Umsetzung der Reformen betrifft. Am weitesten fortgeschritten sind, neben den Ingenieurwissenschaften, die Wirtschaftswissenschaften, die Rechtswissenschaften und die Veterinärmedizin. Bei Mathematik und den Naturwissenschaften besteht noch Nachholbedarf.
  • Massen-Onlineprüfungen mit MC-Fragen werden definitiv abgelehnt. Wenn  Onlineprüfungen, dann nur solche, die Leistung in einer authentischen Umgebung am Computer prüfen (Programmierung, Design usw.).
  • Portfolios werden eigentlich nur restriktiv für einzelne Lehrveranstaltungen eingesetzt. Lernportfolios über diese Grenzen hinaus, etwa zum Leistungsnachweis eines ganzen Studiengangs, waren kein Thema.
  • Studierende haben insbesondere die Vielfältigkeit der Prüfungsmethoden als sehr positiv empfunden (Roundtable 1 mit Studierenden der University of Hong Kong).
  • Nationale Programme und internationale Akkreditierungen waren sehr häufig ausschlaggebend für die Notwendigkeit der Reformen. Insbesondere die Universitäten in Australien und Neuseeland und teilweise in Grossbritannien und Asien sind bei der Umsetzung führend.
  • Und natürlich ist Hong Kong eine spannende Stadt mit vielen gegensätzlichen Facetten auf engstem Raum.

    The University of Hong Kong

    The University of Hong Kong (Centennial Campus)

Video Analytics: wann und wie benutzen Studierende Lernvideos?

Seit anderthalb Jahren betreibt das Departement Physik ein eigenes Videoaufnahmestudio, in welchem Lehrende Videos in Selbstbedienung erstellen können. Mit mittlerweile 135 Lernvideos aus 10 Vorlesungen und insgesamt über 20‘000 Aufrufen liegen genügend Daten vor, um die Benutzung der Videos über das Semester hinweg zu untersuchen. Youtube stellt dazu mit Analytics eine umfassende Datenbasis zur Verfügung.


(Klicken Sie das Bild, um zum youtube Kanal der Physikvideos zu gelangen)

Datengrundlage: Als Untersuchungsbeispiel werden im Folgenden die Videos einer Physik-Einführungsvorlesung für Bauingenieure (Phys_BAUG) herangezogen. Diese Vorlesung wurde im Herbstsemester 2013 und im Herbstsemester 2014 für jeweils ca. 200 Studierende angeboten. Während der Vorlesungszeit erhielten die Studierenden jede Woche eine Videolösung (bestehend aus 1 bis 2 Einzelvideos). Somit liegen für den Untersuchungszeitraum von Sep 13 bis Feb 15 insgesamt 34 Videos (2×13 Videolösungen) vor. Jede Vorlesung hatte eine eigene Videosammlung, bestehend aus jeweils 13 unterschiedlichen Videolösungen.


Daten aus Phys_BAUG (HS13 und HS14)


In der Grafik werden zwei Kenngrössen im monatlichen Verlauf abgebildet:

  • views (Aufrufe): absolute Anzahl der von youtube registrierten Videoaufrufen (Balken),
  • percetage viewed: durchschnittlicher Anteil der angeschauten Videolänge, gemessen an der Gesamtlänge (Linie).

In Oct 13 wurden somit 655 Aufrufe registriert, wobei die dort aufgerufenen Videos im Schnitt zu 54% angeschaut wurden. Diese Kennzahlen sind laut youtube wichtige Indikatoren für die Zuschauerbindung und beeinflussen sicher auch die Vergütung von zugeschalteter Werbung (falls vorhanden).

Die absoluten Werte sind jedoch mit Vorsicht zu interpretieren. Als Aufruf wird jeder Click auf den Play-Button bewertet, wobei aber Manipulationen durch wiederholtes Clicken möglichst verhindert werden. Wie der Wert von percentage viewed genau ermittelt wird, ist in der Dokumentation nicht ersichtlich. Für den monatlichen Vergleich, wie hier angestrebt, sind diese Bedenken jedoch zweitrangig. Anzumerken ist, dass bei percentage viewed ein Anteil von 30-60% für eine durchschnittliche Videolänge von knapp 15 Minuten von youtube als hohe Zuschauerbindung angesehen wird. Zudem haben Befragungen ergeben, dass 86% der betroffenen Studierenden die Videolänge als „genau richtig“ angeben und somit kein Problem mit Videos von 15 bis 20 Minuten Dauer haben.

Weiterhin ist in der Grafik der Zeitraum in unterschiedliche Perioden unterteilt:

  • lecture period (Sep-Dec): Zeit in welcher die Vorlesung angeboten wird und die Studierenden wöchentlich eine neue Videolösung erhalten,
  • exam period (Jan): Ende Januar findet jeweils die Abschlussprüfung statt,
  • re-test period (Aug): eine Nachprüfung, an der aber nur sehr wenige Studierende teilnehmen,
  • no-lecture (Feb-Jul): in diesem Zeitraum finden weder Vorlesungen noch Prüfungen statt.


In der Grafik fällt zunächst auf, dass sich die Aufrufe (views) während der Prüfungszeit (Jan 14, Jan 15) deutlich erhöhen. Die Videos wurden also verstärkt zur Prüfungsvorbereitung eingesetzt. Während der Vorlesungszeit (Sep bis Dec) fallen die Einbrüche im Sep und Dec auf. Sie sind darauf zurückzuführen, dass das Semester erst Mitte September beginnt und die Weihnachtszeit eher als lernfrei zu betrachten ist. Im Oct 13 wurden die Videos erstmalig in einer Physikvorlesung eingesetzt und daher auch stark beworben. Dies mag den deutlich erhöhten Wert in diesem Zeitraum erklären, der sich in Oct 14 nicht wiederholt. Insgesamt kann man also feststellen, dass in der Vorlesungszeit die Videos ziemlich gleichmässig (im wöchentlichen Rhythmus ihres Erscheinens) benutzt werden.

Bei percentage viewed liegen die Werte während der Vorlesungs- und der Prüfungsvorbereitungszeit etwa gleich hoch. Im Vergleich zu 2013 fallen sie 2014 jedoch geringer aus. Im Gegenzug erhöhen sich dann aber in Jan 15 die Aufrufe deutlich. Diese Abweichung lässt sich entweder auf die unterschiedlichen Videosammlungen, oder auf ein unterschiedliches Benutzerverhalten zurückführen. In 2014 wurden die Videos während der Vorlesungszeit eher partiell aufgeteilt geschaut und deutlich verstärkt in der Prüfungsvorbereitungszeit benutzt. Zum Benutzerverhalten kann noch angemerkt werden, dass laut Befragung 42% der Studierenden zwischen 30 und 60 Minuten mit jedem Video aufwenden. Dies entspricht etwa 2-4 Mal der eigentlichen Videodauer. Beim Anschauen habe 54% der Befragten zusätzlich noch das Vorlesungsskript konsultieren. Ein Grossteil der Studierenden setzt sich also intensiv mit dem Videoinhalt auseinander. Eventuell hat dieses Verhalten einen Einfluss auf die abweichenden Werte von percentage viewed.


  • Insgesamt liefert youtube Analytics brauchbare Daten, um den langfristigen Verlauf der Benutzung von Lernvideos zu analysieren. Detaillierte Informationen zur Generierung der entsprechenden Kernzahlen wären bei der Interpretation jedoch hilfreich.
  • Im Hinblick auf die untersuchte Lernveranstaltung kann festgehalten werden, dass die Videos während der Vorlesung und ebenfalls während der Prüfungsvorbereitung intensiv benutzt wurden. Beim Design von Lernvideos ist daher dieser doppelte Anspruch, Unterstützung der Wissensaneignung und der Wissenskonsolidierung, unbedingt mit zu bedenken.
  • Zusätzlich zur vorliegenden Untersuchung liegen noch Daten aus verschiedenen Befragungen und Interviews vor. Diese und weitere Analysen aus youtube Analytics werden Gegenstand einer umfassenden Studie zum Nutzerverhalten und zur Lernwirksamkeit von Lernvideos darstellen.

Critical Thinking im Flipped Classroom

Hintergrund: Im Rahmen der Critical Thinking Initiative der ETH Zürich haben Dozierende des Department Physik (D-PHYS) und des Departement Geistes- Sozial- und Staatswissenschaften (D-GESS) im FS2015 eine gemeinsame Lehrveranstaltung entwickelt.
ctiFlankierend zur parallel angebotenen Physik-Einführungsvorlesung werden die dort behandelten physikalischen Themen nun im historischen und philosophisch-systematischen Hintergrund eingebettet und kritisch reflektiert. Fragen nach der Relevanz physikalischer Modelle, nach dem Erklärungspotential von Metaphern, nach dem Stellenwert physikalischer Theorien usw. werden hier anhand von Originaltexten erarbeitet und gemeinsam diskutiert.
Mit dieser Veranstaltung sollen die Studierenden befähigt werden, unterschiedliche Ansätze und Problemstellungen aus der Physik kritisch zu bewerten und dies auch souverän kommunizieren zu können. Reflexion und Kommunikation sind also die beiden Hauptpfeiler dieser neuen Veranstaltung. Entsprechend wird auch ein umfassendes Aktivitätsspektrum eingesetzt, um diese Fähigkeiten einzuüben.

Aufbau: Während des Semesters finden 7 Veranstaltungen statt, die jeweils im Team-Teaching von drei Dozenten (1 D-PHYS, 2 D-GESS) geleitet werden. Jede dreistündige Veranstaltung besteht aus einem Input (45 Minuten), einer Debatte der 3 Dozenten (25 Minuten) und einer Plenumsdiskussion (25 Minuten).


Debatte (3 Dozenten vertreten 3 konträre Standpunkte)

Anschliessend wird die Diskussion in Kleingruppen (mit jeweils einem Assistenten) in separaten Räumen weitergeführt (45 Minuten). Im Vorfeld sind die Studierenden aufgefordert, die einführenden Originaltexte während zwei Wochen in einem Diskussionsforum (in Moodle) aufzuarbeiten.
Die Veranstaltung ist mit 3 ECTS ausgewiesen, wobei die aktive Teilnahme in den Diskussionsforen eine Voraussetzung zum Leistungsnachweis darstellt.

Diskussionsgruppe (unter Leitung eines Assistenten)

Diskussionsgruppe (unter Leitung eines Assistenten)

Ca. 70 Studierende (mehrheitlich im 2. Studiensemester) sind in der Veranstaltung eingeschrieben und besuchen diese auch regelmässig. Davon beteiligen sich nahezu 60 Studierende in den Diskussionsforen.


  • Die Beiträge im Diskussionsforum sind äusserst vielseitig und ausführlich (im Schnitt 150 Wörter/Beitrag). Teilweise finden dort auch echte Diskussionsstränge statt. Eine Moderation oder ein Eingreifen der Dozenten/Assistenten ist nicht nötig.
  • Über die Diskussionsbeiträge erhalten die Dozenten bereits vor der eigentlichen Veranstaltung einen Überblick über Verständnisschwierigkeiten und problematische Themenbereiche.
  • Da die Studierenden die Thematik vor der eigentlichen Veranstaltung bereits intensiv aufgearbeitet haben (Lektüre, Foren), entsteht in der Veranstaltung selber eine erhöhte Diskussionsbereitschaft. Zusätzlich animiert die Debatte, in welcher jeder Dozent einen konträren Standpunkt vertritt, die Studierenden dazu, sich eine eigene Meinung zu bilden und diese dann in den anschliessenden Diskussionsgruppen einzubringen.

Fazit: Das Format der Veranstaltung bietet Abwechslung und die Vielfalt der Diskussionskanäle (Forum, Plenumsdiskussion, Kleingruppen) erlaubt es allen Studierenden, sich aktiv einzubringen. Wie im nachfolgenden Kommentar von einem Studierenden beschrieben, werden dabei die Ziele der Critical Thinking Initiative sehr schön umgesetzt:

„Es ist spannend zu sehen, wie verschiedene Menschen verschiedene Ansprüche an die Physik stellen. Man lernt sich dadurch selbst besser kennen.“