6. Testkonstruktion
Die zugrunde liegende messtheoretische Orientierung für die Konstruktion des Multicheck® Wirtschaft und Administration ist die Klassische Testtheorie (siehe z. B. Bühner, 2011; Moosbrugger & Kelava, 2012). Die Konstruktion des Multicheck® Wirtschaft und Administration umfasst den Prozess der Planung und Überprüfung bei der Ausarbeitung der Testaufgaben. Zu Beginn wurden die zu messenden Fähigkeiten (z. B. Merkfähigkeit oder Konzentration) per Anforderungsanalyse identifiziert (siehe Kapitel «Praktische Aspekte bei der Testentwicklung: Anforderungsanalyse») und konzeptuell definiert (siehe Kapitel «Operationalisierung der Konstrukte»). Anschliessend wurden Testaufgaben zur Messung der Fähigkeiten entwickelt. Der Prozess der Testkonstruktion schliesst mit der Ermittlung der Gütekriterien (siehe Kapitel «Testgütekriterien»). Das aktuelle Kapitel beschreibt verschiedene Zwischenschritte der Auswahl und Überprüfung der Testaufgaben. Hier wurden unter anderem das Schwierigkeitsniveau und die sprachlichen Formulierungen der Aufgaben auf ihre Eignung für den Einsatzzweck des Multicheck® Wirtschaft und Administration hin überprüft.
6.1 Praktische Aspekte bei der Testentwicklung: Anforderungsanalyse
In Einklang mit dem Prozess der DIN 33430 für die berufsbezogene Eignungsdiagnostik (DIN, 2016) wurde der Konstruktion des Multicheck® Wirtschaft und Administration eine Anforderungsanalyse vorangestellt (vgl. Höft et al., 2017). Dabei dienten einerseits wissenschaftlich gewonnene Befunde aus der Intelligenzforschung und andererseits in Zusammenarbeit mit Fachpersonen aus der Berufsbildung gesammelte Erkenntnisse als Kriterien für die Auswahl der zu messenden Fähigkeiten.
So wurden auch Kompetenzen ausgewählt, die aus praktischer Sicht für die Zielberufe wichtig sind. In Workshops und Fokusgruppen mit Expertinnen und Experten aus der Berufsbildung wurden für den Multicheck® Wirtschaft und Administration Kompetenzen identifiziert, welche die Jugendlichen für einen erfolgreichen Start ins Berufsleben mitbringen sollten. So wurde unter anderem erfasst, welche kritischen Ereignisse im Arbeitsalltag von Lernenden vorkommen und durch welche Verhaltensweisen und Fähigkeiten sich erfolgreiche von weniger erfolgreichen Lernenden unterscheiden. Ausserdem dienten auch die in den Bildungsplänen der Zielberufe zusammengefassten Kompetenzprofile als Grundlage. Bei der Entwicklung der Aufgaben zur Erfassung von schulischem Grundwissen (d. h. im Bereich Fachkompetenzen), aber auch bei der Entwicklung des Gebiets Digitale Kompetenzen, wurden so praxisbezogene Konzepte umgesetzt (wie u. a. der Lehrplan 21; D-EDK Geschäftsstelle, 2015).
Die quantitativen Anforderungsprofile wurden gemeinsam mit Expertinnen und Experten (Berufsbildnern und Berufsbildnerinnen, Berufsschullehrpersonen sowie Berufsberaterinnen und Berufsberatern) für jeden einzelnen Beruf entwickelt und machen Aussagen über das Fähigkeitsniveau, das in den jeweiligen Berufslehren gefordert wird. Bei der quantitativen Anforderungsanalyse wurde mittels Ratings von Expertinnen und Experten nicht nur das Niveau der Minimalanforderung für die verschiedenen Gebiete definiert, sondern auch Gewichte, die bei der Berechnung des Kennwerts «Gesamtpassung zum Beruf» Verwendung finden. Diese Gewichte spiegeln wider, als wie wichtig Kompetenzgebiete für einen Beruf angesehen werden.
6.3 Entwicklung und Erprobung der konstruierten Items
Bei der Konstruktion wurden also einerseits Aufgabengruppen für die Messung etablierter psychologischer Konstrukte generiert, andererseits wurden Aufgaben entwickelt, um praktische Kompetenzen messbar zu machen, die in der Berufslehre gefordert werden. Zu letzteren zählen vor allem simulationsorientierte Aufgaben wie die Terminplanungsaufgaben im Gebiet Organisationsfähigkeit und die szenariobasierten Situational Judgment Tests zur Erfassung der Selbst- und Sozialkompetenzen.
Die Konstruktion der Aufgaben erfolgte in der Regel mit einem iterativen Vorgehen: Aus einer grösseren Menge von Aufgaben (sogenannten Items) wurden Vorversionen der Aufgabengruppen zusammengestellt, die dann mit jugendlichen Testteilnehmenden empirisch erprobt wurden. So konnten psychometrische Item-Kennwerte ermittelt und zur Auswahl der geeignetsten Aufgaben genutzt werden. Bei der Auswahl und bei der Bestimmung der Reihenfolge der Items in den finalen Skalen wurde insbesondere auf die Kriterien der psychometrischen Trennschärfe beziehungsweise der Schwierigkeit der Aufgaben geachtet. Die Trennschärfe einer Aufgabe bezeichnet den statistischen Zusammenhang (d. h. die Korrelation) des Bearbeitungserfolgs bei einer Aufgabe mit dem Erfolg der Bearbeitung der restlichen Aufgaben einer Aufgabengruppe (d. h. einem Skalenwert, der über die restlichen Items gebildet wird; siehe z. B. Bühner, 2011). Ziel war es unter anderem, zu gewährleisten, dass innerhalb einer Aufgabengruppe Aufgaben unterschiedlichen (und mit der Reihenfolge aufsteigenden) Schwierigkeitsgrades die Messung unterschiedlicher Fähigkeitsniveaus ermöglichen. Ein weiteres Ziel war es, solche Items auszuwählen, die einen ersichtlichen Beitrag zu der Messung der Fähigkeit leisteten, die mit der Aufgabengruppe erfasst wird (im Sinne der psychometrischen Trennschärfe).
Augenmerk wurde bei der Erprobung der Vorversionen auch auf die Benutzerfreundlichkeit im Sinne der Verständlichkeit der Instruktionstexte und Aufgabenstellungen gelegt. Bei den Erhebungen der Erprobungsdaten wurde das Nutzungsverhalten der Teilnehmenden an der Testung systematisch beobachtet und aufkommende Verständnisfragen wurden dokumentiert, um die computergestützten Anleitungen zu den Aufgabengruppen zu verbessern.