7. Testgütekriterien

Die Qualität psychologisch-diagnostischer Messinstrumente wird wissenschaftlich anhand der drei Hauptgütekriterien Objektivität, Reliabilität und Validität beschrieben. Als wichtiges Nebengütekriterien kann die Akzeptanz bei den Teilnehmenden genannt werden. Im Folgenden werden empirische Forschungsergebnisse berichtet, die den Multicheck® Wirtschaft und Administration in Bezug auf diese Gütekriterien beschreiben.

7.1 Empirische Untersuchung des Multicheck® Wirtschaft und Administration

Für die Bestimmung der psychometrischen Gütekriterien wurden verschiedene Stichproben verwendet. Die Dokumentation der empirischen Untersuchungen ist Tabelle T1 zu entnehmen. Alle Datenerhebungen fanden unter Aufsicht einer geschulten Testleitung statt. Bei allen Datenerhebungen hatten die Teilnehmenden das Ziel, ein individuelles Ergebnis zu ihrer Durchführung des Multicheck® Wirtschaft und Administration zu erhalten. Die Daten in der Stichprobe «Studie» wurden im Rahmen eines eigens durchgeführten Forschungsprojekts erhoben. Bei dem Forschungsprojekt erhielten die Teilnehmenden im Vorfeld des Termins der Testungen per E-Mail eine Einladung zu einer kurzen Online-Befragung, bei der erfasst wurde, wie hoch die im Multicheck® Wirtschaft und Administration erfassten Kompetenzen bei ihnen ihrer Meinung nach ausgeprägt sind (Selbsteinschätzungen).. Zudem wurden Selbsteinschätzungen mit dem Inventar zur selbsteingeschätzten Intelligenz (ISI, Rammstedt & Rammsayer, 2014) erfasst. Teilnehmende führten dann bei ihrem Termin der Durchführung am Vormittag eine Testung des Multicheck® Wirtschaft und Administration durch und beantworten dazu im Anschluss Fragen zur Akzeptanz des Testverfahrens. Zur Erfassung der Akzeptanz wurde der AKZEPT!-Fragebogen (Kersting, 2002) verwendet. Am Nachmittag desselben Tages führten die Teilnehmenden eine Testung mit dem Intelligenz-Struktur-Test 2000 R (I-S-T 2000 R, Liepmann et al., 2007) durch. Im Anschluss beantworten die Teilnehmenden noch Fragebogen zur Akzeptanz des I-S-T 2000 R, Testängstlichkeit (erfasst mit dem Prüfungsängstlichkeitsinventar TAI-G, Kurzform; Wacker et al., 2008) und allgemeinen Persönlichkeitsmerkmalen (erfasst mit dem Big Five Inventory für Kinder und Jugendliche in der Kurzform, BFI-K KJ; Kupper et al., 2019). Alle Tests und Fragebogen wurden am Computer bearbeitet. Die Teilnehmenden brachten zur Testung eine Kopie ihres Abschlusszeugnisses der achten Schulklasse mit sowie eine Einverständniserklärung (bei nicht volljährigen Teilnehmenden unterzeichnet von ihren Eltern). Teilnehmende erhielten ihr Multicheck®-Zertifikat von der Durchführung beim Termin gratis sowie zusätzlich eine Aufwandsentschädigung von zwanzig Franken.

Tabelle T1. Dokumentation der empirischen Untersuchungen

Tabelle T1. Dokumentation der empirischen Untersuchungen

Anmerkung. Alle Datenerhebungen fanden unter Aufsicht einer geschulten Testleitung statt. Bei allen Datenerhebungen hatten die Teilnehmenden das Ziel, ein individuelles Ergebnis zu ihrer Durchführung des Multicheck® Wirtschaft und Administration zu erhalten.

Das Leistungsniveau der Untersuchungsstichprobe «Studie» ist repräsentativ im Vergleich mit der Normstichprobe: In der Stichprobe «Studie» liegen so die z-Werte des Gesamtbereichswerts Fach- und Methodenkompetenzen im Bezug zur Normstichprobe bei einem Mittelwert von M = 0.09 und einer und Standardabweichung von SD = 1.05 (z-Werte der Normstichprobe: M = 0 und SD = 1). Die für die Validierungsstudie herangezogene Untersuchungsgruppe entspricht auch in ihren Merkmalen (u. a. Alter) und ihrer Situation (Ziel der Bearbeitung des Multicheck® Wirtschaft und Administration) der Zielgruppe des Verfahrens (siehe Tabelle T1) und kann somit als angemessen für den Zweck der Bestimmung der Validität angesehen werden.

Die in der Stichprobe «Retest» eingeschlossenen Teilnehmenden haben nach einem Zeitraum von durchschnittlich 42 Tagen nach ihrer ersten Durchführung des Multicheck® Wirtschaft und Administration eine zweite Durchführung gemacht (Testform Fremdsprache Französisch). Es handelt sich dabei um eine anfallende Stichprobe von Personen: die Teilnehmenden wurden dabei nicht wie in einem Studienkontext darum gebeten, den Test ein zweites Mal durchzuführen, sondern haben aus eigenem Interesse den Test wiederholt. Die Stichprobe «Retest» überschneidet sich nicht mit der Stichprobe «Studie» und der Normgruppe. Von den in den empirischen Untersuchungen eingeschlossenen Personen erhielten nur diejenigen in der Stichprobe «Studie» eine Belohnung.

7.1.1 Eigenschaften der Normgruppe

Die Normstichprobe des Multicheck® Wirtschaft und Administration stammt aus den Jahren 2021 und 2022 und umfasst N = 4677 Personen (davon 2337 männlich und 2340 weiblich). Die meisten Teilnehmenden (71.3 %) waren zum Zeitpunkt der Durchführung 14 oder 15 Jahre alt (Modus = 15, Median = 15, M = 15.63, SD = 2.55). Dabei handelt es sich um die Population aller Teilnehmenden im Erhebungszeitraum. Es ist davon auszugehen, dass sich die Teilnehmenden in der Regel im Prozess der Bewerbung für eine Lehrstelle befanden. So setzt sich die Normstichprobe aus Personen zusammen, die zum Zeitpunkt der Testdurchführung ein ernsthaftes Interesse an einem Beruf aus der Berufsgruppe im Bereich Wirtschaft und Administration hatten. Die Teilnehmenden in der Normstichprobe bestellten bei ihrer Registrierung überwiegend eine Auswertung mit dem Anforderungsprofil für den Beruf Kaufmann/Kauffrau EFZ (n = 4652). Die Normen sind entsprechend der DIN 33430 (DIN, 2016) aktuell und unter Ernstfallbedingungen erhoben worden. Gemessen an der Grösse der Normgruppe und am Kontext der Erhebung der Normdaten, sind diese als umfangreich und für die Zielgruppe als repräsentativ zu bewerten. Der Grossteil der Personen in der Normstichprobe (85 %) war zum Zeitpunkt der Teilnahme jünger als 17 Jahre alt und kann somit der obligatorischen Schule zugeordnet werden. Um einen einheitlichen Vergleich zu ermöglichen, wird auf bildungsspezifische Normen verzichtet, bei denen Teilnehmende je nach Schulform oder Schulniveau unterschiedlich bewertet werden würden.

7.1.2 Verteilungen der Bereichswerte

Die Häufigkeitsverteilungen der Rohwerte der zwei Bereiche und des Gesamtbereichs in der Stichprobe der Normgruppe sind in Abbildung T2 wiedergegeben. Der Rohwert errechnet sich als das arithmetische Mittel der Rohwerte der zugrundeliegenden Gebiete und drückt aus, welchen Anteil (in Prozent) der gestellten Aufgaben im Durchschnitt korrekt gelöst wurden (siehe Kapitel «Auswertung für die Bereiche Fachkompetenzen und Methodenkompetenzen»). Der Gesamtbereichswert ist das arithmetische Mittel der Rohwerte aus den beiden Bereichen. In den zwei Bereichswerten Fachkompetenzen (M = 50.64, SD = 10.86, Schiefe = 0.00, Kurtosis =-0.05) und Methodenkompetenzen (M = 56.00, SD = 10.42, Schiefe = -0.01, Kurtosis =-0.09) sowie im Gesamtbereichswert Fach- und Methodenkompetenzen (M = 54.65, SD = 10.10, Schiefe = -0.04, Kurtosis =-0.13) nähern sich die Rohwerte einer Normalverteilung an und es zeigen sich weder Boden- noch Deckeneffekte.

Abbildung T2. Häufigkeitsverteilungen des Rohwerts der Bereiche und des Gesamtbereichs in der Normgruppe

7.2 Objektivität

Unter der Objektivität einer wissenschaftlichen Untersuchung versteht man die Unabhängigkeit der Ergebnisse von den Rahmenbedingungen der Untersuchung bei (1) der Durchführung, (2) der Auswertung und (3) bei der Interpretation (vgl. Fisseni, 1997).

Durchführungsobjektivität

Die Durchführung eines psychologisch-diagnostischen Messverfahrens soll so wenig wie möglich von externen Störfaktoren beeinflussbar und möglichst standardisiert sein. Die Durchführungen des Multicheck® Wirtschaft und Administration finden in Testcentern unter der Anleitung von Testleiterinnen oder Testleitern statt. Die Testung ist computerbasiert und alle Teilnehmenden erhalten eine einheitliche Instruktion am Bildschirm. Teilnehmende haben die Möglichkeit, der Testleitung Fragen zu den Instruktionen zu stellen, wenn sie etwas nicht verstehen. Der Testleitung liegt ein Durchführungsmanual vor, das sie zu befolgen hat. In diesem Manual finden sich auch vordefinierte Antworten auf Fragen und es sind Grenzen abgesteckt, inwieweit auf die Fragen überhaupt eingegangen werden darf. Aufgrund dieser kontrollierten Bedingungen der Testung kann die Durchführungsobjektivität als sehr hoch angesehen werden, verglichen mit anderen Fähigkeitstests, die zum Beispiel von Teilnehmenden am heimischen Computer absolviert werden.

Auswertungsobjektivität

Von Auswertungsobjektivität wird gesprochen, wenn ein und dieselben Antworten in den Testaufgaben immer zu ein und denselben Resultaten führen. Dieses Kriterium kann aufgrund der computerbasierten und automatisierten Berechnung der Ergebnisse für den Multicheck® Wirtschaft und Administration als vollumfänglich erfüllt gelten.

Interpretationsobjektivität

Die Objektivität der Interpretation ist dann hoch, wenn unterschiedliche Personen unabhängig voneinander aus gleichen Werten die gleichen Schlussfolgerungen ziehen und somit die Ergebnisse einstimmig interpretieren. Die Interpretation der Ergebnisse des Multicheck® Wirtschaft und Administration wird durch die Visualisierung der Werte per Balkendiagramme erleichtert. Die Einordnung eines individuellen Testwerts in den Bezugsrahmen des für den Beruf mitgelieferten Anforderungsprofils wird mittels der Anforderungslevel ermöglicht: Diese Bereiche bieten Orientierung für die Interpretation der Testwerte einer Person in Bezug auf das geforderte Fähigkeitsniveau im Zielberuf. Ausserdem enthält jedes Zertifikat einen Anhang mit dem Zugang zu Interpretationshinweisen, was Anwenderinnen und Anwendern eine zusätzliche Anwendungshilfe bietet und zur Objektivität der Interpretation beiträgt.

7.3 Item-Kennwerte

Als psychometrische Kennwerte wurden die Item-Trennschärfen und Schwierigkeiten der im Multicheck® Wirtschaft und Administration verwendeten Aufgabenuntergebiete berechnet. Als Datengrundlage dienten die Stichproben «Normgruppe gesamt», «Normgruppe Testform Fremdsprache Französisch» und «Normgruppe Testform Fremdsprache Italienisch» (siehe Tabelle T1, Abschnitt «Empirische Untersuchung des Multicheck® Wirtschaft und Administration»). Die Ergebnisse sind in Tabelle R1 zusammengefasst mit dem Kennwert des Items mit dem jeweils niedrigsten und dem Kennwert des Items mit dem jeweils höchsten Kennwert pro Aufgabengruppe. Als Mass der zentralen Tendenz werden arithmetische Mittelwerte der Kennwerte aller Items in der Aufgabengruppe aufgeführt. Der Anteil der Items pro Untergebiet mit Trennschärfen grösser als .25 ist als Prozentangabe enthalten (bei «r_it > .25»).

Tabelle R1. Item-Kennwerte des Multicheck® Wirtschaft und Administration

Tabelle R1. Item-Kennwerte des Multicheck® Wirtschaft und Administration

Anmerkung. N = 260—4677.

¹ Aufgrund der Einfachheit der Aufgaben und der hohen Geschwindigkeitskomponente im Aufgabengebiet Koordinaten (wie bei Konzentrationstests konzeptuell üblich) ist es nicht sinnvoll, die Item-Kennwerte im Gebiet Konzentration zu interpretieren.

² Die Item-Schwierigkeiten wurden bei den Situational Judgment Tests berechnet, indem über alle Teilnehmenden hinweg die Summe der vergebenen Punkte bei einem Item an der Anzahl der maximal möglichen Punkte relativiert wurde.

³ Da die Relation von verschiedenen Korrelationskoeffizienten sich nicht im Sinne einer Verhältnisskala auffassen lässt, wurden die Trennschärfen zunächst in Fishers Z-Werte transformiert. Anschließend wurde das arithmetische Mittel der Z-Werte berechnet und dieses wurde wiederum zurück zu einer Korrelation transformiert.

Wie in Tabelle R1 ersichtlich, ist in mehreren Aufgabengruppen das Item mit der niedrigsten Trennschärfe ein Item, das eine Trennschärfe nahe null hat. Schwierigkeit und Trennschärfe sind als Item-Kennwerte wichtige Kriterien, jedoch nicht die einzigen Gütemassstäbe bei der Testkonstruktion: um einen möglichst breiten Inhaltsbereich zu repräsentieren und so die Inhaltsvalidität zu sichern (siehe Bühner, 2011), ist es sinnvoll, Tests mit heterogenen Aufgaben zu verwenden. Werden Fähigkeiten in möglichst vielen Aspekten und Facetten getestet, so steigert dies die Güte des Tests im Sinne der Inhaltsvalidität, es kann jedoch dann zu reduzierten Kennwerten der Aufgaben-Kovarianz (wie Trennschärfen und internen Konsistenzen) kommen. Insbesondere bei den Gebieten, die Wissenstests enthalten, können tiefere Trennschärfen darauf zurückgeführt werden, dass die Aufgaben für den Multicheck® Wirtschaft und Administration so konstruiert und ausgewählt wurden, dass sie die Gebiete möglichst vielseitig erfassen (wie unter anderem im Gebiet Digitale Kompetenzen). Wohlgemerkt wurden die Trennschärfen in Tabelle R1 im Rahmen der Aufgabengruppe des Untergebiets berechnet. Die Kennwerte eines Items können im Rahmen der gesamten Aufgabengruppe eines Gebiets (wie Deutsch oder Logik) anders ausfallen als auf dieser Ebene der Sub-Skalen in den Untergebieten (Deutsch Grammatik oder Verbale Analogien).

7.4 Reliabilität

Unter Reliabilität wird die Zuverlässigkeit im Sinne der Messgenauigkeit eines Testverfahrens verstanden. Reliabilität kann unterschiedlich bestimmt werden. Eine gängige Methode zur Bestimmung der Messgenauigkeit eines Verfahrens ist die Berechnung der internen Konsistenz einer Item-Skala (hier einer Reihe von Aufgaben zur Messung ein und derselben Fähigkeit in einer Aufgabengruppe). Das etablierteste Mass ist der Reliabilitätskoeffizient Cronbachs Alpha (Cronbach, 1951). Analysen zur internen Konsistenz geben Auskunft darüber, wie stark die einzelnen Items einer Skala insgesamt miteinander zusammenhängen und das Gleiche messen beziehungsweise in welchem Ausmass ein und dieselben Personen die verschiedenen Aufgaben gleich gut lösen.

Tabelle R2. Reliabilitätsschätzer für Gebiete und Untergebiete des Multicheck® Wirtschaft und Administration

Tabelle R2. Reliabilitätsschätzer für Gebiete und Untergebiete des Multicheck® Wirtschaft und Administration

Anmerkung. N_α = 260 – 4677. α = Interne Konsistenz (Cronbachs Alpha).

r_Retest = Test-Retest-Korrelation (N =311; Zeitintervall: M= 42.5 Tage, SD= 36.9 Tage).

^a Testform Fremdsprache Französisch
^b Testform Fremdsprache Italienisch
^c Für die Testform Fremdsprache Italienisch wurde keine Test-Retest-Korrelation bestimmt.
^d Interne Konsistenz berechnet unter Ausschluss der Aufgaben im Untergebiet Koordinaten
^e Aufgrund der Einfachheit der Aufgaben und der hohen Geschwindigkeitskomponente im Aufgabengebiet Koordinaten (wie bei Konzentrationstests konzeptuell üblich) ist es nicht sinnvoll, Cronbachs Alpha im Untergebiet Koordinaten und im Gebiet Konzentration zu interpretieren.

Tabelle R2 fasst die Reliabilitätsschätzer für den Multicheck® Wirtschaft und Administration zusammen. Als Datengrundlage dienten je nach Aufgabengebiet und Kennwert die Stichproben «Normgruppe gesamt», «Normgruppe Testform Fremdsprache Französisch», «Normgruppe Testform Fremdsprache Italienisch» und «Retest» (siehe Tabelle T1, Abschnitt «Empirische Untersuchung des Multicheck® Wirtschaft und Administration»). Wie in Tabelle R2 zu erkennen, liegen die Koeffizienten der internen Konsistenz für die Aufgabengebiete mehrheitlich im Bereich über α = .70, der üblicherweise als wünschenswert gilt (siehe z. B. Cortina, 1993). Auf der Ebene der Fähigkeitsbereiche Fachkompetenzen und Methodenkompetenzen und des Gesamtbereichswerts Fach- und Methodenkompetenzen liegen die mittels interner Konsistenz geschätzten Reliabilitätskoeffizienten in einem hohen bis sehr hohen Bereich. Die interne Konsistenz der Aufgaben im Gesamtbereich Fach- und Methodenkompetenzen (Aggregat mit 393 Items) betrug so für die Testform Fremdsprache Französisch α = .95 und für die Testform Fremdsprache Italienisch α = .94 (berechnet unter Ausschluss der Aufgaben im Untergebiet Koordinaten). Die Test-Retest-Korrelation im Gesamtbereich Fach- und Methodenkompetenzen betrug für die Testform Fremdsprache Französisch r_Retest = .79.

Dass einige Reliabilitätskoeffizienten unter einem wünschenswerten Bereich von α > .70 liegen, lässt sich unter anderem mit dem Reliabilitäts-Validitäts-Dilemma (siehe z. B. Lienert & Raatz, 1998) erklären: Eine Messung wird umso genauer, je homogener oder enger die zu messende Eigenschaft definiert ist. Die Heterogenität eines Untergebiets wird umso grösser, je stärker sich die Testkonstruktion am Kriterium der Inhaltsvalidität ausrichtet. Werden Fähigkeiten in möglichst vielen Aspekten und Facetten getestet, so steigert dies die Güte des Tests im Sinne der Inhaltsvalidität, es kann jedoch dann zu reduzierten Kennwerten der internen Konsistenz kommen (wie in Kapitel «Item-Kennwerte» bereits diskutiert). Andererseits kann auch der Praxisbezug gewisser Untergebiete als Ursache für die Heterogenität benannt werden. Bei berufsspezifischen Kompetenzen (wie beispielsweise Organisationsfähigkeit) soll so das Können einer Person abgebildet werden, welches einen sehr hohen inhaltlichen Bezug zu den realen Anforderungen im Berufsleben hat (siehe auch Kapitel «Praktische Aspekte bei der Testentwicklung: Anforderungsanalyse»). Diese praxisbezogenen Anforderungen weisen daher eine grosse Breite auf und es braucht demzufolge verschiedene Fähigkeiten, um die Aufgaben erfolgreich zu bearbeiten (z. B. braucht man für das Gebiet Vernetztes Denken verschiedene Kompetenzen, wie unter anderem Textverständnis, schlussfolgerndes Denken und Konzentration). Durch diesen gewollt hohen Praxisbezug und die daraus resultierenden Heterogenität können Skalen valide sein und sich für die Vorhersage für Leistung und Erfolg in der Lehre eignen, aber nur eine bedingte interne Konsistenz aufweisen (siehe z. B. Bühner, 2011).

Schätzungen der Reliabilität mittels Test-Retest-Korrelation fallen insgesamt numerisch niedriger aus (siehe Tabelle R2). Diese Kennwerte wurden mit einer anfallenden Stichprobe von N = 311 Personen berechnet, welche nach einem Zeitraum von durchschnittlich 42 Tagen nach ihrer ersten Durchführung den Multicheck® Wirtschaft und Administration ein zweites Mal durchgeführt haben (Testform Fremdsprache Französisch). Die Stichprobe «Retest» und der Studienplan werden im Kapitel «Empirische Untersuchung des Multicheck® Wirtschaft und Administration» beschrieben. Der Grund für die Wiederholung der Durchführung lag vermutlich nicht selten darin, dass die Teilnehmenden mit dem Verlauf oder dem Ergebnis der ersten Durchführung nicht zufrieden waren. Im Durchschnitt der Teilnehmenden verbesserte sich die Testleistung gemessen am Rohwert im Gesamtbereich «Fach- und Methodenkompetenzen» von einem Mittelwert von M = 50.68 (SD = 6.84) bei Durchführung 1 hin zu einem Mittelwert von M = 58.54 (SD = 7.85) bei Durchführung 2. Der Mittelwertsunterschied zwischen den beiden Messzeitpunkten ist statistisch signifikant (t[332]= -29.278, p < .001). Zur Berechnung der Effektstärke wurde die gepoolte und anhand der Korrelation korrigierte Standardabweichung (vgl. Lakens, 2013) verwendet. Das Ergebnis (d = 2.45) entspricht einem grossen Effekt. Es lässt sich angesichts des grossen Effekts der Testwiederholung vermuten, dass an der Ernsthaftigkeit der ersten Durchführung, zumindest bei einem Anteil der Teilnehmenden, gezweifelt werden kann. Die gefundenen Test-Retest-Korrelationen könnten die Reliabilität des Tests aufgrund eines so entstandenen Rauschens in den Testergebnissen der ersten Durchführung unterschätzen.

Zusammengefasst weisen die Reliabilitätsschätzungen per Bestimmung der internen Konsistenz für die verschiedenen Ebenen des Multicheck® Wirtschaft und Administration meist auf eine akzeptable bis exzellente Messgenauigkeit hin. Der gängige Reliabilitäts-Standard wird dabei für die Testwerte der Bereiche und des Gesamtwerts erreicht.

7.5 Validität

Zur Bestimmung der Validität des Multicheck® Wirtschaft und Administration liegen empirische Befunde zur Konstruktvalidität und Kriteriumsvalidität vor, die im Folgenden beschrieben werden. Im Bereich der Validität werden interne Zusammenhänge (Interkorrelation und dimensionale Struktur der Scores) sowie Zusammenhänge des Multicheck® Wirtschaft und Administration mit externen Variablen präsentiert (z. B. Fähigkeiten und Persönlichkeitsmerkmale, die mit anderen Testverfahren erhoben wurden). Da die durchgeführten Korrelationsanalysen keinen streng konfirmatorischen Zweck haben, sondern darauf ausgerichtet sind, das nomologische Netzwerk des Multicheck® Wirtschaft und Administration kennenzulernen, wird im Folgenden von einer Korrektur der multiplen Signifikanztests gegen Alpha-Fehler-Kumulierung abgesehen. Auf den Bericht von Validierungs-Befunden zu vorhergehenden Fassungen des Multicheck® Wirtschaft und Administration aus universitären Qualifikationsarbeiten (i.e., Süess & Schmidt-Atzert, in Vorbereitung; Widmer, 2006) wird in diesem Manual verzichtet, weil das Testverfahren seit der Durchführung der vorherigen Validierungsuntersuchungen einer grundlegenden Revision unterzogen wurde. Als Datengrundlage dienten je nach Kennwert die Stichproben «Normgruppe gesamt», «Normgruppe Testform Fremdsprache Französisch» und «Studie» (siehe Tabelle T1, Abschnitt «Empirische Untersuchung des Multicheck® Wirtschaft und Administration»). Es ist zu beachten, dass es wegen fehlender Werte in der Stichprobe «Studie» je nach Auswertung zu tieferen Fallzahlen kommen kann als in Tabelle T1 angegeben.

7.5.1 Konstruktvalidität

7.5.1.1 Dimensionsanalysen

Die bivariaten Korrelationen der Kompetenzgebiete sind in Tabelle V1 aufgeführt. Wie in Tabelle V1 ersichtlich, gibt es zwischen den Gebieten ein substantielles Mass an Kovarianz. Weil die Gebiete konzeptuell zur Messung ähnlicher Kompetenzen (wie Fachkompetenzen oder Methodenkompetenzen) entwickelt wurden, entspricht das Vorliegen von Zusammenhängen zwischen den Gebieten den Erwartungen.

Tabelle V1. Korrelationen der dreizehn Gebiete des Multicheck® Wirtschaft und Administration

Tabelle V1. Korrelationen der dreizehn Gebiete des Multicheck® Wirtschaft und Administration

Anmerkung. N = 260 – 4677.

¹ Die beiden Testformen mit Fremdsprache Französisch und Fremdsprache Italienisch wurden nicht im Zusammenhang untersucht.
* p < .05, ** p < .01, *** p < .001

Die Passung der dimensionalen Struktur, welche die Auswertung des Multicheck® Wirtschaft und Administration vorgibt (durch die Einteilung der Gebiete in Bereiche), wurde mittels einer konfirmatorischen Faktorenanalyse getestet. Dazu wurde das «Lavaan»-Paket in der Software «R» verwendet. Um die Schätzer im Ergebnis interpretierbar zu machen, wurden die Scores der Aufgabengebiete zuvor z-standardisiert. Die Maximum Likelihood-Schätzung für die schiefwinklige Lösung der Testform Fremdsprache Französisch ergab: Chi-Quadrat = 1186.77 (df: 62, p-Wert < 0.001), Comparative Fit Index (CFI) = .917, Root Mean Square Error of Approximation (RMSEA) = .064 und Standardized Root Mean Square Residual (SRMR) = .039. Die Schätzer für die Gewichte der Multicheck®-Gebiete mit den latenten Variablen sind in Tabelle V2 dargestellt (Testform Fremdsprache Französisch). Die Ergebnisse lassen sich gemäss gängigen Konventionen insgesamt im Sinne einer akzeptablen, wenngleich nicht sehr guten, Modelpassung bewerten, da der CFI den etablierten Grenzwert von .95 (vgl. Hu & Bentler, 1999) unterschreitet.

Tabelle V2. Konfirmatorische Faktorenanalyse für die Aufgabengebiete des Multicheck® Wirtschaft und Administration, Testform Fremdsprache Französisch

Tabelle V2. Konfirmatorische Faktorenanalyse für die Aufgabengebiete des Multicheck® Wirtschaft und Administration, Testform Fremdsprache Französisch

Anmerkung. N = 4417. Maximum Likelihood-Schätzung für die schiefwinklige Lösung. Die manifesten Variablen wurden zur Gewinnung von interpretierbaren Schätzern zuvor z-standardisiert.

7.5.1.2 Konvergente Konstruktvalidierung

Die Eignungsanalyse Multicheck® Wirtschaft und Administration wurde konstruiert, um kognitive Fähigkeiten im Sinne von Schulwissen und Intelligenz zu erfassen. Wenn diese Interpretation der Testergebnisse gültig ist, müssten die Testwerte mit einem anderen Testverfahren zusammenhängen, das nachweislich ebenfalls diese Fähigkeiten erfasst. Um diesen Aspekt der konvergenten Validität zu prüfen, wurden in einer eigens durchgeführten Studie N = 196 Personen jeweils am selben Tag sowohl mit dem Multicheck® Wirtschaft und Administration getestet als auch mit dem Intelligenz-Struktur-Test 2000 R (I-S-T 2000 R, Liepmann et al., 2007), einem häufig eingesetzten und gut erforschten Intelligenztest (Form A). In der Auswertung des I-S-T 2000 R werden je drei Aufgabengruppen zu den drei Skalen Verbale Intelligenz (Reliabilität: α = .88), Numerische Intelligenz (Reliabilität: α = .95) und Figurale Intelligenz (Reliabilität: α = .87) zusammengefasst (Angaben zur Reliabilität entnommen aus Liepmann et al., 2007). Die drei Skalen werden zu einem Gesamtwert Schlussfolgerndes Denken (Reliabilität: α = .96; Liepmann et al., 2007) aggregiert. Ausserdem ist ein Test zur Merkfähigkeit enthalten (Reliabilität: α = .93; Liepmann et al., 2007). Aus dem Erweiterungsmodul des I-S-T 2000 R wurde zusätzlich der für die Schweiz konstruierte und normierte Wissenstest (zu Themen wie unter anderem Geografie, Geschichte, Kunst, Kultur, Mathematik und Naturwissenschaften) in der vorliegenden Studie verwendet.

Die Zusammenhänge zwischen dem I-S-T 2000 R und dem Multicheck® Wirtschaft und Administration sind in Tabelle V3 zusammengefasst.

Tabelle V3. Korrelationen zwischen dem Multicheck® Wirtschaft und Administration und dem I-S-T 2000 R (Liepmann et al., 2007)

Tabelle V3. Korrelationen zwischen dem Multicheck® Wirtschaft und Administration und dem I-S-T 2000 R (Liepmann et al., 2007)

Anmerkung. N = 196. Das Gebiet Italienisch wurde aufgrund der geringen Fallzahl mit der Testform Fremdsprache Italienisch (N=12) nicht im Zusammenhang mit dem I-S-T 2000 R untersucht.
* p < .05, ** p < .01, *** p < .001

Die Korrelationen zwischen den beiden Leistungstests fallen wie erwartet insbesondere zwischen den typgleichen (d. h. sich inhaltlich entsprechenden) Skalen hoch aus. So findet sich zum Beispiel zwischen dem Kompetenzgebiet Deutsch im Multicheck® Wirtschaft und Administration und der Skala Verbale Intelligenz des I-S-T 2000 R ein höherer Zusammenhang als zwischen dem Kompetenzgebiet Deutsch und der Skala Numerische Intelligenz. Die Zusammenhänge zwischen den Bereichswerten des Multicheck® Wirtschaft und Administration und den Skalenwerten des I-S-T 2000 R können als grosse Effekte (vgl. Cohen, 1988) angesehen werden (mit Ausnahme des I-S-T 2000 R-Untertests Merkfähigkeit, bei dem die Zusammenhänge mit den Multicheck®-Bereichswerten numerisch niedriger jedoch von der Richtung her sinnvoll interpretierbar sind).

7.5.1.3 Diskriminante Konstruktvalidierung

Nach der DIN 33430 (DIN, 2016) sollte für einen Test nicht nur dargelegt werden, wie sich das fragliche Konstrukt aufgrund von inhaltlichen Überlegungen und empirischen Nachweisen zu ähnlichen Konstrukten verhält (konvergente Konstruktvalidität, siehe Kapitel «Konvergente Konstruktvalidierung»), sondern auch, wie sich wie sich das fragliche Konstrukt aufgrund von inhaltlichen Überlegungen und empirischen Nachweisen zu unähnlichen Konstrukten verhält (diskriminante Konstruktvalidität).

Als Leistungstest zur Erfassung von kognitiven Fähigkeiten sollten die Testwerte des Multicheck® Wirtschaft und Administration weitgehend unabhängig von allgemeinen Persönlichkeitsmerkmalen sein. Zur Prüfung dieser Annahme im Sinne der diskriminanten Konstruktvalidität wurden die Zusammenhänge zwischen dem Multicheck® Wirtschaft und Administration und einem etablierten Persönlichkeitsfragebogen untersucht. Nach Bearbeitung des Multicheck® Wirtschaft und Administration und des I-S-T 2000 R füllten N = 196 Studienteilnehmende auch einen Fragebogen zur Erfassung der Big Five Persönlichkeitsmerkmale bei Kindern und Jugendlichen aus (Big Five Inventory für Kinder und Jugendliche in der Kurzform, BFI-K KJ; Kupper et al., 2019). Der BFI-K KJ erfasst die universellen fünf Persönlichkeitsmerkmale (Angabe der Test-Retest-Reliabilität [r_tt] der Skalen aus dem Konstruktionsartikel von Kupper et al., 2019):

(1) Extraversion (negativ gepoltes Beispielitem: «[Ich] … bin eher zurückhaltend»; r_tt = .70)

(2) Verträglichkeit (Beispielitem: «[Ich] … schenke anderen leicht Vertrauen»; r_tt = .65)

(3) Gewissenhaftigkeit (Beispielitem: «[Ich] … erledige Aufgaben ordentlich»; r_tt = .80)

(4) Neurotizismus (Beispielitem: «[Ich]… mache mir viele Sorgen»; r_tt = .65)

(5) Offenheit für Erfahrungen (Beispielitem: «[Ich] … interessiere mich für vieles»; r_tt = .77).

Die Korrelationen zwischen den Multicheck®-Testwerten und dem Big Five Inventory für Kinder und Jugendliche ist in Tabelle V4 wiedergegeben. Wie sich zeigt, fallen die Zusammenhänge zwischen den Multicheck®-Testwerten und den Testwerten des BFI-K KJ sehr gering aus.

Tabelle V4. Korrelationen zwischen dem Multicheck® Wirtschaft und Administration und dem BFI-K KJ (Kupper et al., 2019)

Tabelle V4. Korrelationen zwischen dem Multicheck® Wirtschaft und Administration und dem BFI-K KJ (Kupper et al., 2019)

Anmerkung. N = 196.
* p < .05

Wie bei einem Leistungstest vorgesehen, sollten Personen, welche den Multicheck® Wirtschaft und Administration durchführen, relativ ungehindert ihr wahres Können unter Beweis stellen. Prüfungsängstlichkeit kann als ein Aspekt gelten, der die Testleistung beeinträchtigen kann und sollte so im Sinne der diskriminanten Validität, wenn überhaupt, nur schwach mit den Testwerten zusammenhängen. Um die Unabhängigkeit von Testleistung und Prüfungsängstlichkeit zu untersuchen, füllten Studienteilnehmende nach der Durchführung des Multicheck® Wirtschaft und Administration das Prüfungsängstlichkeitsinventar TAI-G (Kurzform; Wacker et al., 2008) aus. Das TAI-G erfasst mit 15 Items, wie sich Personen im Allgemeinen in Prüfungssituationen fühlen und was sie dabei denken. Es werden vier Dimensionen unterschieden (Angabe der Reliabilitätsschätzung für die Skalen aus dem Konstruktionsartikel von Wacker et al., 2008):

(1) Aufgeregtheit (Beispielitem: «Das Herz schlägt mir bis zum Hals»; α = .89)

(2) Besorgtheit (Beispielitem: «Ich denke daran, was passiert, wenn ich schlecht abschneide»; α = .88)

(3) Zuversicht (Beispielitem: «Ich bin zuversichtlich»; α = .87)

(4) Interferenz (Beispielitem: «Ich werde in meinem Gedankengang unterbrochen, weil mir etwas nebensächliches einfällt»; α = .82)

Die Korrelationen zwischen den Multicheck®-Testwerten und dem Prüfungsängstlichkeitsinventar sind in Tabelle V5 dargestellt.

Tabelle V5. Korrelationen zwischen dem Multicheck® Wirtschaft und Administration und dem Prüfungsängstlichkeitsinventar TAI-G (Kurzform, Wacker et al. 2008)

Tabelle V5. Korrelationen zwischen dem Multicheck® Wirtschaft und Administration und dem Prüfungsängstlichkeitsinventar TAI-G (Kurzform, Wacker et al. 2008)

Anmerkung. N = 196.

Die Zusammenhänge zwischen den vier Dimensionen des TAI-G weisen in die erwartete Richtung, fallen jedoch gering aus und erreichen selbst mit der vorhandenen Stichprobengrösse keine Überzufälligkeit (statistische Signifikanz). In diesem Sinne kann die Testleistung beim Multicheck® Wirtschaft und Administration als weitgehend unabhängig von allgemeiner Prüfungsängstlichkeit betrachtet werden.

7.5.2 Befunde zur Kriteriumsvalidierung

7.5.2.1 Kriterium Selbsteinschätzungen

Als Kriterium für die Validierungsuntersuchung wurden einerseits Selbsteinschätzungen und andererseits Schulnoten verwendet. Beide Masse sind Leistungseinschätzungen, die nicht mit psychometrischen Leistungstests erfasst und als Indikatoren von kognitiven Fähigkeiten angesehen werden können. Zur Erfassung der Selbsteinschätzung erhielten die Studienteilnehmenden mit der Bestätigung ihrer Anmeldung zur Teilnahme einen Link zu einer Online-Befragung, die sie bis spätestens am Tag vor der Durchführung des Multicheck® Wirtschaft und Administration ausfüllten. Hier wurden zwei Instrumente zur Selbsteinschätzung eingesetzt. Zunächst wurde mit Hilfe eines selbst entwickelten Fragebogens jedes Kompetenzgebiet des Multicheck® Wirtschaft und Administration mit einer Vignette beschrieben. Zum Beispiel lautete der Text zur Beschreibung des Kompetenzgebiets Mathematik: «Im Gebiet Mathematik wird das Wissen zu mathematischen Grundbegriffen, Methoden und Ergebnissen erfasst. Dies beinhaltet den korrekten Einsatz von Zahlen, Variablen, das Rechnen mit Formen (im Raum) sowie den Umgang mit Grössen, Funktionen und Daten.». Teilnehmende gaben auf einer Skala von 0 («sehr niedrig») bis 10 («sehr hoch») an, wie hoch sie ihre Kompetenz in dem Gebiet einschätzen. Die Zusammenhänge zwischen den Selbsteinschätzungen und den Rohwerten der Ergebnisse der Durchführung des Multicheck® Wirtschaft und Administration sind in Tabelle V6 wiedergegeben. In Tabelle V6 ist die Korrelation zwischen der Selbsteinschätzung mit dem Ergebnis in dem eingeschätzten Kompetenzgebiet jeweils fett gedruckt (dieses sind die Paare von korrespondierenden Variablen in der Diagonalen).

Tabelle V6. Korrelationen zwischen den Aufgabengebieten des Multicheck® Wirtschaft und Administration und Selbsteinschätzungen der Kompetenzen

Tabelle V6. Korrelationen zwischen den Aufgabengebieten des Multicheck® Wirtschaft und Administration und Selbsteinschätzungen der Kompetenzen

Anmerkung. N = 163–165. Korrelationen der Testleistung mit den Selbsteinschätzungen in den Gebieten. Das Gebiet Italienisch wurde aufgrund der geringen Fallzahl mit der Testform Fremdsprache Italienisch (N=12) nicht untersucht.
* p < .05, ** p < .01, *** p < .001

Wie in Tabelle V6 ersichtlich, sind die Korrelationen bei den Paaren der korrespondierenden Variablen im Bereich Fachkompetenzen numerisch grösser als in den Bereichen Methodenkompetenzen oder Selbst- und Sozialkompetenzen. Dies könnte daran liegen, dass die Teilnehmenden für die Fachkompetenzen bereits Rückmeldungen durch ihre Schulnoten erhalten haben, wohingegen Rückmeldungen zu Methodenkompetenzen wie Merkfähigkeit oder Organisationsfähigkeit, wenn überhaupt, weniger systematisch erfolgen und infolgedessen Personen die Selbsteinschätzung der Kompetenzen schwerfällt. Es ist zu beobachten, dass für einige Paare von nicht-korrespondierenden Variablen (d. h. ausserhalb der Diagonalen in Tabelle V6) die Zusammenhänge etwas grösser sind als bei den Paaren von korrespondierenden Variablen. So korreliert zum Beispiel die Selbsteinschätzung für die Kompetenz Logik numerisch etwas höher mit der Testleistung im Gebiet Mathematik als mit der Testleistung im Gebiet Logik. Das entspricht jedoch den Korrelationen der Gebiete, wie sie in Tabelle V1 wiedergegeben sind: die Kompetenzen in Mathematik und Logik zeigen dort einen vergleichsweise starken Zusammenhang und es ist plausibel, dass so die Selbsteinschätzung von Logik auch mit der Testleistung im Gebiet Mathematik zusammenhängt.

Darüber hinaus wurde zur Selbsteinschätzung das Inventar zur selbsteingeschätzten Intelligenz (ISI, Rammstedt & Rammsayer, 2014) eingesetzt. Das ISI erfasst mit je einem Item für elf Dimensionen der Intelligenz, wie Personen ihre kognitiven Fähigkeiten einschätzen (unter anderem Verbales Verständnis und Mathematische Intelligenz). Davon wurden in der vorliegenden Untersuchung nur die Dimensionen zu den sieben Intelligenzbereichen nach Thurstone (1938) verwendet (siehe Tabelle V7). Ein Beispielitem ist «Verbales Verständnis: Kenntnis von Wörtern und ihrer Bedeutung sowie deren angemessene Verwendung im Gespräch». Es wird ein stufenloser Schieberegler mit fünf Bereichen mit den Extremen «sehr niedrige Intelligenz» bis «hochbegabt» verwendet. Es ergeben sich kontinuierliche Werte von -3 bis +3, deren Einteilung der Interpretation der Standardnormalverteilung nachempfunden ist (mit einem Durchschnittbereich zwischen -1 und 1). Die Korrelationen zwischen den Testwerten der Multicheck®-Gebiete und der mit Hilfe des ISI selbsteingeschätzten Intelligenz sind in Tabelle V7 dargestellt. Zusammenhänge mit den Multicheck®-Gebieten zeigen sich bei den ISI-Selbsteinschätzungen vor allem in den Dimensionen Verbales Verständnis und Mathematische Intelligenz.

Tabelle V7. Korrelationen zwischen den Aufgabengebieten des Multicheck® Wirtschaft und Administration und selbsteingeschätzter Intelligenz

Tabelle V7. Korrelationen zwischen den Aufgabengebieten des Multicheck® Wirtschaft und Administration und selbsteingeschätzter Intelligenz

Anmerkung. N = 163. Inventar zur selbsteingeschätzten Intelligenz (Rammstedt & Rammsayer, 2014; die aktuelle Studie verwendet davon nur die Skalen zur Erfassung der Intelligenz nach Thurstone, 1938). Das Gebiet Italienisch wurde aufgrund der geringen Fallzahl mit der Testform Fremdsprache Italienisch (N=12) nicht untersucht.
* p < .05, ** p < .01, *** p < .001

7.5.2.2 Kriterium Schulnoten

Zum Zwecke der Kriteriumsvalidierung wurden die Studienteilnehmenden gebeten, Kopien ihrer Abschlusszeugnisse der achten Schulklasse am Tag ihrer Teilnahme an der Studie bei der Testleitung einzureichen. Ausgewertet wurden die Noten der Fächer Mathematik, Deutsch, Französisch und Englisch. Die Zusammenhänge zwischen Schulnoten und den im Multicheck® Wirtschaft und Administration erfassten Kompetenzen und Fähigkeiten sind dadurch limitiert, dass Schulnoten eine eingeschränkte Reliabilität aufweisen (vgl. Westrick, 2017). Dies lässt sich zum einen darauf zurückführen, dass die Benotung von Schulleistung über verschiedene Lehrpersonen nicht konsistent ist und Noten auch zur Belohnung von Fleiss und Leistungsbemühung eingesetzt werden können (siehe Brookhart et al., 2016). Aus diesem Grund sind in Tabelle V8 neben den rohen Korrelationen auch die um die reduzierte Messgenauigkeit von Schulnoten einfach minderungskorrigierten Zusammenhänge wiedergegeben. Die Minderungskorrektur wurde der Prozedur von Kersting et al. (2008) folgend mit einer optimistischen Schätzung der Reliabilität von Schulnoten (d. h.: r_tt = .80) berechnet, die Korrektur fällt somit noch konservativ aus. Ausserdem werden Zusammenhänge zwischen Fähigkeitstests wie dem Multicheck® Wirtschaft und Administration und Schulnoten dadurch eingeschränkt, dass Schulnoten neben kognitiven Fähigkeiten auch nicht-kognitive Merkmale abbilden wie zum Beispiel Gewissenhaftigkeit (vgl. Keiser et al., 2016), Motivation und Arbeitsgewohnheiten (siehe Brookhart et al., 2016). Es sind aus diesem Grund theoretisch keine hohen Korrelationen zwischen dem Multicheck® Wirtschaft und Administration und Schulnoten zu erwarten. Jedoch sollten Zusammenhänge zwischen typgleichen Kompetenzen und Schulfächern (wie zum Beispiel der Zusammenhang zwischen Mathematik im Schulzeugnis und Mathematik im Multicheck® Wirtschaft und Administration) höher ausfallen als Zusammenhänge zwischen typungleichen Dimensionen (wie zum Beispiel der Zusammenhang zwischen Mathematik im Schulzeugnis und Deutsch im Multicheck® Wirtschaft und Administration).

Die Zusammenhänge zwischen den Schulnoten und dem Multicheck® Wirtschaft und Administration sind in Tabelle V8 dargestellt. Zum Vergleich der numerischen Grösse der Korrelationen sind auch Ergebnisse des zusätzlich verwendeten Intelligenz-Struktur-Tests (I-S-T 2000 R, Liepmann et al., 2007) in die Übersicht aufgenommen.

Tabelle V8. Korrelationen zwischen Leistungstests und Schulnoten

Tabelle V8. Korrelationen zwischen Leistungstests und Schulnoten

Anmerkung. N = 179–186. Je höher die Schulnote ist, desto besser ist die Leistung, die sie ausdrückt (1 = schlechtestmöglicher Wert, 6 = bestmöglicher Wert, wie im Schulsystem der Schweiz üblich). In Klammern sind die um die mangelnde Reliabilität von Schulnoten korrigierten Zusammenhänge gegeben (einfache Minderungskorrektur für reduzierte Messgenauigkeit im Kriterium mit einer Reliabilitätsschätzung von r_tt = .80).
* p < .05, ** p < .01, *** p < .001

Der Zusammenhang zwischen der Note in Mathematik und den Testwerten im Kompetenzgebiet Mathematik des Multicheck® Wirtschaft und Administration liegt mit r = .20 im Bereich der durch den I-S-T 2000 R erfassten Fähigkeiten Numerische Intelligenz und den Faktorwerten in der Meta-Skala Schlussfolgerndes Denken. Die Note in Deutsch zeigte einen geringen Zusammenhang mit dem Kompetenzgebiet Deutsch im Multicheck® Wirtschaft und Administration. Offenbar werden im Schulfach Deutsch im Schulunterricht auch andere Aspekte bewertet als die Leistung in den Gebieten, die im Multicheck® Wirtschaft und Administration getestet werden, also Textverständnis, Grammatik, Rechtschreibung und Wortschatz. Ausserdem kann angenommen werden, dass auch Persönlichkeitsmerkmale wie Fleiss und Leistungsstreben (als Facetten von Gewissenhaftigkeit) zur Leistung im Schulunterricht beitragen. Für die Note im Schulfach Französisch liessen sich weder durch die Testwerte des Multicheck® Wirtschaft und Administration noch durch die Dimensionen des I-S-T 2000 R substantielle positive Zusammenhänge auffinden. Die Note in Englisch zeigte mit r = .32 vor allem einen substantiellen Zusammenhang (mit mittlerer Effektstärke, vgl. Cohen, 1988) mit dem Kompetenzgebiet Englisch des Multicheck® Wirtschaft und Administration. Es lässt sich also zusammenfassend festhalten, dass sich für die Schulfächer Mathematik und Englisch substantielle Zusammenhänge mit den entsprechenden Multicheck®-Gebieten finden lassen.

7.6 Nebengütekriterien: Akzeptanz

Wie die Teilnehmenden ein diagnostisches Verfahren erleben und bewerten, darauf richtet sich die Forschung zum Thema Akzeptanz, die hier als wichtiges Nebengütekriterium gelten kann: es ist nicht nur im Interesse der Teilnehmenden, sondern wohl in der Regel auch ein Anliegen der Anwenderinnen und Anwender von diagnostischen Verfahren (wie unter anderem den Unternehmen, welche diese im Rahmen der Eignungsdiagnostik einsetzen), dass die Teilnahme am Test benutzerfreundlich und zumutbar ist (siehe Kersting, 2008).

Unmittelbar nach der Durchführung des Multicheck® Wirtschaft und Administration wurden N = 199 Studienteilnehmende zur Akzeptanz und Benutzerfreundlichkeit des Verfahrens befragt. Zur Erfassung der Akzeptanz wurde der AKZEPT!-Fragebogen (Kersting, 2008) verwendet. Dieses Instrument ermöglicht die Beurteilung der Akzeptanz von Testverfahren entlang von vier Dimensionen erfasst mit je vier Items (Angabe der Reliabilitätsschätzung für die Skalen aus dem Konstruktionsartikel von Kersting, 2008, Studie 3):

(1) Kontrollierbarkeit (Beispielitem: «Bei der Bearbeitung der Testaufgaben wusste ich jederzeit, was ich tun muss.»; α = .82)

(2) Messqualität (Beispielitem: «Der Test ermöglicht es, die zwischen verschiedenen Menschen bestehenden Leistungsunterschiede in der vom Test erfassten Fähigkeit exakt zu messen.»; α = .77)

(3) Augenscheinvalidität (negativ gepoltes Beispielitem: «Dass man mit dem Test geeignete Personen für einen Job herausfinden kann, ist zu bezweifeln.»; α = .76)

(4) Belastungsfreiheit (negativ gepoltes Beispielitem: «Die Bearbeitung der Testaufgaben ist belastend.»; α = .75)

Ausserdem wird eine Gesamtbeurteilung im Format einer Schulnote erfasst (nach dem Notensystem in der Schweiz: 1 = schlechtestmöglicher Wert, 6 = bestmöglicher Wert). Zur Einschätzung der Benutzerfreundlichkeit (Usability) wurden fünf eigens entwickelte Items vorgegeben zur technischen Bedienbarkeit mit Maus und Tastatur, zur Gestaltung der Benutzeroberfläche und zur Lesbarkeit von Texten und Grafiken (Beispielitem: «Die Benutzeroberfläche des Tests war insgesamt übersichtlich gestaltet.»). Die Reliabilitätsschätzung für die Skala Usability liegt in der vorliegenden Untersuchung bei α = 81. Dieselbe Prozedur wurde zur Beurteilung des I-S-T 2000 R eingesetzt. Die Mittelwerte und Standardabweichungen für die Einschätzungen beider Leistungstests sind in Tabelle V9 wiedergegeben.

Tabelle V9. Akzeptanz und Benutzerfreundlichkeit (Usability) der verwendeten Leistungstests

Tabelle V9. Akzeptanz und Benutzerfreundlichkeit (Usability) der verwendeten Leistungstests

Anmerkung. Ratings Multicheck: N = 199. Ratings I-S-T 2000 R: N = 196. 1 = schlechtestmöglicher Wert, 6 = bestmöglicher Wert. M = Mittelwert, SD = Standardabweichung.

*AKZEPT!-Fragebogen (Kersting, 2008)

Das Niveau der durchschnittlichen Akzeptanz des Multicheck® Wirtschaft und Administration liegt in allen Dimensionen über dem Mittelpunkt der sechsstufigen Antwortskala (1=«Trifft nicht zu» bis 6=«Trifft genau zu») und fällt in keiner Dimension hinter den Ratings zum I-S-T 2000 R zurück. Die dem Testverfahren beigemessene Benutzerfreundlichkeit (Usability) kann als hoch eingestuft werden, liegt der Durchschnitt der Beurteilungen doch über dem zweithöchsten Punkt der verwendeten sechsstufigen Antwortskala.

Dabei lässt sich vermuten, dass die Akzeptanz des Verfahrens bei jenen Teilnehmenden etwas grösser ist, die im Test aus ihrer Sicht besser abgeschnitten haben (gegenüber Teilnehmenden, die glauben, schlechter abgeschnitten zu haben), insbesondere wenn es um die Akzeptanz-Dimension Kontrollierbarkeit geht (Beispielitem: «Bei der Bearbeitung der Testaufgaben wusste ich jederzeit, was ich tun muss.»). Personen, welche die Testaufgaben nicht immer verstanden haben (weil die Aufgaben für sie zu schwierig waren), werden vermutlich sowohl im Multicheck® als auch in ihren Akzeptanzratings niedrigere Werte aufweisen als solche, für die es eine gute Kontrollierbarkeit gab. Tatsächlich ergaben sich in der vorliegenden Untersuchung zwischen dem Gesamtbereichswert Fach- und Methodenkompetenzen des Multicheck® Wirtschaft und Administration und den Akzeptanzdimensionen positive Zusammenhänge im Bereich zwischen r = .17 (p = .02; Dimension Augenscheinvalidität) und r = .35 (p < .001; Dimension Kontrollierbarkeit). Die Einschätzungen der Benutzerfreundlichkeit (Usability) waren mit r = .08 (n. s.) weitgehend unkorreliert mit der Multicheck®-Testleistung. Daraus ergibt sich, dass die Akzeptanz von Testverfahren einerseits vom Test, andererseits aber auch von den Fähigkeiten der Testperson und der daraus resultierenden Erfolgs-Erfahrung bei der Durchführung abhängig ist.

7.7 Die Rolle von sozio-ökonomischem Status

Mit ihrem Bereich der Fachkompetenzen erfasst der Multicheck® Wirtschaft und Administration schulisch erworbenes Grundwissen. Schulisch erworbenes Grundwissen wird definiert als Produkt der (hauptsächlich schulischen) Lerngelegenheit, die eine Person bislang wahrgenommen hat, dem Lernaufwand, den sie dabei betrieben hat, und der Lernfähigkeit der Person (vgl. Kunter et al., 2011). Als Störfaktor beim Erwerb von schulisch erworbenem Grundwissen kann die Verfügbarkeit von Bildungsressourcen angesehen werden, die konzeptuell mit dem sozio-ökonomischen Status verbunden wird. Der Zusammenhang zwischen schulischer Leistung und dem sozio-ökonomischen Status (der Eltern) ist empirisch gut belegt (Hußmann et al., 2017; OECD, 2021; SKBF, 2023). Im Bereich der Methodenkompetenzen werden im Multicheck® Wirtschaft und Administration ausserdem kognitive Fähigkeiten im Sinne von Intelligenz erfasst. Auch für diesen Kompetenzbereich kann vermutet werden, dass sozio-ökonomischer Status der Eltern eine Rolle spielt, wurde der Zusammenhang zwischen sozio-ökonomischem Status und Intelligenz doch bereits wissenschaftlich bestätigt (e.g. Von Stumm & Plomin, 2015). Um den Zusammenhang zwischen dem sozio-ökonomischen Status der Eltern der Teilnehmenden und den Multicheck®-Testwerten der Teilnehmenden der Forschungsstudie zu untersuchen, wurde als Indikator für den sozio-ökonomischen Status der höchste Bildungsabschluss der Eltern per Befragung beider Elternteile erfasst. Dazu wurden die vom Bundesamt für Statistik entwickelten zwölf Kategorien mit einer Gruppierung zu einer dreistufigen Skala verwendet (vgl. Schweizerische Arbeitskräfteerhebung, SAKE). Die Eltern der Teilnehmenden machten ihre Angaben auf einem der Einverständniserklärung beigelegten Kurz-Fragebogen. Bei der Auswertung der Daten wurden die Teilnehmenden nach dem Bildungsgrad des Elternteils mit dem höheren Bildungsgrad gruppiert (d. h., falls ein Elternteil einen höheren Bildungsgrad hatte als das andere, wurde sein Wert für die Gruppierung verwendet). Tabelle N1 fasst die durchschnittliche Testleistung der drei Gruppen zusammen.

Tabelle N1. Testwerte nach höchstem Bildungsabschluss der Eltern

Tabelle N1. Testwerte nach höchstem Bildungsabschluss der Eltern

Anmerkung. N = 175. Die Testwerte sind die mit den Kennwerten der Normstichprobe standardisierten z-Werte (d. h. Normwerte). Die Teilnehmenden sind nach dem Bildungsabschluss des Elternteils mit dem jeweils höheren Bildungsabschluss gruppiert. M = Mittelwert, SD = Standardabweichung. Sign. = Signifikanzniveau. η² = Eta quadrat (Effektstärke).

*** p < .001

Wie in Tabelle N1 ersichtlich, gibt es bei den drei Gruppen einen linearen Anstieg der durchschnittlichen Testleistung mit steigendem Bildungsgrad des Elternteils mit dem jeweils höchsten Bildungsabschluss. Die Varianzanalyse bestätigt, dass die Gruppenunterschiede überzufällig sind. Es handelt sich um moderate Effektstärken. So wie auch andere Untersuchungen eine Abhängigkeit zwischen dem sozio-ökonomischen Status der Eltern einerseits und den schulischen Kompetenzen und den Ergebnissen von Testverfahren zur Erfassung allgemeiner kognitiver Fähigkeiten (Intelligenz) andererseits aufzeigen, muss auch in der vorliegenden Untersuchung mit dem Multicheck® Wirtschaft und Administration von einer gewissen Abhängigkeit zwischen sozio-ökonomischem Status der Eltern und der Testleistung gesprochen werden. Als mögliche Erklärung lassen sich die mit dem sozio-ökonomischen Status der Eltern verbundenen Voraussetzungen für die Entwicklung von kognitiven Fähigkeiten und die Verfügbarkeit zu Ressourcen nennen, welche den schulischen Kompetenzerwerb fördern (vgl. Sirin, 2005; Von Stumm & Plomin, 2015). Möglich ist auch, dass der sozio-ökonomische Status mit einer Benachteiligung beim Spracherwerb in Deutsch einhergeht (wenn möglicherweise der sozio-ökonomische Status mit einem Migrationshintergrund der Eltern konfundiert ist). Wohlgemerkt betrifft somit der Zusammenhang von sozio-ökonomischem Status einerseits und kognitiven Fähigkeiten und akademischer Leistung andererseits nicht nur den Multicheck® Wirtschaft und Administration, sondern auch andere Leistungsbeurteilungen wie Schulnoten, Schulleistungstests oder Intelligenztests. Es sei darauf hingewiesen, dass in modernen und fairen Bildungssystemen bei vielen Biografien eine starke Mobilität beobachtet werden kann, wenn zum Beispiel Personen einen höheren Bildungsgrad erreichen als ihre Eltern. Die starken Streuungen der Ergebnisse innerhalb der Gruppen (in Tabelle N1 an den Standardabweichungen ersichtlich) deuten in diesem Sinne auf eine grosse Variabilität hin: in der vorliegenden Untersuchung gibt es viele Angehörige der Gruppen «Obligatorische Schule» und «Sekundarstufe II», welche bessere Multicheck®-Ergebnisse erzielt haben als Angehörige der Gruppe «Tertiärstufe».

Ein tieferes Ergebnis im Multicheck® Wirtschaft und Administration ist nicht gleichbedeutend mit einer Benachteiligung auf dem Lehrstellenmarkt: Jugendliche erhalten mit ihrem Ergebnis im Sinne einer Standortbestimmung eine normative Rückmeldung zu ihren Kompetenzen und können so realistischer einschätzen, ob sie die erwarteten Voraussetzungen für eine Berufslehre im Bereich Wirtschaft und Administration mitbringen. In der Phase der Berufswahl, in der eine Multicheck® Eignungsanalyse in der Regel durchgeführt wird, können sich Jugendliche auch noch einmal neu orientieren hin zu Berufen, bei denen sie ihre Stärken noch besser zur Geltung bringen können oder bei denen weniger hohe Anforderungen an die kognitiven Fähigkeiten gestellt werden (wie vielleicht in Berufen aus dem Bereich Gewerbe oder in EBA-Berufen). Eine Berufswahl, die sich an einer möglichst guten Passung zwischen den eigenen Voraussetzungen und den Anforderungen des Berufs ausrichtet, kann nicht nur den Erfolg im Beruf, sondern auch die Zufriedenheit im Berufsleben begünstigen (DIN, 2016). Die Eignungsanalyse Multicheck® Wirtschaft und Administration kann in diesem Sinne dabei helfen, diese Passung zu ermitteln, und eine erfolgreiche Selbstselektion begünstigen.

7.8 Fazit zu den Testgütekriterien

Die vorliegenden Befunde zu den Gütekriterien werden in Tabelle F1 nach den Gesichtspunkten der DIN 33430 (DIN, 2016) zusammengefasst («DIN SCREEN Checkliste», Kersting, 2018). Insgesamt kann festgehalten werden, dass die in diesem Manual präsentierten empirischen Ergebnisse zu den psychometrischen Eigenschaften des Multicheck® Wirtschaft und Administration die Güte des Verfahrens stützen. Nicht zuletzt angesichts der robusten Zusammenhänge mit dem I-S-T 2000 R kann bei der Beurteilung des Verfahrens zudem auch eine Validitätsgeneralisierung in Anspruch genommen werden (vgl. Kersting et al., 2008; Pearlman et al., 1980): als Testverfahren zur Erfassung kognitiver Fähigkeiten können bei der Einschätzung der Validität des Multicheck® Wirtschaft und Administration so unter anderem auch die Ergebnisse von Meta-Analysen wie jener von Sackett et al. (2022) herangezogen werden, bei denen die Vorhersagekraft von kognitiven Fähigkeitstest vergleichbar ist mit derjenigen von praktischen Arbeitsproben (mit Arbeitsleistung als Kriterium). Dies gilt insbesondere für die Fähigkeiten, die im Bereich Methodenkompetenzen des Multicheck® Wirtschaft und Administration erfasst werden. So lassen sich in den Gebieten des Multicheck® Wirtschaft und Administration die universellen Intelligenzdimensionen fluide Intelligenz (schlussfolgerndes Denken) und kristallisierte Intelligenz (Verständniswissen) nach Horn und Cattell (1966) identifizieren (siehe Beauducel et al., in Druck), was die Annahme einer Validitätsgeneralisierung stützt.

Tabelle F1. DIN SCREEN Checkliste für die Multicheck® Eignungsanalyse Wirtschaft und Administration

Tabelle F1 als PDF öffnen

Untersuchungen zur prognostischen Kriteriumsvalidität mit Berufsschulnoten oder auch Beurteilung der praktischen Arbeitsleistung sind wünschenswert und stehen für die aktuelle Fassung des Verfahrens noch aus. Untersuchungen des Zusammenhangs zwischen Eignungstests und der Ausbildungsleistung von Lernenden sind dadurch limitiert, dass grundsätzlich davon ausgegangen werden kann, dass nur solche Personen in die Stichprobe gelangen, welche bei der Eignungsbeurteilung ausreichend gut abschneiden (d. h., solche, die im Auswahlverfahren erfolgreich sind). Daher ist die Bandbreite des Prädiktors (also zum Beispiel das Ergebnis eines Eignungstests) in solchen Untersuchungsplänen typischerweise eingeschränkt (hin zu höheren Ergebnissen) und es können keine Daten von der Ausbildungsleistung der Personen eingeschlossen werden, die im Zulassungsverfahren aufgrund mangelnder Eignungsvoraussetzungen abgelehnt wurden. Dennoch kann auch innerhalb der Auswahl der für eine Lehre als geeignet befundenen Personen ein Zusammenhang zwischen dem Ergebnis des Multicheck® Wirtschaft und Administration und dem Erfolg in der Lehre erwartet werden, wenn Personen mit höheren kognitiven Fähigkeiten beispielsweise in der Berufsschule noch besser abschneiden als Personen mit tieferen kognitiven Fähigkeiten (vgl. Widmer, 2006).

7. Testgütekriterien

7.1 Empirische Untersuchung des Multicheck® Wirtschaft und Administration​

7.1.1 Eigenschaften der Normgruppe​

7.1.2 Verteilungen der Bereichswerte​

7.2 Objektivität​

7.3 Item-Kennwerte​

7.4 Reliabilität​

7.5 Validität​

7.5.1 Konstruktvalidität​

7.5.1.1 Dimensionsanalysen​

7.5.1.2 Konvergente Konstruktvalidierung​

7.5.1.3 Diskriminante Konstruktvalidierung​

7.5.2 Befunde zur Kriteriumsvalidierung​

7.5.2.1 Kriterium Selbsteinschätzungen​

7.5.2.2 Kriterium Schulnoten​

7.6 Nebengütekriterien: Akzeptanz​

7.7 Die Rolle von sozio-ökonomischem Status​

7.8 Fazit zu den Testgütekriterien​