Als erster Schritt zur Konstruktion der Leistungstests für Mathematik und die naturwissenschaftlichen
Fächer wurde an der University of British Columbia in Vancouver, Kanada, eine internationale
Datenbank angelegt, in der potentiell geeignete Testaufgaben systematisch gesammelt wurden. In die
Datenbank wurden sowohl Aufgaben, die sich in anderen Untersuchungen bewährt hatten, als auch
neuentwickelte Aufgaben der teilnehmenden Forschungsgruppen aufgenommen. Nach einer vorläufi¬
gen Überprüfung der curricularen Validität für die teilnehmenden Länder durch nationale Experten
und einer nochmaligen Begutachtung durch Fachwissenschaftler aus 10 Ländern (Subject Matter
Advisory Committee) wurden 335 ausgewählte Aufgaben in der Regel doppelt durch zwei unabhän¬
gige Übersetzer in 30 Sprachen übertragen und im Frühjahr 1993 in einer Pilotuntersuchung einge¬
setzt. Um entdeckte Mängel und Lücken zu beseitigen, wurde ein Kooperationsvertrag mit dem Na¬
tional Center for Assessment of Educational Progress (NAEP) des Educational Testing Service in
Princeton, NJ. USA. abgeschlossen, das zusätzliche, in der Regel bereits empirisch bewährte Test¬
aufgaben mit bekannten Eigenschaften zur Verfügung stellte oder neue Aufgaben entwickelte. Nach
nochmaliger Überprüfung der Itemsammlung durch das Subject Matter Advisory Committee wurde
eine Vorversion der Leistungstests im Frühjahr 1994 in 43 Ländern erprobt.
Im Rahmen des Feldtests wurde noch einmal die curriculare Validität der Aufgaben durch Lehrplan¬
experten überprüft. Auf der Basis der Pilotdaten wurden klassische Itemanalysen durchgeführt. Für
die Hauptuntersuchung wurden Aufgaben ausgewählt. deren Schwierigkeitsindex zwischen p=.20
und p=.90 lag und deren Trennschärfe (part-whole corrrelation) über r= 30 lag. Alle Distraktoren
bei Aufgaben mit Mehrfachwahlantworten mußten negative Trennschärfen aufweisen. Ferner wurde
der Modell-Fit der Aufgaben im Rasch-Modell als weiteres Selektionskriterium herangezogen. Die
transkulturelle Aquivalenz der Aufgaben wurde durch Prüfung der „Land X Aufgabe-Interaktion"
überprüft. Aufgaben mit erheblicher differentieller Itemfunktion (DIF) wurden ausgesondert.
Schließlich wurden insgesamt 286 Aufgaben für die Hauptuntersuchung ausgewählt, von denen je¬
der Schüler etwa 70 Aufgaben zu bearbeiten hatte (Garden & Orpwood, 1996). Um die curricularen
Anforderungen der 7. und 8. Jahrgangsstufe in den Leistungstests möglichst breit abzudecken und die
Untersuchungsteilnehmer nicht ungebührlich zu belasten, erhielt jeder Schüler jeweils nur eine Unter¬
menge der insgesamt verwendeten Testaufgaben. Die Testaufgaben wurden so zusammengestellt,
daß hinreichend präzise Populationsschätzungen erreicht werden konnten, auch wenn nicht jedem
Schüler jede Testaufgabe vorgelegt wurde!
Die Sachgebiete und Anforderungsarten, die durch die ausgewählten Aufgaben erfaßt werden, sind
den Tabellen 1 und 2 zu entnehmen. Die Begriffe earth sciences und environmental issues sind nicht
übersetzt worden, da sich in der Fächergliederung der weiterführenden Schulformen in der Bundes¬
republik keine genauen Entsprechungen finden lassen. Die meisten Aufgaben dieser beiden Sachge¬
biete lassen sich zwanglos den Fächern Biologie und Chemie zuordnen. Einige wenige Aufgaben
würde man in Deutschland der Geographie zurechnen.
I
Multiple Matrix Sampling mit Balanced Incomplete Block Design (Adams & Gonzalez, 1996; Beaton, 1987)