Über die „Replikations-Krise“, stellt die Forschung vor eine ‚Inferenz-Krise“?

In den letzten zehn Jahren -, sozial-Wissenschaftler bereits das Auspacken eine „Replikation Krise“ zeigte, wie die Erkenntnisse von einer alarmierenden Anzahl von wissenschaftlichen Studien sind schwierig oder unmöglich zu wiederholen. Bemühungen sind im Gange, um zu verbessern, die Zuverlässigkeit der Befunde, sondern kognitive Psychologie Forscher an der University of Massachusetts Amherst sagen, dass nicht genügend darauf geachtet wurde, die Gültigkeit der theoretischen Folgerungen aus Forschungsergebnissen.

Mit einem Beispiel aus Ihrem eigenen Bereich der Speicher Forschungs -, Sie entwarfen ein test für die Genauigkeit der theoretischen Schlussfolgerungen der Forscher. Die Studie wurde angeführt von associate professor Jeffrey Starns, professor Caren Rotello, und Doktorandin Andrea Cataldo, wer hat jetzt absolvierte Ihr Ph. D. Sie gemeinsame Autorenschaft mit 27 teams oder einzelnen kognitiven Psychologie Forscher, die freiwillig zu Unterwerfen Sie Ihre Experten-Forschung Schlussfolgerungen für die Datensätze gesendet, um Sie von der UMass Forscher.

„Unsere Ergebnisse zeigen beträchtlichen Variabilität in der Experten-Urteile auf die gleichen Daten,“ die Autoren Staat, was auf eine ernsthafte inference problem. Details sind neu veröffentlicht in der Zeitschrift Fortschreitenden Methoden und Verfahren in der Psychologischen Wissenschaft.

Starns sagt, dass Objektiv testen, ob Wissenschaftler können gültigen theoretischen Schlussfolgerungen durch die Analyse der Daten ist genauso wichtig wie sicher, Sie arbeiten mit replizierbare Daten Muster. „Wir wollen sicherstellen, dass wir tun, gute Wissenschaft. Wenn wir wollen, dass die Menschen Vertrauen in unsere Schlussfolgerungen, dann haben wir eine Verpflichtung, dieses Vertrauen verdienen, indem wir zeigen, dass wir, um die richtigen Schlussfolgerungen in einem öffentlichen test.“

Für diese Arbeit, die Forscher zum ersten mal führte eine online-Studie Prüfung der Anerkennung Gedächtnis für Worte, „ein sehr standard-Aufgabe“, in der die Menschen entscheiden, ob oder nicht Sie sah ein Wort in einer früheren Liste. Die Forscher manipulierten Speicher Stärke durch die Vorlage Artikel, einmal, zweimal, oder dreimal, und Sie manipuliert bias—die Allgemeine Bereitschaft, Dinge sagen, die erinnert werden—instruieren Sie die Teilnehmer besonders vorsichtig sein, zu vermeiden, bestimmte Arten von Fehlern, wie fehlerhaften zu identifizieren, die eine zuvor untersuchten Element.

Starns und Kollegen daran interessiert waren, in eine heikle interpretation problem, dass sich in vielen Anerkennung von Studien, das heißt, die Notwendigkeit zu korrigieren Unterschiede im bias beim Vergleich der Gedächtnisleistungen in Populationen oder Bedingungen. Leider, diese situation kann auftreten, wenn der Speicher für die Bevölkerung von Interesse, wenn gleich, besser oder schlechter als Kontrollen. Anerkennung Forscher nutzen eine Anzahl von Analyse-tools unterscheiden sich diese Möglichkeiten, von denen einige schon seit den 1950er Jahren.

Um festzustellen, ob die Forscher können diese tools verwenden, um genau zu unterscheiden, – Speicher und-Neigung, der UMass Forscher erstellten sieben zwei-Zustand-Daten-sets und schickte Sie an die Mitwirkenden, ohne Etiketten, bitten Sie Sie, um anzuzeigen, ob oder nicht, die Bedingungen waren aus demselben oder aus verschiedenen Ebenen der Erinnerung Kraft-oder response-bias-Manipulationen. Rotello, erklärt: „Diese sind die gleiche Art von Daten würden Sie konfrontiert werden in einem experiment, in Ihren eigenen Labors, aber in diesem Fall kannten wir die Antworten. Wir fragten, haben wir variieren Speicher, Kraft -, response-bias, beide oder keines von beiden?'“

Die Freiwilligen-kognitive Psychologie-Forscher verwenden konnten alle Analysen, die Sie dachten, waren geeignet, Starns fügt, und „die angewandten mehrere Techniken, oder sehr Komplex, cutting-edge-Techniken. Wir wollten sehen, ob Sie konnte, um genaue Schlüsse ziehen und ob Sie eine genaue Messung der Unsicherheit. Könnten Sie sagen, ‚ich denke, es gibt eine 20 Prozent chance, dass Sie nur manipuliert Speicher in diesem experiment‘ zum Beispiel.“

Starns, Rotello und Cataldo waren vor allem daran interessiert, das berichtet die Wahrscheinlichkeit, dass das Gedächtnis Stärke manipuliert wurde zwischen den beiden Bedingungen. Was Sie fanden, war „enorme Variabilität zwischen den Forschern, was Sie abgeleitet werden können, die gleichen Sätze von Daten,“ Starns sagt. „Für die meisten Datensätze, die Antworten reichten von 0 bis 100 Prozent über den 27-Responder“, fügt er hinzu, „das war das erschreckendste.“

Rotello berichtet, dass etwa ein Drittel der Responder „zu sein schien, tut gut“, ein Drittel hat ein bisschen besser als reines raten und zu einem Drittel „made irreführenden Schlußfolgerungen.“ Sie fügt hinzu, „Unsere Kiefer fallen gelassen, als wir sahen, dass. Wie kommt es, dass Forscher, die diese tools für die Jahre konnte, kommen zu völlig verschiedenen Schlussfolgerungen über das, was ist Los?“

Starns notes“, das Einige Leute viel mehr machen falsche fordert, als Sie haben sollten. Einige falsche Schlussfolgerungen sind unvermeidlich mit verrauschten Daten, aber Sie machten die unrichtige Folgerungen mit viel zu viel Selbstvertrauen. Aber einige Gruppen haben so gut wie erwartet werden kann. Das war etwas ermutigend.“

Am Ende der UMass Amherst Forscher „hatte einen großen reveal-party“ und gab den Teilnehmern die Möglichkeit, das entfernen Ihrer Antworten oder entfernen Ihre Namen aus dem Papier, aber keiner Tat. Rotello, kommentiert, „ich bin so beeindruckt, dass Sie bereit waren, alles auf die Reihe, auch wenn die Ergebnisse waren nicht so gut in manchen Fällen.“ Sie und Kollegen beachten Sie, dass dies zeigt ein starkes Engagement für die Verbesserung der Qualität der Forschung unter Ihren Kollegen.