-
Notifications
You must be signed in to change notification settings - Fork 0
/
probleme_methoden.qmd
257 lines (173 loc) · 34.8 KB
/
probleme_methoden.qmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
---
title: "Methoden"
editor: visual
format: html
bibliography: references.bib
bibliographystyle: apa
---
Im Alltagsdenken herrscht noch oft der Mythos, dass Wissenschaft sich von Nicht-Wissenschaft durch *die wissenschaftliche Methode* unterscheide. Das ist falsch [@Feyerabend.19752002]. Zwar unterscheidet sich wissenschaftliches Wissen von alltäglichem Wissen (und auch Religion) durch einen höheren Grad an Systematizität [@HoyningenHuene.2013], allerdings gibt es weder eine einzige noch eine konstante wissenschaftliche Methode. Methoden haben sich stattdessen über die Zeit gewandelt, und das ist auch gut so. Neue Technologien ermöglichen beispielsweise in der Physik hochpräzise Messungen mittels Elektronenlaser, in den Geschichtswissenschaften 3D-Scans von Artefakten, die sonst nur wenige sehen würden, oder in den Sozialwissenschaften Datenbanken mit freiwillig bereitgestellten und anonymisierten Chatverläufen (<https://db.mocoda2.de/c/home>).
So wie ein Hammer und andere Werkzeuge nicht gut oder schlecht sind, so sind auch Methoden nicht gut oder schlecht, nicht richtig oder falsch, sondern sie werden *angemessen und korrekt* verwendet oder missbraucht. Statt Missbrauch ist in den Sozialwissenschaften von fragwürdigen Forschungspraktiken (*Questionable Research Practices*), kurz QRP, die Rede. Sie erlauben Wissenschaftler\*innen Befunde zu generieren, die sie wollen. Im Folgenden werden verbreitete und oft angewandte [@John.2012] Techniken vorgestellt (für einen Überblick über die Forschung dazu in den letzten 50 Jahren, siehe auch @Neoh.2023).
### Exploratorische versus konfirmatorische Forschung
Zum Verständnis der fragwürdigen Forschungspraktiken (QRP) ist eine wichtige forschungstechnische Unterscheidung unabdingbar: Wie bei einem Spaziergang kann eine wissenschaftliche Untersuchung erkundend oder zielgerichtet sein. Mal wird frei durch die Gegend spaziert und dabei neue Entdeckungen gemacht, mal ist das Ziel und die Route klar und im Vorhinein bestimmt. Im wissenschaftlichen Kontext ist die Rede von exploratorischer und konfirmatorischer Forschung. Bei der Exploration stehen höchstens die Forschungsfrage und grobe Züge der Methode fest, bei einem konfirmatorischen Test ist alles durchdacht: Vorgehen, mögliche Ergebnisse, sowie Erklärungsansätze für jedes mögliche Resultat. Es wird dann eine spezifizierte Hypothese mit der dazugehörigen Theorie bestätigt oder eben nicht. Kein Vorgehen ist dem anderen überlegen. Üblicherweise beginnen Untersuchungen in einem bisher wenig erschlossenen Gebiet mit Exploration, während mehr vorhergehende Forschung mit klareren Erwartungen einhergeht. Es sei dazu gesagt, dass es sich hier um Extremtypen von Forschung handelt, die ein Spektrum bilden. Es erlauben außerdem erst beide Ansätze zusammen Erkenntnisgewinn. Im Rahmen des hermeneutischen Zirkel (einfach gesagt "dem Kreis des Verstehens") wird aus einzelnen Beobachtungen eine allgemeine Gesetzmäßigkeit formuliert (*Induktion*) und diese Gesetzmäßigkeit wird im Anschluss bei weiteren Einzelbeobachtungen geprüft (*Deduktion*). Die Deduktion kann je nach Gesetzmäßigkeit logisch notwendig sein, denn es wird von zuvor bestimmten Aussagen auf eine weitere Aussage geschlossen. Die Vorannahmen heißen *Prämissen* und aus ihnen folgt die *Konklusion*. Wenn beide Prämissen korrekt sind, muss also auch die Schlussfolgerung korrekt sein. Die Induktion ist hingegen keine Notwendigkeit [siehe *Induktionsproblem*; @Hume.17482011].
![Hermeneutischer Zirkel](images/hermeneutischerzirkel.jpg)
Problematisch wird es, wenn exploratorische Forschung als konfirmatorische kommuniziert wird, also so getan wird, als hätte eine Einzelbeobachtung eine bereits formulierte Gesetzmäßigkeit bestätigt, statt sie bloß inspiriert. Diese Art Unlogik heißt Zirkelschluss: Die Gesetzmäßigkeit gilt wegen der Beobachtung. Und die Beobachtung entspricht der Gesetzmäßigkeit.
![Skizziertes und vereinfachtes Vorgehen bei konfirmatorischer (links) versus exploratorischer (rechts) Forschung. Konfirmatorisches Vorgehen bildet oft einen engen und kontrollierten Ausschnitt eines Sachverhaltes ab. Exploratives Vorgehen ist nicht zielgerichtet, die Richtung kann sich ändern, und ist manchmal mit unvorhergesehenen Ergebnissen verbunden.](images/explo_vs_konfi.jpg)
#### Methoden der Datengenerierung
Wissenschaftliche Disziplinen bedienen sich für gewöhnlich vieler verschiedener Methoden. Idealerweise sind Erkenntnisse unabhängig von der Methode, die zu ihrer Entdeckung geführt hat und verschiedene Methoden führen zur selben Erkenntnis. Typische sozialwissenschaftliche Methoden sind die Befragung mittels standardisiertem Fragebogen, Verhaltensbeobachtung mittels Kameraaufzeichnungen und anschließender Kodierung von Verhaltensweisen durch mehrere Personen, die den Untersuchungszweck nicht kennen, indirekte Methoden [@Schimmack.2019], bei welchen etwas anderes gefragt wird, als was gemessen werden soll, Verhaltensmessungen wie Blickrichtungsmessung (*eye tracking*), oder Simulationsstudien, mittels derer zum Beispiel Verkehrsflüsse auf Basis vorher festgelegter Prinzipien per Computer berechnet werden oder Panikattacken vorhergesagt werden [@Robinaugh.2021]. Diese Methoden generieren fast immer Daten, also beispielsweise eine Tabelle, in der je Beobachtungseinheit (z.B. je Versuchsperson) in mehreren Spalten Daten festgehalten werden und welche fast immer statistisch ausgewertet werden. Die Notwendigkeit einer solchen Auswertung ergibt sich daraus, dass die Beobachteten Gesetzmäßigkeiten keine absoluten Gesetze im Sinne von „alle männlichen Babys wiegen mehr als alle weiblichen Babys" sind, sondern statistische Regelmäßigkeiten im Sinne von „im Mittel wiegen kurz nach der Geburt männliche Babys ein paar hundert Gramm mehr als weibliche Babys, aber nicht jedes männliche Baby wiegt mehr als jedes weibliche Baby" sind. Ein Vergleich von Körpergrößen nach Geschlecht ist über [Statista](https://de.statista.com/statistik/daten/studie/1825/umfrage/koerpergroesse-nach-geschlecht/) zu sehen.
In der folgenden Abbildung sind die Häufigkeiten verschiedener Werte zu sehen (*Histogramm*). Je weiter rechts ein Wert ist, desto höher ist der Wert (z.B. Geburtsgewicht), und je höher der Balken ist, desto häufiger kommt der Wert vor. Die gelbe und die lila farbige Verteilung überlappen einander, das heißt, dass nicht alle gelben Werte niedriger als alle lila farbigen sind. Im Mittel sind die gelben Werte jedoch geringer.
```{r}
#| code-fold: true
set.seed(1)
x <- rnorm(1000, mean = 0)
y <- rnorm(1000, mean = 1)
hist(x, xlim = c(-3, 5), col = rgb(1,1,0,.2), ylim = c(0, 40), breaks = 100, xaxt = "n", yaxt = "n"
, xlab = "Wert", ylab = "Häufigkeit", main = "")
hist(y, add = T, col = rgb(1,0,1,.2), breaks = 100)
```
::: callout-note
## Statistische Signifikanz
Eine der am weitesten verbreiteten Methoden in den Sozialwissenschaften (und auch darüber hinaus) ist Statistik, genauer *Inferenzstatistik*. Dabei wird von einer begrenzten Menge von Beobachtungen (z.B. ausgefüllte Fragebogen von 100 Personen) auf alle möglichen Beobachtungen (z.B. alle Menschen) verallgemeinert. Untersuchte Zusammenhänge sind selten eindeutig, es gibt aber häufig statistische Regelmäßigkeiten. Charakteristisch ist dabei ein gewisses *Zufallselement*. Wiegt man ein kürzlich geborenes männliches und weibliches Baby, dann ist die Wahrscheinlichkeit sehr hoch, dass das männliche Baby mehr wiegt. Es kommt aber auch häufig vor, dass das nicht der Fall ist. Ähnlich verhält es sich bei einer fairen Münze, also einer, die im Mittel gleich häufig auf Kopf und auf Zahl landet: Dass sie bei insgesamt vier Würfen immer auf Kopf landet, ist unwahrscheinlich, dass sie ein oder zwei Mal auf Kopf landet, es kommt aber durch aus vor (nämlich in 12,5% aller Fälle, in denen eine faire Münze viermal hintereinander geworfen wird).
Inferenzstatistische Tests gehen nun davon aus, dass bei der Betrachtung eines statistischen Zusammenhanges (z.B. Geschlecht und Geburtsgewicht, Körpergewicht und Größe, Bildungsniveau der Eltern und Bildungsniveau der Kinder) „nur der Zufall am Werk ist" [@Roseler.2022f]. Unter der Annahme wird berechnet, wie häufig ein beobachteter Zusammenhang mit der beobachteten Stärke vorkommen würde, wenn *eigentlich* kein Zusammenhang vorliegen würde. Also zum Beispiel „dass eine faire Münze vier Mal auf Kopf landet, passiert in 12,5% aller Fälle". Bei sechs Würfen wären es 1,5625%. Die Kunst des statistischen Schließens besteht nun darin, den Punkt zu finden, ab dem Forschende davon ausgehen, dass der Zufall nicht am Werk war, weil die berechnete Wahrscheinlichkeit so gering ist. Konventionell liegt dieser bei 5%, für neue Befunde manchmal bei 0,5% (Benjamin et al., 2018), und in besonders prekären Fällen noch niedriger. Fachtechnisch wird von einem *Alpha-Niveau* oder einem *Signifikanzniveau* gesprochen und die berechnete Wahrscheinlichkeit heißt *p-Wert*. p-Werte unter einem bestimmten Prozentsatz (z.B. 5% in den meisten Sozialwissenschaften[^probleme_methoden-1]) werden *statistisch signifikant* oder *auf dem 5%-Niveau signifikant* bezeichnet. Forschende würden also sagen, dass eine Münze *nicht* fair ist, wenn sie sechs Mal hintereinander auf Kopf landet (sogar schon bei fünf Mal, was in 3,125% der Fälle vorkommt). Dabei nehmen sie in Kauf, dass sie, wenn die Münze eigentlich doch fair ist, in 5% aller Fälle falsche Schlüsse ziehen.
Auf der anderen Seite ist es durchaus möglich, dass eine Münze nicht fair ist, zum Beispiel in 60% der Fälle auf Kopf landet und in 40% auf Zahl.
![Eine einzelne Studie führt noch nicht zu sicherer Erkenntnis. Auch, wenn ein untersuchter Zusammenhang nicht vorliegt, kann er in Daten zufällig aufscheinen. Und auch, wenn eigentlich ein Zusammenhang vorliegt, kann dieser in den Daten durch Zufallsschwankungen nicht zu erkennen sein. Mithilfe von Open Science-Praktiken soll der Zustand in den linken Kästen wiederhergestellt werden. Aus Röseler, L. (2021). Wissenschaftliches Fehlverhalten \[Abbildung\]. https://osf.io/uf7gz/. Lizenziert unter CC BY-Attribution International 4.0.](images/freiheitsgrade.jpg)
:::
[^probleme_methoden-1]: In der Teilchenphysik wird ebenfalls mit statistischen Modellen gearbeitet. Dabei wird statt dem 5% Signifikanzniveau (1,96 Sigma) das 5-Sigma-Kriterium verwendet, was einem Alpha-Niveau von 0.000000573% entspricht.
### Freiheitsgrade von Forschenden (*Researchers' Degrees of Freedom*)
Vollständige Studien mehrfach durchzuführen ist sehr aufwändig. Obwohl es ein relativ sicherer Weg zu signifikanten p-Werten ist, gibt es weitaus sparsamere Lösungen. Die meisten Analysen sind um ein vielfaches komplexer als die oben beschriebene Münzwurfstudie. Betrachten wir den immer noch sehr einfachen Signifikanztest für einen Korrelationskoeffizienten. Der Koeffizient ist eine Zahl zwischen -1 und 1 und beschreibt die Art des Zusammenhanges zwischen zwei Variablen (z.B. Einkommen und Lebenszufriedenheit). 0 bedeutet, dass kein Zusammenhang vorliegt, positive Werte bedeuten, dass wenn die eine Variable hohe Werte hat, dann hat auch die andere hohe Werte, und negative Korrelationen bedeuten, dass wenn eine Variable hohe Werte hat, dann hat die andere Variable eher niedrige Werte. In Abbildung X sind verschiedene Korrelationen dargestellt.
**Verschiedene Zusammenhänge zwischen zwei Variablen und deren Korrelationskoeffizienten (simulierte Daten).**
```{r}
#| code-fold: true
layout(matrix(c(1, 1, 2, 2, 3, 3, 4, 4), nrow = 2, byrow = TRUE))
set.seed(42)
n <- 100
x1 <- rnorm(n)
y1 <- rnorm(n)
y2 <- x1+rnorm(n)
y3 <- -x1+rnorm(n)
y4 <- abs(x1+rnorm(n))^2
plot(x1, y1, main = paste("r = ", round(cor(x1, y1), 2), sep = "")
, xaxt = 'n', yaxt = 'n', xlab = "", ylab = "", pch = 20)
plot(x1, y2, main = paste("r = ", round(cor(x1, y2), 2), sep = "")
, xaxt = 'n', yaxt = 'n', xlab = "", ylab = "", pch = 20)
plot(x1, y3, main = paste("r = ", round(cor(x1, y3), 2), sep = "")
, xaxt = 'n', yaxt = 'n', xlab = "", ylab = "", pch = 20)
plot(x1, y4, main = paste("r = ", round(cor(x1, y4), 2), sep = "")
, xaxt = 'n', yaxt = 'n', xlab = "", ylab = "", pch = 20)
layout(1)
```
::: callout-note
## Korrelation
*r* bezeichnet bei statistischen Berichten einen *Korrelationskoeffizienten*, nämlich üblicherweise die *Produkt-Moment-Korrelation* (oder auch Bravais-Pearson Korrelation). Korrelationskoeffizienten sind standardisierte Werte für den Zusammenhang von zwei Variablen. Dabei kann es sich um Intelligenz und Gehalt von mehreren Personen handeln oder um Höchstgeschwindigkeit und Gewicht mehrerer Autos. Korrelationskoeffizienten liegen immer zwischen -1 und 1. Werte unter 0 bedeuten, je höher das eine, desto niedriger das andere (negativer Zusammenhang). Werte über 0 bedeuten, je höher das eine, desto höher das andere (positiver Zusammenhang). 0 bedeutet, dass beide beteiligten Variablen unabhängig voneinander sind. Die 98 in der Klammer ist die Anzahl der Beobachtungen minus 2 und wird als Freiheitsgrade[^probleme_methoden-2] bezeichnet. Der Korrelationswert von .420 (bzw 0,42) bedeutet, dass ein positiver Zusammenhang beobachtet wurde. Wichtig ist außerdem, dass es nur um insgesamt positive oder negative Zusammenhang geht (*Linearität*). Falls also beispielsweise ein u-förmiger Zusammenhang vorliegt (unten rechts in der Abbildung), wird sich dieser nicht in der Korrelation niederschlagen.
:::
[^probleme_methoden-2]: Die Logik hinter dem Begriff ist vergleichbar mit einer Formel mit mehreren Variablen und der Frage: "Die Werte wie vieler Variablen muss ich kennen, um die übrigen auszurechnen?"
Obwohl es sich hierbei um einen sehr einfachen Test handelt, bringt er viele Entscheidungen mit sich. Selbst nach der Datenerhebung muss entschieden werden: Welche der befragten Personen werden für den Test verwendet? Sollen Personen ausgeschlossen werden und falls ja, warum (z.B. extreme Werte oder unplausible Werte)? Wie werden die Werte der Variablen berechnet? Welcher Typ Korrelation soll verwendet werden (z.B. Bravais-Pearson, Kendall, oder Spearman)? Gibt es eine Erwartung der Richtung der Korrelation (Gerichtetheit der Hypothese)?
Diese Fragen entsprechen Freiheitsgraden -- Forschende sind also dahingehend flexibel, welche Optionen sie wählen. Keine der Optionen ist per se allen anderen überlegen und jede Entscheidung lässt sich in einem gewissen Rahmen rechtfertigen. Das Problem dieser Flexibilität ist, dass die Ergebnisse von ihr abhängen und je nach den Entscheidungen kann das Ergebnis eine positive, negative, oder keine Korrelation bedeuten. Je komplexer die Untersuchung und das statistische Verfahren ist, desto größer ist auch die Flexibilität bei der Datenanalyse. An sich sind diese Freiheitsgrade nichts Schlechtes, problematisch wird es bloß dann, wenn nur diejenigen Ergebnisse dargestellt werden, die sich gut veröffentlichen lassen oder zu den Überzeugungen der Forschenden passen. Dieses Vorgehen heißt HARKing (hypothesizing after the results are known = Hypothesen aufstellen, nachdem die Ergebnisse bekannt sind) und stellt einen Zirkelschluss dar. Die Hypothese, die geprüft wurde, stammt aus den Daten, die sich natürlich bestätigen. Verschiedene Lösungswege erlauben auch die Reduktion oder komplette Auslöschung von Freiheitsgraden (z.B. Präregistrierung, siehe Kapitel XXX). Auch ist es möglich, das Vorgehen als explorativ, also nicht vorher durchdacht und vorbestimmt, zu kommunizieren.
Im Datenanalyseprozess wird die Analogie des „garden of forking paths" verwendet. In einem vereinfachten (!) Beispiel in Abbildung 4 haben wir 3x4x4x4 = 192 verschiedene Ergebnisse, die das gesamte Spektrum der Schlussfolgerungen abdecken werden -- egal, ob unsere Hypothese stimmt oder nicht.
![192 verschiedene Wege von einem Datensatz zum (gewünschten) Ergebnis](images/gardenofforkingpaths.jpg)
Demonstrationen des *garden of forking paths* existieren für verschiedenste Felder. Die Abhängigkeit der Ergebnisse wurde bereits für die Felder Evolutionsbiologie [@Gould.2023], Sozialpolitik [@Breznau.2022], Strukturgleichungsmodelle [@Sarstedt2024-ov], und Sprachanalysen [@Coretta.2023] nachgewiesen.
### Tippfehler
Häufig werden Daten mittels fortgeschrittener Programme ausgewertet und die Ergebnisse werden dann mühselig in den Bericht übertragen. Hierbei entstehen schnell Tippfehler. @nuijten2016prevalence erstellten einen Algorithmus, der automatisch berichtete Signifikanztests erkennt, nachrechnet, und Inkonsistenzen zurückmeldet. Dabei fanden sie heraus, dass in großen Psychologiezeitschriften zwischen 1985 und 2013 in ungefähr der Hälfte aller Artikel mindestens ein Fehler war. Diese "Tippfehler" waren dabei nicht völlig zufällig, sondern fehlerhafte Werte waren meistens zugunsten positiver Befunde. Solche Übertragungsfehler passieren auch bei Meta-Analysen [@Lopez-Nicolas2022-gv]. Und selbst bei Zitationen sind Fehler nicht selten: Über verschiedene wissenschaftliche Disziplinen fanden [@Smith2020-nm], dass in 25% aller untersuchten Zitationen die zitierten Behauptungen in den Originalartikeln nicht vertreten wurden.
### p-Hacking
Der p-Wert bei statistischen Tests gibt an, wie hoch die Wahrscheinlichkeit für das beobachtete Muster ist, gegeben eines zuvor angenommenen Musters. Für eine Korrelation heißt das meistens: Wie wahrscheinlich ist es, eine Korrelation der vorgefundenen Höhe zu beobachten, wenn eigentlich kein Zusammenhang (also *r* = 0) zwischen den untersuchten Variablen besteht. Konkret könnte das heißen: Wie wahrscheinlich ist es, dass in meinem Datensatz von 100 Personen die Korrelation zwischen Intelligenz und Alter genau *r*(98) = .420 ist, wenn ich eigentlich davon ausgehen, dass beide Variablen nicht zusammenhängen.
Die im Signifikanztest mitformulierte Annahme des fehlenden Zusammenhanges heißt *Nullhypothese*. Wenn das beobachtete Muster unter Annahme der Nullhypothese extrem unwahrscheinlich ist (oft unter 5%) wird von einem statistisch signifikanten Zusammenhang gesprochen. Wichtig ist dabei, dass Signifikanz (also „Bedeutsamkeit") hier wirklich nur im statistischen Sinne zu verstehen ist. Die Frage, wie bedeutsam ein Befund für die Welt und das Leben ist, lässt sich mit Statistik in diesem Rahmen nicht beantworten. Weil p-Werte Wahrscheinlichkeiten sind, liegen sie zwischen 0 und 100%.
Unter den QRPs (fragwürdigen Forschungspraktiken) ist p-Hacking eine weitere Kategorie, die wiederum selbst verschiedene Techniken beinhaltet. Mit p-Hacking ist gemeint, dass Forschende ihre Freiheitsgrade nutzen, um den p-Wert „signifikant zu machen", also unter 5% zu bringen. Eine oft fälschlicherweise gemachte Annahme zu p-Werten ist, dass hohe p-Werte für die *Abwesenheit* eines Zusammenhanges sprächen, oder dass p-Werte nur dann niedrig sind, wenn tatsächlich ein Zusammenhang vorliegt. Stattdessen sind p-Werte tendenziell klein, wenn ein Zusammenhang vorliegt, der auch mit der Menge der erhobenen Daten nachgewiesen werden kann. Wenn kein Zusammenhang vorliegt, sind p-Werte gleichverteilt, das heißt, alle p-Werte kommen gleich häufig vor. Im Sinne der oben genannten Definition ist von vornherein klar, dass bei 100 durchgeführten Studien tendenziell fünf einen signifikanten Zusammenhang aufweisen, *wenn eigentlich keiner vorliegt*. Diese Tatsache erlaubt diverse p-Hacking-Methoden. Simonsohn et al. (2014) zeigten, dass die Wahrscheinlichkeit, ein signifikantes Ergebnis zu kriegen, wenn eigentlich kein Zusammenhang in den Daten herrscht, von 5% auf ca. 60% steigen kann. Abbildung X zeigt die Verteilung von p-Werten bei verschieden hoher Teststärke (bzw. Power: der Wahrscheinlichkeit, einen Zusammenhang einer bestimmten Größe zu finden, wenn es ihn tatsächlich gibt).
*p-Werte sind bei Abwesenheit von Unterschieden oder Zusammenhängen, also beim Gelten der Nullhypothese, gleichverteilt. Je höher die statistische Teststärke (Power) ist, desto weiter verschiebt sich die Verteilung in den Bereich statistischer Signifikanz.*
```{r}
#| code-fold: true
# P-Value distribution ----------------------------------------------------
layout(matrix(c(1,2,3), nrow = 1))
effects <- c(0, .1, .3)
for (i in effects) {
effect <- i
n <- 100
pvalues <- (replicate(1000, t.test(rnorm(100), rnorm(100, i))$p.value))
power <- round(pwr::pwr.t.test(n = n, d = i, power = NULL, alternative = "two.sided")$power, 3)
hist(pvalues
, xlab = "p-Werte"
, ylab = "Anzahl"
, main = paste("Effektstärke d = ", i, "\nPower = ", power, sep = "")
, xlim = c(0, 1)
, yaxt = 'n')
}
layout(1)
```
Die Chance, signifikante p-Werte zu kriegen, ohne dass die getestete Hypothese überhaupt stimmt, lässt sich durch „zerschneiden" der Stichprobe erhöhen (z.B. werden nur Frauen, Berufstätige, oder Personen, die älter als 30 Jahre sind, analysiert), durch das Erheben zusätzlicher Daten („optional stopping"), oder durch die Verwendung mehrerer zentraler Variablen (zum Beispiel wird Intelligenz mit 3 verschiedenen Tests erfasst und alle Tests werden einzeln mit Alter korreliert). Selbst das verändern kleiner Parameter in den statistischen Tests (z.B. Verwendung einer nicht-parametrischen Spearman Korrelation statt der Bravais-Pearson-Korrelation) erhöhen die Chancen auf ein signifikantes Ergebnis (siehe Tabelle Y). Einige Formen des *p-Hacking* lassen sich zum Beispiel hier ausprobieren: [https://shinyapps.org/apps/p-Hacker/](https://shinyapps.org/apps/p-hacker/){.uri} [@Schonbrodt.2016]. @Wicherts2016-br schlagen eine Checkliste vor, um p-Hacking zu vermeiden.
*Wahrscheinlichkeit für ein signifikantes Ergebnis durch die Anwendung verschiedener p-Hacking-Techniken nach @Simmons.2011, Tabelle 1. Der Anteil signifikanter Ergebnisse sollte hier den festgelegten 5% des Alpha-Fehlers entsprechen.*
| Technik | Anteil signifikanter Ergebnisse |
|----|----|
| Mehrere abhängige Variablen, deren Korrelation r = .5 ist | 9,5% |
| 10 weitere Beobachtungen je Gruppe erheben | 7,7% |
| Eine weitere Variable (z.B. Geschlecht) mit in das Modell aufnehmen | 11,7% |
| Ausschließen (bzw. Beibehalten) einer von drei Gruppen | 12,6% |
| Alle Techniken gleichzeitig | 60,7% |
::: callout-tip
## Daten fälschen für Dummys
@Hussey.2018 (und darauf aufbauend @sarstedt2023advanced) schlugen selbstironisch bereits Methoden vor, um p-Hacking noch stärker zu erleichtern. Auf dieser Website können Benutzer\*innen Zufallszahlen in dem gewünschten Bereich generieren: <https://mktg.shinyapps.io/extra-p_ointless/>
:::
### Selektives Berichten (*Selective Reporting*)
Im Rahmen der Planung einer sozialwissenschaftlichen Studie stellt sich oft die Frage, wie ein bestimmtes Konstrukt gemessen werden soll. Für Intelligenz, politischer Ansicht, Lebenszufriedenheit, und viele andere Variablen gibt es nicht *den* Test sondern viele Messinstrumente, die teilweise gering miteinander zusammenhängen. Gleichzeitig sind die zu testenden Theorien meist vage und diktieren nicht, mit welchem Maß ein Konstrukt gemessen werden sollte. Theorien sind den Messmethoden gegenüber also oft agnostisch, oder anders gesagt: Laut der Theorie ist es unerheblich, wie die Variable gemessen wird. Werden in einer Studie dann verschiedene Messmethoden für ein Konstrukt gewählt, müsste die Theorie über alle Tests gleichermaßen bestätigt werden. Falls das nicht der Fall ist, sollte die Theorie angepasst werden. Entgegen dieser Empfehlung und um die Chance der Publikation der Ergebnisse zu maximieren, berichten Forschende Ergebnisse oft *selektiv*. Statt aller Ergebnisse werden also nur die „passendsten" oder „spannendsten" berichtet. Wie oben im Thema p-Hacking und Freiheitsgrade von Forschenden klar geworden ist, führt das dazu, dass Zusammenhänge gefunden werden, die eigentlich nicht existieren. Werden zum Beispiel drei verschiedene und unabhängige Maße zum Testen einer Hypothese verwendet, steigt Wahrscheinlichkeit für mindestens ein signifikantes Ergebnis von 5% auf 14%.
Selektives Berichten: Von den hundert Korrelationen mit unzusammenhängenden Zufallszahlen sind im Mittel fünf signifikante zu erwarten - und das *rein zufällig*. Alle gemeinsam sind nicht signifikant. Um bessere Chancen auf eine Veröffentlichung und damit auf eine unbefristete Stelle zu ergattern, berichten Forschende häufig nur den spannendsten Teil der Ergebnisse und verzerren damit das Bild.
```{r}
#| code-fold: true
library(ggplot2)
# mean(replicate(1000, mean(replicate(6, cor.test(rnorm(50), rnorm(50))$p.value) < .05) > 0)) # 26.7%
set.seed(1)
n <- 100
ncors <- 100
cors <- data.frame( "r" = NULL
, "lcl" = NULL
, "ucl" = NULL)
for (i in 1:ncors) {
cortest_temp <- cor.test(rnorm(n), rnorm(n))
r_temp <- cortest_temp$estimate
lcl_temp <- cortest_temp$conf.int[1]
ucl_temp <- cortest_temp$conf.int[2]
cors <- rbind(cors, c(r_temp, lcl_temp, ucl_temp))
# rm(c(r_temp, lcl_temp, ucl_temp))
}
names(cors) <- c("r", "lcl", "ucl")
cors$signifikant <- ifelse(cors$ucl < 0 | cors$lcl > 0, "Ja", "Nein")
ggplot(cors, aes(x = r, y = 1:nrow(cors), col = signifikant)) + geom_point() +
geom_errorbar(aes(xmin = lcl, xmax = ucl)) +
theme_bw() +
geom_vline(xintercept = 0, lty = 2, col = "red")
```
### Optionales Stoppen (Optional Stopping)
Führt man bei der Durchführung einer Studie nach jeder Beobachtung den Test erneut aus und betrachtet den p-Wert, dann gibt es zwei Möglichkeiten zum Verlauf der p-Werte: Falls ein Zusammenhang zwischen den erhobenen Variablen besteht, wird der p-Wert *konvergieren*, also sich einem bestimmten Wert annähern, nämlich 0. Die Wahrscheinlichkeit für das beobachtete Ergebnis wird mit größerer Stichprobe immer geringer. Dass eine Münze nur auf "Kopf" landet, ist ungewöhnlicher, wenn sie das 100-Mal getan hat, als wenn sie das dreimal tat. Falls kein Zusammenhang vorliegt, wird der p-Wert nicht wie oft erwartet gegen 1 gehen, sondern *nicht konvergieren*. Er wird dann chaotisch mal hoch und mal niedrig sein -- und auch öfter mal signifikant. Diese Tatsache machen sich Forschende beim *optionalen Stoppen* zu Nutzen: Sie erheben so lange Daten, bis ihre Hypothese bestätigt wird. Das Problem besteht übrigens nicht für Korrelationen und andere Effektstärkemaße. Diese konvergieren je nach Größe ab ungefähr 250 Beobachtungen (Schönbrodt & Perugini, 2013).
**Abbildung P**
*Konvergenz von p-Werten und Effektstärken je nach Effektgröße: Effektstärken (hier: Korrelationskoeffizienten) konvergieren bei großen Stichproben: p-Werte konvergieren nur, wenn die Korrelation nicht 0 ist.*
```{r}
#| code-fold: true
# P-Value Convergence -----------------------------------------------------
imax <- seq(5, 1000, 10)
p0 <- NULL
p1 <- NULL
p2 <- NULL
for (i in imax) {
set.seed(42)
ds0 <- MASS::mvrnorm(n = i, mu = c(0,0), Sigma = matrix(c(1, 0, 0, 1), nrow = 2))
ds1 <- MASS::mvrnorm(n = i, mu = c(0,0), Sigma = matrix(c(1, .05, .05, 1), nrow = 2))
ds2 <- MASS::mvrnorm(n = i, mu = c(0,0), Sigma = matrix(c(1, .1, .1, 1), nrow = 2))
p0 <- c(p0, cor.test(ds0[, 1], ds0[, 2])$p.value)
p1 <- c(p1, cor.test(ds1[, 1], ds1[, 2])$p.value)
p2 <- c(p2, cor.test(ds2[, 1], ds2[, 2])$p.value)
}
plot( y = p0, x = imax, type = "l", col = "grey", xlab = "Stichprobengröße (Anzahl der Beobachtungen)", ylab = "p-Wert")
lines(y = p1, x = imax, col = "orange")
lines(y = p2, x = imax, col = "red")
abline(h = .05, lty = 2)
legend("topright", c("r = 0", "r = .05", "r = .1"), col = c("grey", "orange", "red"), lty = 1)
```
### Darstellung kalibrierter Modelle als geplante Modelle (*Overfitting*)
Komplexe statistische Modelle haben viele Stellschrauben. Es ist möglich, die unzähligen Entscheidungen vor Anwendung eines Modells auf Daten zu treffen, für gewöhnlich werden aber andere Kalibrationen ausprobiert und eine andere als die geplante hat eine bessere Passung. Damit ist gemeint, dass beispielsweise bestimmte Variablen mit in ein Modell aufgenommen werden, um die Vorhersagekraft zu maximieren. Zu vielen Modellen gehören sogar verschiedene Algorithmen, die auf Basis festgelegter Regeln entscheiden, wie das Modell aussehen soll. Ein Modell wird also an ein Datenmuster angepasst. Wird das Vorgehen transparent offengelegt, ist das absolut in Ordnung. Problematisch wird es, wenn das beste gefundene Modell als geplantes Modell dargestellt wird. Das in den Daten vorliegende Muster beinhaltet in sozialwissenschaftlichen Untersuchungen nämlich fast immer auch ein Rauschen, also Schwankungen, die auf Messungenauigkeiten oder andere unbekannte Einflüsse zurückzuführen sind. Diese Einflüsse schwanken definitionsgemäß (in der psychologischen Testtheorie ist zum Beispiel die Rede vom *Error*, einer unsystematischen Schwankung, die sich bei häufiger Messung herausmittelt). Bei zukünftigen Untersuchen wird das an die vergangenen Daten und das darin enthaltene Rauschen angepasste Modell dann notwendigerweise schlechter abschneiden, weil das Rauschen in den neuen Daten ein anderes ist. Man spricht dann von einem „überangepassten" Modell oder Overfitting.
### Tendenz von Menschen, sich selbst zu bestätigen (*Confirmation Bias*)
Ein besonderes Problem wissenschaftlicher Methoden ist der Confirmation Bias. Das Phänomen ist in der wissenschaftlichen Literatur nicht klar definiert [@Nickerson.1998], hier meine ich damit die Tendenz von Menschen (oder in diesem Kontext: Forschenden), diejenigen Muster zu finden, die sie erwarten. Der Confirmation Bias basiert auf wissenschaftlichen Befunden [@Oswald.2004] und wurde von den Wissenschaftler\*innen auf sich selbst übertragen [@Mynatt.1977; @Yu.2014]. Diese Gedanken führen nah an logischen Unsinnigkeiten und Paradoxa entlang, selbstironisch bemerkt zum Beispiel @Nickerson.1998 die Möglichkeit, dass alle Befunde zu Confirmation Biases selbst nur Produkte desselben sein könnten, was die Existenz des Confirmation Biases dann wieder bestätigen würde (S. 211). Praktisch besteht die Gefahr, dass Wissenschaftler\*innen nicht Wahrheiten herausfinden, sondern alles so drehen, dass ihre Vorahnungen bestätigt werden. Ludwik @Fleck.19352015 geht in seiner Wissenschaftssoziologie, die die Grundlage für Thomas Kuhns Arbeit zu wissenschaftlichen Revolutionen [@Kuhn.19701996] bildet, noch ein paar Schritte weiter: Er argumentiert für ein Modell des wissenschaftlichen Fortschritts, bei dem es nicht darum geht, der Wahrheit näher zu kommen, sondern nach bestem Wissen Probleme vor dem gesellschaftlichen Hintergrund zu verstehen. Das heißt nicht, dass es keine Wahrheit gibt, nur dass Wahrheit eben nicht bloß die Übereinstimmung von Aussagen mit Tatsachen ist. Statt dieser oft von Wissenschaftler\*innen vertretenen *Korrespondenztheorie von Wahrheit*, findet sich bei Fleck eine *Konsenstheorie* von Wahrheit wieder: Die Übereinstimmung vieler Leute ist wichtig. Wissenschaftliche Tatsachen werden nicht von einzelnen Personen „entdeckt", sondern von einem Kollektiv erschaffen. Der Confirmation Bias findet sich dabei so wieder, dass dem Konsens widersprechende Befunde ausgeblendet werden und auf den aktuellen Auffassungen so lange wie möglich beharrt wird. Wenngleich philosophische Wahrheitstheorien den Rahmen dieses Buches sprengen, sei darauf hingewiesen, dass keine der drei Wahrheitstheorien (Korrespondenz, Konsens, und Kohärenz) haltbar ist [@Albert.2010; *Münchhausen Trilemma*].
### Datenfälschung
Die bisher diskutierten Praktiken werden oft als fragwürdig (questionable) dargestellt. Manche Wissenschaftler\*innen halten das für ein Euphemismus, denn in der Verantwortung als Forscher\*in sollte genügend Wissen vorliegen, um zu erkennen, dass die oben beschriebenen Techniken *nicht* wissenschaftlich sind und eindeutig nicht der Generierung von Wissen dienen. Sie behindern deutlich den wissenschaftlichen Fortschritt, gefährden das Vertrauen in Wissenschaft, und führen zu enorm hohen Kosten. Unglücklicherweise sind diese Problematiken vielen Wissenschaftler\*innen heute immer noch nicht bekannt. „Das haben wir halt so gelernt und schon immer so gemacht" heißt es zum Beispiel. Dass bestimmte Studien sich nicht replizieren ließen, war teilweise schon vielen Personen bewusst, sie hielten es nur nicht für möglich, das im Scientific Record festzuhalten. Jedenfalls legt der Begriff der fragwürdigen Forschungspraktiken nahe, dass sich Forschende damit in einer Grauzone bewegen würden. Meiner Ansicht nach ist das nur der Fall, da, wenn Forschende ihren Job verlieren würden, weil sie p-Hacking betrieben haben, nicht mehr viele Forschende übrig wären.
Anders ist es beim Fälschen und Manipulieren von Daten. Wie häufig Datenmanipulationen oder -fälschungen vorkommen, ist ungewiss und Schätzungen sind schwierig. In einer Meta-Analyse von Umfragen zu dem Thema wurde geschätzt, dass zwischen 0,86 und 4,45% aller Wissenschaftler\*innen zugaben, Daten manipuliert zu haben. 72% gaben an, fragwürdige Forschungspraktiken anzuwenden [@Fanelli.2009]. @Stroebe.2012 stellten später Beispiele von Datenfälschung zusammen und empfahlen Peer Review und Replikationen als Betrugs-Detektoren. Eine neuere und extrem umfangreiche Studie von @Gopalakrishna.2021 berichtete, dass 8,3% aller Befragten Daten manipuliert oder gefälscht hätten und 51,3% fragwürdige Forschungspraktiken angewandt hätten (Tabelle 2) und bestätigte den Ausmaß der Probleme. Je nach Disziplinen kommen weitere Probleme hinzu, wie zum Beispiel die Verwendung bereits veröffentlichter biomedizinischer Bilder, die in ungefähr 3,8% aller veröffentlichten Artikel angewandt wurde, [@Bik.2016]. Während lange davon ausgegangen wurde, dass Betrug nur in sehr seltenen Fällen geschieht, ist das Problem vor allem, dass er nur selten entlarvt wird. Wie oft Forschung "Fake" ist, wurde bisher kaum untersucht und Schätzungen variieren stark [@Heathers2024-ju]. Fälle von Betrug, die ans Licht kamen, hatten die Zurückziehung (*Retraction*) der jeweiligen wissenschaftlichen Artikel zur Folge und oft Konsequenzen für die wissenschaftliche Karriere der Verantwortlichen. Retractionwatch.org verwaltet die weltweit größte Datenbank zu zurückgezogenen Artikeln (Stand Dezember 2023: 49.628 Artikel): [http://retractiondatabase.org/](#0){.uri style="font-size: 11pt;"}.
Sehr düster ist dabei die Tatsache, dass Methoden zur Datenfälschung einerseits immer einfacher werden [@Naddaf.2023] und Wissenschaftler\*innen, die Fehler aufdecken, gelegentlich verklagt werden. Beispielsweise wurden die Autoren von Datacolada.org, die bereits häufiger Probleme aufgezeigt haben, von Francesca Gino für die Veröffentlichung verklagt (<https://datacolada.org/109>), woraufhin tausende Wissenschaftler\*innen Gelder für die finanzielle Unterstützung des Gerichtsprozesses sammelten (<https://www.gofundme.com/f/uhbka-support-data-coladas-legal-defense>).
## Weiterführende Informationen
- Bei diesem englischsprachigen Podcast wird diskutiert, wie und ob sich Betrug in der Wissenschaft stoppen lässt: <https://freakonomics.com/podcast/can-academic-fraud-be-stopped/>
- Wie sich die Replikationskrise aus Perspektive eines jungen Forschers angefühlt hat beschreibt Daniel Lakens: <http://daniellakens.blogspot.com/2020/11/why-i-care-about-replication-studies.html>
- @nagy2024bestiary listen fragwürdige Forschungspraktiken (QRP) systematisch in ihrem *Bestarium* auf.
### Literatur