(red) Wieści

Badania pod znakiem zapytania

W „Charakterach” (10/2015) przywołaliśmy badania Briana Noseka (opublikowane w sierpniowym „Science”), pokazujące, że zaledwie co trzeci eksperyment psychologiczny daje ten sam rezultat. Dlaczego replikacje pozostałych badań nie powiodły się - mówili na ten temat profesorowie Jerzy Brzeziński i Czesław Nosal. Dziś głos w dyskusji zabiera prof. Janusz Trempała z Uniwersytetu Kazimierza Wielkiego w Bydgoszczy, psycholog zajmujący się rozwojem człowieka w ciągu życia.

Prof. Janusz Trempała: Wydaje się, że jednym z najistotniejszych powodów niepowodzeń w replikacjach badań psychologicznych jest pomijanie czasu, jaki upłynął między oryginalnym badaniem a replikacją. Dla psychologów rozwoju wyniki analiz Noseka nie są zaskakujące. Od czasu publikacji K. Warnera Schaie (A general model for the study of developmental problems, 1965) wiemy, że przy ponownym pomiarze interesujących nas zmiennych w innych próbach i w innym czasie, a tym bardziej w odległych kohortach/rocznikach osób badanych (równolatków), nie należy spodziewać się tego samego wyniku. Jeśli w psychologii rozwoju replikujemy badania, to raczej po to, aby poznać tzw. efekty ukośne, tj. zmiany, jakie dokonują się w naszym gatunku w efekcie jego historyczno-społecznego rozwoju. A więc nie oczekujemy w replikacjach stałości, lecz raczej zmiany.

Sądzę, że wyniki badań zespołu Noseka nad replikacjami są równie kłopotliwe, jak meta-analiza przeprowadzona przez Brenta W. Robertsa i Wendy F. DelVecchio, psychologów z University of Tulsa (jej wyniki opublikowali w „Psychological Bulletin” w 2000 roku). Zgromadzili oni dane ze 152 badań podłużnych, opublikowanych w latach 1938–1999. Wybrali badania typu test-retest, czyli takie, w których pomiaru cechy (zmiennej) dokonuje się na początku trwania badania i na jego końcu. Analiza, którą objęto dane od ponad 55 tys. osób, pokazała, że do 50. roku życia korelacja pomiędzy powtórzonymi pomiarami jest znacznie słabsza niż stabilność pomiaru, traktowana jako kryterium trafności stosowanych skal diagnostycznych.

Czy to znaczy, że posłużono się złymi skalami? Nie, w metaanalizie tej (podobnie jak w programie Noseka) zignorowano upływ czasu badania. Obejmowała ona dane gromadzone w różnych grupach równolatków w okresie ponad pół wieku. A przecież w tym czasie dokonały się istotne przekształcenia w naszym gatunku, nawet w zakresie zdolności umysłowych uznawanych za dziedziczone. Wyniki takich analiz są wątpliwe.

Pozwolę sobie na konkluzję, że czaso- i kosztochłonne programy badań Noseka oraz Robertsa i DelVecio są przykładem nierzetelności naukowej, polegającej na pomijaniu problemu czasu pomiaru interesującej nas zmienności, o którym w psychologii rozwoju człowieka piszemy od dawna. W tym kontekście zastanawiam się, z jakiego powodu zespół Noseka wyłączył z analizy kilka programów badań, które miały charakter rozwojowy. Czyżby nie pasowały do przyjętego modelu?

Prof. Czesław Nosal: Co wynika z analiz przeprowadzonych przez zespół Briana Noseka? Jakie pytania stawiamy sobie, gdy wynik określonego badania nie został potwierdzony?
Większość komentarzy koncentruje się na zagadnieniach metodologicznych i statystycznych. To bardzo potrzebne i ważne, bo przy okazji czytel­nicy dowiadują się trochę o kuchni prowadzenia eksperymentów, a wiedza o standardach metodologicznych nie dotyczy przecież tylko psychologii, lecz wielu dziedzin badań naukowych. Szczególnie w medycynie i farmakologii ma to bardzo duże znaczenie, bo chodzi przecież o ludzkie życie.
Nosek i wielu komentatorów nie kwestionuje jednak celów i merytorycznego sensu przeprowadzonych badań, liczy się statystyka i metodologia. Ale to stanowczo za mało. Aby wyjść poza te formalne kryteria, wprowadzono kiedyś kategorię błędu trzeciego rodzaju. Dwa pierwsze błędy dotyczą formalnych kryteriów przyjęcia lub odrzucenia hipotezy postawionej przez badacza. Błąd trzeciego rodzaju to złośliwe określenie badań przeprowadzonych bardzo precyzyjnie (metodologicznie), lecz niedostarczających żadnego oryginalnego rezultatu; precyzyjna odpowiedź na źle postawione pytanie. Profesor Józef Kozielecki określił je kiedyś jako „odpowiedź wmontowaną w pytanie”, a więc jako hipotezy miałkie, niewnoszące nic nowego do zasadniczego korpusu wiedzy naukowej. Z tej perspektywy patrząc, nie każda replikacja badania miałkiego ma sens – i tak zasypie je piach… historii.
Nacisk na publikowanie za wszelką cenę, nawet za cenę miałkości hipotez i oszukiwania, niewątpliwie jest czymś bardzo złym. Prowadzi do nadmiaru „informacji” i zamulania procesów komunikowania się w nauce. Już dość dawno zwrócił na to uwagę znany naukoznawca Derek de Solla Price. Wykazał, że przekształcanie się „małej nauki” w „wielką naukę” prowadzi do gwałtownego (wykładniczego!) wzrostu publikacji, których nie ma kto czytać. Co tu kryć, tkwimy w błędnym kole, bo hasło „publikuj albo giń” nie sprzyja stawianiu oryginalnych, przełomowych hipotez. A takie właśnie rozwijają naukę, a później dopiero precyzja metodologii i procedur statystycznych.
Karl Popper w ewolucyjnej koncepcji rozwoju wiedzy obiektywnej – bo do niej dąży nauka – stwierdził pięknie, że hipotezy są wspaniałym wynalazkiem umysłu, bo… umierają za nas. Warto więc, żeby nie były to bańki mydlane, lecz oryginalne konstrukcje wyprowadzone z intuicji, wyobraźni lub dedukcyjnej teorii. Nie warto replikować badań opartych na nieciekawych hipotezach, bo te i tak niechybnie…wymrą. Szkoda wszak, że naniosą sporo mułu, zabiorą czas i pieniądze. Ale nie zapominajmy, że badania naukowe nie są prowadzone w społecznej (organizacyjnej) próżni. Ktoś aprobuje miałkie, bezwartościowe cele badań. Łańcuch winnych jest bardzo długi, ani nie zaczyna się, ani nie kończy na autorach.
Wykładniczy wzrost publikacji w wielu dziedzinach wiedzy niekoniecznie oznacza taki sam przyrost wiedzy. Ona ma inną naturę niż sterty zapisanego papieru. Niewątpliwie wykładniczo zaś rośnie „szum”, powtarzalność, a nawet pasożytnictwo w nauce, bo wiele wtórnych publikacji żeruje na oryginalnych pracach. Wartość analiz przeprowadzonych przez Noseka może wpłynąć na pojawienie się refleksji nad sensem publikowania i koniecznością krytycznego oceniania wielu publikacji pojawiających się nawet w renomowanych czasopismach. Nie wszystko złoto, co się świeci. 

Prof. Jerzy Brzeziński: Prof. Brian Nosek z University of Virginia to wybitny psycholog amerykański,  specjalizujący się w psychologii społecznej, poznaniu społecznym i metodologii. W sierpniu opublikował w „Science” - jednym z dwóch najbardziej prestiżowych czasopism naukowych - artykuł „Estimating the reproducibility of psychological science” Co takiego ważnego i niepokojącego psychologów zrobił B. Nosek?

Otóż najpierw wraz z zespołem 270 dobrze przygotowanych współpracowników przeanalizował listę 488 artykułów opublikowanych w 2008 r. w trzech psychologicznych czasopismach naukowych: Psychological Science (PSCI), Journal of Personality and Social Psychology (JPSP), Journal of Experimental Psychology: Learning, Memory and Cognition (JEP: LMC). Potem spośród opisanych badań wybrano (wedle szczegółowo opracowanego algorytmu postępowania) 100 takich, które uznano za warte replikacji - powtórzenia. (43 o profilu poznawczym, cognitive i 57 o profilu społeczno-osobowościowym, social-personality).
Wyniki zreplikowanych badań zostały poddane wszechstronnej analizie statystycznej z odwołaniem do testów statystycznych istotności różnic, przedziałów ufności, wskaźników wielkości efektu (effect size), współczynników korelacji i metaanalizy.

Jakie wyniki uzyskano? W wielkim skrócie, ten ambitny projekt badawczy pokazał, że o ile w 97 procent badań oryginalnych uzyskano wyniki istotne statystycznie (p<0,05), to w badaniach replikacyjnych ten procent był znacząco niższy i obejmował tylko 36 procent. Analiza wartości wskaźników wielkości efektu pokazała, że tylko 47 procent wartości wskaźników uzyskanych w oryginalnych badaniach mieściło się w granicach 95 procent przedziału ufności dla wartości tych wskaźników z badań powtórzonych.

Zapoznałem się z pracą B. Noseka i akceptuję ją – w wymiarze koncepcyjnym, w wymiarze zastosowanych narzędzi statystycznych oraz w wymiarze wniosków. Jeżeli bym przed czymś przestrzegał, to przed podejmowaniem przez Czytelnika, nazbyt daleko idących uogólnień.

Czego ważnego dowiadujemy się z badań przedstawionych w artykule Noseka? Jeżeli ma to być tylko jedno zdanie, to owe novum sprowadzić można do konstatacji, iż zbyt niski - alarmująco niski, był poziom „odtwarzalności” wyników w replikowanych badaniach. Jak wytłumaczyć ów niepokojący wynik? Jeżeli założymy (a ja tak chcę uczynić), że badania Noseka i współpracowników same były metodologicznie poprawnie przeprowadzone, to musimy (!) zastanowić się nad odpowiedzią na arcytrudne pytanie: dlaczego tak mały procent badań udało się, w miarę precyzyjnie, zreplikować?

Nauka a wróżby

Co, tak naprawdę, pozwala odróżniać wiedzę naukową (tę, która jest wytworzona – jako efekt stosowania uzgodnionych w społeczności uczonych procedur i metod – w pracowniach badaczy, np. fizyków, biologów czy też psychologów) od wiedzy nienaukowej (do tej odwołują się w swoich praktykach wróżbici czy osoby imitujące postępowanie naukowe, np. autorzy tajemnych foliałów czy, zalegających półki księgarń, harlekinów naukowych, np. o zamianie żab w księżniczki czy o ustawieniach rodzinnych wg Berta Hellingera)?

Otóż od wiedzy pretendującej do miana naukowej oczekuje się, iż będzie ona intersubiektywna – dokładniej: będzie zgodna ze słabszą zasadą racjonalności Kazimierza Ajdukiewicza: będzie intersubiektywnie komunikowalna i intersubiektywnie sprawdzalna. Owa intrersubiektywność, to taka właściwość wiedzy naukowej, iż może być ona wytworzona przez innych badaczy, gdy zechcą oni powtórzyć oryginalne badanie naukowe, aby powtórzyć sukces koleżanki, która pracowała w innym laboratorium – w innym mieście, w innym kraju. Badacze posługują się fachowym terminem: replikacja.

Badanie zasługuje na miano naukowego jeżeli można je – odtwarzając pierwotne (oryginalne) warunki w których zostało przeprowadzone (tj. charakterystyka osób, które wzięły w nim udział, charakterystyka sytuacji badawczej, aparatura, narzędzia pomiarowe, procedury statystyczne itp.) – niezależnie od autora badania oryginalnego powtórzyć i uzyskać zbliżone wyniki. Nie powiem – gdy skupimy się na badaniach prowadzonych przez psychologów – że takie same, gdyż trzeba założyć pewien poziom błędu. Badania nie są prowadzone w idealnych warunkach, przez idealnych badaczy, którzy posługują się idealną aparaturą. Trzeba też przyjąć konsekwencje wynikające z perspektywy historyczno-kulturowej i specyfiki okresu rozwojowego w którym znajdują się badane osoby. Ten błąd zapewne będzie mniejszy w badaniach prowadzonych w laboratoriach chemicznych czy biologii komórki, a większy w badaniach psychologicznych z udziałem osób, które odpowiadają na pytania kwestionariuszy osobowości.

A jeśli chodzi o badania psychologiczne, to łatwiej o udane replikacje w badaniach laboratoryjnych  prowadzonych w paradygmacie neurokognitywistycznym, aniżeli w badaniach w obszarze psychologii szkolnej. Niemniej jednak, oczekujemy, iż nie będzie on zbyt duży. Bowiem tylko taki wynik jest interesujący z punktu widzenia zasady kumulacji wiedzy naukowej, który da się zreprodukować dostatecznie precyzyjnie w różnych miejscach kuli ziemskiej, przez kompetentnych badaczy – stąd w tyle artykułu B. Noseka termin: „reproducibility” (odtwarzalność). Psychologia coraz częściej zbliża się warsztatowo do nauk przyrodniczych i przejmuje ich wzorce metodologiczne.

Powiem tak: to bardzo dobrze dla kondycji metodologicznej naszej dyscypliny naukowej, że pojawiają się tak ważne prace jak praca Noseka, która będzie, jak mniemam, jeszcze długo dyskutowana. Oby była to dyskusja konstruktywna, a nie sprowadzająca się do nieuprawnionych uogólnień ujętych w chwytliwych i sensacyjnych tytułach komentarzy prasowych.

Uwaga, oszust!
Odkryte kilka lat temu głośne oszustwo popełnione przez psychologa społecznego z Uniwersytetu w Tilburgu, Diederika Stapel’a też przyczyniło się, i to znacząco, do podjęcia problematyki dotyczącej zabezpieczenia praktyki badawczej przed oszustami miary Stapel’a. Ten, złej sławy, psycholog społeczny napisał i opublikował w prestiżowych czasopismach psychologicznych kilkadziesiąt artykułów „empirycznych”, które wsparte były wynikami całkowicie zmyślonych badań. Inne badania miały rażące błędy w analizie statystycznej. Efektem prac specjalnej komisji powołanej na uniwersytecie do zanalizowania skutków tego gigantycznego oszustwa był usunięcie z baz kilkudziesięciu artykułów stworzonych w ciągu 15 lat pracy oszusta.

Nasuwają się pytania: Jak było możliwe zakwalifikowanie do druku tych oszukańczych artykułów? Czy recenzenci nie postępowali rzetelnie? Dlaczego redakcje tych prestiżowych czasopism były aż tak naiwne, iż zawierzyły li tylko temu, że autor cieszył się sławą wybitnego badacza w środowisku akademickiej psychologii społecznej (był też dziekanem wydziału psychologii na swoim uniwersytecie)? Ile jeszcze prac napisanych przez stapelopodobnych „badaczy” znajduje się w bazach literatury psychologicznej? I pytanie najważniejsze: Co można (trzeba) zrobić, aby nie powtórzyła się afera Stapela?

Odkrycie tego oszustwa (nawiasem mówiąc dzięki niemożności przeprowadzenia przez doktorantów replikacji badań) zwróciło uwagę na (od wielu lat znany filozofom i metodologom nauki) wymóg replikacji badań jako kryterium naukowości badań. Badania B. Noseka powinny stanowić zachętę do odwoływania się do replikacji jako skutecznej metody zwalczania artefaktów.

Źródła patologii

Zwróćmy teraz uwagę na możliwe przyczyny tego bulwersującego zjawiska. Kilka czynników patologicznych, jak sądzę, ma wpływ na występowanie w społeczności badaczy niepożądanych i – co tu dużo mówić – wstydliwych zachowań.

Pierwszy – pycha, rywalizacja, chęć utrzymywania się w czołówce „najlepszych”. Warunki pracy, ani zagrożenia typu materialnego są tu bez znaczenia. Chęć bycia wśród najlepszych, to życie w nieustannym stresie. Jedyne co powoduje takimi osobami jak Stapel (wszak należał do elity, a i troski materialne były mu obce), to nieustająca troska o to, aby nie odpaść z czołówki, aby być zawsze obecnym na prestiżowych konferencjach i drukować (i być cytowanym!) w najlepszych czasopismach branżowych. A jak pomysłów już nie starcza, to słabnie odporność na pokusy i wchodzi się na równię pochyłą. 

Drugi – presja pracodawcy: kierownika katedry, dyrektora instytutu, dziekana wydziału czy rektora. Ostatnimi laty w Polsce nasilił się nacisk wywierany przez kierownictwo jednostek naukowych na pracowników, aby przynosili punkty za publikacje, aby przyspieszyli gromadzenie dorobku naukowego niezbędnego do uruchomienia postępowania habilitacyjnego. Wszak nagromadzenie przez jednostkę dużej liczby owych punktów umożliwi jej uzyskanie satysfakcjonującej kategorii w stosowanej przez Komitet Ewaluacji Jednostek Naukowych, co cztery lata, ocenie parametrycznej. Taka nadmierna bibliometryzacja oceny dorobku naukowego w skrajnych przypadkach może zaowocować wyborem „drogi na skróty”: dopisywaniem się do publikacji osób, sztuczne rozdrabnianie i powielanie publikacji, plagiaty, kupowanie całych czy tylko części (np. zaawansowanych analiz statystycznych) prac, próby (niestety bywa, że zwieńczone sukcesem) publikowania prac z danymi poprawianymi przez ich autorów itp. 

Trzeci – społeczne przyzwolenie i nikłe konsekwencje czynu. Patologicznym zachowaniom sprzyja również brak jednoznacznie stanowczej reakcji społeczności akademickiej na naruszenia standardów akademickich, a zwłaszcza władz uczelni (na wszystkich jej poziomach!) – zwłaszcza gdy jest to „nasz” pracownik.
Czwarty – nadmiar słabych szkół wyższych. Mimo i tak już obniżenia wymagań kadrowych przy powoływaniu nowych kierunków studiów i podtrzymywaniu (tu czasami chciałoby się użyć terminu „reanimacja”) tych, które, w imię przyzwoitości chociażby powinny być zlikwidowane – konieczność zatrudniania osób z habilitacją (akceptacja zatrudnienia drugoetatowego osób zaliczanych do tzw. minimum kadrowego dla kierunków kształcących na poziomie licencjackim – niestety dotyczy to także od 2 lat i psychologii!) sprawia, że o ten awans naukowy ubiegają się osoby, które ani nie odczuwają takiej potrzeby, ani nie są utalentowane, ani nie są w stanie napisać porządnego artykułu naukowego. Co zatem one mogą zrobić? Albo odejść z uczelni (tylko gdzie?), albo próbować swoistej „drogi na skróty”. Jest nią właśnie plagiatowanie czy zmyślanie wyników czy też poprawianie analiz statystycznych danych.

Kolejny czynnik, to praktyka publikacyjna wydawców czasopism psychologicznych. Psychologowie wiedzą, że aby opublikować artykuł, to musi on zdawać sprawozdanie z badań w których „coś” wyszło. Oznacza to, że dla wydawców liczą się tylko artykuły informujące o badaniach w których badacz/autor uzyskał wynik statystycznie istotny na minimalnym wymaganym poziomie: p=005! Robi się tedy wszystko (w tym manipulacja danymi!), aby jednak „wyszło”. Zauważmy, że istotność statystyczną owe magiczne „p” utożsamia się z rzeczywistą siłą oddziaływania zmiennej niezależnej na zmienną zależną. Dopiero od niedawna poważne czasopisma wymagają, aby autorzy podawali także wartości wskaźników wielkości efektu, które informują właśnie o sile wpływu jednej zmiennej (lub ich kombinacji) na zmienną zależną, a nie tylko poziom istotności.

Osobliwość badań psychologicznych

Kłopoty z replikacjami badań psychologicznych są nie tylko wywołane powyzszymi czynnikami patologicznymi, które wytwarzają złą aurę wokół psychologii jako takiej. Gdy przechodzimy z obszaru nauk empirycznych, takich jak biologia, fizyka czy chemia na obszar takiej nauki empirycznej, jaką jest psychologia, to musimy wziąć pod uwagę jeszcze osobliwość psychologiczną badań psychologicznych. Dość często te zmienne – ja mówię o zmiennych kontekstu psychologicznego badania psychologicznego – ani nie są należycie rozpoznawane (bywa, że w ogóle), ani, tym bardziej, kontrolowane.
Przed wielu laty psycholog amerykański Saul Rosenzeig (1907-2004) pisał w artykule “The experimental situation as a psychological problem (opublikowanym w Psychological Review w 1033 roku) o trzech osobliwościach badań eksperymentalnych w  psychologii:
(1) badacz staje się elementem sytuacji badawczej,
wpływ na zachowanie się osoby badanej w sytuacji badawczej mają takie zmienne związane z osobą badaną ją charakteryzujące, jak: osobowość, motywacja itp.,
zawiązuje się interakcja: badacz – osoba badana.
Ten ważny artykuł poprzedził prace takich psychologów, jak Martin T. Orne czy Robert Rosenthal, które powstały w latach sześćdziesiątych XX wieku. Prace tych psychologów zwróciły uwagę na to, że osoby badane są w stanie rozpoznać cel badania i zgodnie z tym modyfikować swoje zachowanie w eksperymencie. M. T. Orne mówił o zmiennych (wskazówkach) sugerujących hipotezę badawczą. Z kolei R. Rosenthal zwrócił uwagę na możliwe oddziaływanie badacza (ale także nauczyciela, sędziego, trenera) na wyniki badania, aby były one zgodne z jego oczekiwaniami – stąd nazwa: efekt oczekiwań interpersonalnych.

Środki zaradcze?

Jakie zatem można podjąć środki zaradcze. Myślę, że można mówić o trzech, uzupełniających się środkach. Pierwszy, to wymaganie replikowania badań. Tylko wyniki, które da się powtórzyć mają wartość naukową. Drugi, to wymóg dostarczania (przynajmniej redakcji) danych surowych, aby możliwe było przeprowadzenie reanalizy danych. Nie przyjmuję do wiadomości, że dane są własnością badacza i tylko on może się nimi posługiwać, Taka postawa jest nie do zaakceptowania zwłaszcza wówczas, gdy badania były finansowane ze środków publicznych (płaci za nie podatnik), a tak jest w systemie grantowym Narodowego Centrum Nauki. Trzeci, to zmiana polityki wydawniczej prowadzonej przez wydawców czasopism naukowych. Dziś, czasopisma nie chcą publikować artykułów stanowiących replikacje wcześniej opublikowanych wyników badań. Redakcje zastrzegają się, że publikują tylko wyniki oryginalne! Konsekwencje tego są takie, że nie wiemy ile nieopublikowanych artykułów zalega w szufladach badaczy, gdyż badacz nie uzyskał „uświęconej” wartości p=0,05, a nie chciał „poprawiać” danych. Stąd mówi się o negatywnym efekcie szuflady. Nadzieje budzi (choć nie u wszystkich badaczy) inicjatywa wydawnicza do której zaczęły się przyłączać znaczące pisma. Polega ona na tym, że recenzowaniu podlega nie gotowy tekst, a koncepcja badania empirycznego. Jeżeli spotka się ona z pozytywnymi opiniami recenzentów, to redakcja zapewnia jej autora, że wyniki (niezależnie od tego czy „coś” wyszło czy nie) przeprowadzone zgodnie z zaopiniowaną koncepcją będą opublikowane. Ten nowy format publikacji nosi nazwę „wstępnej rejestracji” (pre-registration research).

Oby dyskusja wokół tekstu Noseka przyczyniła się także do zmiany praktyki badawczej w polskiej psychologii. Jednakże przestrzegam przed błędem nieprzemyślanych uogólnień. Te nie będą służyły praktyce badawczej psychologii.

Prof. dr hab. Jerzy Marian Brzeziński
specjalizuje się w metodologii psychologii, bada strukturę procesu badawczego; członek Polskiej Akademii Nauk; przewodniczący Zespołu Nauk Humanistycznych i członek Komitetu Badań Naukowych; przewodniczący Sekcji Nauk Humanistycznych i Społecznych Centralnej Komisji ds. Tytułu Naukowego i Stopni Naukowych.

foto: Alex_Po/shutterstock.com

Wstecz

comments powered by Disqus