We komen het de laatste tijd steeds vaker tegen bij het lezen van experimenteel-psychologisch onderzoek: proefpersonen die online worden geworven en getest via Mechanical Turk. Ook op congressen zoals Psychonomics gonsde het dit jaar van de positieve verhalen over dataverzameling met deze methode. Maar wat is Mechanical Turk precies en wie zijn de zogenaamde “Turkers” (de proefpersonen die via Mechanical Turk geworven worden)? Is Mechanical Turk echt zo’n geweldige manier van dataverzameling en kan het ons leven als psychonoom wellicht vergemakkelijken? Hoog tijd voor de Psychonoom om eens op onderzoek uit te gaan.
Het bestuderen van de website (http://www.mturk.com/) en enkele onderzoeken (zie referentielijst) leert ons dat Mechanical Turk een online crowdsourcing systeem (een soort online uitzendbureau) is van Amazon. In dit systeem kunnen gebruikers (zgn. requesters) een bulk werk distribueren aan een groot aantal individuele mensen (zgn. workers). Dit werk bestaat uit meerdere simpele taakjes (zgn. Human Intelligence Tasks, HITs) die eenmalig worden uitgevoerd door workers die hiervoor betaald krijgen. Van oorsprong zijn dit vaak taakjes die moeilijk zijn voor computers maar makkelijk voor mensen. Denk hierbij aan het labelen van plaatjes, het categorizeren van producten, het beoordelen of bepaald taalgebruik natuurlijk is, of geschikt voor een bepaalde doelgroep. Dit principe lijkt oppervlakkig gezien veel op een artificial intelligence systeem: de requester verzendt een aanvraag via Mechanical Turk waarna er razendsnel vele computaties gemaakt worden en het systeem de data hiervan direct teruggeeft aan de requester. Omdat er in werkelijkheid vele mensen inloggen op de website, taakjes zoeken en maken tegen een kleine betaling en hierdoor de data genereren, vormt Mechanical Turk een soort "artificial artificial intelligence” (Barr & Cabrera, 2006).
Dit is ook hoe het systeem aan zijn naam komt. De Mechanische Turk was de naam van een "schakende machine“, die eind 18e/begin 19e eeuw veel publiek trok in Europa en Amerika. De machine was een kast met een schaaktafel erop, waarop een als Turk verklede pop zat die de zetten uitvoerde. Deze machine werd gepresenteerd als de eerste intelligente machine. Echter, in werkelijkheid zat er een kleine, goede schaker in het kastje die met hendels de stukken verzette en was het dus een goocheltruc. Amazon Mechanical Turk dankt zijn naam aan deze “intelligente machine” omdat er daadwerkelijk mensen achter de vele uitgevoerde computaties zitten.
Tot nu toe zijn het vooral commerciële bedrijven geweest die Mechanical Turk (MTurk) gebruiken om bijvoorbeeld hun databases op te schonen, reclames te laten beoordelen of consumentenonderzoek te doen. Maar MTurk is bijvoorbeeld ook ingezet bij de zoektocht naar Steve Fosset, de Amerikaanse avonturier die in 2007 vermist werd nadat hij voor een solovlucht in zijn vliegtuig was vertrokken. Omdat hij geen vluchtplan had ingediend, was het voor de hulpverleners zoeken naar een speld in een hooiberg. Google Earth stelde actuele satellietfoto’s van Nevada beschikbaar en deze werden aangeboden in MTurk zodat veel mensen tegelijkertijd een groot gebied konden doorzoeken.
Omdat het een eenvoudige manier is om toegang te krijgen tot een wereldwijde proefpersonenpool waarin een diversiteit aan mensen tegelijkertijd werkt op momenten dat het hun uitkomt, wordt MTurk de laatste tijd steeds meer gebruikt voor onderzoeksdoeleinden. Er zijn inmiddels aardig wat artikelen verschenen die gaan over het verzamelen van MTurk data, de betrouwbaarheid van de data, de demografische gegevens van de proefpersonen, of toepassingen voor het uitvoeren van bepaalde soorten taken (zie bijvoorbeeld Buhrmester, Kwang, & Gosling, 2011; Paolacci, Chandler,& Ipeirotis, 2010; Ross, Irani, Six Silberman, Zaldivar, & Tomlinson, 2010). Bovendien verschijnen er steeds meer artikelen in cognitief-psychologische tijdschriften (zoals Dale & Duran, 2011, in Cognitive Science) waarbij data werden verzameld mbv. MTurk. Dit alles heeft er voor gezorgd dat MTurk een steeds meer gebruikte methode voor experimenteel onderzoek is geworden. Maar hoe werkt het, wie zijn de proefpersonen en zijn de data wel betrouwbaar?
Onderzoek (zie referentielijst) laat zien dat de ruim 400.000 MTurk workers een grotere diversiteit hebben dan veel andere steekproeven in psychologisch onderzoek, die doorgaans vaak bestaan uit studenten van de eigen universiteit. Op dit moment komt het grootste deel van de workers uit Amerika of India. Hun demografische gegevens variëren sterk wat betreft leeftijd, opleidingsniveau, inkomen en sociaal- economische status. Als de onderzoeker deze diversiteit niet wil is het mogelijk om restricties op te geven voor de workers op een bepaalde taak, de workers van wie het profiel niet aan de opgegeven voorwaarden voldoet krijgen de taak niet te zien.
Workers krijgen gemiddeld $2 tot $3 per uur betaald. Daar komt een 10% fee voor Amazon bovenop. Op het moment dat de worker de taak gemaakt heeft kan de onderzoeker de data binnenhalen en beoordelen. Als de worker fatsoenlijk werk geleverd heeft wordt hij/zij uitbetaald. Echter, als het werk onvoldoende is (dat wil zeggen als de worker zich niet aan de instructie heeft gehouden) kan het worden afgewezen en krijgt de worker niet betaald. De onderzoeker betaalt dus alleen maar voor kwalitatief goede data. Bovendien heeft afwijzing negatieve consequenties voor de workers, omdat requesters mensen met meerdere afgewezen taken kunnen weigeren voor het maken van volgende taken.
Doordat veel workers tegelijkertijd aan een taak werken is het niet zelden zo dat er honderd proefpersonen per uur gedraaid kunnen worden. Realistische betaling (niet te hoog en niet te laag vergeleken met andere taken) zorgt voor een goede kwaliteit van data. Omdat iedere worker een eigen profiel heeft dat gelinkt is aan een uniek creditcardnummer is het mogelijk om te zorgen dat mensen niet tweemaal met dezelfde taak meedoen. Wie bang is voor het feit dat workers vanuit huis werken en dus wellicht minder oplettend/aandachtig het experiment maken dan in een labsetting, kan catchtrials, manipulatiechecks of begripsvragen inbouwen waardoor onoplettende proefpersonen door de mand vallen. Zulke checks zorgen ervoor dat de verkregen data zeker zo betrouwbaar als de data in een lab setting of via andere websites (zie bijvoorbeeld Paolacci, Chandler,& Ipeirotis, 2010).
De experimenten die via Mturk gedraaid worden kunnen geprogrammeerd worden in de HTML omgeving van Mturk. Een handige onderzoeker kan bovendien werken met Java Script of een ander programma om bijvoorbeeld reactietijden of mouse trajectories te loggen. Voor de onderzoekers die geen graad hebben in het programmeren in HTML/Java Script is het mogelijk om door te linken naar bijvoorbeeld een surveywebsite. Dit zijn doorgaans gebruiksvriendelijke websites waarmee iedereen uit de voeten kan. De vraag is natuurlijk nog hoe betrouwbaar het verzamelen van reactietijden op deze manier is, maar pilots, vragenlijsten, antwoorden op vragen, of de beslissing voor een bepaalde responsoptie worden hierin makkelijk en betrouwbaar gelogd.
De groeiende aantallen onafhankelijke onderzoekers (waaronder enkele redactieleden van de Psychonoom) die gebruik maken van Mechanical Turk zijn doorgaans zeer enthousiast. Mechanical Turk blijkt een eenvoudige, goedkope en razendsnelle methode voor het werven van grote aantallen uiteenlopende en gescreende proefpersonen die zorgen voor betrouwbare data en betaald krijgen naar de kwaliteit van hun werk. Kortom, het lijkt een potentieel zeer nuttige manier om data te verzamelen, zeker ook voor de psychonomen die gedragsstudies (reactietijden, beslissingen, vragenlijsten, korte pilots) willen doen. Wij zijn ook benieuwd naar jullie verhalen. Heb je soortgelijke succesverhalen over een systeem of methode of juist niet? Of heb je Mechanical Turk al eens gebruikt en is jou een andere mening toegedaan? Laat het ons weten (op vandeberg@fsw.eur.nl)!
[LV]
Een gravure van de Mechanische Turk uit het boek van Karl Gottlieb von Windisch (1784, Briefe über den Schachspieler des Hrn. von Kempelen, nebst drey Kupferstichen die diese berühmte Maschine vorstellen). Bron: http://en.wikipedia.org/wiki/The_Turk. |
Referenties
Barr, J., & Cabrera, L.F. (2006). AI Gets a Brain. Queue (http://dl.acm.org/citation.cfm?id=1142067).
Buhrmester, M., Kwang, T., & Gosling, S.D. (2011). Amazon’s Mechanical Turk: A New Source of Inexpensive, Yet High-Quality, Data? Perspectives on Psychological Science.
Dale, R., & Duran, N.N. (2011). The Cognitive Dynamics of Negated Sentence Verification. Cognitive Science.
Paolacci, G., Chandler, J., & Ipeirotis, P.G. (2010). Running Experiments on Amazon Mechanical Turk. Judgment and Decision Making.
Ross, J., Irani, L., Silberman, M.S., Zaldivar, A., & Tomlinson, B. (2010). Who are the Crowdworkers? Shifting Demographics in Mechanical Turk. CHI2010, April 10-15, Atlanta, Georgia, USA.
First!
BeantwoordenVerwijderenSorry daarvoor. De redactie van De Psychonoom hoopt dat u veel leesplezier mag beleven aan deze online De Psychonoom blog. Graag nodig ik medeleden zowel als buitenstaanders uit voor commentaar. De NVP heeft de redactie van de Psychonoom echter wel opgedragen, commentaar streng te 'modereren', dus probeer het een beetje netjes te houden!
G, Michiel
Bijzonder leuk. En een stuk informatiever dan Wikipaedia! Misschien kan iemand op het volgende NVP Wintercongres de eerste met de MTurk behaalde onderzoeksresultaten presenteren?
BeantwoordenVerwijderenLijkt me een interessante methode. Ik denk dat dit in de toekomst nog veel interessanter kan worden, als de huidige revolutie in het maken van webpagina's doorgang vindt. De trend is nu dat webpagina's steeds meer gaan lijken op de programma's en dat we dus een webomgeving krijgen die lijkt op alle losse "apps" die nu te krijgen zijn voor bijvoorbeeld een smart phone of tablet.
BeantwoordenVerwijderenAls we veel meer naar zo'n applicatie-gelijkende webomgeving gaan, is het goed mogelijk om cognitieve taken af te nemen via een service als MTurk. Denk aan het afnemen van een complexe reactietijden taak met een goede precisie. Het vervelende blijft natuurlijk wel dat de hardware niet meer onder de controle van de onderzoeker valt. Tragere frame-rates (priming onderzoek), gelijktijdig processorgebruik door andere zware programma's, slechtwerkend toetsenbord, etc.
(Al denk ik dat als de tabletmarkt zich dan weer ontwikkeld, het heel goed mogelijk is dat alleen mensen met bepaald type tablet mee mogen doen, waarmee we weer controle kunnen uitoefenen op de apperatuur. Met de huidige diversiteit in personal computers is dat niet echt mogelijk)