सांख्यिकी के बारे में वैज्ञानिक किस तरह रोक सकते हैं

डोरोथी बिशप का एक रोमांचक लेख सामने आया प्रकृति 584: 9 (2020); doi: 10.1038 / d41586-020-02275-8

नकली डेटा एकत्र करना उन सामान्य तरीकों को प्रकट कर सकता है जिनमें हमारे संज्ञानात्मक पक्षपात हमें भटकाते हैं।


पिछले दशक में मजबूत और विश्वसनीय अनुसंधान को बढ़ावा देने के लिए कई प्रयास किए गए हैं। सनसनीखेज सफलताओं पर खुले विज्ञान का पक्ष लेने के लिए कुछ प्रोत्साहन, जैसे कि धन और प्रकाशन मानदंड बदलने पर ध्यान केंद्रित करना। लेकिन व्यक्तिगत पर भी ध्यान देना होगा। अत्यधिक मानवीय संज्ञानात्मक पूर्वाग्रह हमें ऐसे परिणाम देखने के लिए प्रेरित कर सकते हैं जो वहां नहीं हैं। दोषपूर्ण तर्क से विज्ञान अच्छा होता है, भले ही इरादे अच्छे हों।

लेखक के बारे में कुछ शब्द:  

प्रोफेसर डोरोथी बिशप


विकास मनोविज्ञान के प्राध्यापक, प्रायोगिक मनोविज्ञान विभाग; सेंट जॉन कॉलेज के फेलो


प्रोफेसर बिशप बच्चों में भाषा की दुर्बलताओं पर शोध करते हैं। कुछ मामलों में, भाषण कठिनाइयों का एक स्पष्ट कारण होता है, जैसे सुनवाई हानि या डाउन सिंड्रोम जैसी स्थिति। अन्य मामलों में, बच्चों को बिना किसी स्पष्ट कारण के भाषा सीखने या समझने में विशेष कठिनाई होती है। प्रोफेसर बिशप ने "विशिष्ट भाषण विकलांग", या एसएलआई वाले बच्चों का अध्ययन किया है, जो आबादी का लगभग 3% बनाते हैं लेकिन शोधकर्ताओं द्वारा उपेक्षित किया जाता है। जुड़वां अध्ययनों का उपयोग करते हुए, उसने इन विकारों के आनुवंशिक घटक का अध्ययन किया और आणविक आनुवंशिकीविदों के साथ काम किया ताकि यह पता लगाया जा सके कि कौन से जीन शामिल हैं। स्रोत छवि: विकिपीडियाa


सांख्यिकी के बारे में वैज्ञानिक किस तरह रोक सकते हैं

पिछले दशक में मजबूत और विश्वसनीय अनुसंधान को बढ़ावा देने के लिए कई प्रयास किए गए हैं। सनसनीखेज सफलताओं पर खुले विज्ञान का पक्ष लेने के लिए कुछ प्रोत्साहन, जैसे कि धन और प्रकाशन मानदंड बदलने पर ध्यान केंद्रित करना। लेकिन व्यक्तिगत पर भी ध्यान देना होगा। अत्यधिक मानवीय संज्ञानात्मक पूर्वाग्रह हमें ऐसे परिणाम देखने के लिए प्रेरित कर सकते हैं जो वहां नहीं हैं। दोषपूर्ण तर्क से विज्ञान अच्छा होता है, भले ही इरादे अच्छे हों।

शोधकर्ताओं को इन नुकसानों के बारे में अधिक जागरूक बनने की आवश्यकता है। जिस तरह प्रयोगशाला वैज्ञानिकों को सुरक्षा प्रशिक्षण के बिना खतरनाक पदार्थों से निपटने की अनुमति नहीं है, शोधकर्ताओं को पी-मूल्य या समान सांख्यिकीय संभावना माप के पास कहीं भी प्राप्त करने की अनुमति नहीं दी जानी चाहिए जब तक कि उन्होंने प्रदर्शन नहीं किया है कि वे समझते हैं कि इसका मतलब क्या है।

हम सभी अपने विचारों के विपरीत सबूतों को नजरअंदाज करते हैं। जब नए डेटा का सामना करना पड़ता है, तो हमारे पहले से मौजूद विचार हमें संरचनाओं को देखने के लिए ले जा सकते हैं जो मौजूद नहीं हैं। यह पुष्टि पूर्वाग्रह का एक रूप है जहां हम जानकारी खोजते हैं और उन सूचनाओं को याद करते हैं जो हम पहले से ही सोच रहे हैं। यह अनुकूलन योग्य हो सकता है: लोगों को महत्वपूर्ण जानकारी को हटाने और खतरे से बाहर निकलने के लिए जल्दी से कार्य करने में सक्षम होना चाहिए। लेकिन इस फ़िल्टरिंग से वैज्ञानिक त्रुटियां हो सकती हैं।


भौतिक विज्ञानी रॉबर्ट मिलिकन द्वारा 1913 में इलेक्ट्रॉन के आवेश का मापन इसका एक उदाहरण है। हालांकि उन्होंने दावा किया कि उनके काम में उनके प्रसिद्ध तेल की छोटी बूंद के प्रयोग के सभी डेटा बिंदु शामिल थे, उनकी नोटबुक्स ने अन्य, बिना डेटा वाले बिंदुओं का खुलासा किया जो अंतिम मूल्य को केवल थोड़ा बदल देते थे, लेकिन उन्हें एक बड़ी सांख्यिकीय त्रुटि प्रदान करते थे। इस बात पर बहस चल रही थी कि क्या मिलिकन को अपने पाठकों को गुमराह करना था। हालांकि, ईमानदार लोगों के लिए असुविधाजनक तथ्यों (आरसी जेनिंग्स विज्ञान। इंजी। एथिक्स 10, 639-653; 2004) की यादों को दबाने के लिए यह असामान्य नहीं है।

एक अन्य प्रकार की सीमा संभावना और आंकड़ों में गलतफहमी को बढ़ावा देती है। हम लंबे समय से जानते हैं कि लोगों को छोटे नमूनों (ए। टवेस्की और डी। काहेनमैन साइकोल से जुड़ी अनिश्चितता को समझने में कठिनाई होती है। बुल। 76, 105-110; 1971)। एक वर्तमान उदाहरण के रूप में, मान लें कि 5% आबादी एक वायरस से संक्रमित है। हमारे पास 100 अस्पताल हैं जो प्रत्येक 25 लोगों का परीक्षण करते हैं, 100 अस्पताल जो 50 लोगों का परीक्षण करते हैं, और 100 लोग 100 लोगों का परीक्षण करते हैं। कितने प्रतिशत अस्पतालों को कोई भी मामला नहीं मिलेगा और गलती से यह निष्कर्ष निकल जाएगा कि वायरस चला गया है? इसका उत्तर है: अस्पतालों का 28% जो 25 लोगों का परीक्षण करता है, 8% अस्पताल जो 50 लोगों का परीक्षण करते हैं, और 1% अस्पताल जो 100 लोगों का परीक्षण करते हैं। अस्पतालों द्वारा ज्ञात मामलों की औसत संख्या परीक्षण किए गए मामलों की संख्या की परवाह किए बिना समान है, लेकिन सीमा एक छोटे नमूने के साथ बहुत बड़ी है।

इस गैर-रेखीय स्केलिंग को सहज रूप से समझ पाना मुश्किल है। यह कम करके आंका जाता है कि शोर के छोटे नमूने कैसे हो सकते हैं और इसलिए उन अध्ययनों का संचालन करने के लिए जिनमें एक प्रभाव का पता लगाने के लिए सांख्यिकीय शक्ति का अभाव है।

शोधकर्ता यह पहचानने में भी विफल हैं कि पी-मूल्य में व्यक्त परिणाम का महत्व, संदर्भ पर गंभीर रूप से निर्भर करता है। जितने अधिक चर आप जांचते हैं, उतनी अधिक संभावना है कि आप एक गलत "महत्वपूर्ण" मान पाएंगे। उदाहरण के लिए, यदि आप किसी विकार के साथ संबंध के लिए 14 मेटाबोलाइट का परीक्षण करते हैं, तो संभावना है कि आप 0,05 से कम से कम एक पी-मान पाते हैं - सांख्यिकीय महत्व का आमतौर पर इस्तेमाल किया जाने वाला दहलीज - 1 में 20 नहीं है, लेकिन 1 के करीब है 2 से।

हम इसे कैसे समझ सकते हैं? एक बात स्पष्ट है: आंकड़ों में पारंपरिक प्रशिक्षण अपर्याप्त या यहां तक ​​कि उल्टा है क्योंकि यह उपयोगकर्ता को अनुचित विश्वास दे सकता है। मैं एक वैकल्पिक दृष्टिकोण के साथ प्रयोग कर रहा हूं: सिम्युलेटेड डेटा उत्पन्न करना जो छात्र विभिन्न सांख्यिकीय विश्लेषणों के अधीन कर सकते हैं। मैं दो प्रमुख अवधारणाओं को व्यक्त करने के लिए इसका उपयोग करता हूं।

सबसे पहले, जब छात्रों को अशक्त रिकॉर्ड (जैसे यादृच्छिक संख्या) के साथ प्रस्तुत किया जाता है, तो वे जल्दी से पता लगाते हैं कि सांख्यिकीय रूप से "महत्वपूर्ण" दिखाई देने वाले झूठे परिणाम प्राप्त करना कितना आसान है। शोधकर्ताओं को यह जानने की आवश्यकता है कि पूछे जाने पर, "क्या A, B से जुड़ा है?" इस सवाल से बहुत अलग है "क्या चर, ए, बी, सी, डी और ई के लिए सहसंबंध हैं जिनके लिए <<0,05? एक विशेष मेटाबोलाइट एक बीमारी से जुड़ा है या नहीं, यह सवाल समान नहीं है? मेटाबोलाइट्स यह देखने के लिए कि कोई इसके साथ जुड़ा हुआ है या नहीं, बाद वाले को बहुत अधिक कठोर परीक्षण की आवश्यकता होती है।

जाँच में अप्रासंगिकता के चार घुड़सवार रखे

नकली डेटा भी जानकारी प्रदान करता है जब नमूने अलग-अलग तरीकों से दो "आबादी" से आते हैं। छात्र जल्दी से सीखते हैं कि छोटे नमूने के आकार के साथ, एक प्रयोग भी मामूली अंतर को प्रकट करने के लिए बेकार हो सकता है। 30 मिनट का डेटा सिमुलेशन शोधकर्ताओं को चौंका सकता है यदि वे निहितार्थों को समझते हैं।


शोधकर्ता पक्षपाती मामलों से गुमराह होने से बचने के लिए शोधकर्ताओं को आजीवन आदतों का अधिग्रहण करने की आवश्यकता है। हमारी अपेक्षाओं का खंडन करने वाली टिप्पणियों पर विशेष ध्यान देने की आवश्यकता है। चार्ल्स डार्विन ने 1876 में कहा था कि उन्होंने "जब भी मैं एक प्रकाशित तथ्य, अवलोकन, या विचार में आता हूं कि मेरी सामान्य निष्कर्षों का खंडन किया है, तो तुरंत और तुरंत इसके बारे में एक ज्ञापन लिखने के लिए लिखा है: क्योंकि मैंने अनुभव के साथ स्थापित किया था तथ्य और विचार स्मृति के अनुकूल होने से बचने की बहुत अधिक संभावना थी ”। मैंने खुद देखा है। साहित्य की समीक्षा लिखने में, मुझे यह जानकर घबराहट हुई कि मैं उन कागजों का उल्लेख करना पूरी तरह से भूल गया था जो मेरी प्रवृत्ति के लिए काउंटर थे, भले ही कागजों में कोई विशेष दोष नहीं था। मैं अब उन्हें सूचीबद्ध करने का प्रयास कर रहा हूं।

हम सभी को अपने काम में खामियों को देखना मुश्किल लगता है - यह मानव अनुभूति का एक सामान्य हिस्सा है। लेकिन अगर हम इन अंधे धब्बों को समझ लें तो हम इनसे बच सकते हैं।

प्रिंट