واکسن کرونا و علم داده

چکیده
برداشت و تحلیل غلط از دادهها خیلی محتمل است آن هم هنگامیکه تمامی دادهها بهصورت درصدی و نسبی باشد. در این مقاله با تمرکز بر نتایج اثربخشی واکسن که در نوامبر سال 2020 گزارش شده است، تعدادی از خطرات ناشی از این غلط ها را باهم میخوانیم همچنین نشان میدهیم چگونه اتفاقات مشابهی می در کسب و کار هایی که با داده سر و کار دارند اتفاق بیفتد و سه درس کلیدی از این نتایج عبارت است از: داده های کلان را با وسواس تحلیل کنید، تحلیل خود را با دقت بررسی کنید، نتایج را چندین باره بررسی چک کنید.
سال میلادی 2020 که در آن ویروس کرونا جهان را متوقف کرده است در تاریخ میماند. شرکتهای دارویی با سرمایهگذاریهای عمده در زمینه تحقیق و توسعه واکسن شروع به ساخت واکسن و نجات دنیا کردهاند. در چند ماه گذشته، چند از شرکت دارویی یکی پس از دیگری شروع به انتشار اطلاعیه هایی در مورد اثربخشی واکسن های خود کردند. واضح است این اطلاعیه ها پیامدهای عمده ای برای اقتصاد جهان در سال 2021 دارند ، اما برای مدیرانی که می خواهند از داده ها برای تصمیم گیری بهتر استفاده کنند، درس های ارزشمندی ارائه می دهد.
درس اول: داده های بزرگ اغلب کوچکتر از آن است که به نظر می رسد.
در ساعت 9:45 صبح 6 نوامبر، شرکتهای دارویی فایزر و بیونتک اعلام کردند که یک تجزیهوتحلیل از آزمایش کنترل شده تصادفی (RCT) با 43000 داوطلب به دست آوردهاند. به گفته آنها، این واکسن بیش از 90٪ در جلوگیری از Covid-19 مؤثر بوده. این عدد قابلتوجهی است زیرا بهتر از تأثیر واکسن آنفلوانزا است و همچنین خیلی بیشتر از درصد تأثیر اعلام شده از سوی بهداشت جهانی برای یک واکسن ایمن که 50% میباشد است.
آنها چگونه این دادهها را ارزیابی کردند؟
این آزمایشها بر روی 43000 نفر انجام شد که در ظاهر تعداد بسیار زیادی میباشد و واضح است که هرچه تعداد نمونه ها بیشتر باشند آزمایش دقیق تر است. اما اثر واکسن به صورت درصد بیان می شود و این می تواند گمراه کننده باشد. برای ارزیابی صحیح این داده ها و درجه بندی این درصد ها، باید بدانیم که چگونه درصد اثر واکسن به دست آمده است.
محاسبات آن بسیار ساده است ابتدا تعداد افرادی که واکسینه شدهاند را بشمرید سپس این عدد را بر تعداد افرادی که در گروه دارونما (گروهی که به آنها دارو تزریق نمیشود و صرفاً تزریق میشود اما خود آن ها اطلاعی ندارند این کار برای جلوگیری از تاثیرات خود القایی داوطلبان میباشد) هستند تقسیم کنید و در آخر عدد حاصل را از 1 کم کنید تا بازده ای واکسن به دست بیاید.
در این مطالعه، 8 نفر از گروه واکسینه شده به Covid-19 مبتلا شدند، درحالیکه در گروه دارونما 86 نفر مبتلا شدند. یعنی که اگر از یک آن را کم کنیم یک عدد بالای 90% میشود. موضوع مهم اینجا این است که مهم نیست تعداد افرادی که مورد آزمایش قرار گرفته اند 40000 هستند یا 4000 نفر یا حتی 400 نفر مهم این است که 94 نفر بیمار شدند.
سؤالی که در اینجا مطرح میشود این است که آیا واقعاً 94 نفر تعداد مناسبی برای تصمیم گیری درباره تاثیر واکسن است؟ بله تعداد مناسبی است زیرا عدد 86/8 امکان ندارد شانسی اتفاق افتاده باشد. بنابراین این نتایج باید اطمینان زیادی به شما بدهند که میزان اثر بخشی واکسن از حد استاندارد 50٪ سازمان بهداشت جهانی فراتر رفته است. عموم جامعه اغلب تحت تأثیر داده هایی قرار می گیرند که بزرگ به نظر می رسند اما این در حالی است که ارزش داده های کوچک را دست کم می گیرند. باید تمایز بین داده های بزرگ و کوچک در کسب و کار نیز . بیایید این مثال را در حوره بازاریابی باهم ببینیم:
شما میخواهید تأثیر یک کمپین تبلیغاتی در فروش را بدانید، یک شرکت مشاوره پیشنهاد انجام آزمایش A یا B (تست A/B روشی است که با آن میتوانید دو نسخه از یک وبسایت یا اپلیکیشن را با یکدیگر مقایسه کنید برای آنکه بدانید کدامیک از نسخهها عملکرد بهتری دارند.) را دارد. این مطالعه 20،000 مشتری را درگیر خواهد کرد که نیمی از آنها به طور تصادفی برای دیدن تبلیغات شما انتخاب میشوند. این مطالعه با استفاده از آخرین فن آوری، تصمیمات خرید کلیه شرکتکنندگان در ماه بعد را رصد می کند. یک ماه بعد ، این شرکت به شما می گوید که مصرف کنندگانی که در معرض کارزار تبلیغاتی شما بودند 50٪ بیشتر از مشتریانی که در معرض آن نبوده اند خرید کرده اند. به نظر می رسد تأثیر کمپین شما بیشتر از حد انتظار است. اما برای ارزیابی صحیح این نتیجه ، باید بدانید که این نرخ تبدیل یک اتفاق کم احتمال است. اگر نرخ مبنای تبدیل شما یک هزارم باشد ، 50٪ افزایش فقط مربوط به 15 خریدار در گروه در معرض تبلیغ و 10 خریدار در گروهی است که تبلیغ را ندیده اند. در نتیجه این اطلاعات برای نتیجه گیری کافی نیست.
برای این نرخ تبدیل پایه ، باید از شرکت مشاور بخواهید که تعداد شرکت کنندگان در این مطالعه را از 20،000 به حدود 160،000 افزایش دهد. پس از آن افزایش 50 درصدی مطابق با 120 خرید در گروه در معرض تبلیغ در مقایسه با 80 خرید در گروه خارج از معرض است ، که باید اطمینان بیشتری به شما بدهد که تبلیغات شما موثر است.
همیشه مشخص نیست که چه اندازه از دادههای شما کافی است، این تعداد با فرمول های آماری به دست می آیند. فرمولهای آماری البته تنها بخشی از پاسخ هستند. در نهایت، شما باید قضاوت کنید.
درس دوم: دقت میتواند دقت را تضعیف کند.
در 11 نوامبر 2 روز بعد از اعلام خبر شرکتهای فایزر و بیونتک مرکز تحقیقات ملی اپیدمیولوژی و میکروبیولوژی گامالیا در مسکو اعلام کرد که در یک آزمایش که شامل 40،000 نفر داوطلب است، واکسن Sputnik V آن 92٪ اثربخشی را نشان داده است. پنجروز بعد، در 16 نوامبر، Moderna اعلام کرد که در یک آزمایش که بیش از 30،000 شرکتکننده در آن شرکت کرده است، واکسن آن 94.5٪ کارایی را نشان داده است. اثر واکسن هنوز بهصورت درصد بیان میشود، اما یک چیزی تغییر کرده است: اکنون زبان و درصدها دقیقتر هستند. مرکز گامالیا را نمیگوید “بالای 90
چرا؟
نمیتوان اطمینان داشت، اما احتمالاً هر دو شرکت احساس کردند که دقت بیشتر در درصد، حس اطمینان بیشتری را ایجاد میکند – و نشان میدهد که آنها عملکرد بهتری نسبت به فایزر داشتهاند و در حقیقت داستان این اطلاعیهها در مطبوعات پخش میشد. بهعنوانمثال، روزنامه بلژیکی De Standaard نوشت که “واکسن شرکت بیوتکنولوژی آمریکایی Moderna حتی بهتر از Pfizer است.”
مراقب اعلام دقت اعداد در این نوع شرایط باشید. این یک روش معمول در ترغیب مردم است، اما میتواند توانایی شما را در تفسیر خوب دادهها و تصمیمگیری هوشمند تهدید کند. ارائه دادهها اغلب دقت را فدای دقت میکنند.
دقت میتواند گمراهکننده باشد. شاید بد نباشد بدانید که مثلاً بدانید طبق گفته Interbrand ، یک مشاور مشاوره جهانی ، McDonalds در حال حاضر با ارزش 42،816،000،000 دلار (دقت عدد را توجه کنید) هشتمین برند ارزشمند جهان است و ارزش آن در سال جاری 6٪ کمتر از سال گذشته است. اما درجه بندی یا برآورد ارزش برند ها با این سطح دقت به سادگی غیرممکن نیست.
چگونه میتوانیم پیشرفت کنیم؟
در پایان، تجارت بهنوعی یک علم اجتماعی است و علوم اجتماعی دقت چندانی ندارد. دفعه دیگر که تخمین هایی به شما ارائه شد ، سعی نکنید اعداد دقیقی را برآورد کنید از اعداد تخمینی. درعوض ، برای سنجش درستی در برآورد خود محدوده اعداد را بسنجید. اگر بدانید که میزان اثر بخشی واکسن بین 70 تا 95 درصد است یا ارزش یک برند تجاری بین 20 تا 70 دلار است خیلی دید بهتری می توانید داشته باشید.
درس سوم: بین پیشبینی و “post-diction” تمایز قائل شوید.
در 23 نوامبر یک هفته پس از انتشار خبر واکسن شرکت مادرنا، شرکت آسترازنکا تجزیه و تحلیل های موقت یک مطالعه را با بیش از 11000 شرکت کننده ارائه می دهد. تجزیه و تحلیل ها نشان می دهند که میزان اثر بخشی این واکسن 70 درصد است. این درصد کمتر از سایر واکسن ها است. اما آسترازنکا اخبار بسیار خوبی برای گزارش دارد. مطالعه آن ها از دو دوز مختلف استفاده کرده است – و یکی از آن ها ، نیم دوز ، که بر روی مجموعه ای از 2،741 شرکت کننده انجام شد ، اثر واکسن را 90٪ نشان میدهد. واکسن آن ها تقریباً در همان دسته از کارآیی قرار دارد که واکسن های قبلی داشتند.
چگونه باید به این دادهها اعتماد کنیم؟
درست است: ما باید اعداد مطلق را در نظر بگیریم. آسترازنکا در مجموع 131 مورد را گزارش کرد. اگرچه آنها در آن زمان نتایجشان را ارائه ندادند، اما بعداً نشان دادند که میزان 90٪ برای نیمه دوز بر اساس 33 مورد تأیید شده است: سه مورد در گروه واکسینه شده و 30 مورد در گروه دارونما. این اعداد باید به شما اطمینان دهند که واکسن آسترازنکا مؤثر است، اما نتیجهگیری اینکه رژیم نیم دوز بهتر از رژیم دوز کامل کار میکند کمی زود است. تعداد موارد تأیید شده هنوز خیلی کم است تا بتوان مقایسه دقیقی بین زیرمجموعههای گروه واکسینه شده انجام داد. علاوه بر این، معلوم شد که تغییر در مقدار دوز توسط یک پیمانکار در مطالعه اشتباه بوده است. همچنین، بعداً آسترازنکا اعتراف کرد که نتایج خود را از دو آزمایش بالینی با طرح متفاوت، یکی در انگلیس و دیگری در برزیل، جمعآوری کرده است.
اشتباه این شرکت از نظر نحوه مدیریت این وضعیت دور از ذهن نبود. محققان دانشگاهی و تاجران مرتباً اشتباهات مشابهی را مرتکب میشوند. برای تصمیمگیری خوب با دادهها، باید بین پیشبینی و “post-diction.” تفاوت قائل شد. پیشبینی به این معنی است که ابتدا یک فرضیه ایجاد میکنید، و سپس دادهها را جمعآوری و تجزیهوتحلیل میکنید تا آن را آزمایش کنید. post-diction به این معنی است که پس از جمعآوری دادهها هنگام تجزیهوتحلیل دادهها، یک فرضیه ایجاد میکنید.
این وضعیت را در نظر بگیرید. پس از انجام آزمایش A / B ، یک تحلیلگر بازاریابی به شما این گزارش را میدهد: بهطورکلی، مشتریانی که کمپین شما را مشاهده کردند بیش از مشتریانی که آن را نمیدیدند خریداری کردند. بااینحال، کمپین شما برای زنان بالای 50 سال واقعاً خوب کارکرده است. آنها پس از قرارگرفتن در معرض تبلیغات شما، 30 درصد بیشتر خریداری کردند.
به نظر میرسد که این اطلاعات بسیار مفید است و تصمیمگیری در مورد بازاریابی بر اساس آن درست به نظر میآید. اما شما باید این موضوع را برای آنچه که هست ببینید: post-diction. شبیه کاری است که شرکت آسترازنکا انجام داد. اگر حجم دادهها را کوچک کنید، همیشه میتوانید تفاوتهای زیادی پیدا کنید که بعضی از آنها، صرفاً به دلیل شانس، از نظر آماری قابلتوجه هستند.
چگونه میتوانیم پیشرفت کنیم؟
ما باید از تحلیلگران داده بخواهیم تجزیهوتحلیل خود را از قبل ثبت کنند. همچنین باید از آنها بخواهیم هنگام گزارش نتایج تجزیهوتحلیل اکتشافی که پس از جمعآوری اطلاعات آنها بهدستآمده است را به ما اطلاع دهند. هنگامیکه از نظر آماری نتایج قابلتوجهی به شما ارائه شد، سعی کنید متوجه شوید که چند آزمایش دیگر که از آنها مطلع نشدهاید انجام شده است.
نتیجه گیری
دادهها اغلب بهعنوان ابزاری برای سوگیری تعصبات درونی انسان شناخته میشوند. اما استفاده مؤثر از دادهها برای تصمیمگیری در واقع مستلزم این است که ما هوشمندانه از شهودمان استفاده کنیم.
آزمایشهای واکسن Covid-19 سه درس ارزشمند برای مدیرانی که میخواهند شهود خود را نسب به دادهها افزایش دهند دارد: مراقب دادههای بزرگ باشید. مراقب دقت باشید و مراقب post-diction.
مطالب زیر را حتما مطالعه کنید
این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش میشوند.
پاسخی بگذارید