معلومة

كيف يمكنني الإبلاغ عن نتائج اختبار نسبة الاحتمالية؟

كيف يمكنني الإبلاغ عن نتائج اختبار نسبة الاحتمالية؟



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أنا أستخدم اختبار نسبة الاحتمالية لتقييم ما إذا كان النموذج السلوكي هو وصف أفضل لبياناتي من النموذج الأبسط (ما يسمى محدد) نموذج.

كيف يجب الإبلاغ عن نتائج مثل هذه الاختبارات الإحصائية؟


تنطبق توصيات إعداد التقارير العامة مثل تلك الواردة في دليل APA. يجب على المرء أن يبلغ عن القيمة الاحتمالية الدقيقة وحجم التأثير جنبًا إلى جنب مع فاصل الثقة الخاص به. في حالة اختبار نسبة الاحتمالية ، يجب على المرء الإبلاغ عن القيمة الاحتمالية للاختبار ومدى احتمال أن تكون البيانات تحت النموذج أ أكثر من النموذج ب.

مثال: البيانات هي 7.3 ، 95٪ CI [6.8،8.1] مرات أكثر احتمالية بموجب النموذج أ مقارنة بالنموذج ب. تم رفض الفرضية القائلة بأن البيانات متساوية الاحتمال بموجب النموذجين مع p = 0.006.

تشير البيانات الواردة أعلاه بالفعل إلى أن اختبار نسبة الاحتمالية لا يخبرك بأي منها

النموذج هو وصف أفضل لبياناتي

لأن الاحتمال هو $ p ( mathrm {Data} | mathrm {Model}) $ ولمعرفة النموذج الذي يعد وصفًا أفضل للبيانات التي تحتاجها لحساب $ p ( mathrm {Model} | mathrm {Data} ) $.


يتم توزيع اختبار نسبة الاحتمالية على شكل χ² مع درجات الحرية = التغير في درجات الحرية بين النموذجين. لذلك ، لإعطاء مثال لإسقاط معلمة واحدة من نموذج ، يمكنك الإبلاغ عن ذلك على النحو التالي:

χ² (1) = 3.4 ، ع = 0.065


ع & لتر .05

لست بارعًا في كل شيء ، لكني أفهم الإحصائيات جيدًا. أخذت خمس دورات في الإحصاء على مستوى الدراسات العليا في درجة الدكتوراه. برنامج في جامعة نيو هامبشاير وأنا ندرس الإحصاء ، في كل من مستويي البكالوريوس والدراسات العليا ، منذ عام 1996. وقد كتبت (جنبًا إلى جنب مع سارة هول) كتابًا دراسيًا حول هذا الموضوع (

في تدريس الإحصاء لفترة طويلة ، أجد نفسي دائمًا محبطًا من المواقف التي يتبناها الكثير من الناس حول هذا المجال من الرياضيات التطبيقية. غالبًا ما يقتنع الناس أنفسهم بأنهم "ليسوا جيدين في الرياضيات" وأنهم "لن يفهموا الإحصائيات حقًا". هذه مشكلة لسببين: أولاً ، هذه الحواجز في المواقف تقف في طريق الأشخاص الأذكياء والواثقين من الوصول إلى إمكاناتهم التعليمية بشكل كامل. ثانيًا ، مع وجود الكثير من الأشخاص الذين يعانون من رهاب الإحصاء ، تصبح مهمة الباحثين سهلة للغاية! إذا كان الناس خائفين من الإحصائيات ، فيمكن للباحثين الذين لديهم حتى عدد قليل من الأدوات في مجموعة أدوات الإحصائيات الخاصة بهم أن يقولوا ما يريدون حقًا - مع عدم إعطاء الرهاب الإحصائي سوى القليل من الخيارات سوى تصديق ما يتم تقديمه لهم.

تم تصميم هذا المنشور للمساعدة في معالجة أحد المفاهيم الإحصائية الرئيسية التي غالبًا ما تدفع الأشخاص إلى رفع أيديهم -دلالة إحصائية.

ما هو دلالة إحصائية؟ ماذا فعلت ع & لتر .05 يقصد؟

دلالة إحصائية، غالبًا ما يمثله المصطلح ع & لتر .05، له معنى مباشر للغاية. إذا قيل أن النتيجة "ذات دلالة إحصائية" ، فهذا يعني ببساطة أن نمط النتائج الموجود في دراسة ما من المرجح أن يتم تعميمه على المجتمع الأوسع المعني. هذا هو.

على سبيل المثال ، افترض أنك أجريت دراسة على 100 قطة و 100 كلب. ووجدت ، في عينتك ، أنه تم تدريب 80 كلبًا على المرور عبر طوق ، وتم تدريب قطة واحدة فقط على المرور عبر طوق. وافترض أنك أجريت بعض الاختبارات الإحصائية ووجدت ذلك ع & لتر .05. هذا يعني ببساطة أن النمط الذي وجدته ، مع كون الكلاب أفضل في القفز من خلال الأطواق ، من المحتمل أن يكون نمطًا ينطبق على جميع الكلاب وكل سكان القطط. علاوة على ذلك ، تشير هذه اللغة الإحصائية إلى احتمالية نمط النتائج من الدراسة ليس التعميم على المجموعات السكانية الأوسع ذات الأهمية صغير جدًا - أقل من 5٪ (وبالتالي ، p & lt .05) - مع ص المعنى احتمالا و .05 ببساطة المعنى 5%.

ما هو السحر حول 5٪؟ حسنًا ، لا شيء حقًا! إنه نوع من المعايير العملية التي استخدمها الإحصائيون كمعيار على مدار سنوات وسنوات وعبر العديد من التخصصات المختلفة. إنه سؤال جدير بالاهتمام ، ولكنه أيضًا سؤال يتعلق بمنشور مختلف لأنه يثير مجموعة كاملة من المشكلات الأخرى الأكثر تعقيدًا.

الحد الأدنى

الإحصائيات هي أدوات يستخدمها علماء النفس وعلماء السلوك. إنها مصممة بحيث لا تكون مخيفة ولا غامضة. إنها أدوات رياضية مباشرة مصممة لمساعدتنا على فهم العالم بشكل أفضل. دلالة إحصائية والمصطلح المرتبط به ع & لتر .05 هي مفاهيم بسيطة - وهذا يعني ببساطة أن النمط الموجود في عينة من المحتمل أن يتم تعميمه على المجتمع الأوسع ذي الاهتمام الذي تتم دراسته. ليس هناك تعويذة هناك!

المراجع والشكر والتقدير

بفضل طالبة الدراسات العليا ، فانيا رولون ، التي ألهمت هذا المنشور جزئيًا في حديثها في جامعة ولاية نيويورك نيو بالتز والذي كان جزءًا من قص الشريط لقاعة ووستر التي تم تجديدها حديثًا ، مع التركيز على شغفها بتدريس الإحصائيات.


ماذا يخبرك حجم التأثير؟

الأهمية الإحصائية هي أقل الأشياء إثارة للاهتمام حول النتائج. يجب أن تصف النتائج من حيث مقاييس الحجم - ليس فقط ، هل يؤثر العلاج على الأشخاص ، ولكن إلى أي مدى يؤثر عليهم.

ما هو حجم التأثير؟

حجم التأثير هو مقياس كمي لحجم التأثير التجريبي. كلما كان حجم التأثير أكبر ، كانت العلاقة بين متغيرين أقوى.

يمكنك إلقاء نظرة على حجم التأثير عند مقارنة أي مجموعتين لمعرفة مدى اختلافهما بشكل كبير. عادة ، ستتألف الدراسات البحثية من مجموعة تجريبية ومجموعة ضابطة. قد تكون المجموعة التجريبية تدخلًا أو علاجًا من المتوقع أن يؤثر على نتيجة محددة.

على سبيل المثال ، قد نرغب في معرفة تأثير العلاج على علاج الاكتئاب. ستوضح لنا قيمة حجم التأثير ما إذا كان للعلاج تأثير صغير أو متوسط ​​أو كبير على الاكتئاب.

كيفية حساب وتفسير أحجام التأثير

أحجام التأثير إما تقيس أحجام الارتباطات بين المتغيرات أو أحجام الاختلافات بين وسائل المجموعة.

كوهين د

Cohen's d هو حجم تأثير مناسب للمقارنة بين وسيلتين. يمكن استخدامه ، على سبيل المثال ، لمرافقة الإبلاغ عن نتائج اختبار t و ANOVA. كما أنها تستخدم على نطاق واسع في التحليل التلوي.

لحساب فرق المتوسط ​​القياسي بين مجموعتين ، اطرح متوسط ​​مجموعة واحدة من الأخرى (M1 - M2) وقسم النتيجة على الانحراف المعياري (SD) للسكان الذين تم أخذ عينات المجموعات منهم.

أ د من 1 يشير إلى أن المجموعتين تختلفان بمقدار 1 انحراف معياري ، أ د من 2 يشير إلى أنهما يختلفان بمقدار 2 انحراف معياري ، وهكذا. تعادل الانحرافات المعيارية درجات z (1 الانحراف المعياري = 1 z -score).

اقترح كوهين ذلك د = 0.2 يعتبر حجم تأثير "صغير" ، 0.5 يمثل حجم تأثير "متوسط" و 0.8 حجم تأثير "كبير". هذا يعني أنه إذا كان الفرق بين متوسطات مجموعتين أقل من 0.2 انحراف معياري ، فإن الفرق ضئيل ، حتى لو كان ذا دلالة إحصائية.

ارتباط بيرسون ص

تلخص هذه المعلمة لحجم التأثير قوة العلاقة ثنائية المتغير. تختلف قيمة حجم تأثير ارتباط بيرسون r بين -1 (ارتباط سلبي مثالي) إلى +1 (ارتباط إيجابي مثالي).

وفقًا لكوهين (1988 ، 1992) ، يكون حجم التأثير منخفضًا إذا اختلفت قيمة r حول 0.1 ، ومتوسط ​​إذا تغيرت r حول 0.3 ، وكبير إذا تغير r أكثر من 0.5.

لماذا تقرير أحجام التأثير؟

ال ص- القيمة ليست كافية

أكثر انخفاضا ص-يتم تفسير القيمة أحيانًا على أنها تعني وجود علاقة أقوى بين متغيرين. ومع ذلك ، تعني الدلالة الإحصائية أنه من غير المحتمل أن تكون الفرضية الصفرية صحيحة (أقل من 5٪).

لذلك ، مهمة ص- تخبرنا القيمة أن التدخل يعمل ، بينما يخبرنا حجم التأثير عن مدى نجاحه.

يمكن القول أن التأكيد على حجم التأثير يعزز نهجًا أكثر علمية ، على عكس اختبارات الأهمية ، فإن حجم التأثير مستقل عن حجم العينة.

لمقارنة نتائج الدراسات التي أجريت في أماكن مختلفة

على عكس أ ص- يمكن استخدام أحجام التأثير والقيمة للمقارنة الكمية لنتائج الدراسات التي أجريت في بيئة مختلفة. يستخدم على نطاق واسع في التحليل التلوي.


ثلاث دراسات نفسية شائعة لم تصمد

أعاد الباحثون إجراء 100 دراسة نفسية منشورة ، ولم يسجل الكثير منها. هذه ثلاث من الدراسات ، وبعض التفسيرات المحتملة لعدم إمكانية تكرارها.

بدأ المشروع في عام 2011 ، عندما قرر عالم نفسي في جامعة فيرجينيا اكتشاف ما إذا كان العلم المشكوك فيه يمثل مشكلة واسعة الانتشار. قام هو وفريقه بتجنيد أكثر من 250 باحثًا ، وتحديد 100 دراسة نُشرت في عام 2008 ، وأعدوا بدقة التجارب بالتعاون الوثيق مع المؤلفين الأصليين.

لم يجد التحليل الجديد ، المسمى مشروع الاستنساخ ، أي دليل على الاحتيال أو أن أي دراسة أصلية كانت خاطئة بشكل قاطع. بدلاً من ذلك ، خلصت إلى أن الأدلة على معظم النتائج المنشورة لم تكن بنفس القوة المزعومة في الأصل.

أشار الدكتور جون إيانيديس ، مدير مركز ابتكار الأبحاث الفوقية بجامعة ستانفورد ، والذي قدر ذات مرة أن حوالي نصف النتائج المنشورة عبر الطب كانت مضخمة أو خاطئة ، إلى أن النسبة في علم النفس كانت أكبر مما كان يعتقد. وقال إن المشكلة قد تكون أسوأ في مجالات أخرى ، بما في ذلك بيولوجيا الخلية ، والاقتصاد ، وعلم الأعصاب ، والطب السريري ، وأبحاث الحيوانات.

يظهر التقرير في وقت يتزايد فيه عدد عمليات التراجع عن الأوراق المنشورة بشكل حاد في مجموعة متنوعة من التخصصات. أشار العلماء إلى ثقافة شديدة التنافسية عبر العلوم تفضل النتائج الجديدة والمثيرة وتوفر حافزًا ضئيلًا للباحثين لتكرار نتائج الآخرين ، أو للمجلات لنشر الدراسات التي تفشل في العثور على نتيجة مبهجة.

قال بريان نوسيك ، أستاذ علم النفس في جامعة فيرجينيا والمدير التنفيذي للمركز: "نرى أن هذه دعوة للعمل ، لكل من مجتمع البحث للقيام بمزيد من التكرار ، وللممولين والمجلات لمعالجة الحوافز المختلة". لـ Open Science ، خدمة مشاركة البيانات غير الربحية التي نسقت المشروع الذي نُشر يوم الخميس ، جزئياً بمبلغ 250 ألف دولار من مؤسسة Laura and John Arnold. بدأ المركز جهدًا لتقييم النتائج التي يُستشهد بها على نطاق واسع في بيولوجيا السرطان ، وقال الخبراء إنه يمكن تكييف المشروع للتحقق من النتائج في العديد من العلوم.

في مؤتمر عبر الهاتف مع المراسلين ، قالت مارسيا ماكنوت ، رئيسة تحرير مجلة Science ، "أحذر من أن هذه الدراسة لا ينبغي اعتبارها الكلمة الأخيرة في إمكانية التكاثر بل بداية." في مايو ، بعد أن أثار اثنان من طلاب الدراسات العليا أسئلة حول البيانات الواردة في دراسة تم الإبلاغ عنها على نطاق واسع حول كيفية تأثير الاقتراع السياسي على آراء زواج المثليين ، تراجعت العلوم عن الورقة.

ركز التحليل الجديد على الدراسات المنشورة في ثلاث من أهم المجلات في علم النفس: علم النفس ، ومجلة الشخصية وعلم النفس الاجتماعي ، ومجلة علم النفس التجريبي: التعلم والذاكرة والإدراك.

كان إجراء التحقق من عمل عالم آخر مثيرًا للانقسام. يستاء العديد من كبار الباحثين من فكرة أن شخصًا خارجيًا ، عادة ما يكون عالمًا أصغر سنًا ، ولديه خبرة أقل ، سينتقد العمل الذي غالبًا ما يستغرق سنوات من الدراسة حتى ينجح.

قال نوربرت شوارتز ، أستاذ علم النفس بجامعة جنوب كاليفورنيا: "لا شك أن التكرار مهم ، لكنه غالبًا ما يكون مجرد هجوم ، تمرين أهلية".


الدلالة الإحصائية وقابلية تعميم تقديرات حجم التأثير

النظر في مجموعتين من الملاحظات مع م1 = 7.7, SD1 = 0.95 و م2 = 8.7, SD2 = 0.82. اعتمادًا على ما إذا كانت البيانات قد تم جمعها في تصميم بين الموضوعات أو داخلها ، فإن حجم التأثير الجزئي تربيع eta (& # x003b7 2 ص) للفرق بين هاتين الملاحظتين (لمزيد من التفاصيل ، انظر المثال التوضيحي أدناه) هو إما 0.26 أو 0.71 ، على التوالي. بالنظر إلى أن فرق المتوسط ​​هو نفسه (أي 1) بغض النظر عن التصميم ، أي من هذين الحجمين للتأثير هو حجم التأثير & # x0201ctrue & # x0201d؟ هناك نوعان من الإجابات المتباينة على هذا السؤال. تركز إحدى وجهات النظر على قابلية تعميم تقدير حجم التأثير عبر التصاميم ، بينما تركز وجهة النظر الأخرى على الدلالة الإحصائية للاختلاف بين الوسيلة. سأناقش بإيجاز وجهتي النظر هاتين.

كما لاحظ ماكسويل وديلاني (2004 ، ص 548): & # x0201ca الهدف الرئيسي لتطوير مقاييس حجم التأثير هو توفير مقياس قياسي يمكن للمحللين الفوقيين وغيرهم تفسيره عبر الدراسات التي تختلف في المتغيرات التابعة وكذلك أنواع التصاميم. & # x0201d وجهة النظر الأولى التي سأشير إليها باسم تقدير حجم التأثير القابل للتعميم وجهة نظر ، يفترض أنه لا يهم ما إذا كنت تستخدم تصميمًا داخل الموضوعات أو تصميمًا بين الموضوعات. على الرغم من أنه يمكنك استبعاد التباين الفردي في الاختبار الإحصائي إذا كنت تستخدم قياسًا مسبقًا ولاحقًا ، وغالبًا ما تزداد القوة الإحصائية للاختبار بشكل كبير ، إلا أن حجم التأثير (على سبيل المثال ، & # x003b7 2 ص) يجب ألا يختلف اعتمادًا على التصميم المستخدم. لذلك ، يعتبر العديد من الباحثين أحجام التأثير في التصميمات داخل الموضوعات بمثابة تقدير مبالغ فيه لحجم التأثير & # x0201ctrue & # x0201d (على سبيل المثال ، Dunlap et al.، 1996 Olejnik and Algina، 2003 Maxwell and Delaney، 2004).

منظور ثان ، سأشير إليه باسم دلالة إحصائية وجهة نظر ، تركز على الاختبار الإحصائي للتأثير المتوقع ، وتعتبر الفروق الفردية غير ذات صلة بالفرضية التي يتم فحصها. الهدف هو توفير دعم إحصائي للفرضية ، والقدرة على التمييز بين التباين الذي يرجع إلى الفروق الفردية والتباين الناتج عن التلاعب يزيد من قوة الدراسة. الباحثون الذين يدافعون عن وجهة نظر الأهمية الإحصائية فيما يتعلق بأحجام التأثير المختلفة (على سبيل المثال ، & # x003b7 2 ص) في التصميم الداخلي مقارنةً بالتصميم بين الموضوعات كميزة لتصميم أكثر قوة. يمكن توضيح التركيز على نتيجة الاختبار الإحصائي في هذا المنظور من خلال استخدام فترات الثقة. كما تمت مناقشته لأول مرة بواسطة Loftus and Masson (1994) ، يمكن أن يؤدي استخدام الصيغ التقليدية لفترات الثقة (المطورة للتصميمات بين الموضوعات) إلى تناقض ملحوظ بين الملخص الإحصائي للنتائج وأشرطة الخطأ المستخدمة لتصور الاختلافات بين الملاحظات. لحل هذا التناقض ، يقترح لوفتوس وماسون (1994 ، ص 481) ما يلي: & # x0201c نظرًا لعدم ملاءمة التباين بين الموضوعات في التصميم داخل الموضوعات ، يمكن تجاهله بشكل شرعي لأغراض التحليل الإحصائي. & # x0201d

للتلخيص ، يركز الباحثون إما على تقديرات حجم التأثير القابلة للتعميم ، ومحاولة تطوير مقاييس حجم التأثير المستقلة عن تصميم البحث ، أو يركز الباحثون على الأهمية الإحصائية ، ويفضلون أحجام التأثير (وفترات الثقة) لتعكس الاستنتاجات المستخلصة من قبل الاختبار الإحصائي. على الرغم من أن وجهتي النظر هاتين ليستا متعارضتين ، إلا أنهما تحددان بعض الخيارات العملية التي يتخذها الباحثون عند الإبلاغ عن نتائجهم. بغض النظر عما إذا كان الباحثون يركزون على الأهمية الإحصائية أو قابلية تعميم القياسات ، فإن العلم التراكمي سيستفيد إذا حدد الباحثون حجم عيّنتهم مسبقًا ، وأبلغوا عن أحجام التأثير عندما يشاركون نتائجهم. في الأقسام التالية ، سأناقش كيفية حساب أحجام التأثير لوصف الاختلافات بين الوسائل ، مع التركيز بشكل خاص على أوجه التشابه والاختلاف في التصميمات داخل الموضوعات وفيما بينها ، متبوعًا بمثال توضيحي.


3. تقدير قيمة نسبة الاحتمالية

في الممارسة العملية ، يجب تقييم قيمة نسبة الاحتمالية. ومع ذلك ، من المهم جدًا إدراك ذلك بالنسبة لاثنين من الافتراضات المتميزة حص و حد العلاقة (3) تبقى دائمًا ، مما يعني أن هناك دائمًا نسبة احتمالية. نعني بالتمييز أنه لا يوجد أي من الافتراضين عبارة عن مجموعة من الافتراضات الفرعية لكل منها احتمال مختلف لنتائج الطب الشرعي. لذلك ، لا يمكن التشكيك في استخدام نسبة الاحتمالية كمقياس لقوة الأدلة في مثل هذه الحالات على أسس نظرية. على وجه الخصوص ، لا يمكن للمرء أن يجادل في أن نهج LR يجب أن يكون غير مقبول لمجرد أنه من الصعب تقييم القيمة ذاتها لنسبة الاحتمالية.

ماذا يعني تقييم قيمة نسبة الاحتمالية؟ نظرًا لأن نسبة الاحتمالية هي نسبة بين الاحتمالات المتميزة أو قيم كثافة الاحتمال ، فقد يُتوقع أن يكون تقييم قيمتها مرادفًا لحساب قيمتها العددية الحقيقية. ومع ذلك ، فإن معظم الأشخاص المطلعين إلى حد ما على المنهجية الإحصائية يدركون أنه نادرًا ما يمكن حساب القيمة الحقيقية لكمية غير معروفة على أساس البيانات المتاحة. دائمًا ما يكون التقييم نوعًا من التقدير. بالإضافة إلى ذلك ، قد يتم تفسير كلمة تقدير بشكل خاطئ بمعنى أننا نتوقع نتيجة بنفس مقياس القيمة الحقيقية. هذا لا يعني أن المقياس المستخدم للتقييم يمكن أن يكون مختلفًا عن المقياس المرتبط بنسبة الاحتمالية الحقيقية. من خلال "المقياس" نعني هنا بشكل أساسي درجة دقة النتيجة المبلغ عنها. على سبيل المثال ، يمكن أن تصل كمية معينة إلى قيمها على مقياس مستمر حسب التعريف ، ولكن عند الإبلاغ عن القيم ، قد نلتزم بقرار أكثر صرامة مثل وضع القيمة في واحد من عدد محدد من الفواصل الزمنية ، أي خفض الدقة. دعنا نعود إلى المثال 1. يمكن تفسير مراقبة الثلج بشكل أفضل من خلال درجة حرارة أقل من الصفر أو تساويها عن درجة حرارة أعلى من الصفر ، أو بالتعبير عنها بشكل مختلف ، يدعم الثلج المرصود الافتراض القائل بأن درجة الحرارة تصل إلى الصفر على الأكثر. قد يتوقف التحليل عند هذا الحد ونتيجة لذلك قمنا بتقييم نسبة الاحتمالية لتكون أكبر من واحد ، إذا كان الاقتراح المُرسل هو "درجة الحرارة عند الصفر على الأكثر". هنا ، يحتوي المقياس المستخدم على ثلاثة مستويات على الأكثر: "أقل من واحد" و "أكبر من واحد" و "يساوي واحدًا" (يمكن دمج المستوى الأخير مع أحد المستويين الأولين). هذا مقياس تقريبي للغاية ويمكن بالطبع مناقشة فائدته ، ولكن بدون مزيد من البيانات الخلفية حول الثلج ودرجات الحرارة ، فمن المحتمل أن يكون أعلى دقة يمكن أن نصل إليها.

دعونا الآن ننظر في قضية الطب الشرعي حيث السؤال هو ما إذا كان التوقيع على الوصية هو تزوير. الاقتراح المرسل هو أنه تزوير. يفحص خبير خط الطب الشرعي عينات من الكتابة التلقائية المعروف أنها مصدرها "المالك الحقيقي" للتوقيع المشكوك فيه. ويخلص الخبير إلى أن هناك اختلافات واضحة بين التوقيع المشكوك فيه على الوصية والعينات فيما يتعلق بالعديد من السمات وأن هناك القليل جدًا من أوجه التشابه. لن يتوقع الخبير مثل هذه الاختلافات الواضحة إذا كان المالك الحقيقي هو الذي كتب التوقيع وكانوا يتوقعون بالتأكيد المزيد من أوجه التشابه. وبناءً على ذلك ، فإنهم يرون أن الاقتراح المُعاد توجيهه (التزوير) هو تفسير أفضل بكثير لنتائجهم من الافتراض بأن التوقيع قد كتبه المالك الحقيقي. مع الأخذ في الاعتبار الحالات المماثلة التي عمل الخبير عليها خلال مسيرته المهنية الطويلة كممتحن للكتابة اليدوية ، فإنهم يقدرون أن النتائج التي توصلوا إليها تكون أكثر احتمالية بمئة مرة إذا كان التوقيع مزورًا مما لو كان حقيقيًا. يمكننا الآن توقع نسبة احتمال أكبر من 100 ، والتي قد تكون مفيدة للغاية. ومع ذلك ، تجدر الإشارة إلى أن الخبير الشرعي في هذه الحالة لا يمكن أن يكون أكثر تفصيلاً من ذلك. في الواقع ، بالكاد يمكننا أن نتوقع أن يقوم فاحص خط اليد بتقييم نسبة الاحتمالية بدقة أعلى. قد يُطرح السؤال في المحكمة حول ما إذا كانت النتائج التي توصلوا إليها يمكن أن تكون أكثر احتمالية بمقدار 200 مرة إذا كان التوقيع مزورًا مما لو لم يكن كذلك ، وستكون الإجابة على الأرجح سلبية (أو من المحتمل أن يكون الخبير قد قال ذلك في بيان). محاولة تنقيح التقييم بشكل أكبر ، على سبيل المثال تقدير أن نسبة الاحتمالية في مكان ما حوالي 150 ، يكون أقل أهمية. ستكون هذه القيمة "الدقيقة" غير مؤكدة للغاية وربما لن يكون لها أي تأثير جوهري على الحالة مقارنةً بـ "أكبر من 100". إن التطور الذي يمارس فيه النظام القانوني ضغوطًا على خبراء الطب الشرعي ليحددوا الأرقام "الدقيقة" التي تتضمن دقة خاطئة ، اعتقادًا منهم أن هذا من شأنه أن يضيف قيمة إلى القضية ، سيكون أمرًا غير مرغوب فيه للغاية.

الآن دعونا نفكر في موقف مختلف تكون فيه نتائج الطب الشرعي هي في الأساس قياسات مستمرة. على سبيل المثال ، يمكن أن تكون نتائج تحليل كروماتوغرافي للغاز لمادة يشتبه في احتوائها على الهيروين. في مثل هذه الحالة ، قد لا يكون السؤال هو ما إذا كانت المادة تحتوي على بطلة أم لا (قد يتم تقديم مثل هذا البيان بثقة تقارب 100٪). بدلاً من ذلك ، قد تكون المشكلة هي ما إذا كانت المادة لها نفس منشأ بعض المواد الأخرى المعروف أنها تم إنتاجها في معمل غير قانوني معين. لتقييم النتائج مقابل زوج من المقترحات ("نفس المصدر" مقابل "مصادر مختلفة") يمكننا قياس كميات عدد من الملوثات أو المواد المصاحبة (مثل الكافيين). عندئذٍ يكون احتمال اقتراح واحد هو قيمة دالة كثافة الاحتمال ونسبة الاحتمالية هي نسبة اثنين من هذه القيم. أصبح من غير المجدي الآن التحدث من حيث مدى احتمال أن تكون النتائج تحت أحد الافتراضات مقارنةً بالطرح الآخر. بشرط توفر بيانات مرجعية كافية ، يمكننا تقدير قيمتي كثافة الاحتمال ونتيجة لذلك ستكون نسبة الاحتمالية المقدرة على نفس المقياس كما هو صحيح. عندما تكون البيانات المرجعية شحيحة جدًا لتقديم مثل هذه التقديرات ، يجب أن نلتزم بمقياس أكثر صرامة لتقييم نسبة الاحتمالية هذه وستكون قوة التمييز وفقًا لذلك أقل ، ولكن (وهذا مهم) لا يقل صحة.

من الشائع في المثالين 2 و 3 أن البيان الذي سيكون نتيجة تحقيق الطب الشرعي مبني فقط على نسبة الاحتمالية الأساسية بغض النظر عن القرار الذي يمكن تقديره. في حالة عدم وجود معرفة أو معرفة قليلة جدًا بنوع المادة التي يتم التحقيق فيها ، يكون المقياس الذي يتم على أساسه تقييم نسبة الاحتمالية تقريبيًا بطبيعته. ومع ذلك ، قد تكون المعلومات ذات قيمة للمحكمة. على سبيل المثال ، يمكن أن تكون المستويات الثلاثة المستخدمة في المثال 1 حول الثلج ودرجات الحرارة ، أي "أقل من واحد" و "يساوي واحد" و "أكبر من واحد". إذا كانت لدينا أسباب للاعتقاد بأن النتائج ستكون أكثر احتمالية في ظل أحد الافتراضات منها تحت الآخر ، فيجب استخدام المستوى الأول أو الثالث (الذي يعتمد على ترتيب المقترحات). إذا لم نتمكن من التوصل إلى أي أسباب من هذا القبيل ، فيجب أن نلتزم بالمستوى الثاني ("يساوي واحدًا"). ومع ذلك ، بالنسبة للمواد التي لا توجد فيها أي معرفة على الإطلاق حول انتشار النتائج ، يجب على عالم الطب الشرعي بدلاً من ذلك تجنب الإبلاغ عن أي قيمة للأدلة ، ولكن فقط ذكر ما تم ملاحظته. ومع ذلك ، من المثير للاهتمام أن المعرفة والخبرة المتزايدة لا تعني أننا نبتعد عن المستوى الثاني ، أي من الإبلاغ عن القيمة المقدرة لأحدها. يشير المقياس ذو الدقة الأعلى إلى أنه سيتم ترك أدلة أقل دون أي تقييم وتفسير ، ولكن قد تكون النتائج جيدة جدًا في هذه الحالة أيضًا على الأرجح بنفس القدر مع أي من المقترحات. في الحالات التي يمكننا فيها استخدام قواعد بيانات شاملة لدعم التقييم ، يمكننا تقدير نسبة الاحتمالية على نفس المقياس لقيمتها الحقيقية ، وبالتالي الإبلاغ أيضًا عن قيمة رقمية "دقيقة" بدقة اعتمادًا على جودة قاعدة البيانات. ومع ذلك ، بالنسبة لجميع أنواع الحالات بين الحالات التي لا تتوفر لديها معرفة أساسية وتلك التي تحتوي على قواعد بيانات شاملة ، يمكننا بناء قيمة الدليل على نسبة الاحتمالية الأساسية. عدم وجود بيانات أساسية شاملة لا يجعل هذا الإجراء غير مقبول أو أن نتائج عدم جدوى المحكمة لا تعني إلا نطاقًا أكثر صرامة من التقارير.


تقييم أنواع الدراسة

يقدم هذا القسم أسئلة أخرى قد تكون مفيدة أثناء تقييم البحث. نظرًا لأن أنواع الدراسة لها ميزات مختلفة ، فلن تستخدم نفس معايير الصلاحية لجميع المقالات. انقر أدناه لمراجعة الأسئلة لتقييم المقالات المختلفة.

مراجعة منهجية أو التحليل التلوي

هل نتائج هذه المقالة صحيحة؟

1. هل تناولت المراجعة صراحةً سؤالاً معقولاً؟

يجب أن تتناول المراجعة المنهجية سؤالًا محددًا يشير إلى مشكلة المريض والتعرض ونتائج واحدة أو أكثر. المراجعات العامة ، التي لا تتناول عادة أسئلة محددة ، قد تكون واسعة جدًا بحيث لا توفر إجابة على السؤال السريري الذي تسعى للحصول على معلومات عنه.

2. هل كان البحث عن الدراسات ذات الصلة مفصلاً وشاملاً؟

يجب على الباحثين إجراء بحث شامل لقواعد البيانات الببليوغرافية المناسبة. يجب تحديد قواعد البيانات واستراتيجيات البحث في قسم المنهجية. يجب على الباحثين أيضًا إظهار دليل على البحث عن أدلة غير منشورة عن طريق الاتصال بالخبراء في هذا المجال. يجب أيضًا التحقق من المراجع التي تم الاستشهاد بها في نهاية المقالات.

3. هل كانت الدراسات الأولية ذات جودة منهجية عالية؟

يجب على الباحثين تقييم صحة كل دراسة متضمنة في المراجعة المنهجية. يجب استخدام نفس معايير EBP المستخدمة لتقييم الدراسات بشكل نقدي لتقييم الدراسات التي سيتم تضمينها في المراجعة المنهجية. يمكن تفسير الاختلافات في نتائج الدراسة بالاختلافات في المنهجية وتصميم الدراسة.

4. هل كان اختيار وتقييم الدراسات المشمولة قابلاً للتكرار؟

يجب أن يقوم أكثر من باحث بتقييم كل دراسة واتخاذ قرارات بشأن صحتها وشمولها. يمكن تجنب التحيز (الأخطاء المنهجية) والأخطاء (الأخطاء العشوائية) عند مشاركة الحكم. يجب أن يكون المراجع الثالث متاحًا لكسر التعادل في التصويت.

  • سؤال مركّز
  • بحث شامل في الأدب
  • تشمل الدراسات التي تم التحقق من صحتها
  • اختيار الدراسات القابلة للتكرار

ما هي النتائج؟

هل كانت النتائج متشابهة من دراسة إلى أخرى؟
ما مدى تشابه تقديرات النقاط؟
هل تتداخل فترات الثقة بين الدراسات؟

ما هي النتائج الإجمالية للمراجعة؟
هل تم ترجيح النتائج كماً ونوعاً في التقديرات الموجزة؟

ما مدى دقة النتائج؟
ما هو فاصل الثقة للملخص أو حجم التأثير التراكمي؟

مزيد من المعلومات حول قراءة مخططات الغابات:

Ried K. تفسير وفهم الرسوم البيانية للتحليل التلوي: عملي
يرشد. طبيب أوست فام. 2006 35 أغسطس (8): 635-8. PubMed PMID: 16894442.

Greenhalgh T. الأوراق التي تلخص الأوراق الأخرى (منهجية
المراجعات والتحليلات الوصفية). BMJ. 1997 سبتمبر 13315 (7109): 672-5.
PubMed PMID: 9310574.

كيف يمكنني تطبيق النتائج على رعاية المرضى؟

هل تم النظر في جميع النتائج المهمة للمريض؟
هل حذفت المراجعة النتائج التي يمكن أن تغير القرارات؟

هل أي آثار مجموعة فرعية مفترضة ذات مصداقية؟
هل تم افتراض اختلافات المجموعات الفرعية قبل تحليل البيانات؟
هل كانت اختلافات المجموعات الفرعية متسقة عبر الدراسات؟

ما هي الجودة الإجمالية للأدلة؟
هل انعكس تصميم الدراسة وحجمها وسلوكها السائد في ملخص جودة الأدلة؟

هل الفوائد تستحق التكاليف والمخاطر المحتملة؟
هل حجم التأثير التراكمي يتجاوز الاختبار أو العتبة العلاجية؟


استنادًا إلى: جيات ، جي ريني ، دي ميد ، مو ، كوك ، دي جي. المستخدمون و rsquo دليل الأدب الطبي: دليل للممارسة السريرية القائمة على الأدلة ، الإصدار الثاني 2008.

دراسة الضرر

تقييم صحة دراسة الضرر

هل نتائج هذه المقالة صحيحة؟

لدراسات المجموعة: بصرف النظر عن التعرض للاهتمام ، هل بدأت المجموعات المكشوفة والمجموعة الضابطة وتنتهي بنفس المخاطر بالنسبة للنتيجة؟

1. هل كان المرضى متشابهين بالنسبة لعوامل الإنذار المعروفة بأنها مرتبطة بالنتيجة (أو هل أدى التعديل الإحصائي إلى تكافؤ الفرص)؟
يجب أن تبدأ المجموعتان ، المعرضة للضرر وغير المعرضين ، بنفس التكهن. يجب توثيق خصائص المرضى المعرضين وغير المعرضين بعناية ، كما يجب إثبات تشابههم (باستثناء التعرض). اختيار مجموعات المقارنة له تأثير كبير على مصداقية نتائج الدراسة. يجب على الباحثين تحديد مجموعة تحكم مناسبة قبل إجراء استنتاج قوي حول عامل ضار. يجب أن يكون للمجموعتين نفس خصائص خط الأساس. في حالة وجود اختلافات ، يجب على المحققين استخدام الأساليب الإحصائية لضبط الاختلافات أو تصحيحها.

2. هل كانت ظروف وطرق الكشف عن النتيجة متشابهة؟
في الدراسات الأترابية تحديد النتيجة أمر بالغ الأهمية. من المهم تحديد النتيجة واستخدام تدابير موضوعية لتجنب التحيز المحتمل. قد يكون تحيز الكشف مشكلة لهذه الدراسات ، حيث قد يبحث الباحثون غير المكفوفين بشكل أعمق لاكتشاف المرض أو النتيجة.

3. هل اكتملت المتابعة بشكل كافٍ؟
المرضى غير المتاحين للمتابعة الكاملة قد يعرضون للخطر صحة البحث لأن هؤلاء المرضى غالبًا ما يكون لديهم نتائج مختلفة جدًا عن أولئك الذين استمروا في الدراسة. يجب أن تؤخذ هذه المعلومات في الاعتبار في نتائج الدراسة.

لدراسات التحكم في الحالة: هل كانت الحالات ومجموعة المراقبة نفس المخاطر (فرصة) التعرض في الماضي؟

1. هل كانت الحالات والضوابط متشابهة فيما يتعلق بالإشارة أو الظروف التي من شأنها أن تؤدي إلى التعرض؟
يجب توثيق خصائص الحالات والضوابط بعناية وإثبات تشابهها. اختيار مجموعات المقارنة له تأثير كبير على مصداقية نتائج الدراسة. يجب على الباحثين تحديد مجموعة مراقبة مناسبة تكون مؤهلة أو من المحتمل أن يكون لها نفس التعرض مثل الحالات.

2. هل كانت ظروف وطرق تحديد التعرض متشابهة بالنسبة للحالات والضوابط؟
في دراسة مراقبة الحالة ، يعد تحديد التعرض أمرًا بالغ الأهمية. يجب تحديد التعرض في المجموعتين بنفس الطريقة. يجب أن يتجنب التحديد أي نوع من التحيز ، مثل التحيز في الاسترجاع. في بعض الأحيان ، يمكن أن يساعد استخدام البيانات الموضوعية ، مثل السجلات الطبية ، أو تعمية المحاور في القضاء على التحيز.

  • تشابه مجموعات المقارنة
  • تم قياس النتائج والتعرضات نفسها لكلا المجموعتين
  • متابعة بطول كاف (80٪ أو أفضل)

ما هي النتائج؟

ما مدى قوة الارتباط بين التعرض والنتيجة؟
* ما هي نسبة المخاطرة أو نسبة الأرجحية؟
* هل هناك علاقة بين الجرعة والاستجابة بين التعرض والنتيجة؟

ما مدى دقة تقدير المخاطر؟
* ما هي فترة الثقة للمخاطر النسبية أو نسبة الأرجحية؟

قوة الاستدلال:

بالنسبة للدراسات العشوائية أو الدراسات الأترابية المستقبلية: المخاطر النسبية

النتيجة الحالية

النتيجة غير موجودة

المخاطر النسبية (RR) = أ / (أ + ب) / ج / (ج + د)
هي مخاطر النتيجة في المجموعة المعرضة مقسومة على مخاطر النتيجة في المجموعة غير المعرضة:

RR = (النتيجة المعرضة نعم / كل الأشخاص المعرضين) / (لم يتم الكشف عن النتيجة نعم / لم يتعرض الجميع)

مثال: & ldquoRR 3.0 يعني أن النتيجة تحدث 3 مرات أكثر في أولئك المعرضين مقابل غير المكشوفين. & rdquo

For case-control or retrospective studies: Odds Ratio

Outcome present

Outcome not present

Odds Ratio (OR) = (a / c) / (b / d)
is the odds of previous exposure in a case divided by the odds of exposure in a control patient:

OR = (exposed - outcome yes / not exposed - outcome yes) / (exposed - outcome no / not exposed - outcome no)

Example: &ldquoOR of 3.0 means that cases were 3 times more likely to have been exposed than were control patients.&rdquo

Confidence Intervals are a measure of the precision of the results of a study. For example, &ldquo36 [95% CI 27-51]&ldquo, a 95%CI range means that if you were to repeat the same clinical trial a hundred times you can be sure that 95% of the time the results would fall within the calculated range of 27-51. Wider intervals indicate lower precision narrow intervals show greater precision.

Confounding Variable is one whose influence distorts the true relationship between a potential risk factor and the clinical outcome of interest.

Read more on odds ratios: The odds ratio Douglas G Altman & J Martin Bland BMJ 2000320:1468 (27 May)

Watch more on odds ratios: Understanding odds ratio with Gordon Guyatt. (21 minutes.)

How can I apply the results to patient care?

Were the study subjects similar to your patients or population?
Is your patient so different from those included in the study that the results may not apply?

Was the follow-up sufficiently long?
Were study participants followed-up long enough for important harmful effects to be detected?

Is the exposure similar to what might occur in your patient?
Are there important differences in exposures (dose, duration, etc) for your patients?

What is the magnitude of the risk?
What level of baseline risk for the harm is amplified by the exposure studied?

Are there any benefits known to be associated with the exposure?
What is the balance between benefits and harms for patients like yours?

مصدر: Guyatt, G. Rennie, D. Meade, MO, Cook, DJ. Users&rsquo Guide to Medical Literature: A Manual for Evidence-Based Clinical Practice, 2nd Edition 2008.

Diagnostic Test Study

Evaluating the Validity of a Diagnostic Test Study

Are the results valid?

1. Did participating patients present a diagnostic dilemma?

The group of patients in which the test was conducted should include patients with a high, medium and low probability of having the target disease. The clinical usefulness of a test is demonstrated in its ability to distinguish between obvious illness and those cases where it is not so obvious or where the diagnosis might otherwise be confused. The patients in the study should resemble what might be expected in a clinical practice.

2. Did investigators compare the test to an appropriate, independent reference standard?

The reference (or gold) standard refers to the commonly accepted proof that the target disorder is present or not present. The reference standard might be an autopsy or biopsy. The reference standard provides objective criteria (e.g., laboratory test not requiring subjective interpretation) or a current clinical standard (e.g., a venogram for deep venous thrombosis) for diagnosis. Sometimes there may not be a widely accepted reference standard. The author will then need to clearly justify their selection of the reference test.

3. Were those interpreting the test and reference standard blind to the other results?

To avoid potential bias, those conducting the test should not know or be aware of the results of the other test.

4. Did the investigators perform the same reference standard to all patients regardless of the results of the test under investigation?

Researchers should conduct على حد سواء tests (the study test and the reference standard) on all patients in the study regardless of the results of the test in question. Researchers should not be tempted to forego either test based on the results of only one of the tests. Nor should the researchers apply a different reference standard to patients with a negative results in the study test.

Key issues for Diagnostic Studies:

  • diagnostic uncertainty
  • blind comparison to gold standard
  • each patient gets both tests

What are the results?

Reference Standard
Disease Positive

Reference Standard
Disease Negative

Sensitivity: = true positive / all disease positives

measures the proportion of patients with the disease who also test positive for the disease in this study. It is the probability that a person with the disease will have a positive test result.

Specificity: Specificity = true negative / all disease negatives

measures the proportion of patients without the disease who also test negative for the disease in this study. It is the probability that a person without the disease will have a negative test result.

Sensitivity and specificity are characteristics of the test but do not provide enough information for the clinician to act on the test results. Likelihood ratios can be used to help adapt the results of a study to specific patients. They help determine the probability of disease in a patient.

Likelihood ratios (LR):

LR + = positive test in patients with disease / positive test in patients without disease

LR - = negative test in patients with disease / negative test in patients without disease

Likelihood ratios indicate the likelihood that a given test result would be expected in a patient with the target disorder compared to the likelihood that the same result would be expected in a patient without that disorder.

Likelihood ratio of a positive test result (LR+) increases the odds of having the disease after a positive test result.

Likelihood ratio of a negative test result (LR-) decreases the odds of having the disease after a negative test result.

How much do LRs change disease likelihood?

LRs greater than 10 or less than 0.1 cause large changes
LRs 5 &ndash 10 or 0.1 &ndash 0.2 cause moderate changes
LRs 2 &ndash 5 or 0.2 &ndash 0.5 cause small changes
LRs less than 2 or greater than 0.5 cause tiny changes
LRs = 1.0 cause no change at all

More about likelihood ratios: Diagnostic tests 4: likelihood ratios. JJ Deeks & Douglas G Altman BMJ 2004 329:168-169

How can I apply the results to patient care?

Will the reproducibility of the test result and its interpretation be satisfactory in your clinical setting?
Does the test yield the same result when reapplied to stable participants?
Do different observers agree about the test results?

Are the study results applicable to the patients in your practice?Does the test perform differently (different LRs) for different severities of disease?
Does the test perform differently for populations with different mixes of competing conditions?

Will the test results change your management strategy?
What are the test and treatment thresholds for the health condition to be detected?
Are the test LRs high or low enough to shift posttest probability across a test or treatment threshold?

Will patients be better off as a result of the test?
Will patient care differ for different test results?
Will the anticipated changes in care do more good than harm?

Based on: Guyatt, G. Rennie, D. Meade, MO, Cook, DJ. Users&rsquo Guide to Medical Literature: A Manual for Evidence-Based Clinical Practice, 2nd Edition 2008.

Prognosis Study

Are the results Valid?

1. Was the sample of patients representative?

The patients groups should be clearly defined and representative of the spectrum of disease found in most practices. Failure to clearly define the patients who entered the study increases the risk that the sample is unrepresentative. To help you decide about the appropriateness of the sample, look for a clear description of which patients were included and excluded from a study. The way the sample was selected should be clearly specified, along with the objective criteria used to diagnose the patients with the disorder.

2. Were the patients sufficiently homogeneous with respect to prognostic factors?

Prognostic factors are characteristics of a particular patient that can be used to more accurately predict the course of a disease. These factors, which can be demographic (age, gender, race, etc.) or disease specific (e.g., stage of a tumor or disease) or comorbid (other conditions existing in the patient at the same time), can also help predict good or bad outcomes.

In comparing the prognosis of the 2 study groups, researchers should consider whether or not the patient&rsquos clinical characteristics are similar. It may be that adjustments have to made based on prognostic factors to get a true picture of the clinical outcome. This may require clinical experience or knowledge of the underlying biology to determine if all relevant factors were considered.

3. Was the follow-up sufficiently complete?

Follow-up should be complete and all patients accounted for at the end of the study. Patients who are lost to follow-up may often suffer the adverse outcome of interest and therefore, if not accounted for, may bias the results of the study. Determining if the number of patients lost to follow up affects the validity depends on the proportion of patients lost and the proportion of patients suffering the adverse outcome.

Patients should be followed until they fully recover or one of the disease outcomes occur. The follow-up should be long enough to develop a valid picture of the extent of the outcome of interest. Follow-up should include at least 80% of participants until the occurrence of a major study end point or to the end of the study.

4. Were objective and unbiased outcome criteria used?

Some outcomes are clearly defined, such as death or full recovery. In between, can exist a wide range of outcomes that may be less clearly defined. Investigators should establish specific criteria that define each possible outcome of the disease and use these same criteria during patient follow-up. Investigators making judgments about the clinical outcomes may have to be &ldquoblinded&rdquo to the patient characteristics and prognostic factors in order to eliminate possible bias in their observations.

  • well-defined sample
  • similar prognosis
  • follow-up complete
  • objective and unbias outcome criteria

What are the results?

How likely are the outcomes over time?

  • What are the event rates at different points in time?
  • If event rates vary with time, are the results shown using a survival curve?

How precise are the estimates of likelihood?

  • What is the confident interval for the principle event rate?
  • How do confidence intervals change over time?

Prognostic Results are the numbers of events that occur over time, expressed in:

  • مطلق terms: e.g. 5 year survival rate
  • نسبيا terms: e.g. risk from prognostic factor
  • survival curves: cumulative events over time

Therapy Study

Are the results of the study valid?

1. Were patients randomized? The assignment of patients to either group (treatment or control) must be done by a random allocation. This might include a coin toss (heads to treatment/tails to control) or use of randomization tables, often computer generated. Research has shown that random allocation comes closest to insuring the creation of groups of patients who will be similar in their risk of the events you hope to prevent. Randomization balances the groups for known prognostic factors (such as age, weight, gender, etc.) and unknown prognostic factors (such as compliance, genetics, socioeconomics, etc.). This reduces the chance of over-representation of any one characteristic within the study groups.

2. Was group allocation concealed? The randomization sequence should be concealed from the clinicians and researchers of the study to further eliminate conscious or unconscious selection bias. Concealment (part of the enrollment process) ensures that the researchers cannot predict or change the assignments of patients to treatment groups. If allocation is not concealed it may be possible to influence the outcome (consciously or unconsciously) by changing the enrollment order or the order of treatment which has been randomly assigned. Concealed allocation can be done by using a remote call center for enrolling patients or the use of opaque envelopes with assignments. This is different from blinding which happens AFTER randomization.

3. Were patients in the study groups similar with respect to known prognostic variables? The treatment and the control group should be similar for all prognostic characteristics except whether or not they received the experimental treatment. This information is usually displayed in Table 1, which outlines the baseline characteristics of both groups. This is a good way to verify that randomization resulted in similar groups.

4. To what extent was the study blinded? Blinding means that the people involved in the study do not know which treatments were given to which patients. Patients, researchers, data collectors and others involved in the study should not know which treatment is being administered. This helps eliminate assessment bias and preconceived notions as to how the treatments should be working. When it is difficult or even unethical to blind patients to a treatment, such as a surgical procedure, then a "blinded" clinician or researcher is needed to interpret the results.

5. Was follow-up complete? The study should begin and end with the same number of patients in each group. Patients lost to the study must be accounted for or risk making the conclusions invalid. Patients may drop out because of the adverse effects of the therapy being tested. If not accounted for, this can lead to conclusions that may be overly confident in the efficacy of the therapy. Good studies will have better than 80% follow-up for their patients. When there is a large loss to follow-up, the lost patients should be assigned to the "worst-case" outcomes and the results recalculated. If these results still support the original conclusion of the study then the loss may be acceptable.

6. Were patients analyzed in the groups to which they were first allocated? Anything that happens after randomization can affect the chances that a patient in a study has an event. Patients who forget or refuse their treatment should not be eliminated from the study results or allowed to &ldquochange groups&rdquo. Excluding noncompliant patients from a study group may leave only those that may be more likely to have a positive outcome, thus compromising the unbiased comparison that we got from the process of randomization. Therefore all patients must be analyzed within their assigned group. Randomization must be preserved. This is called "intention to treat" analysis.

7. Aside from the experimental intervention, were the groups treated equally? Both groups must be treated the same except for administration of the experimental treatment. If "cointerventions" (interventions other than the study treatment which are applied differently to both groups) exist they must be described in the methods section of the study.

How can I apply the results to patient care?

Were the study patients similar to my population of interest?
Does your population match the study inclusion criteria?
If not, are there compelling reasons why the results should not apply to your population?

Were all clinically important outcomes considered?
What were the primary and secondary endpoints studied?
Were surrogate endpoints used?

Are the likely treatment benefits worth the potential harm and costs?
What is the number needed to treat (NNT) to prevent one adverse outcome or produce one positive outcome?
Is the reduction of clinical endpoints worth the potential harms of the surgery or the cost of surgery?


To determine which variable levels have the most impact, compare the observed and expected counts or examine the contribution to chi-square

By looking at the differences between the observed cell counts and the expected cell counts, you can see which variables have the largest differences, which may indicate dependence. You can also compare the contributions to the chi-square statistic to see which variables have the largest values that may indicate dependence.

Key Results: Count, Expected count, Contribution to Chi-square

In this table, the cell count is the first number in each cell, the expected count is the second number in each cell, and the contribution to the chi-square statistic is the third number in each cell. In these results, the expected count and the observed count are the largest for the 1st shift with Machine 2, and the contribution to the chi-square statistic is also the largest. Investigate your process during the 1st shift with Machine 2 to see if there is a special cause that can explain this difference.


The odds ratio: calculation, usage and interpretation

The odds ratio (OR) is one of several statistics that have become increasingly important in clinical research and decision-making. It is particularly useful because as an effect-size statistic, it gives clear and direct information to clinicians about which treatment approach has the best odds of benefiting the patient. Significance statistics used for the OR include the Fisher&rsquos Exact Probability statistic, the Maximum-Likelihood Ratio Chi-Square and Pearson&rsquos Chi-Square. Typically the data consist of counts for each of a set of conditions and outcomes and are set in table format. The most common construction is a 2 × 2 table although larger tables are possible. As a simple statistic to calculate, [OR = (a × d)/(b × c)], it can be hand calculated in a clinic if necessary to determine the odds of a particular event for a patient at risk for that event. In addition to assisting health care providers to make treatment decisions, the information provided by the odds ratio is simple enough that patients can also understand the results and can participate in treatment decisions based on their odds of treatment success.


1. Does the ص value predict the probability of a hypothesis given the evidence?

The ص value refers to the probability of the data at least as extreme as the observed data given the statistical (often the null) hypothesis, p(D|H), and assuming that underlying assumptions are met (Greenland et al., 2016 Wasserstein & Lazar, 2016). In ST, the test statistic (e.g., z, t، أو F) represents the data as it is computed from the central tendency of the observed data and the standard error. We use the terms ص value and p(D|H) interchangeably. As a probability that refers to the size of an area under a density curve, the ص value is conceptually distinct from the likelihood of the data, which refers the value of the density function at a particular point. In our simulation experiments, we find that the log-transforms of ص values are nearly perfectly correlated with their associated likelihoods. Consider a continuous distribution under the null hypothesis of μ = 0. As sample observations increase in magnitude (for example, from a range of .01 to 2.0 standard units) when moving from the peak of this distribution toward the positive (right) tail, ص values and likelihoods both decrease monotonically. In this article, we only report the findings obtained with likelihoods.

A key concern about the ص value is that it does not speak to the strength of the evidence against the tested hypothesis, that is, that it does not predict the posterior probability of the tested hypothesis (Cohen, 1994 Gelman, 2013 Lykken, 1968). The ASA warns that that “ص-values do not measure the probability that the studied hypothesis is true” (Wasserstein & Lazar, 2016, p. 131), although “researchers often wish to turn a ص-value into a statement about the truth of a null hypothesis” (p. 131). In other words, finding that the data are unlikely under the hypothesis is not the same as finding that the hypothesis is unlikely under the data. The question of whether there is any relationship, and how strong it might be, is the crux of inductive inference. All inductive inference is essentially “reverse inference,” and reverse inference demands vigilance (Krueger, 2017).

We sought to quantify how much p(D|H) reveals about p(H|D). Bayes’ Theorem, which expresses the mathematical relationship between the two inverse conditional probabilities, provides the first clues. The theorem

shows that as p(D|H) decreases, ceteris paribus, so does p(H|D). If the tested hypothesis, H, is a null hypothesis, a low ص value suggests a comparatively high probability that the alternative hypothesis,

H, is true. Yet, the association between p(D|H) and p(H|D) is perfect only if the prior probability of the hypothesis, p(H), is the same as the cumulative probability of the data, p(D), that is, the denominator of the ratio in the above formula. This identity may be rare in research practice so how strongly is p(D|H) related to p(H|D) in practice?

We studied the results for a variety of settings in simulation experiments (Krueger & Heck, 2017). We began by sampling the elements of Bayes’ Theorem, p(H), p(D|H), and p(D|∼H) from uniform distributions that were independent of one another. These simple settings produced a correlation of ص = .38 between p(D|H) and p(H|D) (see also Krueger, 2001 Trafimow & Rice, 2009). The size of this correlation may raise questions about the inductive power of the ص value. Note, however, that this correlation emerges for a set of minimal, and as we shall see unrealistic, assumptions and thus represents a lower bound of possible results. Consider the relationship between p(D|H) and p(D|∼H) over studies. Inasmuch as the null hypothesis H and the alternative hypothesis ∼H are distinctive, one may expect a negative correlation between p(D|H) and p(D|∼H) over studies. The limiting case is given by a daring ∼H predicting a large effect, δ, and a set of experiments yielding estimated effects d that are greater than 0 but smaller than δ (García-Pérez, 2016). Here, the correlation between p(D|H) and p(D|∼H) is perfectly negative.

We sampled values for p(H), p(D|H), and p(D|∼H) and varied the size of the negative correlation between p(D|H) and p(D|∼H), with the result of interest being the correlation between p(D|H) and p(H|D), that is, the correlation indicating the predictive power of ص for the posterior probability of the null hypothesis. We found that as the correlation between p(D|H) and p(D|∼H) becomes more negative, the correlation between p(D|H) and p(H|D) becomes more positive. For example, when setting the correlation between p(D|H) and p(D|∼H) to ص = –.9, the outcome correlation between p(D|H) p(H|D) is ص = .49, which is moderately greater than the baseline correlation of .38 obtained under the assumption of independence. Nevertheless, when a research program provides bold hypotheses, that is, hypotheses that overestimate empirical effect sizes, the ص value becomes an incrementally stronger predictor of the posterior probability of H (and thereby of ∼H).

Turning to the effect of researchers’ prior knowledge on the inductive power of ص, we varied the correlation between p(D|H) and the prior probability of a hypothesis p(H). Here, positive correlations reflect the researchers’ sense of the riskiness of the tested hypothesis. At one end of the spectrum, consider an experiment in parapsychology, where the prior probability of the null hypothesis (e.g., “Psychokinesis cannot occur”) is high – at least among skeptics. A low ص value is improbable, that is, the (meta-)probability of a low ص value is low. Thus, both p(∼H) and p(ص < .05) are low. 1 At the other end of the spectrum, consider a social categorization experiment, for example, on ingroup-favoritism. Ingroup-favoritism is a robust empirical finding (Brewer, 2007), and thus the prior probability of the null hypothesis of no favoritism is low. Now, both p(∼H) and p(ص < .05) are high. When multiple scenarios across this spectrum are considered, the positive correlation between p(H) and p(D|H) is evident.

When raising the correlation between p(H) and p(D|H) to .5 and to .9, we respectively observe correlations of .628 and .891 between p(D|H) and p(H|D). This result suggests that as a research program matures, the ص value becomes more closely related to both the prior probability of the tested hypothesis and its updated posterior probability. Interestingly, ST yields diminishing returns within a line of study, as reflected in shrinking differences between p(H) and p(H|D). To review, the distribution of the prior probability of the likelihood of a hypothesis tends to be flat and uncoupled from the obtained ص value in the early stages of a research program. At this stage, ص values predict p(H|D) rather poorly. As theory and experience mature, however, the probabilities assigned to hypotheses begin to fall into a bimodal distribution the researcher’s experience allows more informed guesses as to which hypotheses are true and which are false. When a null hypothesis is tested that has already been rejected several times, its probability prior to the next study is low and so is the expected ص value.

Consider research on the self-enhancement bias as another example for the use of ST in a mature research domain. After years of confirmatory findings, the researcher can predict that most respondents will regard themselves as above average when rating themselves and the average person on dimensions of personal importance (Krueger, Heck, & Asendorpf, 2017). The prior probability of the null hypothesis of no self-enhancement is low and the meta-probability of a low ص value is high. متي ص values are closely linked to the priors, their surprise value is low they do not afford much belief updating. In light of this consideration, a desire for a strong correlation between p(D|H) and p(H|D) must be balanced against the desire to maximize learning from the data, that is, the difference between p(H) and p(H|D). A certain hypothesis requires no additional data to increase this certainty. ST is most valuable when the researcher’s theory and experience call for tests of novel and somewhat risky hypotheses. If the hypothesis is neither novel nor risky, little can be learned if, in contrast, the hypothesis is too risky, the effort of testing it is likely wasted.


شاهد الفيديو: Panorama Non-Invasive Prenatal Testing NIPT Results Shared u0026 Explained by Genetic Counselor (أغسطس 2022).