معلومة

6.4: علم الوراثة السكانية - علم الأحياء


تذكر أن الجين الخاص بشخصية معينة قد يحتوي على العديد من الأليلات ، أو المتغيرات ، التي ترمز لسمات مختلفة مرتبطة بتلك الشخصية. في أوائل القرن العشرين ، كان علماء الأحياء في مجال الدراسة المعروف باسم علم الوراثة السكانية بدأ في دراسة كيفية تغيير القوى الانتقائية للسكان من خلال التغيرات في ترددات الأليل والنمط الجيني.

ال تردد الأليل (أو تردد الجينات) هو المعدل الذي يظهر به أليل معين داخل مجموعة سكانية. لقد ناقشنا حتى الآن التطور كتغيير في خصائص مجموعة من الكائنات الحية ، ولكن وراء هذا التغيير المظهري هو التغيير الجيني. في علم الوراثة السكانية ، يُعرَّف مصطلح التطور بأنه تغيير في تواتر الأليل في مجموعة سكانية. باستخدام نظام فصيلة الدم ABO كمثال ، وتيرة أحد الأليلات ، أناأ، هو عدد نسخ هذا الأليل مقسومًا على جميع نسخ جين ABO في المجتمع. على سبيل المثال ، دراسة في الأردن[1] وجدت تردد أناأ أن تكون 26.1 في المائة. ال أنابو أنا0 شكلت الأليلات 13.4 في المائة و 60.5 في المائة من الأليلات على التوالي ، وأضيفت جميع الترددات ما يصل إلى 100 في المائة. التغيير في هذا التردد بمرور الوقت من شأنه أن يشكل تطورًا في السكان.

يمكن أن يتغير تواتر الأليل داخل مجموعة سكانية معينة اعتمادًا على العوامل البيئية ؛ لذلك ، تصبح بعض الأليلات أكثر انتشارًا من غيرها أثناء عملية الانتقاء الطبيعي. الانتقاء الطبيعي يمكن أن يغير التركيب الجيني للسكان ؛ على سبيل المثال ، إذا أعطى أليل معين نمطًا ظاهريًا يسمح للفرد بالبقاء على قيد الحياة بشكل أفضل أو أن يكون له نسل أكثر. نظرًا لأن العديد من هؤلاء النسل سيحملون أيضًا الأليل النافع ، وغالبًا ما يكون النمط الظاهري المقابل ، فسيكون لديهم المزيد من النسل الخاص بهم والذي يحمل أيضًا الأليل ، وبالتالي استمرار الدورة. بمرور الوقت ، سينتشر الأليل في جميع أنحاء السكان. سوف يتم إصلاح بعض الأليلات بسرعة بهذه الطريقة ، مما يعني أن كل فرد من السكان سيحمل الأليل ، بينما يمكن القضاء على الطفرات الضارة بسرعة إذا اشتُقّت من أليل سائد من مجموعة الجينات. ال تجمع الجينات هو مجموع جميع الأليلات في مجتمع ما.

في بعض الأحيان ، تتغير ترددات الأليل داخل مجموعة سكانية بشكل عشوائي مع عدم وجود ميزة للسكان على ترددات الأليل الموجودة. تسمى هذه الظاهرة بالانحراف الجيني. عادة ما يحدث الانتقاء الطبيعي والانحراف الجيني في وقت واحد في التجمعات السكانية وليست أحداثًا معزولة. من الصعب تحديد العملية المهيمنة لأنه غالبًا ما يكون من المستحيل تحديد سبب التغيير في ترددات الأليل في كل مرة. الحدث الذي يبدأ تغيير تردد الأليل في جزء معزول من السكان ، وهو أمر غير نموذجي للسكان الأصليين ، يسمى تأثير المؤسس. يمكن أن يؤدي الانتقاء الطبيعي والانحراف العشوائي وتأثيرات المؤسس إلى تغييرات كبيرة في جينوم السكان.



19.2 علم الوراثة السكانية

بنهاية هذا القسم ، ستكون قادرًا على القيام بما يلي:

  • وصف الأنواع المختلفة من التباين في المجتمع
  • اشرح لماذا فقط الانتقاء الطبيعي يمكنه التصرف بناءً على التباين الموروث
  • وصف الانجراف الجيني وتأثير عنق الزجاجة
  • اشرح كيف يمكن لكل قوة تطورية أن تؤثر على ترددات أليل السكان

غالبًا ما يُظهر أفراد المجتمع أنماطًا ظاهرية مختلفة ، أو يعبرون عن أليلات مختلفة لجين معين ، والتي يشير إليها العلماء باسم تعدد الأشكال. نحن نطلق على المجموعات السكانية ذات التنوعين أو أكثر من الخصائص المعينة متعددة الأشكال. يؤثر عدد من العوامل ، بما في ذلك التركيب الجيني للسكان والبيئة (الشكل 19.3) على التباين السكاني ، وتوزيع الأنماط الظاهرية بين الأفراد. يعد فهم مصادر التباين الظاهري في مجتمع ما أمرًا مهمًا لتحديد كيفية تطور السكان استجابةً للضغوط التطورية المختلفة.

التباين الجيني

يمكن للانتقاء الطبيعي وبعض القوى التطورية الأخرى أن تعمل فقط على السمات الوراثية ، أي الشفرة الجينية للكائن الحي. نظرًا لأن الأليلات تنتقل من الوالد إلى الأبناء ، فقد يتم اختيار تلك التي تمنح سمات أو سلوكيات مفيدة ، بينما قد لا يتم اختيار الأليلات الضارة. الصفات المكتسبة ، في الغالب ، ليست وراثية. على سبيل المثال ، إذا كان أحد الرياضيين يمارس الرياضة في صالة الألعاب الرياضية كل يوم ، ليبني قوة العضلات ، فلن يكبر نسل الرياضي بالضرورة ليصبح لاعب كمال أجسام. إذا كان هناك أساس وراثي للقدرة على الجري بسرعة ، من ناحية أخرى ، قد ينقل أحد الوالدين هذا إلى طفل.

ارتباط بالتعلم

قبل أن يصبح التطور الدارويني هو النظرية السائدة في هذا المجال ، وضع عالم الطبيعة الفرنسي جان بابتيست لامارك نظرية مفادها أن الكائنات الحية يمكن أن ترث السمات المكتسبة. في حين أن غالبية العلماء لم يؤيدوا هذه الفرضية ، بدأ البعض مؤخرًا في إدراك أن لامارك لم يكن مخطئًا تمامًا. قم بزيارة هذا الموقع لمعرفة المزيد.

التوريث هو جزء من تباين النمط الظاهري الذي يمكن أن ننسبه إلى الاختلافات الجينية ، أو التباين الجيني ، بين الأفراد في مجموعة سكانية. كلما زادت قابلية التوريث للتنوع الظاهري للسكان ، كلما كان أكثر عرضة للقوى التطورية التي تعمل على التباين الوراثي.

نحن نسمي تنوع الأليلات والأنماط الجينية ضمن التباين الجيني للسكان. عندما يشارك العلماء في تربية أحد الأنواع ، مثل الحيوانات في حدائق الحيوان والمحميات الطبيعية ، فإنهم يحاولون زيادة التباين الجيني للسكان للحفاظ على أكبر قدر ممكن من التنوع الظاهري. يساعد هذا أيضًا في تقليل المخاطر المرتبطة بزواج الأقارب ، والتزاوج بين الأفراد المرتبطين ارتباطًا وثيقًا ، والذي يمكن أن يكون له تأثير غير مرغوب فيه في الجمع بين الطفرات المتنحية الضارة التي يمكن أن تسبب تشوهات وقابلية للإصابة بالأمراض. على سبيل المثال ، قد يوجد مرض ناجم عن أليل نادر متنحي في مجموعة سكانية ، لكنه لن يظهر إلا عندما يحمل الفرد نسختين من الأليل. نظرًا لأن الأليل نادر في مجموعة سكانية طبيعية وصحية مع موطن غير مقيد ، فإن فرصة تزاوج اثنين من الناقلات منخفضة ، وحتى ذلك الحين ، فإن 25 في المائة فقط من نسلهم سيرثون أليل المرض من كلا الوالدين. في حين أنه من المحتمل أن يحدث في مرحلة ما ، فإنه لن يحدث بشكل متكرر بما يكفي لكي يتمكن الانتقاء الطبيعي من القضاء بسرعة على الأليل من السكان ، ونتيجة لذلك ، يحافظ الأليل على نفسه عند مستويات منخفضة في تجمع الجينات. ومع ذلك ، إذا بدأت عائلة من الناقلات في التزاوج مع بعضها البعض ، فإن هذا سيزيد بشكل كبير من احتمالية تزاوج اثنين من الناقلات وينتج في النهاية ذرية مريضة ، وهي ظاهرة يسميها العلماء اكتئاب الأقارب.

يمكن للتغييرات في ترددات الأليل التي نحددها في مجتمع ما أن تلقي الضوء على كيفية تطورها. بالإضافة إلى الانتقاء الطبيعي ، هناك قوى تطورية أخرى يمكن أن تلعب دورًا: الانجراف الجيني ، وتدفق الجينات ، والطفرة ، والتزاوج غير العشوائي ، والتغيرات البيئية.

الانحراف الجيني

تنبع نظرية الانتقاء الطبيعي من ملاحظة أن بعض الأفراد في المجتمع يكونون أكثر عرضة للبقاء على قيد الحياة لفترة أطول ولديهم ذرية أكثر من غيرهم ، وبالتالي فإنهم سينقلون المزيد من جيناتهم إلى الجيل التالي. ذكر الغوريلا الضخم والقوي ، على سبيل المثال ، هو أكثر احتمالا بكثير من الغوريلا الأصغر والأضعف أن يصبح رجلا فضية من السكان ، زعيم القطيع الذي يتزاوج أكثر بكثير من الذكور الآخرين في المجموعة. سوف ينجب قائد المجموعة نسلًا أكثر ، يتشاركون في نصف جيناته ، ومن المرجح أيضًا أن ينمو أكبر وأقوى مثل والدهم. بمرور الوقت ، ستزداد الجينات ذات الحجم الأكبر في التكرار بين السكان ، ونتيجة لذلك سيزداد عدد السكان في المتوسط. أي أن هذا سيحدث إذا كان ضغط الاختيار هذا ، أو القوة الانتقائية الدافعة ، هو الوحيد الذي يعمل على السكان. في أمثلة أخرى ، قد يشكل التمويه الأفضل أو مقاومة أقوى للجفاف ضغط الاختيار.

هناك طريقة أخرى يمكن أن تتغير بها ترددات الأليل والنمط الجيني للسكان وهي الانجراف الجيني (الشكل 19.4) ، وهو ببساطة تأثير الصدفة. عن طريق الصدفة ، سيكون لدى بعض الأفراد ذرية أكثر من غيرهم - ليس بسبب ميزة تمنحها بعض السمات المشفرة وراثيًا ، ولكن لمجرد وجود ذكر واحد في المكان المناسب في الوقت المناسب (عندما كانت الأنثى المستقبلة تسير بجانبه) أو لأن الآخر حدث في المكان الخطأ في الوقت الخطأ (عندما كان الثعلب يصطاد).

اتصال مرئي

هل تعتقد أن الانجراف الجيني سيحدث بسرعة أكبر في الجزيرة أو في البر الرئيسي؟

المجموعات السكانية الصغيرة أكثر عرضة لقوى الانجراف الجيني. وبدلاً من ذلك ، يتم حماية أعداد كبيرة من السكان ضد آثار الصدفة. إذا مات فرد من مجموعة مكونة من 10 أفراد في سن مبكرة قبل أن يترك أي نسل للجيل التالي ، فستفقد فجأة جميع جيناته - 1/10 من مجموعة جينات السكان. في عدد سكان يبلغ 100 نسمة ، يمثل هذا 1 في المائة فقط من إجمالي مجموعة الجينات ، وبالتالي فهو أقل تأثيرًا على التركيب الجيني للسكان.

ارتباط بالتعلم

اذهب إلى هذا الموقع لمشاهدة الرسوم المتحركة لأخذ العينات العشوائية والانحراف الجيني أثناء العمل.

الأحداث الطبيعية ، مثل كارثة الزلزال التي تقتل - بشكل عشوائي - جزءًا كبيرًا من السكان ، يمكن أن تضخم الانجراف الجيني. يُعرف باسم تأثير عنق الزجاجة ، ويؤدي إلى القضاء فجأة على جزء كبير من الجينوم (الشكل 19.5). في الحال ، يصبح التركيب الجيني للناجين هو التركيب الجيني للسكان بأكمله ، والذي قد يكون مختلفًا تمامًا عن السكان قبل وقوع الكارثة.

سيناريو آخر قد يتعرض فيه السكان لتأثير قوي للانجراف الجيني هو إذا غادر جزء من السكان لبدء مجموعة جديدة في موقع جديد أو إذا كان هناك حاجز مادي يقسم السكان. في هذه الحالة ، يمثل هؤلاء الأفراد تمثيلًا غير مرجح لجميع السكان ، مما يؤدي إلى تأثير المؤسس. يحدث تأثير المؤسس عندما تتغير البنية الجينية لتتناسب مع الآباء والأمهات المؤسسين للسكان الجدد. يعتقد الباحثون أن تأثير المؤسس كان عاملاً رئيسياً في التاريخ الجيني للسكان الأفريكانيين للمستوطنين الهولنديين في جنوب إفريقيا ، كما يتضح من الطفرات الشائعة في الأفريكانيين ولكنها نادرة في معظم المجموعات السكانية الأخرى. ربما يكون هذا بسبب أن نسبة أعلى من المعتاد من المستعمرين المؤسسين تحمل هذه الطفرات. نتيجة لذلك ، يُظهر السكان ارتفاعًا غير عادي في حالات الإصابة بمرض هنتنغتون (HD) وفقر الدم فانكوني (FA) ، وهو اضطراب وراثي معروف بأنه يسبب نخاع الدم والتشوهات الخلقية - حتى السرطان. 2

ارتباط بالتعلم

شاهد هذا الفيديو القصير لمعرفة المزيد عن المؤسس وتأثيرات عنق الزجاجة.

اتصال المنهج العلمي

اختبار تأثير عنق الزجاجة

سؤال: كيف تؤثر الكوارث الطبيعية على التركيب الجيني للسكان؟

خلفية: عندما يمحو الزلزال أو الإعصار فجأة الكثير من السكان ، يكون الأفراد الناجون عادةً عينة عشوائية من المجموعة الأصلية. نتيجة لذلك ، يمكن أن يتغير التركيب الجيني للسكان بشكل كبير. نسمي هذه الظاهرة تأثير الاختناق.

فرضية: ستؤدي الكوارث الطبيعية المتكررة إلى تراكيب وراثية مختلفة للسكان ، وبالتالي في كل مرة يتم فيها تشغيل هذه التجربة ، ستختلف النتائج.

اختبر الفرضية: احسب السكان الأصليين باستخدام حبات ملونة مختلفة. على سبيل المثال ، قد تمثل الخرز الأحمر والأزرق والأصفر الأفراد الأحمر والأزرق والأصفر. بعد تسجيل عدد كل فرد في المجموعة الأصلية ، ضعهم جميعًا في زجاجة ذات رقبة ضيقة تسمح فقط بخروج عدد قليل من الخرزات في كل مرة. ثم اسكب ثلث محتويات الزجاجة في وعاء. هذا يمثل الأفراد الناجين بعد كارثة طبيعية تقتل غالبية السكان. احسب عدد الخرزات الملونة المختلفة في الوعاء وقم بتسجيلها. ثم ضع كل الخرزات مرة أخرى في الزجاجة وكرر التجربة أربع مرات أخرى.

تحليل البيانات: قارن بين المجموعات الخمس التي نتجت عن التجربة. هل تحتوي جميع المجموعات السكانية على نفس العدد من الخرزات الملونة المختلفة ، أم أنها تختلف؟ تذكر أن جميع هذه المجموعات جاءت من نفس السكان الأصليين بالضبط.

تشكيل استنتاج: على الأرجح ، ستختلف المجموعات الخمس الناتجة بشكل كبير. هذا لأن الكوارث الطبيعية ليست انتقائية - فهي تقتل الأفراد وتحفظهم بشكل عشوائي. فكر الآن في كيفية تأثير ذلك على السكان الحقيقيين. ماذا يحدث عندما يضرب إعصار ساحل خليج المسيسيبي؟ كيف أجرة الطيور البحرية التي تعيش على الشاطئ؟

انسياب الجينات

قوة تطورية أخرى مهمة هي تدفق الجينات: تدفق الأليلات داخل وخارج السكان بسبب هجرة الأفراد أو الأمشاج (الشكل 19.6). في حين أن بعض المجموعات السكانية مستقرة إلى حد ما ، فإن البعض الآخر يعاني من مزيد من التدفق. العديد من النباتات ، على سبيل المثال ، ترسل حبوب اللقاح الخاصة بها على نطاق واسع ، عن طريق الرياح أو الطيور ، لتلقيح مجموعات أخرى من نفس النوع على بعد مسافة ما. حتى السكان الذين قد يبدو في البداية مستقرين ، مثل فخر الأسود ، يمكن أن يواجهوا نصيبه العادل من الهجرة والهجرة حيث يترك الذكور الناميون أمهاتهم للبحث عن فخر جديد مع الإناث غير المرتبطين وراثيا. هذا التدفق المتغير للأفراد داخل وخارج المجموعة لا يغير فقط التركيب الجيني للسكان ، بل يمكنه أيضًا إدخال تنوع جيني جديد للمجموعات السكانية في المواقع والموائل الجيولوجية المختلفة.

طفره

الطفرات هي تغييرات في الحمض النووي للكائن الحي وهي محرك مهم للتنوع في السكان. تتطور الأنواع بسبب الطفرات المتراكمة بمرور الوقت. ظهور طفرات جديدة هو الطريقة الأكثر شيوعًا لإدخال التباين الوراثي والظاهري الجديد. بعض الطفرات غير مواتية أو ضارة ويتم القضاء عليها بسرعة من السكان عن طريق الانتقاء الطبيعي. البعض الآخر مفيد وسوف ينتشر بين السكان. يتم تحديد ما إذا كانت الطفرة مفيدة أو ضارة أم لا من خلال ما إذا كانت تساعد الكائن الحي على البقاء على قيد الحياة حتى النضج الجنسي والتكاثر. بعض الطفرات لا تفعل أي شيء ويمكن أن تبقى ، غير متأثرة بالانتقاء الطبيعي ، في الجينوم. يمكن أن يكون لبعضها تأثير كبير على الجين والنمط الظاهري الناتج.

التزاوج غير العشوائي

إذا تزاوج الأفراد مع أقرانهم بشكل غير عشوائي ، يمكن أن تكون النتيجة تغيرًا في عدد السكان. هناك العديد من الأسباب لحدوث التزاوج غير العشوائي. سبب واحد هو اختيار الشريك البسيط. على سبيل المثال ، قد تفضل إناث الطاووس الطاووس ذي الذيل الأكبر والأكثر إشراقًا. يختار الانتقاء الطبيعي السمات التي تؤدي إلى مزيد من اختيارات التزاوج للفرد. أحد الأشكال الشائعة لاختيار الشريك ، يسمى التزاوج المتنوع ، هو تفضيل الفرد للتزاوج مع شركاء يشبهونهم ظاهريًا.

سبب آخر للتزاوج غير العشوائي هو الموقع المادي. هذا صحيح بشكل خاص في عدد كبير من السكان موزعة على مسافات جغرافية شاسعة حيث لا يتمتع جميع الأفراد بفرص متساوية لبعضهم البعض. قد يكون البعض على بعد أميال عبر الغابات أو فوق التضاريس الوعرة ، بينما قد يعيش البعض الآخر على الفور في مكان قريب.

التباين البيئي

الجينات ليست هي الجهات الوحيدة المشاركة في تحديد التباين السكاني. تؤثر العوامل الأخرى ، مثل البيئة (الشكل 19.7) أيضًا على الأنماط الظاهرية. من المرجح أن تكون بشرة مرتادي الشواطئ أغمق من بشرة سكان المدينة ، على سبيل المثال ، بسبب التعرض المنتظم لأشعة الشمس ، وهو عامل بيئي. بالنسبة لبعض الأنواع ، تحدد البيئة بعض الخصائص الرئيسية ، مثل الجنس. على سبيل المثال ، لدى بعض السلاحف والزواحف الأخرى تحديد جنس يعتمد على درجة الحرارة (TSD). يعني TSD أن الأفراد يتطورون إلى ذكور إذا تم تحضين بيضهم ضمن نطاق درجة حرارة معينة ، أو إناث عند نطاق درجة حرارة مختلفة.

يمكن أن يؤدي الفصل الجغرافي بين السكان إلى اختلافات في التباين الظاهري بين تلك المجموعات السكانية. نرى هذا الاختلاف الجغرافي بين معظم السكان ويمكن أن يكون مهمًا. يمكننا أن نلاحظ نوعًا واحدًا من التباين الجغرافي ، وهو cline ، حيث تختلف مجموعات الأنواع المعينة تدريجيًا عبر التدرج البيئي. تميل أنواع الحيوانات ذوات الدم الحار ، على سبيل المثال ، إلى امتلاك أجسام أكبر في المناخات الأكثر برودة بالقرب من قطبي الأرض ، مما يسمح لها بالحفاظ على الحرارة بشكل أفضل. هذا هو خط العرض. بدلاً من ذلك ، تميل النباتات المزهرة إلى الازدهار في أوقات مختلفة اعتمادًا على مكان وجودها على طول منحدر جبلي. هذا هو خط ارتفاعي.

إذا كان هناك تدفق جيني بين السكان ، فمن المحتمل أن يظهر الأفراد اختلافات تدريجية في النمط الظاهري على طول الخط. يمكن أن يؤدي تدفق الجينات المحدود ، بدلاً من ذلك ، إلى اختلافات مفاجئة ، وحتى الانتواع.


اختبارات الاختيار من متعدد

تمنحك اختبارات الاختيار من متعدد ذاتية التحديد هذه ملاحظات فورية أثناء المراجعة.
استخدمها للتحقق من الفهم وممارسة أسلوب الاختبار.

مرتبة في موضوعات DP Biology الفرعية التي تساعد على تقسيم المراجعة إلى أجزاء أصغر.
يتم إعطاء تلميحات الممتحنين بالإجابات الصحيحة لكل سؤال.

تحتوي الورقة 1 من الاختبارات على أسئلة الاختيار من متعدد فقط

يحتوي كل سؤال على 4 خيارات للإجابة: أ ، ب ، ج ، د

إجابة واحدة في كل سؤال هي الإجابة الصحيحة ولكن احترس من & quotdistracter & quot. هذه إجابة صحيحة جزئيًا.

من الأساليب الجيدة للأسئلة متعددة الخيارات الصعبة تحديد الإجابات الخاطئة بوضوح في ورقة الأسئلة ثم اختيار أفضل إجابة من الخيار المتبقي.

اقتراحات المراجعة

  • راجع ملاحظات الدرس قبل محاولة طرح الأسئلة.
  • قم بتدوين الإجابات الصحيحة للأسئلة التي أخطأت فيها.
  • راجع هذه الأقسام من ملاحظاتك.
  • تحقق من صحة ملاحظاتك باستخدام كتاب نصي.
  • جرب الأسئلة مرة ثانية.

مجموعات أسئلة الموضوع الفرعي في علم الأحياء لاختبار معرفتك وفهمك

هذه الأسئلة متعددة الخيارات هي أسئلة ذاتية التصحيح
يمكنك النقر فوق & # 39check & # 39 في أي وقت لمعرفة ما إذا كانت الإجابة صحيحة.
& # 39Check & # 39 يعرض ملاحظة مفيدة كتبها الفاحص. عظيم للمراجعة.


الإحصاء الحيوي وعلم الوراثة تحرير

تشكل النمذجة الإحصائية الحيوية جزءًا مهمًا من العديد من النظريات البيولوجية الحديثة. استخدمت دراسات علم الوراثة منذ بدايتها المفاهيم الإحصائية لفهم النتائج التجريبية المرصودة. حتى أن بعض علماء الوراثة ساهموا في التقدم الإحصائي في تطوير الأساليب والأدوات. بدأ جريجور مندل دراسات علم الوراثة التي تبحث في أنماط الفصل الوراثي في ​​عائلات البازلاء واستخدم الإحصائيات لشرح البيانات التي تم جمعها. في أوائل القرن العشرين ، بعد إعادة اكتشاف عمل Mendelian في الوراثة ، كانت هناك فجوات في الفهم بين علم الوراثة والداروينية التطورية. حاول فرانسيس غالتون توسيع اكتشافات مندل بالبيانات البشرية واقترح نموذجًا مختلفًا به أجزاء من الوراثة تأتي من كل سلف يؤلف سلسلة لا نهائية. وقد أطلق على هذه النظرية اسم "قانون وراثة الأسلاف". اعترض ويليام بيتسون بشدة على أفكاره ، الذي اتبع استنتاجات مندل ، بأن الوراثة الجينية كانت حصرية من الوالدين ، نصفهم من كل منهما. أدى ذلك إلى نقاش حاد بين خبراء المقاييس الحيوية ، الذين دعموا أفكار غالتون ، مثل والتر ويلدون ، وآرثر دوكينفيلد داربيشير وكارل بيرسون ، ومندليانز ، الذين دعموا أفكار بيتسون (ومندل) ، مثل تشارلز دافنبورت وويلهيلم يوهانسن. في وقت لاحق ، لم يتمكن خبراء القياسات الحيوية من إعادة إنتاج استنتاجات غالتون في تجارب مختلفة ، وسادت أفكار مندل. بحلول الثلاثينيات من القرن الماضي ، ساعدت النماذج المبنية على التفكير الإحصائي في حل هذه الاختلافات وإنتاج التوليف التطوري الحديث الدارويني.

سمح حل هذه الاختلافات أيضًا بتحديد مفهوم علم الوراثة السكانية وجمع علم الوراثة والتطور معًا. اعتمدت الشخصيات الثلاثة الرائدة في إنشاء علم الوراثة السكانية وهذا التركيب جميعًا على الإحصاء وطوروا استخدامه في علم الأحياء.

    طور العديد من الأساليب الإحصائية الأساسية لدعم عمله في دراسة تجارب المحاصيل في أبحاث روثامستيد ، بما في ذلك في كتبه الطرق الإحصائية للعاملين في البحث (1925) نهاية النظرية الوراثية للانتقاء الطبيعي (1930). قدم العديد من المساهمات في علم الوراثة والإحصاء. يتضمن بعضها ANOVA ومفاهيم القيمة p واختبار فيشر الدقيق ومعادلة فيشر لديناميات السكان. يُنسب إليه الفضل في الجملة "الانتقاء الطبيعي هو آلية لتوليد درجة عالية جدًا من اللاحتمالية". [1] طور إحصاء F وطرق حسابها وحدد معامل زواج الأقارب. كتاب أسباب التطور، أعاد ترسيخ الانتقاء الطبيعي باعتباره الآلية الأولى للتطور من خلال شرحه من حيث النتائج الرياضية لعلم الوراثة المندلية. كما طورت نظرية الحساء البدائي.

ساعد هؤلاء وغيرهم من علماء الإحصاء الحيوي ، وعلماء الأحياء الرياضية ، وعلماء الوراثة المائلون للإحصاء في الجمع بين البيولوجيا التطورية وعلم الوراثة في كيان متسق ومتماسك يمكن البدء في نمذجة كميته.

بالتوازي مع هذا التطور الشامل ، عمل D'Arcy Thompson الرائد في على النمو والشكل ساعد أيضًا في إضافة الانضباط الكمي إلى الدراسة البيولوجية.

على الرغم من الأهمية الأساسية والضرورة المتكررة للتفكير الإحصائي ، فقد يكون هناك مع ذلك ميل بين علماء الأحياء إلى عدم الثقة أو إهمال النتائج غير الواضحة نوعياً. تصف إحدى الحكايات منع توماس هانت مورغان آلة حاسبة Friden من إدارته في معهد كاليفورنيا للتكنولوجيا ، قائلاً "حسنًا ، أنا مثل الرجل الذي يبحث عن الذهب على طول ضفاف نهر سكرامنتو في عام 1849. بقليل من الذكاء ، يمكنني الوصول إلى الأسفل و التقط شذرات كبيرة من الذهب. وطالما يمكنني فعل ذلك ، لن أسمح لأي شخص في إدارتي بإهدار الموارد النادرة في التعدين الغريني ". [2]

يُقترح أي بحث في علوم الحياة للإجابة على سؤال علمي قد يكون لدينا. للإجابة على هذا السؤال بدرجة عالية من اليقين ، نحتاج إلى نتائج دقيقة. إن التعريف الصحيح للفرضية الرئيسية وخطة البحث سيقلل من الأخطاء أثناء اتخاذ قرار في فهم الظاهرة. قد تتضمن خطة البحث سؤال البحث ، والفرضية المراد اختبارها ، والتصميم التجريبي ، وطرق جمع البيانات ، ووجهات نظر تحليل البيانات ، والتكاليف الناشئة. من الضروري إجراء الدراسة بناءً على المبادئ الأساسية الثلاثة للإحصاء التجريبي: العشوائية والتكرار والتحكم المحلي.

تحرير سؤال البحث

سيحدد سؤال البحث الهدف من الدراسة. سيتصدر البحث السؤال ، لذلك يجب أن يكون موجزًا ​​، وفي نفس الوقت يركز على موضوعات شيقة وجديدة من شأنها تحسين العلم والمعرفة وهذا المجال. لتحديد طريقة طرح السؤال العلمي ، قد يكون من الضروري إجراء مراجعة شاملة للأدبيات. لذلك ، يمكن أن يكون البحث مفيدًا لإضافة قيمة إلى المجتمع العلمي. [3]

تعريف الفرضية تحرير

بمجرد تحديد هدف الدراسة ، يمكن اقتراح الإجابات المحتملة لسؤال البحث ، وتحويل هذا السؤال إلى فرضية. يسمى الاقتراح الرئيسي فرضية العدم (H0) وعادة ما يعتمد على معرفة دائمة حول الموضوع أو حدوث واضح للظواهر ، مدعومة بمراجعة عميقة للأدبيات. يمكننا القول إنها الإجابة القياسية المتوقعة للبيانات في ظل الوضع قيد الاختبار. بشكل عام ، Hا لا يفترض وجود ارتباط بين العلاجات. من ناحية أخرى ، فإن الفرضية البديلة هي إنكار H.ا. يفترض درجة معينة من الارتباط بين العلاج والنتيجة. على الرغم من أن الفرضية مدعومة بأبحاث الأسئلة وإجاباتها المتوقعة وغير المتوقعة. [3]

على سبيل المثال ، ضع في اعتبارك مجموعات من الحيوانات المتشابهة (الفئران ، على سبيل المثال) تحت نظامين غذائيين مختلفين. سيكون سؤال البحث: ما هو أفضل نظام غذائي؟ في هذه الحالة ، H0 سيكون أنه لا يوجد فرق بين النظامين الغذائيين في استقلاب الفئران (H0: μ1 = μ2) والفرضية البديلة هي أن النظام الغذائي له تأثيرات مختلفة على استقلاب الحيوانات (H1: μ1 ≠ μ2).

يتم تحديد الفرضية من قبل الباحث حسب اهتماماته في الإجابة على السؤال الرئيسي. بالإضافة إلى ذلك ، يمكن أن تكون الفرضية البديلة أكثر من فرضية واحدة. يمكن أن تفترض ليس فقط الاختلافات بين المعلمات المرصودة ، ولكن درجة الاختلافات بينها (بمعنى آخر. أعلى أو أقصر).

تحرير أخذ العينات

عادة ، تهدف الدراسة إلى فهم تأثير ظاهرة على السكان. في علم الأحياء ، يتم تعريف السكان على أنهم جميع الأفراد من نوع معين ، في منطقة معينة في وقت معين. في الإحصاء الحيوي ، يمتد هذا المفهوم إلى مجموعة متنوعة من المجموعات الممكنة للدراسة. على الرغم من أنه ، في الإحصاء الحيوي ، فإن السكان ليسوا الأفراد فقط ، ولكن إجمالي مكون واحد محدد من كائناتهم ، مثل الجينوم بأكمله ، أو جميع خلايا الحيوانات المنوية ، للحيوانات ، أو إجمالي مساحة الأوراق ، للنبات ، على سبيل المثال .

لا يمكن اتخاذ التدابير من جميع عناصر السكان. وبسبب ذلك ، فإن عملية أخذ العينات مهمة جدًا للاستدلال الإحصائي. يتم تعريف أخذ العينات على أنه الحصول بشكل عشوائي على جزء تمثيلي من جميع السكان ، لعمل استنتاجات لاحقة حول السكان. لذلك ، قد تلتقط العينة أكبر قدر من التباين عبر مجموعة سكانية. [4] يتحدد حجم العينة بعدة أمور ، حيث إن نطاق البحث إلى الموارد المتاحة. في البحث السريري ، يعتبر نوع التجربة ، مثل الدونية والتكافؤ والتفوق ، مفتاحًا في تحديد حجم العينة. [3]

تحرير التصميم التجريبي

تدعم التصميمات التجريبية تلك المبادئ الأساسية للإحصاء التجريبي. هناك ثلاثة تصميمات تجريبية أساسية لتخصيص المعالجات بشكل عشوائي في جميع مخططات التجربة. وهي عبارة عن تصميم عشوائي تمامًا وتصميم كتل عشوائية وتصميمات عاملة. يمكن ترتيب العلاجات بعدة طرق داخل التجربة. في الزراعة ، يعد التصميم التجريبي الصحيح هو أصل دراسة جيدة ، كما أن ترتيب العلاجات داخل الدراسة ضروري لأن البيئة تؤثر بشكل كبير على قطع الأراضي (النباتات والماشية والكائنات الحية الدقيقة). يمكن العثور على هذه الترتيبات الرئيسية في الأدبيات تحت أسماء "المشابك" ، "الكتل غير المكتملة" ، "قطعة الأرض المنقسمة" ، "الكتل المعززة" ، وغيرها الكثير. قد تتضمن جميع التصميمات مخططات تحكم ، يحددها الباحث ، لتوفير تقدير للخطأ أثناء الاستدلال.

في الدراسات السريرية ، تكون العينات عادةً أصغر من الدراسات البيولوجية الأخرى ، وفي معظم الحالات ، يمكن التحكم في التأثير البيئي أو قياسه. من الشائع استخدام التجارب الإكلينيكية المعشاة ذات الشواهد ، حيث تتم مقارنة النتائج عادةً بتصميمات الدراسة القائمة على الملاحظة مثل الحالات والشواهد أو الأتراب. [5]

تحرير جمع البيانات

يجب مراعاة طرق جمع البيانات في تخطيط البحث ، لأنها تؤثر بشكل كبير على حجم العينة والتصميم التجريبي.

يختلف جمع البيانات حسب نوع البيانات. بالنسبة للبيانات النوعية ، يمكن إجراء التجميع باستخدام استبيانات منظمة أو عن طريق الملاحظة ، مع مراعاة وجود المرض أو شدته ، باستخدام معيار النتيجة لتصنيف مستويات الحدوث. [6] بالنسبة للبيانات الكمية ، يتم الجمع عن طريق قياس المعلومات الرقمية باستخدام الأدوات.

في دراسات الزراعة والبيولوجيا ، يمكن الحصول على بيانات الغلة ومكوناتها من خلال المقاييس المترية. ومع ذلك ، يتم الحصول على إصابات الآفات والأمراض في الصفائح عن طريق الملاحظة ، مع الأخذ في الاعتبار مقاييس النقاط لمستويات الضرر. على وجه الخصوص ، في الدراسات الجينية ، ينبغي النظر في الأساليب الحديثة لجمع البيانات في الميدان والمختبر ، كمنصات عالية الإنتاجية للتنميط الظاهري والتنميط الجيني. تسمح هذه الأدوات بإجراء تجارب أكبر ، بينما يكون من الممكن تقييم العديد من المخططات في وقت أقل من الطريقة القائمة على الإنسان فقط لجمع البيانات. أخيرًا ، يجب تخزين جميع البيانات التي تم جمعها في إطار بيانات منظم لمزيد من التحليل.

تحرير أدوات وصفية

يمكن تمثيل البيانات من خلال جداول أو تمثيل رسومي ، مثل المخططات الخطية والمخططات الشريطية والمدرج التكراري ومخطط التبعثر. أيضًا ، يمكن أن تكون مقاييس الاتجاه المركزي والتباين مفيدة جدًا لوصف نظرة عامة على البيانات. اتبع بعض الأمثلة:

أحد أنواع الجداول هو جدول التكرار ، والذي يتكون من بيانات مرتبة في صفوف وأعمدة ، حيث يكون التكرار هو عدد تكرارات البيانات أو تكرارها. يمكن أن يكون التردد: [7]

مطلق: يمثل عدد المرات التي تظهر فيها قيمة محددة

نسبيا: تم الحصول عليها بقسمة التردد المطلق على العدد الإجمالي

في المثال التالي ، لدينا عدد الجينات في عشرة أوبرا من نفس الكائن الحي.

G e n e s = 2، 3، 3، 4، 5، 3، 3، 3، 3، 4

تمثل الرسوم البيانية الخطية تباين القيمة على مقياس آخر ، مثل الوقت. بشكل عام ، يتم تمثيل القيم في المحور الرأسي ، بينما يتم تمثيل تباين الوقت في المحور الأفقي. [9]

المخطط الشريطي هو رسم بياني يعرض البيانات الفئوية كأشرطة تقدم ارتفاعات (شريط عمودي) أو عروض (شريط أفقي) متناسبة لتمثيل القيم. توفر المخططات الشريطية صورة يمكن أيضًا تمثيلها بتنسيق جدولي. [9]

في مثال الرسم البياني الشريطي ، لدينا معدل المواليد في البرازيل لشهور ديسمبر من 2010 إلى 2016. [8] يعكس الانخفاض الحاد في ديسمبر 2016 تفشي فيروس زيكا في معدل المواليد في البرازيل.

الرسم البياني (أو توزيع التردد) هو تمثيل رسومي لمجموعة بيانات مجدولة ومقسمة إلى فئات موحدة أو غير موحدة. تم تقديمه لأول مرة بواسطة كارل بيرسون. [10]

مخطط التبعثر هو مخطط رياضي يستخدم الإحداثيات الديكارتية لعرض قيم مجموعة البيانات. يعرض مخطط التبعثر البيانات كمجموعة من النقاط ، كل واحدة تقدم قيمة متغير واحد تحدد الموضع على المحور الأفقي ومتغير آخر على المحور الرأسي. [11] كما يطلق عليهم الرسم البياني مبعثر, مخطط مبعثر, مبعثر، أو مخطط مبعثر. [12]

الوسيط هو القيمة الموجودة في منتصف مجموعة البيانات.

الوضع هو قيمة مجموعة البيانات التي تظهر في أغلب الأحيان. [13]

مخطط الصندوق هو طريقة لتصوير مجموعات البيانات الرقمية بيانياً. يتم تمثيل القيم القصوى والدنيا بالخطوط ، ويمثل النطاق الربيعي (IQR) 25-75٪ من البيانات. يمكن رسم القيم المتطرفة على شكل دوائر.

على الرغم من أنه يمكن الاستدلال على الارتباطات بين نوعين مختلفين من البيانات من خلال الرسوم البيانية ، مثل مخطط التبعثر ، فمن الضروري التحقق من صحة ذلك من خلال المعلومات الرقمية. لهذا السبب ، معاملات الارتباط مطلوبة. أنها توفر قيمة عددية تعكس قوة الارتباط. [9]

معامل ارتباط بيرسون هو مقياس للارتباط بين متغيرين ، X و Y. هذا المعامل ، وعادة ما يمثله ρ (rho) للسكان و ص للعينة ، يفترض القيم بين -1 و 1 ، حيث ρ = 1 يمثل ارتباطًا إيجابيًا مثاليًا ، ρ = -1 يمثل ارتباطًا سلبيًا مثاليًا ، و ρ = 0 لا يوجد ارتباط خطي. [9]

تحرير الإحصائيات الاستنتاجية

يتم استخدامه لعمل استنتاجات [14] حول مجتمع غير معروف ، عن طريق التقدير و / أو اختبار الفرضيات. بمعنى آخر ، من المستحسن الحصول على معلمات لوصف المجتمع المعني ، ولكن نظرًا لأن البيانات محدودة ، فمن الضروري استخدام عينة تمثيلية لتقديرها. مع ذلك ، من الممكن اختبار الفرضيات المحددة مسبقًا وتطبيق الاستنتاجات على جميع السكان. الخطأ المعياري للمتوسط ​​هو مقياس للتغير وهو أمر حاسم لعمل الاستدلالات. [4]

يعد اختبار الفرضيات ضروريًا لعمل استنتاجات حول السكان بهدف الإجابة على أسئلة البحث ، كما هو محدد في قسم "تخطيط البحث". حدد المؤلفون أربع خطوات ليتم تعيينها: [4]

  1. الفرضية المراد اختبارها: كما ذكرنا سابقًا ، علينا العمل مع تعريف الفرضية الصفرية (H0) ، سيتم اختبار ذلك ، وفرضية بديلة. ولكن يجب تحديدها قبل تنفيذ التجربة.
  2. مستوى الأهمية وقاعدة القرار: تعتمد قاعدة القرار على مستوى الأهمية ، أو بعبارة أخرى ، معدل الخطأ المقبول (α). من الأسهل التفكير في أننا نحدد ملف قيمة حرجة التي تحدد الأهمية الإحصائية عند مقارنة إحصائية اختبار بها. لذلك ، يجب أيضًا تحديد α مسبقًا قبل التجربة.
  3. التجربة والتحليل الإحصائي: هذا عندما يتم تنفيذ التجربة بالفعل باتباع التصميم التجريبي المناسب ، يتم جمع البيانات وتقييم الاختبارات الإحصائية الأكثر ملاءمة.
  4. الإستنباط: يتم إجراؤه عند رفض الفرضية الصفرية أو عدم رفضها ، بناءً على الأدلة التي تجلبها مقارنة القيم p و α. يشار إلى أن عدم رفض ح0 يعني فقط أنه لا يوجد دليل كافٍ لدعم رفضه ، لكن ليس أن هذه الفرضية صحيحة.

A confidence interval is a range of values that can contain the true real parameter value in given a certain level of confidence. The first step is to estimate the best-unbiased estimate of the population parameter. The upper value of the interval is obtained by the sum of this estimate with the multiplication between the standard error of the mean and the confidence level. The calculation of lower value is similar, but instead of a sum, a subtraction must be applied. [4]

Power and statistical error Edit

When testing a hypothesis, there are two types of statistic errors possible: Type I error and Type II error. The type I error or false positive is the incorrect rejection of a true null hypothesis and the type II error or false negative is the failure to reject a false null hypothesis. The significance level denoted by α is the type I error rate and should be chosen before performing the test. The type II error rate is denoted by β and statistical power of the test is 1 − β.

P-value Edit

The p-value is the probability of obtaining results as extreme as or more extreme than those observed, assuming the null hypothesis (H0) is true. It is also called the calculated probability. It is common to confuse the p-value with the significance level (α), but, the α is a predefined threshold for calling significant results. If p is less than α, the null hypothesis (H0) is rejected. [15]

Multiple testing Edit

In multiple tests of the same hypothesis, the probability of the occurrence of falses positives (familywise error rate) increase and some strategy are used to control this occurrence. This is commonly achieved by using a more stringent threshold to reject null hypotheses. The Bonferroni correction defines an acceptable global significance level, denoted by α* and each test is individually compared with a value of α = α*/m. This ensures that the familywise error rate in all m tests, is less than or equal to α*. When m is large, the Bonferroni correction may be overly conservative. An alternative to the Bonferroni correction is to control the false discovery rate (FDR). The FDR controls the expected proportion of the rejected null hypotheses (the so-called discoveries) that are false (incorrect rejections). This procedure ensures that, for independent tests, the false discovery rate is at most q*. Thus, the FDR is less conservative than the Bonferroni correction and have more power, at the cost of more false positives. [16]

Mis-specification and robustness checks Edit

The main hypothesis being tested (e.g., no association between treatments and outcomes) is often accompanied by other technical assumptions (e.g., about the form of the probability distribution of the outcomes) that are also part of the null hypothesis. When the technical assumptions are violated in practice, then the null may be frequently rejected even if the main hypothesis is true. Such rejections are said to be due to model mis-specification. [17] Verifying whether the outcome of a statistical test does not change when the technical assumptions are slightly altered (so-called robustness checks) is the main way of combating mis-specification.

Model selection criteria Edit

Model criteria selection will select or model that more approximate true model. The Akaike's Information Criterion (AIC) and The Bayesian Information Criterion (BIC) are examples of asymptotically efficient criteria.

Recent developments have made a large impact on biostatistics. Two important changes have been the ability to collect data on a high-throughput scale, and the ability to perform much more complex analysis using computational techniques. This comes from the development in areas as sequencing technologies, Bioinformatics and Machine learning (Machine learning in bioinformatics).

Use in high-throughput data Edit

New biomedical technologies like microarrays, next-generation sequencers (for genomics) and mass spectrometry (for proteomics) generate enormous amounts of data, allowing many tests to be performed simultaneously. [18] Careful analysis with biostatistical methods is required to separate the signal from the noise. For example, a microarray could be used to measure many thousands of genes simultaneously, determining which of them have different expression in diseased cells compared to normal cells. However, only a fraction of genes will be differentially expressed. [19]

Multicollinearity often occurs in high-throughput biostatistical settings. Due to high intercorrelation between the predictors (such as gene expression levels), the information of one predictor might be contained in another one. It could be that only 5% of the predictors are responsible for 90% of the variability of the response. In such a case, one could apply the biostatistical technique of dimension reduction (for example via principal component analysis). Classical statistical techniques like linear or logistic regression and linear discriminant analysis do not work well for high dimensional data (i.e. when the number of observations n is smaller than the number of features or predictors p: n < p). As a matter of fact, one can get quite high R 2 -values despite very low predictive power of the statistical model. These classical statistical techniques (esp. least squares linear regression) were developed for low dimensional data (i.e. where the number of observations n is much larger than the number of predictors p: n >> p). In cases of high dimensionality, one should always consider an independent validation test set and the corresponding residual sum of squares (RSS) and R 2 of the validation test set, not those of the training set.

Often, it is useful to pool information from multiple predictors together. For example, Gene Set Enrichment Analysis (GSEA) considers the perturbation of whole (functionally related) gene sets rather than of single genes. [20] These gene sets might be known biochemical pathways or otherwise functionally related genes. The advantage of this approach is that it is more robust: It is more likely that a single gene is found to be falsely perturbed than it is that a whole pathway is falsely perturbed. Furthermore, one can integrate the accumulated knowledge about biochemical pathways (like the JAK-STAT signaling pathway) using this approach.

Bioinformatics advances in databases, data mining, and biological interpretation Edit

The development of biological databases enables storage and management of biological data with the possibility of ensuring access for users around the world. They are useful for researchers depositing data, retrieve information and files (raw or processed) originated from other experiments or indexing scientific articles, as PubMed. Another possibility is search for the desired term (a gene, a protein, a disease, an organism, and so on) and check all results related to this search. There are databases dedicated to SNPs (dbSNP), the knowledge on genes characterization and their pathways (KEGG) and the description of gene function classifying it by cellular component, molecular function and biological process (Gene Ontology). [21] In addition to databases that contain specific molecular information, there are others that are ample in the sense that they store information about an organism or group of organisms. As an example of a database directed towards just one organism, but that contains much data about it, is the نبات الأرابيدوبسيس thaliana genetic and molecular database – TAIR. [22] Phytozome, [23] in turn, stores the assemblies and annotation files of dozen of plant genomes, also containing visualization and analysis tools. Moreover, there is an interconnection between some databases in the information exchange/sharing and a major initiative was the International Nucleotide Sequence Database Collaboration (INSDC) [24] which relates data from DDBJ, [25] EMBL-EBI, [26] and NCBI. [27]

Nowadays, increase in size and complexity of molecular datasets leads to use of powerful statistical methods provided by computer science algorithms which are developed by machine learning area. Therefore, data mining and machine learning allow detection of patterns in data with a complex structure, as biological ones, by using methods of supervised and unsupervised learning, regression, detection of clusters and association rule mining, among others. [21] To indicate some of them, self-organizing maps and ك-means are examples of cluster algorithms neural networks implementation and support vector machines models are examples of common machine learning algorithms.

Collaborative work among molecular biologists, bioinformaticians, statisticians and computer scientists is important to perform an experiment correctly, going from planning, passing through data generation and analysis, and ending with biological interpretation of the results. [21]

Use of computationally intensive methods Edit

On the other hand, the advent of modern computer technology and relatively cheap computing resources have enabled computer-intensive biostatistical methods like bootstrapping and re-sampling methods.

In recent times, random forests have gained popularity as a method for performing statistical classification. Random forest techniques generate a panel of decision trees. Decision trees have the advantage that you can draw them and interpret them (even with a basic understanding of mathematics and statistics). Random Forests have thus been used for clinical decision support systems. [ بحاجة لمصدر ]

Public health Edit

Public health, including epidemiology, health services research, nutrition, environmental health and health care policy & management. In these medicine contents, it's important to consider the design and analysis of the clinical trials. As one example, there is the assessment of severity state of a patient with a prognosis of an outcome of a disease.

With new technologies and genetics knowledge, biostatistics are now also used for Systems medicine, which consists in a more personalized medicine. For this, is made an integration of data from different sources, including conventional patient data, clinico-pathological parameters, molecular and genetic data as well as data generated by additional new-omics technologies. [28]

Quantitative genetics Edit

The study of Population genetics and Statistical genetics in order to link variation in genotype with a variation in phenotype. In other words, it is desirable to discover the genetic basis of a measurable trait, a quantitative trait, that is under polygenic control. A genome region that is responsible for a continuous trait is called Quantitative trait locus (QTL). The study of QTLs become feasible by using molecular markers and measuring traits in populations, but their mapping needs the obtaining of a population from an experimental crossing, like an F2 or Recombinant inbred strains/lines (RILs). To scan for QTLs regions in a genome, a gene map based on linkage have to be built. Some of the best-known QTL mapping algorithms are Interval Mapping, Composite Interval Mapping, and Multiple Interval Mapping. [29]

However, QTL mapping resolution is impaired by the amount of recombination assayed, a problem for species in which it is difficult to obtain large offspring. Furthermore, allele diversity is restricted to individuals originated from contrasting parents, which limit studies of allele diversity when we have a panel of individuals representing a natural population. [30] For this reason, the Genome-wide association study was proposed in order to identify QTLs based on linkage disequilibrium, that is the non-random association between traits and molecular markers. It was leveraged by the development of high-throughput SNP genotyping. [31]

In animal and plant breeding, the use of markers in selection aiming for breeding, mainly the molecular ones, collaborated to the development of marker-assisted selection. While QTL mapping is limited due resolution, GWAS does not have enough power when rare variants of small effect that are also influenced by environment. So, the concept of Genomic Selection (GS) arises in order to use all molecular markers in the selection and allow the prediction of the performance of candidates in this selection. The proposal is to genotype and phenotype a training population, develop a model that can obtain the genomic estimated breeding values (GEBVs) of individuals belonging to a genotyped and but not phenotyped population, called testing population. [32] This kind of study could also include a validation population, thinking in the concept of cross-validation, in which the real phenotype results measured in this population are compared with the phenotype results based on the prediction, what used to check the accuracy of the model.

As a summary, some points about the application of quantitative genetics are:

  • This has been used in agriculture to improve crops (Plant breeding) and livestock (Animal breeding).
  • In biomedical research, this work can assist in finding candidates genealleles that can cause or influence predisposition to diseases in human genetics

Expression data Edit

Studies for differential expression of genes from RNA-Seq data, as for RT-qPCR and microarrays, demands comparison of conditions. The goal is to identify genes which have a significant change in abundance between different conditions. Then, experiments are designed appropriately, with replicates for each condition/treatment, randomization and blocking, when necessary. In RNA-Seq, the quantification of expression uses the information of mapped reads that are summarized in some genetic unit, as exons that are part of a gene sequence. As microarray results can be approximated by a normal distribution, RNA-Seq counts data are better explained by other distributions. The first used distribution was the Poisson one, but it underestimate the sample error, leading to false positives. Currently, biological variation is considered by methods that estimate a dispersion parameter of a negative binomial distribution. Generalized linear models are used to perform the tests for statistical significance and as the number of genes is high, multiple tests correction have to be considered. [33] Some examples of other analysis on genomics data comes from microarray or proteomics experiments. [34] [35] Often concerning diseases or disease stages. [36]

Other studies Edit

    , ecological forecasting
  • Biological sequence analysis[37] for gene network inference or pathways analysis. [38] , especially in regards to fisheries science. and evolution

There are a lot of tools that can be used to do statistical analysis in biological data. Most of them are useful in other areas of knowledge, covering a large number of applications (alphabetical). Here are brief descriptions of some of them:

    : Another software developed by VSNi [39] that can be used also in R environment as a package. It is developed to estimate variance components under a general linear mixed model using restricted maximum likelihood (REML). Models with fixed effects and random effects and nested or crossed ones are allowed. Gives the possibility to investigate different variance-covariance matrix structures.
  • CycDesigN: [40] A computer package developed by VSNi [39] that helps the researchers create experimental designs and analyze data coming from a design present in one of three classes handled by CycDesigN. These classes are resolvable, non-resolvable, partially replicated and crossover designs. It includes less used designs the Latinized ones, as t-Latinized design. [41] : A programming interface for high-level data processing, data mining and data visualization. Include tools for gene expression and genomics. [21] : An open source environment and programming language dedicated to statistical computing and graphics. It is an implementation of S language maintained by CRAN. [42] In addition to its functions to read data tables, take descriptive statistics, develop and evaluate models, its repository contains packages developed by researchers around the world. This allows the development of functions written to deal with the statistical analysis of data that comes from specific applications. In the case of Bioinformatics, for example, there are packages located in the main repository (CRAN) and in others, as Bioconductor. It is also possible to use packages under development that are shared in hosting-services as GitHub. : A data analysis software widely used, going through universities, services and industry. Developed by a company with the same name (SAS Institute), it uses SAS language for programming.
  • PLA 3.0: [43] Is a biostatistical analysis software for regulated environments (e.g. drug testing) which supports Quantitative Response Assays (Parallel-Line, Parallel-Logistics, Slope-Ratio) and Dichotomous Assays (Quantal Response, Binary Assays). It also supports weighting methods for combination calculations and the automatic data aggregation of independent assay data. : A Java software for machine learning and data mining, including tools and methods for visualization, clustering, regression, association rule, and classification. There are tools for cross-validation, bootstrapping and a module of algorithm comparison. Weka also can be run in other programming languages as Perl or R. [21]

Almost all educational programmes in biostatistics are at postgraduate level. They are most often found in schools of public health, affiliated with schools of medicine, forestry, or agriculture, or as a focus of application in departments of statistics.

In the United States, where several universities have dedicated biostatistics departments, many other top-tier universities integrate biostatistics faculty into statistics or other departments, such as epidemiology. Thus, departments carrying the name "biostatistics" may exist under quite different structures. For instance, relatively new biostatistics departments have been founded with a focus on bioinformatics and computational biology, whereas older departments, typically affiliated with schools of public health, will have more traditional lines of research involving epidemiological studies and clinical trials as well as bioinformatics. In larger universities around the world, where both a statistics and a biostatistics department exist, the degree of integration between the two departments may range from the bare minimum to very close collaboration. In general, the difference between a statistics program and a biostatistics program is twofold: (i) statistics departments will often host theoretical/methodological research which are less common in biostatistics programs and (ii) statistics departments have lines of research that may include biomedical applications but also other areas such as industry (quality control), business and economics and biological areas other than medicine.


Evolutionary forces

Saying that the Hardy-Weinberg principle describes an “equilibrium” is misleading, however, because the values remain constant only in a population that is not evolving. But real-life populations are always evolving. The frequencies of alleles, and thus genotypes and phenotypes, do not stay the same for long because there are always forces acting upon them. Some of the forces acting on the allele frequencies are mutation and natural selection, along with two other phenomena: gene flow and genetic drift.

Now let’s consider some of the interesting things that can happen to gene frequencies in a population.

الانتقاء الطبيعي occurs when one allele confers some benefit to the individuals that bear it and is thus favored by natural selection over time. This violates Hardy-Weinberg Equilibrium because the frequency of the beneficial allele will increase over time. The opposite will be true for an allele that harms the individuals that get it: The frequency will decline over time until it is eliminated.

انسياب الجينات refers to the movement of genes or alleles into our out of a gene pool. This can happen when members of a population migrate out, or members of another population migrate in and interbreed.

الانحراف الجيني refers to changes in gene frequencies due to random events, which can happen very quickly, producing dramatic and sudden effects. Drift can occur when a small group becomes isolated from the larger population. This is often called the Founder Effect. Drift can also occur when a catastrophic event reduces a large population to a very small size. Genetic drift means that the gene pool shrinks and becomes less diverse, which is often the opposite of what happens during gene flow when interbreeding expands the gene pool and increases genetic diversity.

When an allele confers some benefit to the individuals and is passed on over time, the genetic force is called:


Gene Flow and Mutation

A population’s genetic variation changes as individuals migrate into or out of a population and when mutations introduce new alleles.

أهداف التعلم

Explain how gene flow and mutations can influence the allele frequencies of a population

الماخذ الرئيسية

النقاط الرئيسية

  • Plant populations experience gene flow by spreading their pollen long distances.
  • Animals experience gene flow when individuals leave a family group or herd to join other populations.
  • The flow of individuals in and out of a population introduces new alleles and increases genetic variation within that population.
  • Mutations are changes to an organism’s DNA that create diversity within a population by introducing new alleles.
  • Some mutations are harmful and are quickly eliminated from the population by natural selection harmful mutations prevent organisms from reaching sexual maturity and reproducing.
  • Other mutations are beneficial and can increase in a population if they help organisms reach sexual maturity and reproduce.

الشروط الاساسية

  • gene flow: the transfer of alleles or genes from one population to another
  • طفره: any heritable change of the base-pair sequence of genetic material

انسياب الجينات

An important evolutionary force is gene flow: the flow of alleles in and out of a population due to the migration of individuals or gametes. While some populations are fairly stable, others experience more movement and fluctuation. Many plants, for example, send their pollen by wind, insects, or birds to pollinate other populations of the same species some distance away. Even a population that may initially appear to be stable, such as a pride of lions, can receive new genetic variation as developing males leave their mothers to form new prides with genetically-unrelated females. This variable flow of individuals in and out of the group not only changes the gene structure of the population, but can also introduce new genetic variation to populations in different geological locations and habitats.

Gene flow: Gene flow can occur when an individual travels from one geographic location to another.

Maintained gene flow between two populations can also lead to a combination of the two gene pools, reducing the genetic variation between the two groups. Gene flow strongly acts against speciation, by recombining the gene pools of the groups, and thus, repairing the developing differences in genetic variation that would have led to full speciation and creation of daughter species.

For example, if a species of grass grows on both sides of a highway, pollen is likely to be transported from one side to the other and vice versa. If this pollen is able to fertilize the plant where it ends up and produce viable offspring, then the alleles in the pollen have effectively linked the population on one side of the highway with the other.

طفره

Mutations are changes to an organism’s DNA and are an important driver of diversity in populations. Species evolve because of the accumulation of mutations that occur over time. The appearance of new mutations is the most common way to introduce novel genotypic and phenotypic variance. Some mutations are unfavorable or harmful and are quickly eliminated from the population by natural selection. Others are beneficial and will spread through the population. Whether or not a mutation is beneficial or harmful is determined by whether it helps an organism survive to sexual maturity and reproduce. Some mutations have no effect on an organism and can linger, unaffected by natural selection, in the genome while others can have a dramatic effect on a gene and the resulting phenotype.

Mutation in a garden rose: A mutation has caused this garden moss rose to produce flowers of different colors. This mutation has introduce a new allele into the population that increases genetic variation and may be passed on to the next generation.


6.4: Population Genetics - Biology

Quantitative genetics models have highlighted the diversity of genetic architectures underlying polygenic traits. This diversity has an impact on how the traits respond to directional selection and on its molecular signatures on the genome.

Genome-wide scans for selection have revealed examples of polygenic selection driving local adaptation of populations in several species. This polygenic selection disproportionately targets regulatory regions, hinting for an important role of gene regulatory networks in evolution.

Gene regulatory network inference helps identifying and grouping together genes and regulatory elements that participate to the same biological processes. It also helps discovering how the structure of regulatory networks can put constraints on which genes and regulatory regions can be leveraged by polygenic selection.

The introduction of gene regulatory network information in the omnigenic model highlights the pervasive pleiotropy in the genome. The general interconnection between all genes within the regulatory network might strongly limit the action of selection.

The adaptation of populations to local environments often relies on the selection of optimal values for polygenic traits. Here, we first summarize the results obtained from different quantitative genetics and population genetics models, about the genetic architecture of polygenic traits and their response to directional selection. We then highlight the contribution of systems biology to the understanding of the molecular bases of polygenic traits and the evolution of gene regulatory networks involved in these traits. Finally, we discuss the need for a unifying framework merging the fields of population genetics, quantitative genetics and systems biology to better understand the molecular bases of polygenic traits adaptation.


Triticum population sequencing provides insights into wheat adaptation

10,000 years. The genetic mechanisms of this remarkable evolutionary success are not well understood. By whole-genome sequencing of populations from 25 subspecies within the genera Triticum and Aegilops, we identified composite introgression from wild populations contributing to a substantial portion (4-32%) of the bread wheat genome, which increased the genetic diversity of bread wheat and allowed its divergent adaptation. Meanwhile, convergent adaptation to human selection showed 2- to 16-fold enrichment relative to random expectation-a certain set of genes were repeatedly selected in Triticum species despite their drastic differences in ploidy levels and growing zones, indicating the important role of evolutionary constraints in shaping the adaptive landscape of bread wheat. These results showed the genetic necessities of wheat as a global crop and provided new perspectives on transferring adaptive success across species for crop improvement.


شاهد الفيديو: علم الوراثة ومن برز في هذه العلم. المعلومات في الوصف و المقطع. (كانون الثاني 2022).