معلومة

اكتشف ما هو أليل المخاطرة من SNP في مقالة GWAS

اكتشف ما هو أليل المخاطرة من SNP في مقالة GWAS


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أقوم بأبحاث تصوير الأعصاب ، وأنا مهتم بالانغماس في علم الوراثة. أحاول إنشاء درجة ملف تعريف مخاطر القلق من العديد من تعدد أشكال النيوكلوتايد التي تظهر أنها مرتبطة بمقاييس القلق في دراسات GWAS السابقة. ومع ذلك ، لا يبدو أن العديد من دراسات GWAS ، مثل هذه الدراسة (https://www.biorxiv.org/content/10.1101/540245v1) تشير صراحةً إلى أي الأليل كان أليل الخطر (أي أي الأليل كان مرتبطًا بشكل إيجابي) القلق). من المحتمل أنه في معظم الحالات يكون الأليل الصغير هو أليل المخاطرة ، لكنني لا أريد أن أفترض ذلك. هل أفتقد شيئًا ما في نص المخطوطة النموذجية ، أم سأحتاج إلى الاتصال بالمؤلف لمعرفة ذلك؟


متغير دراسة الارتباط على نطاق جينوم هشاشة العظام c.3781 C> A ينظمه عامل جديد مضاد لتكوّن العظام miR-345-5p

تم ربط عضو عائلة عامل النسخ المنبع 3 (USF3) c.3781C & gtA (rs1026364) في المنطقة غير المترجمة 3'-UTR ارتباطًا وثيقًا بكثافة المعادن في العظام (BMD) في دراسة الارتباط على مستوى الجينوم (GWAS). ومع ذلك ، فإن الآلية الجزيئية التي تؤثر من خلالها على كثافة المعادن بالعظام وهشاشة العظام غير معروفة. اقترحت تحليلات المعلوماتية الحيوية أن خطر أليل c.3781A ينشئ موقعًا مستهدفًا لربط hsa-miR-345-5p. تحقق اختبار Luciferase من أن أليل c.3781A أظهر أنشطة لوسيفيراز أقل بكثير من أليل c.3781C في خط خلايا العظم البشري hFOB1.19 وخطوط خلايا ساركوما العظام U-2OS و Saos-2 وخط خلايا الكلى الجنينية 293T. علاوة على ذلك ، فإن تعبير USF3 منظم hsa-miR-345-5p على كل من مستويات RNA والبروتينات في خلايا hFOB1.19 و U937 مع النمط الجيني A / C متغاير الزيجوت. زاد ترنسفكأيشن hsa-miR-345-5p antagomiR في خلايا hFOB1.19 متغايرة الزيجوت بشكل كبير من التعبير عن جينات العلامات العظمية RUNX2 و OSTERIX و COL1A1 و ALP و OPN و OCN ونشاط الفوسفاتيز القلوي ومستوى تمعدن المصفوفة. الأهم من ذلك ، وجدنا أن hsa-miR-345-5p يمنع أيضًا نضوج بانيات العظم في خطوط الخلايا U-2OS مع النمط الجيني C / C غير الملزم hsa-miR-345-5p عن طريق استهداف RUNX3 و SMAD1. كشفت النتائج التي توصلنا إليها عن آلية إمراضية جديدة لهشاشة العظام بواسطة متغير GWAS c.3781C و gtA بوساطة ارتباط hsa-miR-345-5p في 3'-UTR من USF3 والدور الوظيفي لـ hsa-miR-345-5p في التمايز العظمي .

الكلمات الدالة: GWAS SNP RUNX3 SMAD1 USF3 miR-345-5p هشاشة العظام.


يجعل الإخصاب الذاتي أرابيدوبسيس مناسبة بشكل خاص لـ GWAS

أرابيدوبسيس لقد أثبت thaliana أنه كائن حي مثالي تقريبًا لإجراء GWAS لأنه يمكن الحفاظ عليه كخطوط فطرية من خلال الإخصاب الذاتي المستمر ، وبالتالي من الممكن تكرار النمط الظاهري للأفراد المتطابقين وراثيًا. نظرًا لأنه تم التنميط الجيني لأكثر من 1300 مُدخل مُتميز لـ 250.000 SNPs [20] كل ما يحتاجه الباحث هو النمط الظاهري لعدة مئات من السلالات للحصول على سمة مثيرة للاهتمام. بالإضافة إلى دراسة GWAS التاريخية لإثبات المفهوم لـ 107 نمطًا ظاهريًا [14] ، العديد من السمات الأخرى بما في ذلك مستويات الجلوكوزينولات [21] ، وتجنب الظل [22] ، والمعادن الثقيلة [23] ، وتحمل الملح [24] ، ووقت الإزهار [ 25] ، وقد تم تحليل سمات تاريخ الحياة الأخرى [26] بنجاح.

الأهم من ذلك ، حدثت تحسينات كبيرة في المنهجية الإحصائية مؤخرًا ، بما في ذلك استخدام نماذج مختلطة تأخذ في الاعتبار التأثير المربك للخلفية الجينية. تم تنفيذ ذلك عبر حزم R و Python المختلفة ، أو كنقطة اتصال أولى ، يمكن للمرء الاستفادة من الأداة عبر الإنترنت: http://gwas.gmi.oeaw.ac.at [27]. يأتي تطبيق الويب هذا محملاً مسبقًا ببيانات التركيب الجيني لجميع المدخلات شائعة الاستخدام ، ويوفر العديد من الخيارات الإحصائية ، ويسهل التحليل التلوي عبر السمات المنشورة. في حين أنه قبل عدة سنوات ، كان من الممكن بسهولة إجراء مسح كامل على مستوى الجينوم لبضع مئات من الأفراد يومًا واحدًا ، إلا أن مسحًا واحدًا بسيطًا للعلامة (يُطلق عليه اختبار هامشي ، يتجاهل الارتشاح والتفاعلات الأخرى) لبضع مئات الآلاف من النيوكلوتايد على جهاز كمبيوتر أو التطبيق المستند إلى الويب في بضع دقائق.


المقدمة

تُستخدم دراسات الارتباط على مستوى الجينوم (GWAS) بشكل شائع لتحديد تعدد أشكال النوكليوتيدات المفردة الشائعة (SNPs) التي تؤثر على السمات البشرية. تم إجراء GWAS بتواتر متزايد باستخدام تصميمات دراسة الحالات والشواهد والمستقبلية والمستعرضة المستندة إلى السكان [1-6]. في الآونة الأخيرة ، يتم إجراء GWAS في مجموعات تعتمد على العيادات [7-10]. نتيجة لذلك ، قد ينقل GWAS قريبًا مجال علم الجينوم إلى الممارسة السريرية.

سواء كان الهدف هو تحديد المتنبئين بالنتائج أو اكتشاف بيولوجيا جديدة تقوم عليها إحدى سمات الاهتمام ، فإن قدرة GWAS على تحديد الارتباطات الجينية الحقيقية تعتمد على الجودة الشاملة للبيانات. حتى الاختبارات الإحصائية البسيطة للارتباط تتعرض للخطر في سياق بيانات SNP على مستوى الجينوم والتي لم يتم تنظيفها بشكل صحيح ، مما قد يؤدي إلى نتائج سلبية خاطئة وارتباطات إيجابية كاذبة. بالإضافة إلى ذلك ، من المحتمل أن تؤثر المشكلات المتعلقة بجودة البيانات الإجمالية على التحليلات والدراسات النهائية التي تتجاوز GWAS الأولي. على سبيل المثال ، يحتفظ المعهد الوطني لبحوث الجينوم البشري (NHGRI) بنشاط بفهرس على الإنترنت لنتائج GWAS والمنشورات المرتبطة به [6] ، مما يحفز الدراسات النهائية للتكرار والتوصيف في المجموعات السكانية المستقلة. قد تؤدي جودة البيانات المخترقة في مرحلة الاكتشاف إلى نتائج إيجابية خاطئة يتم ترحيلها إلى دراسات النسخ المتماثل بتكلفة كبيرة من حيث الوقت والنفقات. أيضًا ، تفرض المعاهد الوطنية للصحة (NIH) الآن إتاحة نسخ آمنة ومشفرة من بيانات GWAS الأولية التي تمولها NIH للجمهور (مع الوصول الخاضع للرقابة) للتحليلات الثانوية. يتم الاحتفاظ بمجموعات البيانات التي يمكن الوصول إليها من قبل المركز الوطني لمعلومات التكنولوجيا الحيوية (NCBI) في قاعدة بيانات الأنماط الجينية والأنماط الظاهرية (dbGaP). يوفر dbGaP كلاً من الوصول المفتوح والخاضع للرقابة ، مما يسمح بالإصدار الواسع للمعلومات غير الحساسة ، والوصول المقيد إلى مجموعات البيانات التي تتضمن البيانات الجينية ومعلومات النمط الظاهري ، على التوالي [11]. يشيع استخدام الوصول إلى البيانات من خلال dbGaP للنسخ والتحليل التلوي ، وكلاهما سيتعرض للخطر بسبب البيانات الرديئة الجودة.

تستمر تقنية التنميط الجيني وخوارزميات استدعاء الأليل في التحسين وتستمر استراتيجيات تحسين الجودة في ضمان استخدام العلامات والعينات الموثوقة والمدققة بدقة فقط للتحليل. يمكن أن يؤدي التوفيق بين البيانات الجينية والبيانات السريرية والبيانات المبلغ عنها ذاتيًا (مثل الجنس أو العلاقات الأسرية) إلى تحديد عينة من مشاكل الهوية الناتجة عن حوادث التعامل مع العينة. يمكن أن تؤدي التأثيرات المجمعة ، والتقسيم الطبقي للسكان ، والارتباط بالعينة إلى إرباك تحليلات الارتباط الجيني ويمكن أن تؤدي إلى أخطاء مفرطة من النوع الأول والنوع الثاني. نناقش هنا الطرق التي يمكن استخدامها للكشف عن مختلف مشكلات جودة البيانات وحسابها لضمان سلامة GWAS الأساسي وكذلك تطبيقاتها النهائية.

شبكة eMERGE (السجلات الطبية الإلكترونية وعلم الجينات) عبارة عن اتحاد مدعوم من NHGRI يتكون من خمس مؤسسات مكلفة باستكشاف فائدة مستودعات الحمض النووي المقترنة بأنظمة السجلات الطبية الإلكترونية (EMR) لتعزيز الاكتشاف في علم الجينوم [12]. تم إجراء التنميط الجيني على مستوى الجينوم

17000 عينة عبر شبكة eMERGE في معهد Broad وفي مركز أبحاث الأمراض الوراثية (CIDR) باستخدام Illumina 660W-Quad أو 1M-Duo Beadchips. يقوم كل موقع دراسة بإجراء GWAS ، بالإضافة إلى عدد من التحليلات عبر الشبكات. تلتزم هذه الدراسات بسياسات مشاركة البيانات NIH & # x02019s ، وستكون جميع البيانات التي تم إنشاؤها في هذه الدراسة متاحة على dbGaP [11]. نظرًا للتعقيد الذي ينطوي عليه موقع GWAS الفردي ، بالإضافة إلى الجمع بين البيانات والنتائج عبر مواقع الدراسة ، أصبح من الواضح أن خط أنابيب مراقبة الجودة الموحد كان ضروريًا.

ناقش آخرون إجراءات مراقبة الجودة لبيانات النمط الجيني [13-16]. الهدف من هذه المخطوطة هو برنامج تعليمي لإرشاد المحققين حول إجراءات مراقبة الجودة التي يجب إجراؤها قبل تحليل بيانات GWAS. تم تطوير الإجراءات التي تمت مناقشتها هنا من قبل مجموعة الجينوميات لشبكة eMERGE ، حيث يتم الحصول على التنميط الظاهري ومعلومات العينة الأخرى من خلال التعدين المتطور لـ EMR. يمكن تطبيق هذا البروتوكول على العديد من دراسات GWAS ، بغض النظر عن استراتيجية النمط الظاهري. نظرًا لأن معظم بيانات التنميط الجيني المتاحة لـ GWAS تعتمد حاليًا على SNP ، فسنقتصر مناقشتنا على علامات biallelic هذه ، ولن تتم مناقشة إجراءات مراقبة الجودة لتحليل CNV هنا. يوضح الشكل 1 نظرة عامة على مخطط انسيابي لعملية مراقبة الجودة بأكملها ، حيث تتم مناقشة كل خطوة بالتفصيل في الأقسام التالية.

نظرة عامة على مخطط انسيابي لعملية مراقبة الجودة في GWAS بأكملها. تمت مناقشة كل موضوع بالتفصيل في القسم المقابل في النص. تمثل المربعات الخطوات ، وتمثل الأشكال البيضاوية بيانات الإدخال أو الإخراج ، وتمثل شبه المنحرف تصفية البيانات.


مناقشة

لقد قمنا بدمج تنوع الجينوم والإيبيجينوم والنسخة وإنشاء خرائط لفهم التحكم الجيني للتعبير الجيني للجزيرة بشكل أفضل. ساعدت مقارنة هذه الخرائط مع T2D GWAS SNPs في تحديد آليات المرض المحتملة. على سبيل المثال ، تم التورط في أليل المخاطرة الخاص بـ SNP rs1535500 في زيادة نشاط KCNK16 وتوطين سطح الخلية في نموذج فأر (13). أليلات الخطر الأخرى في SNPs ذات LD عالي مع rs153550 مرتبطة بزيادة التعبير عن جين قناة البوتاسيوم المجاورة KCNK17، وهو ليس في جينوم الفأر. KCNK16 و KCNK17 هما قناتان من قنوات K + "خلفية" لمجال المسام ، أعضاء في عائلة قناة K + القلوية التي تنشط الأس الهيدروجيني المرتبطة بـ TWIK (23 ، 24). يتم التعبير عن كلا الجينين في جزر ذات نوعية عالية (KCNK16 إيسي = 0.98 KCNK17 iESI = 0.76). KCNK16 قد تورط في تنظيم استثارة الكهربائية وإفراز الأنسولين محفز الجلوكوز (GSIS) (13). من الممكن أن يكون للنمط الفرداني لخطر T2D في هذا الموقع تأثيرات متعددة تعطل بشكل جماعي إشارات جزيرة K + و GSIS من خلال الإفراط في التنشيط في وقت واحد KCNK16 والإفراط في التعبير KCNK17.

وجدنا أن SNPs المرتبطة بـ T2D GWAS مخصبة بشكل كبير في أشكال بصمة RFX TF. لقد وجدنا اضطرابًا ثابتًا في أشكال بصمة RFX للجزيرة بواسطة أليلات مخاطر T2D ، بما في ذلك في KCNK17 المكان. ليزيو ​​وآخرون (25) وجد أن ضربة قاضية من RFX6 يؤدي إلى زيادة التعبير عن KCNK17، وهو ما يتوافق مع أليل خطر T2D الذي يعطل ارتباط TF ويزيد من التعبير الجيني المستهدف. في مواقع T2D GWAS الأخرى ، مثل ملف MPHOSPH9 locus (مؤشر SNP rs1727313) ، يُتوقع أن يكون لكل من اثنين أو ثلاثة من T2D GWAS SNPs في LD مرتفع أليلات مخاطرة تعطل بشكل منسق أشكال بصمة RFX المستقلة (الشكل 3) ب و ج). وصفنا نحن وآخرون (2 ، 26 ، 27) سابقًا وجود تعدد SNPs في المعززات في مواقع GWAS الفردية. تعتمد نتائجنا على هذا المفهوم لتشمل إمكانية حدوث اضطرابات متجمعة متعددة لنماذج TF مماثلة في نفس المكان. بشكل جماعي ، تشير هذه النتائج إلى أن خطر T2D قد ينتشر جزئيًا من خلال التعديل الجيني لربط RFX في الجزر. في الواقع ، قوائم مختصرة لدراستنا فقط مجموعة فرعية من المتغيرات المرتبطة بـ T2D كمرشحين يجب تشريحهم وظيفيًا في الجسم الحي.

من بين RFX TFs ، RFX6 يتم التعبير عنها في جزر ذات خصوصية عالية (iESI = 0.94) (الشكل S11) وتشارك في مواصفات سلف البنكرياس ، وتمايز خلايا الغدد الصماء ، والحفاظ على الهوية الوظيفية لخلايا بيتا ، والتحكم في توازن الجلوكوز (28 - 30). الحذف الخاص بخلايا بيتا لـ RFX6 يؤدي إلى ضعف إفراز الأنسولين (31 ، 32). الأفراد الذين هم متغاير الزيجوت لطفرة تغيير الإطارات في RFX6 زادت مستويات الجلوكوز في ساعتين (33). الأهم من ذلك ، الطفرات الجسدية المتنحية النادرة التي تغير الأحماض الأمينية المتصلة بالحمض النووي في مجال ربط الحمض النووي في RFX6 ينتج عن متلازمة ميتشل رايلي التي تتميز بمرض السكري عند الأطفال حديثي الولادة (29). بالرغم ان RFX6 لم يكن في مكتبة النماذج الخاصة بنا ، فقد وجد تقرير حديث أنه مشابه جدًا لأشكال عائلة RFX الأخرى (25) ، بما يتوافق مع التوقعات الخاصة بمجالات ربط الحمض النووي المحفوظة للغاية (20). يمكن أن تمثل النتائج التي توصلنا إليها علاقة بين تباين الترميز النادر في الجزيرة الرئيسية TF RFX6 (30 ، 31) والاختلافات الشائعة غير المشفرة في عدة مواقع مستهدفة لهذا TF. يعكس تأثير هذه الاختلافات التأثير الفسيولوجي المتوقع ، مع متغيرات الترميز التي تؤدي إلى سكري حديثي الولادة ومتغيرات غير مشفرة تؤدي إلى ظهور T2D لاحقًا. تشير هذه الدراسة إلى استجابات نسخية ضعيفة تعتمد على RFX في القابلية الوراثية لـ T2D وترشح فرضيات آلية حول التسبب الوراثي الجزيئي لهذا المرض المعقد. يمكن أن تساعد متابعة المواقع المبلغ عنها للتحقق من صحة هذه الفرضية وظيفيًا في فهم آليات T2D بشكل أفضل. بالنظر إلى أن معظم النيوكلوتايد SNPs الأخرى لـ GWAS غير مشفرة ، يمكن استخدام هذا النهج لتحديد TF الرئيسي الآخر وعلاقات المواقع المستهدفة المتعددة.

RFX التعبير الجيني (FPKM) عبر الجزر و 16 نسيجًا لخريطة الجسم من Illumina. الخُمس iESI لكل منها RFX الجين المسمى في أعمدة الجزيرة. RFX6 لديها أعلى iESI (0.94) بين الجميع RFX جينات TF.


تعميم درجات المخاطر الجينية من الأوروبيين إلى ذوي الأصول الأسبانية / اللاتينيين

درجات المخاطر الجينية (GRSs) عبارة عن مبالغ مرجحة لتعداد أليل المخاطر لتعدد أشكال النوكليوتيدات المفردة (SNPs) المرتبطة بمرض أو سمة. يعتمد بناء GRSs عادةً على النتائج المنشورة من دراسات الارتباط على نطاق الجينوم (GWASs) ، والتي تم إجراء معظمها في مجموعات كبيرة من الأفراد من أصل أوروبي (EA). في حين أن العديد من روابط السمات الوراثية قد ثبت أنها تعمم من مجموعات EA إلى مجموعات سكانية أخرى ، مثل ذوي الأصول الأسبانية / اللاتينيين ، فإن الاختيار الأمثل لـ SNPs وأوزان GRSs قد يختلف بين المجموعات السكانية بسبب اختلاف ارتباط الارتباط (LD) وأنماط تردد الأليل. ومما يزيد الأمر تعقيدًا حقيقة أن مجموعات مختلفة من أصل إسباني / لاتيني قد يكون لها أنماط اختلاط مختلفة ، لذلك قد لا تكون أنماط تردد LD والأليل هي نفسها بين السكان غير EA. هنا ، نقارن الأساليب المختلفة لبناء GRS ، باستخدام نتائج GWAS من كل من دراسات EA الكبيرة ودراسة أصغر في ذوي الأصول الأسبانية / اللاتينيين ، دراسة صحة المجتمع الإسباني / دراسة اللاتينيين (HCHS / SOL ، ن = 12 ، 803). نحن نعتبر طرقًا متعددة لتحديد SNPs من مناطق الارتباط ولحساب أوزان SNP. ندرس أداء GRSs الناتجة في دراسة مستقلة عن ذوي الأصول الأسبانية / اللاتينيين من مبادرة صحة المرأة (WHI ، ن = 3 ، 582). نحن ندعم تحقيقنا بدراسات المحاكاة للبنى الجينية المحتملة في مكان واحد. لاحظنا أن اختيار المتغيرات بناءً على EA GWASs يؤدي بشكل عام أداءً جيدًا ، طالما يتم حساب أوزان SNP باستخدام Hispanics / Latinos GWASs ، أو باستخدام التحليل التلوي لـ EA و Hispanics / Latinos GWASs. يعتمد النهج الأمثل على البنية الجينية للسمة.


نقاش

تظهر المتغيرات على الكروموسوم 10q24.32-q24.33 ارتباطًا قويًا بالفصام [اتحاد دراسة رابطة الجينوم على نطاق واسع للفصام النفسي ، 2011 Aberg et al. ، 2013 Ripke et al. ، 2013 Schizophrenia Working Group of the Psychiatric Genomics Consortium ، 2014] ، ولكن ، مثل العديد من المناطق المتورطة بواسطة GWAS ، لا يمكن حل جينات القابلية الفعلية بسهولة من خلال البيانات الجينية وحدها. استخدام طريقة حساسة للغاية لتقييم المتغير رابطة الدول المستقلة- التأثيرات على التعبير الجيني [Yan et al.، 2002 Bray et al.، 2003a، 2003b] ، وجدنا أن العديد من الجينات المرشحة الرئيسية في هذا الموضع قد تغيرت رابطة الدول المستقلة- التنظيم في الدماغ البشري النامي والبالغ بالاقتران مع متغيرات خطر الإصابة بالفصام الأكثر دعمًا. لوحظت التأثيرات الأكبر والأكثر اتساقًا على بوركس 7, AS3MT، و NT5C2، وتوفير الدعم الوظيفي لهذه الجينات كجينات قابلية حقيقية لمرض انفصام الشخصية.

تشير بياناتنا إلى نمط معقد من رابطة الدول المستقلة- التنظيم في موضع الكروموسوم 10q24. يقع indel ch10_104957618_I (rs202213518) في 4555 نقطة أساس في المنبع من موقع بدء النسخ المتوقع لـ NT5C2 متغير النص 1 (NM_012229). تشير بيانات ENCODE ChIP-seq إلى أن ch10_104957618_I موجود في منطقة تحمل علامة H3K27ac مرتبطة بعوامل نسخ متعددة ، مما يشير إلى تأثيرات مباشرة لهذا المتغير على NT5C2 النسخ. ومع ذلك ، وجد أيضًا أن التركيب الوراثي في ​​هذا المتغير يؤثر على التعبير الأليلي لـ بوركس 7 و AS3MT، مع أليل الخطر (على عكس ذلك الخاص بـ rs11191419) المرتبط بتعبير أليلي منخفض عن هذه الجينات. وبالمثل ، تغاير الزيجوت لـ rs11191419 ، الموجود ضمن 2 كيلو بايت من موقع بدء النسخ الخاص بـ بوركس 7، وجد أنه مرتبط بخلل في التعبير الأليلي لـ بوركس 7, AS3MT، و NT5C2. قد ينتج هذا عن تأثيرات مُحسِّن بعيد المدى لهذه المتغيرات (أو المتغيرات في اختلال التوازن معها) ، أو التداخل النسخي على التعبير الجيني المجاور ، أو اختلال التوازن مع المتغيرات الوظيفية الأخرى في موضع الكروموسوم 10q24.

يبدو أن أليلات المخاطرة لـ rs11191419 و ch10_104957618_I لها تأثيرات متعارضة على التعبير عن كليهما بوركس 7 و AS3MT، مع أليل الخطر (T-) لـ rs11191419 المرتبط بزيادة التعبير الأليلي وخطر (حذف) أليل ch10_104957618_I المرتبط بانخفاض التعبير الأليلي لهذه الجينات. يتوافق هذا مع أليل الخطر الخاص بـ ch10_104957618_I الذي يمنح القابلية للإصابة بالفصام من خلال التأثيرات على جين مختلف ، مثل NT5C2. ومع ذلك ، يبدو أن أليل الخطر الخاص بـ ch10_104957618_I غير كافٍ للتصدي بشكل كامل للتعبير المتزايد عن AS3MT يرتبط بأليل الخطر لـ rs11191419 ، مع بقاء نسب الأليل في cDNA من ch10_104957618_I متغايرة الزيجوت أعلى بكثير من نسبة الجينوم 1: 1 في معظم الأنسجة التي تم فحصها. في المقابل ، يرتبط كل من أليلات المخاطرة لـ rs11191419 و ch10_104957618_I بتعبير أليلي منخفض عن NT5C2، ويبدو أنها تمثل غالبية رابطة الدول المستقلةلوحظت التأثيرات التنظيمية على هذا الجين في DLPFC للبالغين. من الممكن أن يكون الارتباط القوي بين rs11191419 والفصام يرجع إلى فهرسة تباين المخاطر الوظيفية الذي يؤثر على تنظيم الجينات المتعددة في الموقع.

على الرغم من أن بعض الملاحظات فقط نجت من تصحيح Bonferroni للاختبار المتعدد ، فإننا نحث على توخي الحذر في استخلاص النتائج فيما يتعلق بالأهمية النسبية لكل نتيجة على أساس ص- القيم وحدها ، نظرًا لاختلاف عدد الأشخاص بين التحليلات بسبب الاختلافات في تردد الأليل المعبر عنه بين الجينات المرشحة وتوافر أنسجة المخ من كل منطقة. كما يتضح من الشكل 2 ، لـ بوركس 7, AS3MT، و NT5C2 على الأقل ، لاحظنا وجود اتساق عام في آثار تغاير الزيجوت المتغير الخطر على التعبير الأليلي عبر أنسجة المخ التي تم تحليلها.

لا توجد بيانات سابقة تقيم تأثير النمط الجيني ch10_104957618_I على التعبير الجيني. ومع ذلك ، فإن النتائج التي توصلنا إليها بخصوص rs11191419 تبدو متسقة مع البيانات الحالية التي تم إنشاؤها بواسطة eQTL وأساليب المعلومات الحيوية. تضمنت مجموعة عمل الفصام في دراسة اتحاد علم الجينوم النفسي [2014] تحليلات سعت إلى ربط متغيرات مخاطر GWAS الموثوقة ببيانات eQTL على مستوى الجينوم ، ووجدت أن rs11191419 في حالة اختلال توازن قوي في الارتباط (r 2 = 0.85) مع eQTL SNP (rs7096169 ) التأثير AS3MT التعبير في الدم. باستخدام العديد من مجموعات بيانات الدماغ eQTL ، روسوس وآخرون. [2014] تحديد النيوكلوتايد النيكوتين المؤثرة BORCS7 (C10ORF32), AS3MT, WBP1L، و NT5C2 التعبير الذي هو في حالة اختلال توازن مع rs7085104 ، تم تحديده في GWAS سابق لمرض انفصام الشخصية [Ripke et al. ، 2013] ، والذي وجدنا أنه يعاني من اختلال توازن قوي في الارتباط (r 2 = 0.79) مع rs11191419 في العينات التي تم تنميطها وراثيًا في الدراسة الحالية . قام هؤلاء المؤلفون أيضًا بتقييم ما إذا كانت eQTLs المرتبطة بالفصام موجودة في المتوقع رابطة الدول المستقلة- التعبير عن العناصر التنظيمية (CREs) بوركس 7 و AS3MT تم الإبلاغ عن تأثرها بـ SNPs داخل CRE الفردي ، بينما التعبير عن NT5C2 كان مرتبطًا بـ SNPs في 14 عنصرًا من هذا القبيل [روسوس وآخرون ، 2014]. في الآونة الأخيرة ، أشار تحليل على مستوى الجينوم لمثيلة الحمض النووي QTL في دماغ الجنين البشري إلى أن rs7085104 و SNPs في اختلال التوازن معها هما QTL لتحقيقات المثيلة داخل AS3MT [Hannon et al. ، 2016] ، بما يتفق مع ملاحظتنا لخلل كبير في التعبير الأليلي لـ AS3MT بالاشتراك مع rs11191419 تغاير الزيجوت في دماغ الجنين.

دراستنا هي الأولى التي تستكشف على وجه التحديد تأثيرات متغيرات خطر الإصابة بالفصام الكروموسوم 10q24 على التعبير الجيني في دماغ الجنين البشري. بيانات ميكروأري تشير إلى ذلك AS3MT و NT5C2 يتم التعبير عن كلاهما بمستوى أعلى في دماغ الإنسان قبل الولادة مقارنةً بمستوى الدماغ البالغ [Kang et al.، 2011 Birnbaum et al.، 2015]. نجد أن تغاير الزيجوت لـ rs11191419 مرتبط بشكل خاص باختلال توازن التعبير الأليلي الواضح لـ AS3MT في دماغ الجنين ، بمتوسط ​​زيادة 40٪ في التعبير عن AS3MT الأليل الذي يُحمل بشكل عام على نفس الكروموسوم مثل أليل الخطر. لم نجد أي دليل على ذلك NT5C2 يتأثر التعبير بالنمط الجيني rs11191419 في دماغ الجنين ، لكننا نلاحظ التأثيرات الصغيرة للنمط الجيني ch10_104957618_I على NT5C2 التعبير الأليلي في هذه المرحلة المبكرة من التطور. لذلك تبدو هذه النتائج متسقة مع مكون النمو العصبي المبكر لمرض انفصام الشخصية [Murray and Lewis، 1987 Weinberger، 1987] ، على الرغم من أن استمرار التأثيرات الملحوظة في دماغ البالغين يشير إلى وجود آلية مخاطر مستمرة.

يتمثل أحد قيود دراستنا في أنها ركزت على عدد محدود من الجينات المرشحة الموضعية في موضع الكروموسوم 10q24.32-q24.33. على الرغم من أننا اخترنا المرشحين الأربعة المحاطين بأفضل متغيري مخاطر مدعومين (الشكل 1) ، فإن عدم توازن الارتباط الممتد وإمكانية حدوث تأثيرات بعيدة المدى على تنظيم الجينات [Sanyal et al. ، 2012] تشير إلى العديد من الجينات المعروفة الأخرى في المنطقة (على سبيل المثال ، WBP1L, CYP17A1, في, PCGF6). بالإضافة إلى ذلك ، من خلال استخدامنا لـ SNPs exonic التي عادةً ما تحدد نسخًا بديلة متعددة لجين معين ، قد نقلل من شأن رابطة الدول المستقلة- التأثيرات التنظيمية على النصوص الفردية ، مع فقد التأثيرات على أي نصوص لا تتضمن تلك النيوكلوتايد. يمكن التغلب على بعض هذه القيود عن طريق تسلسل الحمض النووي الريبي ، والذي يمكن استخدامه لقياس التعبير الخاص بالأليل (وكذلك الكلي) للنصوص الفردية على نطاق الجينوم.

لا تزال الوظائف العصبية للجينات المتورطة في هذه الدراسة بحاجة إلى توضيح كامل. بوركس 7 ترميز الوحدة الفرعية المعقدة ذات الصلة بـ BLOC-1 (Diaskedin) ، وهي جزء من المركب المرتبط بـ BLOC-1 الموصوف مؤخرًا ، والذي تورط في الوظيفة الليزوزومية وترحيل الخلايا [Pu et al. ، 2015]. AS3MT يشفر الزرنيخ ميثيل ترانسفيراز ، والذي له دور معروف في استقلاب الزرنيخ [Sumi and Himeno، 2012] ، على الرغم من أن وظائفه في الدماغ غير واضحة حاليًا. NT5C2 يشفر البيورين الخلوي 5′-nucleotidase (عصاري خلوي 5′-nucleotidase II ، أو cN-II) يشارك في استقلاب البيورين الخلوي [Itoh ، 2013]. تم اقتراح فرضية البيورينرجيك لمرض انفصام الشخصية لشرح الجوانب العصبية والنمائية العصبية للاضطراب [لارا وسوزا ، 2000].

باختصار ، لقد قدمنا ​​تقييمًا لـ رابطة الدول المستقلة- التأثيرات التنظيمية المرتبطة بمتغيرات خطر الإصابة بالفصام في منطقة بها اختلال توازن واسع في الارتباط على الكروموسوم 10q24. أبلغنا عن تغيير رابطة الدول المستقلة-تنظيم بوركس 7, AS3MT، و NT5C2 بالاقتران مع تباين خطر الإصابة بالفصام ، مما يشير إلى تورط هذه الجينات باعتبارها جينات قابلية حقيقية للفصام في الموضع. هناك ما يبرر المزيد من توصيف هذه الجينات في الدماغ النامي والبالغ من أجل فهم كيف يمكن أن تؤدي الاضطرابات في تعبيرهم إلى خطر الإصابة بالفصام.


نتائج

نتائج المحاكاة

في ظل النموذج الفارغ لعدم وجود تأثيرات وراثية ، لاحظنا تطابقًا وثيقًا للغاية بين نسب الأرجحية المقدرة بواسطة الانحدار اللوجستي وتلك من LMM (المعدل) لكليهما و (الشكل S2 في الملف S1 والجدول 1). نظرًا لعدم محاكاة التأثيرات الجينية ، اخترنا عينة عشوائية من مجموعة من 10000 نتيجة من 50000000 نتيجة محتملة تم إنشاؤها من 50 محاكاة للعرض. قلل هذا من عبء النتائج ، مع فرضية أن هذه العينة العشوائية تمثل توزيع النتائج المتولدة تحت النموذج الصفري جيدًا. من هذه العينة الفرعية المؤلفة من 10000 تأثير تقديري ، لاحظنا نسب الأرجحية من النموذج الفارغ بين 0.5 و 2.0 من الانحدار اللوجستي (الشكل S2 في الملف S1). أكثر من 50 مكررًا ، كان متوسط ​​النسبة المقدرة للتباين الظاهري الذي أوضحه الكمبيوتر الشخصي الأول ∼0.11 (SE = 0.038) على مقياس المسؤولية.

بالنسبة للبيانات التي تمت محاكاتها في إطار النموذج اللوجستي ، وأداؤها جيدًا على قدم المساواة حتى OR من 10 (الشكل 1A والجدول 1). نُسبت التأثيرات الكبيرة في المتوسط ​​إلى المتغيرات ذات التردد المنخفض للأليل الصغير (الجدول S1 في الملف S1). تحول Pirinen وآخرون. (2013) كان أداؤها أقل جودة مع الانحرافات المنهجية عن OR الحقيقي التي تحدث بعد OR من ثلاثة (الشكل 1A والشكل S3 في الملف S1). عبر صناديق OR ، كان لديها MSE أصغر من تحول Pirinen وآخرون. (2013) (الشكل S3 في الملف S1). لم يؤدي استخدام مرجع خارجي لتردد الأليل إلى تغيير النتائج بشكل كبير ، وبدون تغيير في المنحدر المقدر وتعديله عند مقارنة نسب الأرجحية المحولة مع نسب الأرجحية الحقيقية (الشكل S4 في الملف S1 والجدول 1). شوهد انحراف صغير مماثل في الأداء عندما تم استخدام SE لحساب التحويلات التقريبية (الشكل S4 في الملف S1 والجدول 1). للانحرافات عن الحقيقة ك من & gt تحيزًا تصاعديًا ، بينما إذا ص عن قيمته الحقيقية ، لم يلاحظ أي تحيز (الشكلان S6A و S7A في الملف S1).

أداء الانحدار اللوجستي وتحولات OR من النموذج الخطي عبر سيناريوهات المحاكاة. مقارنة نسب الأرجحية المقدرة من الانحدار اللوجستي (الأخضر) ، نسب الأرجحية المحولة من LMM باستخدام (الأحمر) ، و ORs المحولة من LMM باستخدام المعادلة من Pirinen وآخرون. (2013) (باللون الأزرق) ، مع محاكاة ORs حقيقية عبر سيناريوهات محاكاة نموذج عتبة المسؤولية اللوجستية. (أ) نتائج محاكاة النموذج اللوجستي. (ب) النتائج من سيناريو المحاكاة مع و (). (ج) نتائج سيناريو المحاكاة مع و (). (د) نتائج سيناريو المحاكاة مع و (). (هـ) نتائج سيناريو المحاكاة مع و (). (F) النتائج من سيناريو محاكاة المتغير النادر مع و (). تم الإبلاغ عن جميع نسب الأرجحية للأليل الذي يزيد من احتمالات الإصابة بالمرض بحيث تكون كل نقطة أكبر من (1،1). تعرض اللوحات مقارنات من 5000 تأثير حقيقي تم محاكاته تم إنشاؤه من 50 مكررًا. تشتمل جميع اللوحات على خط الانحدار الخطي المجهز لكل مجموعة من مجموعات النقاط والخط (الأسود) كمرجع. يتم عرض الإحصائيات الأساسية من انحدار ORs المحولة من أعلى كل لوحة.

بموجب نموذج حد المسؤولية ، كانت المنحدرات والقيم المعدلة قريبة من الوحدة عبر سيناريوهات المحاكاة (الشكل 1 والجدول 1). تمت ملاحظة التقليل المنهجي من قيمة OR الحقيقية بعد OR 2.5 مرة أخرى عند تحول Pirinen وآخرون. (2013) (الشكل 1 والشكل S3 في الملف S1). بالنسبة لسيناريوهات المحاكاة من 1 إلى 5 ، تُعزى التأثيرات الكبيرة في المتوسط ​​إلى متغيرات ذات تردد أليل طفيف منخفض مع وجود MSE أصغر لوحظ بالنسبة إلى Pirinen وآخرون. (2013) مع زيادة OR (الشكل S3 والجدول S1 في الملف S1). كان هناك انخفاض طفيف في الأداء حيث انخفض معدل انتشار العينة مع أداء أفضل بشكل هامشي مقارنة بالمنحدرات وتم تعديله عبر السيناريوهات ، حتى نسبة الأرجحية 10 (الشكل 1 والجدول 1). لقد رأينا أيضًا زيادة في التباين حول الخط المناسب للحصول على تأثيرات أكبر ومع انخفاض معدل الانتشار (الشكل 1). عندما تم استخدام ترددات الأليل من 1000 جينوم لحساب نسب الأرجحية المحولة ، لوحظت انحرافات هامشية عن المنحدر والإحصاءات بالنسبة لتلك التي تستخدم تردد أليل العينة (الشكل S4 في الملف S1 والجدول 1). لوحظ انخفاض طفيف مماثل في الأداء عند استخدام SE إلى جانب معامل الانحدار لتقدير نسب الأرجحية المحولة (الشكل S5 في الملف S1 والجدول 1). للانحرافات عن الحقيقة ك أظهر of & gt تحيزًا كبيرًا مع زيادة في حجم التحيز مع انخفاض انتشار العينة الحقيقي (الشكل S6 في الملف S1). لو ص انحرفت عن قيمتها الحقيقية ، ولم يلاحظ أي تحيز لتلك السيناريوهات التي مع زيادة في حجم ص التحيز المعتمد على متى ك تميل إلى القيم الأصغر (الشكل S7 في الملف S1).

بالنسبة لسيناريوهات محاكاة متغير التأثير الكبير في إطار نموذج حد المسؤولية ، لاحظنا تحيزًا متزايدًا في تقدير OR لكل من التأثير المحول من النموذج الخطي والانحدار اللوجستي حيث تم زيادة حجم تأثير المتغير (الشكل S8 ، A و B في ملف S1). تزامن هذا مع انحراف كبير في افتراض HWE عبر الحالات والضوابط وداخل الحالات حيث أصبحت نسبة التباين الظاهري الموضح بواسطة المتغير الفردي للتأثير الكبير أكبر (الشكل S8C في الملف S1). كان الانحراف بين قيمة OR المقدرة من الانحدار اللوجستي وتلك من عند الحد الأقصى عندما كان اختلال توازن هاردي واينبرغ داخل الحالات أكبر من ذلك عبر الحالات والضوابط ، وهو افتراض في اشتقاق (الشكل S8D في الملف S1). كان الحد الأقصى لمتوسط ​​الانحرافات المرصودة بين OR المقدّر و OR الحقيقي 30٪ لـ OR المحول و 25٪ لتقديرات الانحدار اللوجستي عندما تجاوز OR الحقيقي 7.5 (الشكل S8D في الملف S1). كانت الانحرافات عن OR الحقيقي لتقديرات OR المحولة تباينًا أكبر من تلك الناتجة عن الانحدار اللوجستي مع الانحرافات القصوى لـ & gt100٪ ، عندما تجاوز OR الحقيقي خمسة ، بينما كانت القيمة القصوى للانحدار اللوجستي 45٪ (الشكل S8D في الملف S1 ). عندما كان اختلال توازن هاردي واينبرغ أكبر عبر الحالات والضوابط بالنسبة للحالات فقط ، كانت تقديرات OR من الانحدار اللوجستي مشابهة جدًا لتلك من تقدير الانحدار الخطي المحول. عندما تم تضمين تأثير متغير كبير في المحاكاة ، لاحظنا زيادة أخرى في التحيز التصاعدي لتقديرات OR من الانحدار اللوجستي (الشكل S9 و A و B في الملف S1). علاوة على ذلك ، عندما تم تضمين تأثير متغير كبير ، قلل تحويل النموذج الخطي من التأثير (الشكل S9 و A و D في الملف S1). أظهرت نتائج التحليل التلوي تحسنًا في التحيز في تقديرات OR من الانحدار اللوجستي وتحويل النموذج الخطي (الشكل S9E في الملف S1).

نتائج مرض السكري من النوع 2

أظهرت نتائج الارتباط من تحليل داء السكري من النوع 2 اجتياز 12 موضعًا لأهمية الجينوم على نطاق واسع (بعد التكتل مع عتبة عدم توازن الارتباط) لكل من نتائج LMM ونتائج الانحدار اللوجستي. من بين مجموعة SNPs التي تمر على أهمية الجينوم ، كان متوسط ​​OR لأليل الخطر 1.14 مع قيمة قصوى 1.30 (ص-القيمة = 1.53) من نتائج الانحدار اللوجستي. Across the full set of association results (1,162,900 SNPs), and performed well, with all regression slopes and adjusted values very close or equal to one (Figure 2A). The results from Pirinen وآخرون. (2013) gave identical slopes and values for the type 2 diabetes results (Figure 2B). The use of a reference for the allele frequencies, or the use of the SE versions of the transformations, did not alter these results (Table 1).

Performance of OR transformations for type 2 diabetes phenotype in the UK Biobank. Comparison of transformed ORs from and estimated ORs from logistic regression for type 2 diabetes in the UK Biobank. (A) Comparisons from 1,162,900 SNPs generated from logistic regression performed using the PLINK 1.9 software and a LMM implemented in the BOLT-LMM software and transformed using (B) Comparisons for the same set of results as A but with the transformation of Pirinen وآخرون. (2013) used. Panels include the fitted regression line and line (black) for reference with the key statistics of this regression displayed at the top of each panel.


الانتماءات

Center for Systems and Synthetic Biology, Institute for Cellular and Molecular Biology, Section of Molecular Genetics and Microbiology, University of Texas at Austin, Austin, TX, 78712, USA

Yunyun Ni, Amelia Weber Hall, Anna Battenhouse & Vishwanath R Iyer

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

المؤلف المراسل


أساليب

Populations

San Francisco Bay Area breast cancer study (SFBCS): the SFBCS is a population-based multiethnic case–control study of breast cancer. Patients (cases) aged 35–79 years diagnosed with invasive breast cancer from 1995 to 2002 were identified through the Greater Bay Area Cancer Registry. Controls were identified by random-digit dialing and matched on 5-year age groups. Blood collection was initiated in 1999. For this study, we focused only on patients and matched controls who self-identified as Latina or Hispanic and included 351 cases and 579 controls. Samples from this study were used as part of the initial discovery set.

Breast Cancer Family Registry (BCFR): the BCFR is an international, National Cancer Institute (NCI)-funded family study that has recruited and followed over 13,000 breast cancer families and individuals with breast cancer with strong likelihood of genetic contribution to disease. The present study includes samples from the population-based Northern California site of the BCFR. Cases in patients aged 18–64 years diagnosed from 1995 to 2007 were ascertained through the Greater Bay Area Cancer Registry. Cases in patients with indicators of increased genetic susceptibility (diagnosis at the age of < 35 years, bilateral breast cancer with the first diagnosis at the age of < 50 years, a personal history of ovarian or childhood cancer, and a family history of breast or ovarian cancer in first-degree relatives) were oversampled. Cases not meeting these criteria were randomly sampled.

Population controls were identified through random-digit dialing and frequency-matched on 5-year age groups to cases diagnosed from 1995 to 1998. We included 641 cases and 61 controls who self-identified as Latina or Hispanic from this study. Samples from this study were used as part of the initial discovery set.

Since the SFBCS and BCFR were recruited from the same region and during an overlapping time frame, we combined these datasets to search for relatives. After removing relatives (preferentially keeping cases) and samples that overlapped with the Kaiser Research Project on Genes, Environment and Health, we included 942 cases and 589 controls from these studies.

Multiethnic cohort (MEC): the MEC is a large prospective cohort study in California (mainly Los Angeles County) and Hawaii. The breast cancer study is a nested case–control study including women with invasive breast cancer diagnosed at the age of > 45 years and controls matched on age (within 5 years) and self-identified ethnicity. After removing relatives (preferentially keeping cases), we used phenotypic and genetic data from 520 Latina breast cancer cases and 1544 matched Latina controls. Samples from this study were used as part of the initial discovery set.

Research project on genes environment and health (RPGEH): the RPGEH is a large cohort study of over 100,000 men and women of all racial/ethnic groups who are members of the Kaiser Permanente Health Plan. This analysis focuses only on women who are of self-reported Latina/Hispanic ethnicity (ن = 3801). We included both incident and prevalent cases (total ن = 225) in our analyses. We identified 44 women who were also included in the SFBCS. The genetic data from these participants were included as part of the RPGEH since we considered the Affymetrix Lat array as a more comprehensive array than the Affymetrix 6.0 array. After removing relatives, we included a total of 225 cases and 3574 controls. Samples from this study were used as part of the initial discovery set.

Cancer de mama (CAMA) study: this study is a population-based case–control study of breast cancer conducted in Mexico City, Monterrey, and Veracruz. Patients (cases) aged 35–69 years diagnosed between 2005 and 2007 were recruited from 11 hospitals (3–5 in each region). Controls were recruited based on membership in the same health plan as the cases and are frequency-matched on 5-year age groups. For the current study, we used phenotypic data and DNA samples from 1008 women with breast cancer and 1063 controls. Of these, 698 cases and 599 controls were genotyped with the Illumina Oncoarray and included in the discovery. An additional 310 cases and 464 controls were included as part of the replication dataset.

Colombian Study of Environmental and Heritable Causes of Breast Cancer (COLUMBUS): COLUMBUS is a population-based case–control study of breast cancer conducted in four cities: Bogota, Ibague and Neiva from the Central Colombian Andes region, and Pasto, from the Colombian South. Patients aged 18–75 years, with incident cases of invasive breast cancer, have been recruited in two population registries and two large cancer hospitals. Recruitment started in 2011. Cancer-free controls were recruited through the same institutions and were matched on education, socioeconomic status and local origin using a genealogical interview. In the current study, we used data from 954 cases and 769 controls for the replication study.

Hereditary Cancer Registry of City of Hope (HCRCOH) (Southern California PI Jeffrey Weitzel): Latina breast cancer cases are part of the HCRCOH through the Clinical Cancer Genetics Community Research Network (CCGCRN). The CCGCRN includes cancer center and community-based clinics that provide genetic counseling to individuals with a personal or family history of cancer [38]. All patients are invited to participate in the HCRCOH at the time of consultation (> 90% participation). Starting in May 1998 and continuing to the present, women of self-reported Latina origin with breast cancer were seen for genetic counseling, were enrolled in the Registry and underwent BRCA1/2 testing after providing informed consent. In the current study we genotyped 1148 cases. The 347 unaffected female Latina controls were from Southern California and were invited to participate at community health fairs, via flyers, and at City of Hope. These samples were used as part of the replication study.

African American breast cancer GWAS (AABC): the GWAS includes African American participants from nine epidemiological studies of breast cancer, comprising a total of 3153 cases and 2831 controls (cases/controls: the MEC, 734/1003 the Los Angeles component of the Women’s contraceptive and reproductive experiences (CARE) study, 380/224 the Women’s circle of health study (WCHS), 272/240 the SFBCS, 172/231 the Northern California Breast Cancer Family Registry (NC-BCFR), 440/53the Carolina breast cancer study (CBCS), 656/608 The Prostate, Lung, Colorectal, and Ovarian Cancer Screening Trial (PLCO) Cohort, 64/133 the Nashville breast health study (NBHS), 310/186 and the Wake Forest University breast cancer study (WFBC), 125/153). Additional details have previously been reported [21, 39]. These samples were used as part of the replication study.

The ROOT consortium included six studies and a total of 1657 cases and 2029 controls of African ancestry: the Nigerian Breast Cancer Study (NBCS), 711/624 the Barbados national cancer study (BNCS), 92/229 the Racial variability in genotypic determinants of breast cancer risk study (RVGBC), 145/257 the Baltimore Breast cancer study (BBCS), 95/102 the Chicago cancer prone study (CCPS), 394/387 and the Southern community cohort (SCCS), 220/430. Additional details can be found elsewhere [21]. These samples were used as part of the replication study.

Shanghai breast cancer genetics study: study participants were drawn from four population-based studies conducted in Shanghai, the Shanghai Breast Cancer Study (SBCS), Shanghai Women’s Health Study (SWHS), Shanghai Breast Cancer Survival Study (SBCSS), and the Shanghai Endometrial Cancer Study (SECS (which contributed control data only). The SBCS is a population-based, case-control study conducted in urban Shanghai. Subject recruitment in the initial phase of the SBCS (SBCS-I) was conducted between August 1996 and March 1998. The second phase (SBCS-II) of recruitment occurred between April 2002 and February 2005. Breast cancer cases were identified through the population-based Shanghai Cancer Registry and supplemented by a rapid case-ascertainment system. Controls were randomly selected using the Shanghai Resident Registry. The SBCSS included newly diagnosed breast cancer cases ascertained via the Shanghai Cancer Registry between April 2002 and December 2006. The SECS is a population-based, case–control study of endometrial cancer conducted between January 1997 and December 2003 using a protocol similar to the SBCS only community controls from the SECS were included in the present study. The SWHS is a population-based prospective cohort study of women recruited between 1996 and 2000. The cohort has been followed by a combination of record linkage and active follow up to identify cause-specific mortality and cancer incidence by sites. All these studies are conducted among Chinese women in Shanghai, using very similar protocols in data and sample collection. There were 2731 cases and 2135 controls genotyped with an Affymetrix 6.0 array and 1794 cases and 2059 controls genotyped with an Illumina MEGA array. These subsets were analyzed separately and included in a meta-analysis as part of the replication study.

European ancestry GWAS data: we also evaluated the top SNPs using summary statistics from a recent large GWAS of European-ancestry breast cancer cases and controls [40]. We downloaded the summary statistics the Breast Cancer Association Consortium (BCAC) website (http://bcac.ccge.medschl.cam.ac.uk/bcacdata/oncoarray/) and used the summary statistics from the combined analysis of individuals of European ancestry from the Oncoarray and iCOGS consortia.

التنميط الجيني

The SFBCS and NC-BCFR samples were all genotyped with an Affymetrix 6.0 arrays at the University of California, San Francisco (UCSF). The MEC samples were genotyped with an Illumina 660 array at USC (520 Latina women with breast cancer and 546 matched Latina controls) and an additional 998 controls were typed on an Illumina 2.5 M array at the Broad Institute (Cambridge, MA, USA). The RPGEH samples were typed on an Affymetrix LAT array at UCSF. The CAMA samples were typed on an Ilumina Oncoarray at the Quebec Genome Center. The COLUMBUS samples were typed on an Affymetrix Biobank Array. Genotyping in the AABC consortium was conducted using the IlluminaHuman1M-Duo BeadChip. Genotyping in the ROOT consortium was conducted using the Illumina HumanOmni2.5-8v1 array at Johns Hopkins University Center for Inherited Disease Research. A subset of the Shanghai Breast Cancer Genetics Study (SBCGS) samples were typed on an Affymetrix 6.0 array. After quality control exclusions, the final data set included 2731 cases and 2135 controls. A second subset of the SBCGS were genotyped on an Illumina MEGA array. After quality control exclusions, the final data set included 1794 cases and 2059 controls. Data for four SNPs identified in the discovery stage were extracted from the SBCGS datasets and were included in the replication stage.

Replication genotyping

The CAMA samples and the CCGCRN samples, were genotyped using Taqman probes for rs3778609. The CAMA samples that were not included in the GWAS were genotyped at 106 ancestry informative markers from genotyped on a Sequenome platform as previously described [41]. CCGCRN samples included 100 ancestry informative markers that were included as part of a sequencing project. The sequence data were aligned to Human Genome Build 37 using Burrows-Wheeler alignment and genotype calls were made using Haplotypecaller, which is part of the GATK platform [42].

التحليلات

Genotyping quality control and imputation

Samples with > 5% missing genotypes were removed from each dataset. We dropped variants with > 5% missing data from each dataset. Since excess homozygosity is more common in populations with substructure, particularly with ancestry informative markers, we did not use deviation from Hardy-Weinberg equilibrium as a criterion for excluding markers. All datasets were entered mapped to Hg19. Each dataset was then phased using SHAPEIT and imputed using the Haplotype Reference Consortium (HRC) with Minimac3 [43]. For the MEC datasets that included both 660 K and 2.5 M arrays, we used the overlapping SNPs (ن = 192,795) and imputed from those since we found that if imputing them separately and then analyzing them together produced a large number of false positives. Each of the remaining GWAS datasets were submitted to the HRC server individually for imputation. Only variants with imputation quality scores of ص 2 > 0.5 were selected for additional analysis. In a separate analysis, we imputed each of the datasets to the 1000 Genomes Reference Version 3 (October 2015 release) [44] with Minimac3.

Genotype imputation for the ROOT consortium was conducted using the IMPUTE2 software [45] with the 1000 Genomes Project phase I cosmopolitan variant set as the reference panel (October 2011 release) [43]. Genotype imputation in AABC was conducted using IMPUTE2 software [45] to a cosmopolitan panel of all 1000 Genome Project subjects (March 2012 release). Variants with imputation score > 0.3 were included in the analysis.

The Shanghai Breast Cancer Study GWAS data were phased with Minimac2 and imputed with SHAPEIT using 1000 Genomes Project phase 3. Only SNPs with a minor allele frequency (MAF) ≥ 0.01 and high imputation quality (RSQR ≥ 0.5) were included in the analyses.

We used KING [46] to identify relative pairs either within the RPGEH cohort or between the RPGEH and SFBCS and/or NC-BCFR and performed the same analysis within the MEC and the CAMA study. We identified pairs of individuals with kinship coefficient > 0.2 and dropped one from each of these pairs. If a relative pair included a case and control then we excluded the control. If a relative pair included two cases or two controls we randomly dropped one of them. We dropped 127 individuals to eliminate all closely related individuals from the combined RPGEH, SFBCS, and NC-BCFR.

Empirical assessment of imputation accuracy

We genotyped rs3778609, the top novel SNP, in the CAMA study in samples that also had GWAS data and checked the concordance between genotyped and imputed results.

Genetic ancestry inference

We implemented principal component (PC) analysis to assess genetic ancestry in each of the discovery datasets in unrelated individuals. To do so, we first LD-pruned typed SNPs with ص 2 > 0.2 in PLINK. With the remaining data, we determined the PCs using EIGENSTRAT [47] within smartpca. For the replication datasets, we used ancestry informative markers and used the program ADMIXTURE [48] to calculate genetic ancestry, assuming a three-population model with ancestry from African, European, and Native American populations. We also inferred genetic ancestry as derived from the program ADMIXTURE in the discovery GWAS dataset to perform sensitivity analyses.

Association testing

We performed single-variant association testing using logistic regression models and adjusting for PCs 1–10 in PLINK [49]. For the replication datasets we entered ancestry into the model as covariates. For discovery, we performed GWAS by study and then performed a fixed effects meta-analysis using METAL [50]. We also performed association testing separately for estrogen receptor (ER)-positive and ER-negative breast cancer using this approach. To calculate LD, we calculated ص 2 in the controls in our dataset using PLINK. We then performed conditional analyses by entering the most significant SNP in the model as a covariate in addition to PCs 1–10. We evaluated genome-wide inflation by estimating λ (λ ≤ 1.0 indicates no inflation). To test for heterogeneity with family history and study site we entered these as multiplicative interaction variables with the SNPs of interest in the logistic regression models and tested the significance of the interaction variables. To test for heterogeneity by age, we dichotomized at age 50 years and also tested for a multiplicative interaction with the SNPs. In addition, we re-tested the associations for the top SNPs adjusting for genetic ancestry from ADMIXTURE using logistic regression models. Heterogeneity analyses and the analysis of the top SNPs using ancestry estimates from ADMIXTURE were performed using Stata (Version 14).

قوة

Based on the sample size for discovery (2385 cases and 6416 controls) we had

80% power to detect an odds ratio of 1.25, 1.365, and 1.49 with allele frequencies of 0.4, 0.2, and 0.1 respectively.

Ranking SNPs by evidence for function

For each of the top index SNPs (rs140068132, rs851985, and rs3776809) we identified all of the other SNPs that they are in LD with (ص 2 > 0.5) and that have a ص value that is at within 2 log (base 10) level of significance compared to the top SNP. We then entered each index SNP with the other SNPs from that cluster into regulomeDB [51], which uses Encode data to annotate SNPs and report on their likelihood of affecting gene expression. The level of evidence could include the SNP being in a DNAse hypersensitivity region and/or a region associated with transcription factor (TF) binding. Further weight is given if the SNP alters a TF binding motif.


معلومات الكاتب

الانتماءات

Department of Epidemiology, School of Public Health, Johns Hopkins University, 615N Wolfe St., Baltimore, MD, 21205, USA

T. H. Beaty, M. M. Parker, J. B. Hetmanski & P. Balakrishnan

Department of Biostatistics, School of Public Health, Johns Hopkins University, 615N Wolfe St., Baltimore, MD, 21205, USA

Institute of Genetic Medicine, School of Medicine, Johns Hopkins University, 600N. Wolfe St., Baltimore, MD, 21205, USA

Department of Pediatrics, School of Medicine, University of Iowa, Iowa City, IA, 52242, USA

Department of Oral Biology, Center for Craniofacial and Dental Genetics, School of Dental Medicine, University of Pittsburgh, Suite 500 Bridgeside Point 100 Technology Dr., Pittsburgh, PA, 15219, USA

Institute of Human Genetics, University of Bonn, Sigmund-Freud-Str. 25, 3127, Bonn, Germany

E. Mangold, K. U. Ludwig & M. M. Noethen

Department of Genomics, Life and Brain Center, University of Bonn, Sigmund-Freud-Str. 25, 3127, Bonn, Germany

Mathematical Institute, Heinrich-Heine-University Duesseldorf, 40225, Duesseldorf, Germany

Medical Genetics Unit, Department of Biomedical and Special Surgery Sciences, University of Ferrara, Via Fossato di Mortara 74, I-44121, Ferrara, Italy

Department of Pediatric Genetics, School of Medicine, Marmara University, Istanbul, 34 890, Turkey