معلومة

المتغير VCF: AD مقابل DP؟


في ملف VCF الخاص بي من GATK ، لدي التعريفات التالية لـميلاديوموانئ دبي.

AD - الأعماق الأليلية للأليلات المرجعية والبدلة بالترتيب المدرج DP - عمق القراءة التقريبي (تتم تصفية القراءات مع MQ = 255 أو مع الأصحاب السيئين

لا أفهم التعاريف ، هل يمكن لأي شخص أن يشرح بطريقة أقل تقنية؟

مما يمكنني قراءته ،ميلادييعطي عدد القراءات التي تمتد عبر أليل المرجع والمتغير. لكن ماذا يفعلموانئ دبييقصد؟ لا يبدو هذا العدد الإجمالي للقراءات التي تغطي متغيرًا ، فما هذا؟ كيف يختلف هذا عنميلادي?


DP هو العدد الإجمالي لقواعد القراءة التي تغطي موضعًا معينًا. إذا قمت بإضافة AD مختلف ، يجب أن تحصل على رقم قريب من DP ، والفرق هو فقط في كيفية تصفية القراءات في أي مجموعة من الأرقام.


التباين داخل المضيف والديناميكيات التطورية لمجموعات SARS-CoV-2 في مرضى COVID-19

منذ أوائل فبراير 2021 ، تسبب العامل المسبب لـ COVID-19 ، SARS-CoV-2 ، في إصابة أكثر من 104 ملايين شخص بأكثر من مليوني حالة وفاة وفقًا للتقارير الرسمية. يتطلب مفتاح فهم البيولوجيا والتفاعلات بين مضيفي فيروس SARS-CoV-2 معرفة طفرة وتطور هذا الفيروس على المستويين بين المضيف وداخله. ومع ذلك ، على الرغم من وجود عدد قليل جدًا من المواقع متعددة الأشكال التي تم تحديدها بين مجموعات SARS-CoV-2 ، فإن أطياف متنوعة داخل المضيف ودينامياتها التطورية تظل غير معروفة في الغالب.

أساليب

باستخدام التسلسل عالي الإنتاجية للمكتبات المترسخة والمختلطة الملتقطة ، قمنا بتمييز جينومات الإجماع وتغيرات النوكليوتيدات الفردية داخل المضيف (iSNVs) للعينات التسلسلية التي تم جمعها من ثمانية مرضى مصابين بـ COVID-19. تم تحليل توزيع iSNVs على طول جينوم SARS-CoV-2 وتم تحديد حالات iSNV المتزامنة بين مرضى COVID-19. قمنا أيضًا بمقارنة الديناميات التطورية لسكان SARS-CoV-2 في الجهاز التنفسي (RT) والجهاز الهضمي (GIT).

نتائج

كشفت الجينومات الـ 32 الإجماعية عن التعايش بين الأنماط الجينية المختلفة داخل نفس المريض. حددنا كذلك 40 متغيرًا من النوكليوتيدات المفردة داخل المضيف (iSNVs). تم تقديم معظم (30/40) iSNVs في مريض واحد ، بينما تم العثور على عشرة iSNV في مريضين على الأقل أو متطابقة مع المتغيرات الإجماع. كشفت مقارنة ترددات الأليل لـ iSNVs عن تمايز جيني واضح بين السكان داخل المضيف من الجهاز التنفسي (RT) والجهاز الهضمي (GIT) ، مدفوعًا في الغالب بأحداث الاختناق أثناء الهجرة داخل المضيف. مقارنةً بمجموعات RT ، أظهر سكان GIT صيانة أفضل وتطورًا سريعًا للتنوع الجيني الفيروسي بعد الاختناقات المشتبه بها داخل المضيف.

الاستنتاجات

توضح النتائج التي توصلنا إليها هنا الاختناقات داخل المضيف والديناميكيات التطورية لـ SARS-CoV-2 في مواقع تشريحية مختلفة وقد توفر رؤى جديدة لفهم تفاعلات مضيف الفيروسات لفيروسات كورونا وفيروسات الحمض النووي الريبي الأخرى.


تصميم تجريبي

هناك العديد من طرق التحضير (مثل Nextera و Kapa) لإنشاء مكتبات التسلسل من استخراج الحمض النووي. هذه الأساليب المختبرية خارج نطاق هذا البرنامج التعليمي. ومع ذلك ، سوف نتناول بعض جوانب تصميم الدراسة عند تصميم التجربة.

1. التسلسل المجمّع مقابل عينات الترميز الفردي

أحد القرارات التي يتعين على الباحثين اتخاذه عند تصميم تجارب إعادة الترتيب هو ما إذا كان ينبغي تجميع الأفراد غير المشفرة معًا في مكتبة تسلسل واحدة (يُطلق عليها اسم تجمع تسلسل) ، أو لترميز كل فرد بشكل فردي ، مما يتيح للباحثين فك تعدد هؤلاء الأفراد لإجراء تحليلات نهائية حتى لو تم تجميعهم للتسلسل نفسه. هناك إيجابيات وسلبيات لكلا النهجين ، ولكن القرار يعتمد بشكل أساسي على التكلفة وهدف البحث. تمت كتابة العديد من الأوراق حول إيجابيات وسلبيات التسلسل المجمع ، و Schl & oumltterer et al. يقدم 2014 مراجعة لطيفة ومقارنة مع الطرق الأخرى. باختصار ، نحدد بعض الإيجابيات والسلبيات أدناه:

التسلسل المجمع: الميزة الرئيسية لهذا النهج هي توفير التكاليف عند إعداد المكتبة. إذا كانت هناك حاجة لأحجام عينات كبيرة لأهداف البحث ، يمكن أن تصبح تكاليف إعداد المكتبة عاملاً مقيدًا بسرعة. من خلال تجميع أعداد كبيرة من الأفراد في مجموعة سكانية واحدة ، سيحتاج الباحثون فقط إلى إعداد مكتبة تسلسل واحدة لكل مجموعة. ومع ذلك ، فإن هذه الطريقة لها قيود على التحليلات النهائية المحتملة والتحيزات التسلسلية المحتملة. يمكن أن ينتج عن هذه الطريقة تقديرات لترددات الأليل من مجموعة سكانية مجمعة ، ولكن القليل من الإحصائيات أبعد من ذلك (مثل معلومات النمط الفرداني ، وعدم توازن الارتباط). يعمل Pool-seq أيضًا بشكل أفضل عندما يتم تجميع أعداد كبيرة من الأفراد (& gt40) معًا ، مع تجمعات بترتيب مئات أو آلاف الأفراد تكون مثالية. واحدة من أكبر عيوب Pool-seq هي أن التمثيل الفردي غير المتكافئ سينتج تحيزات في تقديرات تردد الأليل ، وبدون الباركود من المستحيل معرفة ما إذا كان هذا قد حدث أم لا. هذا أقل احتمالا أن يحدث مع أحجام العينات الأكبر.

تسلسل الباركود فردي: الميزة الرئيسية لهذا النهج هي أن قراءات الترميز الفردي تعني أنه يمكن استدعاء المتغيرات للأفراد ، وبتغطية كافية (انظر أدناه) ، من الممكن الحصول على معلومات النمط الفرداني أو غيرها من الإحصاءات المفيدة. كما ذكر أعلاه ، فإن العيب الرئيسي لهذه الطريقة هو تكلفة إعداد المكتبة. ومع ذلك ، يعد هذا أقل تكلفة بشكل متزايد ، إما بسبب توفر مجموعات جديدة ، أو القدرة على تقسيم كواشف تحضير المكتبة إلى تفاعلات دقيقة متعددة (على سبيل المثال Baym et al. 2015). لذلك ، في البرنامج التعليمي ، نركز على طرق إنشاء VCFs من عينات الباركود الفردية.

2. أحجام العينة

يعتمد تحديد عدد الأفراد الذين تحتاج إلى تسلسلهم على أنواع التحليل التي ترغب في إجرائها في المراحل النهائية. إذا كان الهدف من الدراسة هو وصف التركيبة السكانية والتنوع الجيني ، فستكون هناك حاجة لعدد قليل جدًا من الأفراد لكل مجموعة لأن تسلسل الجينوم الكامل يوفر الكثير من المعلومات لكل فرد (على سبيل المثال ، Nazareno et al. 2017). إذا كان الهدف من الدراسة هو إجراء استدلال ديموغرافي مفصل (على سبيل المثال مع طيف تردد الموقع عبر dadi أو fastsimcoal2) ، فقد تكون أعداد صغيرة من الأفراد كافية لاكتشاف الأحداث القديمة أو اختبار نماذج مختلفة ، ولكن قد يكون من الضروري وجود أعداد أكبر من الأفراد الكشف عن الأحداث الأخيرة أو تقدير المعلمات (مثل Robinson et al. 2014).

يتطلب تحديد تحولات تردد الأليل في مواقع محددة (على سبيل المثال البحث عن القيم المتطرفة F) أو أنواع التحليلات GWAS أحجامًا أكبر من السكان للحصول على قوة كافية لاكتشاف الاختلافات الكبيرة مع تصحيحات FDR لملايين المواقع.

3. عمق التسلسل

من الناحية المثالية ، لاستدعاء المتغيرات بثقة من بيانات إعادة تسلسل الجينوم الكامل ، يجب أن يتم تسلسل الكائنات ثنائية الصبغيات إلى تغطية 30x. ومع ذلك ، بسبب الميزانيات المحدودة وأهداف الدراسة المختلفة ، فمن الممكن في كثير من الأحيان التسلسل إلى تغطية أقل بكثير. بالنسبة للعديد من الأهداف الجينومية للسكان ، بالنظر إلى مقدار معين من التسلسل للعمل مع (على سبيل المثال تغطية 100x للجينوم المستهدف) ، غالبًا ما يكون أكثر فائدة لتسلسل عدد أكبر من الأفراد (100 فرد إلى تغطية 1x) ، لاستنتاج المعلمات الجينية السكانية بشكل أكثر دقة ( Buerkle and Gompert 2012). بسبب الميزانيات المحدودة على الرغم من انخفاض تكاليف التسلسل ، يتوفر عدد متزايد من الأدوات للاستفادة من تغطية منخفضة لتسلسل الجينوم الكامل للاستدلال الجيني للسكان. على سبيل المثال ، تسمح حزم ANGSD و NGSTools لأحد بحساب أطياف تردد الموقع وإحصاءات التنوع و PCA وتحليل المزيج من بين أمور أخرى بناءً على درجات احتمالية النمط الجيني. الحزم الأخرى ، مثل MAPGD ، تسمح لأحدها بحساب اختلال التوازن والارتباط باستخدام احتمالات النمط الجيني. من خلال عدم استدعاء الأنماط الجينية فعليًا ، وبدلاً من ذلك استنتاج المعلمات من احتمالات النمط الجيني عبر الأفراد في مجموعة سكانية ، تتجنب هذه البرامج العديد من التحيزات المرتبطة ببيانات الجينوم منخفضة التغطية (على سبيل المثال Han et al. 2014).

4. وضع التسلسل

بالنسبة لدراسات إعادة تسلسل الجينوم الكامل ، يوصى دائمًا باستخدام التسلسل المزدوج النهاية. نظرًا لأن تغطية الجينوم تعد عاملاً مقيدًا بشكل عام ، فإن التكلفة لكل قاعدة أقل بكثير للنهاية المزدوجة من البيانات أحادية النهاية. بالإضافة إلى ذلك ، توفر البيانات ذات النهاية المزدوجة عمومًا قدرات أفضل لتعيين القراءات إلى الجينوم المرجعي ، وهو أمر مفيد للغاية ، خاصة بالنسبة للبيانات منخفضة التغطية.


نتائج ومناقشة

تمثيل البيانات والتحديات

أظهرت ملاحظتنا الأولية على مصفوفة درجة الطفرة أن درجات C تتراوح من 0 إلى 1417.14 ويمكن رؤية توزيع الدرجات لأعلى عشرة جينات متغيرة في الشكل 1. تظهر المقارنة مع قاعدة بيانات COSMIC أن تسعة من هذه الجينات العشرة (باستثناء الجين FAM38A) لديهم دليل على التراكم الغزير للطفرات الجسدية في شاشات عدد كبير من السكان [15].

توزيع مجموع الدرجات الطفرية لأفضل عشرة جينات متغيرة. تشمل أكثر 10 جينات تحورًا بشدة العديد من الجينات المرتبطة بالسرطان والتي ثبت أنها مرتبطة بالسرطان MUC4 و OBSCN

تُظهر ملامح الطفرات الجسدية لمرضى BC نموذجًا متناثرًا جدًا للبيانات ، على عكس أنواع البيانات الأخرى مثل التعبير الجيني أو المثيلة حيث يتم تخصيص قيمة كمية لجميع الجينات أو العلامات تقريبًا في جميع المرضى. حتى المرضى المتطابقين إكلينيكيًا قد لا يتشاركون في أكثر من طفرة واحدة [16-18]. لذلك ، تقدم هذه المشكلة عددًا كبيرًا جدًا من الإدخالات ذات القيمة الصفرية إلى بنية البيانات الرئيسية (96٪). من ناحية أخرى ، من منظور التعلم الآلي ، فإن وجود عدد محدود من المرضى (عدد أقل بكثير من المرضى من عدد الجينات المتأثرة في مجموعة) يقدم تحدي الأبعاد المعروف باسم "لعنة الأبعاد" في التعلم الآلي. في هذه الدراسة ، نواجه هذا التحدي حيث لاحظنا نسبة العينة إلى الميزة 1:50 (358/18117) في بنية البيانات الرئيسية.

من أجل التغلب على التحديات المذكورة أعلاه ، هناك عمومًا نهجان شائعان ، وهما استخراج الميزات واختيار الميزة. يعمل استخراج الميزات على تحويل الميزات الحالية إلى مساحة ذات أبعاد أقل وتشتمل طرق الأمثلة المستخدمة على نطاق واسع على تحليل المكون الرئيسي (PCA) وتحليل التمايز الخطي (LDA) ، بينما يحدد اختيار الميزة مجموعة فرعية من الميزات دون تطبيق أي تحويل. تزيد هذه الطرق من نسبة العينة إلى الميزة وتقلل من التباعد وبالتالي تجعل التجميع مجديًا وأكثر فاعلية. في هذه الدراسة ، استخدمنا اختيار الميزة عن طريق ترتيب الميزات (الجينات) بترتيب تنازلي لقيمة التباين الخاصة بها واختيار أعلى ن ميزات التجميع (انظر الطرق لمزيد من التفاصيل). قمنا بتحسين حجم n ليكون 854 جينًا في طريقة التجميع لدينا.

تصنيف سرطانات الثدي على أساس الطفرات الجسدية

التجميع غير الخاضع للإشراف هو مهمة تجميع مجموعة من العينات التي لا تحتوي على معلومات تسمية ، مما يؤدي إلى تجميع العينات بطريقة تجعل العينات في نفس المجموعة أكثر تشابهًا في مقياس محدد مع بعضها البعض مقارنة بتلك الموجودة في المجموعات الأخرى. هناك العديد من الطرق التي تحاول تحقيق هذا الهدف مثل تجميع الوسائل k ، والتجميع الهرمي ، وخوارزميات تعظيم التوقعات (EM). ومع ذلك ، فإن أداء هذه الأساليب ضعيف أو لا يمكن أن تتوصل إلى حل عند تطبيقها على بيانات متفرقة ، كما هو الحال في دراستنا. لذلك ، اخترنا استخدام NMF نظرًا لأدائه المتفوق المثبت عند اختباره على التطبيقات القائمة على البيانات البيولوجية [19-21]. تم تقديم NMF في صيغته الحديثة بواسطة Lee and Seung [21] كطريقة لتحليل الصور.

كطريقة تحليل ، تأخذ خوارزمية NMF مصفوفة درجة الطفرة الخاصة بنا كمدخل وتحللها إلى مصفوفتين أصغر (مصفوفة الأساس W ومصفوفة المعامل H). يتم استخدام مصفوفة معامل الإخراج (المصفوفة H) لعمل تعيينات مجموعة العينة. الرجوع إلى الطرق لمزيد من التفاصيل.

باستخدام خوارزمية التجميع NMF في مجموعة البيانات الخاصة بنا ، قمنا بتجميع العينات بثبات إلى ثلاث مجموعات باستخدام أفضل 854 جينًا ، والتي لديها أعلى قيم تباين لدرجات الطفرات عبر جميع العينات. تضم المجموعات الثلاث المجموعة 1 و 2 و 3 169 و 121 و 68 مريضًا على التوالي. الرجوع إلى قسم الأساليب لمزيد من التفاصيل.

في الشكل 2 ، نعرض تمثيلًا لبيانات الإدخال في مصفوفة درجة الطفرة ، مع التركيز فقط على أفضل 50 جينًا متغيرًا لغرض التوضيح. كما يمكن رؤيته ، تمثل البيانات نموذجًا متناثرًا للغاية (معظم الخلايا ملونة باللون الأزرق مما يعني درجة الصفر) مما يجعل معظم أساليب التجميع غير قابلة للتطبيق. ملف إضافي 1: الشكل S1 والشكل 3 هما مصفوفات الإخراج من تحلل مصفوفة درجة الطفرة ، والتي نقوم بإدخالها في خوارزمية NMF. لاحظ أن مضاعفة مصفوفتي الإخراج ستؤدي تقريبًا إلى إنتاج بيانات الإدخال. في الملف الإضافي 1: الشكل S1 ، نرى مصفوفة الأساس (W) ، والتي لم يتم استخدامها في نطاق هذه الدراسة ولكنها يمكن أن تخدم لغرض تجميع الجينات. يعرض الشكل 3 مصفوفة المعامل (H) ، حيث تمثل الصفوف metagenes التي تمثل تمثيلًا مضغوطًا لجميع الجينات ، وتمثل الأعمدة المرضى. نستخدم هذه المصفوفة لعمل عينة من ارتباطات الكتلة عن طريق تعيين العينات إلى المجموعات حيث نلاحظ أعلى قيمة metagene ، أي اللون الأحمر الداكن ، (انظر قسم الأساليب للحصول على التفاصيل).

مصفوفة الإدخال مع درجات C لأعلى 50 جينًا متحورًا. تُظهر الخريطة الحرارية أكثر الجينات الخمسين تحورًا. تمثل الأعمدة المرضى (358) وتمثل الصفوف الجينات. يتمثل أحد تحديات مجموعة البيانات في كونها متناثرة للغاية ويمكن رؤيتها في خريطة الحرارة حيث أن معظم الخلايا ملونة بالقرب من اللون الأزرق ، مما يشير إلى درجة طفرة 0 (درجة C) ، باستثناء أول عدد قليل الأعمدة. حددنا أن بنية البيانات الرئيسية تتكون من 96٪ أصفار

مصفوفة المعامل (H). تُستخدم مصفوفة المعامل (H) ، بحجم 3 × 358 ، لتعيين عينات إلى مجموعات. تمثل أعمدة المصفوفة المرضى وتمثل الصفوف metagenes. قمنا بتوليد 3 ميتاجين تستخدم لتجميع المرضى في 3 مجموعات. يتم تحديد عدد metagenes (رتبة التجميع) عن طريق تشغيل الخوارزمية بشكل متكرر عبر مجموعة من المعلمات المعقولة بيولوجيًا كما هو موضح في قسم الطرق

يوضح الشكل 4 استقرار التجميع من خلال عرض مصفوفة الإجماع ، والتي تم إنشاؤها بعد 100 تشغيل NMF باستخدام نهج Brunet [22] (موضح في قسم الأساليب). استخدمنا درجة الصورة الظلية لمصفوفة الإجماع لتحديد العدد الأمثل للجينات والعناقيد. في حالة التجميع المثالية ، نتوقع ملاحظة القيم إما قريبة من 1 أو 0 ، مما يشير إلى احتمال وجود عينتين في نفس المجموعة أم لا ، على التوالي ، والتي تعرض كتل ملونة صلبة. تمثل قيمة واحد أعلى احتمال لوجود عينتين في نفس المجموعة (كتل حمراء) وقيمة الصفر تشير إلى العكس (كتل زرقاء). في الشكل 4 ، يمكن ملاحظة أن مجموعة البيانات تتجمع بوضوح في ثلاث مجموعات متميزة.

مصفوفة التوافق. مصفوفة الإجماع هي 358 × 358 في الحجم وتوضح استقرار التجمع. في الحالة المثالية ، من المتوقع أن تكون جميع الإدخالات إما 0 أو 1 ، مما يجعل كتل ملونة صلبة. يشير الشريط الموجود في الأعلى إلى المرحلة السريرية لكل مريض. درجة Silhouette لهذه المصفوفة هي 0.958 مما يشير إلى تجمع مستقر للغاية. (صورة ظلية (إجماع) = 0.958)

توصيف العناقيد المكتشفة

نحن نحقق في الأهمية السريرية للمجموعات المكتشفة من خلال مقارنة مرحلة BC للمرضى في كل مجموعة. لهذا الغرض ، نقوم بتحليل توزيع المرضى وفقًا لمرحلة المرض المقدمة في بيانات TCGA. لقد وجدنا أن المجموعة 1 سيطر عليها مرضى المرحلة المبكرة بينما كان للمجموعة 3 نسبة أعلى بكثير من مرضى المرحلة المتأخرة مقارنة بالمجموعة 1 (اختبار فيشر الدقيق للقيمة p = 0.02048 ، الجدول 1). كما يتضح من الجدول 1 ، فإن توزيع عدد المرضى في كل مجموعة مع نسبة المرحلة (عدد مرضى المرحلة المبكرة على مرضى المرحلة المتأخرة) للمجموعة 1 أعلى بأكثر من الضعفين من المجموعة 3 ومن هنا نسمي المجموعة 1 كمجموعة مخصبة في مرحلة مبكرة ، المجموعة 2 هي الكتلة المختلطة والمجموعة 3 مثل الكتلة المخصبة في المرحلة المتأخرة. يشير هذا الفصل بين المرضى حسب مرحلة المرض إلى أن طريقة التجميع لدينا يمكن أن تميز بنجاح مرضى سرطان الثدي من خلال مرحلة المرض الخاصة بهم باستخدام الملامح الطفرية الجسدية فقط للمرضى من بيانات تسلسل الإكسوم.

بعد ذلك ، قمنا بمقارنة ملامح الطفرات الجسدية للمرضى بين المجموعات المخصبة المبكرة والمتأخرة (المجموعة 1 مقابل المجموعة 3). لقد وجدنا أن هناك 358 جينًا ، والتي لديها متوسط ​​درجات طفرة أعلى بشكل ملحوظ في المجموعة المخصبة في المرحلة المتأخرة (المجموعة 3) مقارنةً بالمجموعة المخصبة في المرحلة المبكرة (المجموعة 1) (اختبار مجموع رتبة ويلكوكس ، FDR & lt 0.1 ) ، ولكن أيا من الجينات ليس لديها درجات طفرة أعلى بكثير في المجموعة 1 مما كانت عليه في المجموعة 3. تشير هذه النتيجة المثيرة للاهتمام إلى أن هذه الجينات قد تكون قد تراكمت طفرات ضارة أدت إلى تطور سرطان الثدي إلى حالات مرضية متقدمة. حددنا أن جينات مثبط الورم ، APC ، BRCA2 والجين الورمي ، MLL هي من بين 358 جينًا مستخدمة في هذه المقارنة. يوضح الجدول 2 أهم 25 جينًا تم العثور عليها لإظهار معدلات طفرة أعلى بشكل ملحوظ في الكتلة المخصبة في المرحلة المتأخرة.

قمنا بتقسيم 358 جينًا إلى عائلات جينية مختلفة باستخدام أداة تحليل إثراء مجموعة الجينات (GSEA) [23] كما هو موضح في الجدول 3. نلاحظ أن نسبة كبيرة من الجينات تنتمي إلى عامل النسخ وعائلات جينات البروتين كينيز ، وهي جيدة من المعروف أن له علاقة بتطور ما قبل الميلاد [24 ، 25]. يوضح الجدول 4 تخصيص هذه الجينات لعائلات جينية متميزة وظيفيًا.

تحليل شبكة الجينات المتغيرة تفاضليًا

أجرينا تحليل الشبكة لأفضل 25 جينًا متحورًا للغاية (الجدول 2) في المجموعة المخصبة في المرحلة المتأخرة مقارنةً بمرضى المجموعة المخصبة في المرحلة المبكرة ، لفهم العلاقة الوظيفية بين هذه الجينات. تُظهر الشبكة في الشكل 5 ، التي تم إنشاؤها باستخدام برنامج تحليل مسار الإبداع (IPA) ، العديد من محاور التفاعل ، حيث يتم تحور الجينات المظللة باللون الأرجواني بشكل كبير في مرضى مجموعة المرحلة المتأخرة. تتفاعل معظم الجينات في قائمتنا مع بروتين المحور المركزي ، UBC ، وهو أمر متوقع لأن معظم البروتينات (خاصة البروتينات غير الضرورية أو التالفة) منتشرة في كل مكان قبل التحلل البروتيني. من المعروف أن نظام يوبيكويتين-بروتيازوم ينظم تدهور عدد من الجينات المرتبطة بالسرطان [24]. APC (داء البوليبات الغدي القولوني) هو مثبط رئيسي آخر للورم في هذه الشبكة يعمل كمضاد لمسار إشارات Wnt ، مع عدد من الأدوار في تطور السرطان وتطوره مثل هجرة الخلايا ، والالتصاق ، وموت الخلايا المبرمج ، وما إلى ذلك. تم توثيق طفرات APC في سرطانات الثدي جيدًا في الأدبيات [25].من الجدير بالذكر أن نذكر اثنين من الجينات المنظمة للنسخ في قائمتنا ، NOTCH2 و KMT2A (MLL). NOTCH2 هو منظم رئيسي لـ Akt ، ودوره موثق جيدًا في العديد من السرطانات بما في ذلك موت الخلايا المبرمج ، والتكاثر ومسار الانتقال الظهاري واللحمة المتوسطة (EMT) [26]. ترتبط العديد من الطفرات الجسدية في NOTCH2 أيضًا بأنواع مختلفة من السرطان في قاعدة بيانات COSMIC [27]. MLL هو منظم النسخ وجين الورم مع مجموعة متنوعة من الأدوار في تكاثر الخلايا وموت الخلايا المبرمج [28].

تحليل شبكة التفاعل لأفضل 25 جينًا. تُظهر الصورة تفاعلات أفضل 25 جينًا مع أعلى حمولة طفرة في المجموعة المخصبة في المرحلة المتأخرة مقارنةً بمجموعة المرضى المخصبة في المرحلة المبكرة

التنبؤ الطبقي بسرطان الثدي بناءً على الطفرات الجسدية

باستخدام مجموعات BC المذكورة أعلاه ، قمنا بتسمية كل عينة بالمجموعة المخصصة لها ، وقمنا بتطوير نموذج تصنيف لمعرفة مدى الدقة التي يمكننا التنبؤ بها عن مجموعات من مرضى سرطان الثدي غير المرئيين بناءً على طفراتهم الجسدية. باستخدام هذا النموذج ، يمكننا التنبؤ بمجموعة مريض غير مرئي ، باستخدام ملف تعريف الطفرة الخاص به / بها ومن ثم نحصل على نظرة ثاقبة حول النتائج السريرية للمريض ، مثل مرحلة BC. كمثال ، إذا توقع النموذج أن يكون مريض جديد في Cluster3 ، مما يمكننا أن نتوقع أن يكون هذا المريض في مرحلة متأخرة مع وجود جينات معينة من المرجح أن تحمل أحمال طفرة أعلى.

قمنا بتسمية كل مريض بالمجموعة المخصصة له واختبرنا خمس خوارزميات شائعة للتعلم الآلي (ML) Random Forest (RF) [15] ، Support Vector Machine (SVM) [29] ، C4.5 [30] ، Naïve Bayes [31] ، و k-Nearest Neighbor (KNN) [32] للعثور على الخوارزمية الأكثر ملاءمة لمجموعة البيانات الخاصة بنا.

استخدمنا التحقق المتقاطع 10 أضعاف لتقييم أداء المصنف. في كل حلقة من التحقق المتقاطع من 10 أضعاف ، بعد سحب مجموعة الاختبار ، قمنا باختيار الميزة باستخدام طريقة اختيار ميزة اكتساب المعلومات [33] واخترنا أفضل 500 جين ، والتي توفر أعلى اكتساب للمعلومات بناءً على مجموعة التدريب . لذلك ، في المجموع ، اخترنا عشر مجموعات من 500 جين في عملية التحقق من الصحة ذات العشرة أضعاف. من بين خوارزميات ML المذكورة أعلاه ، اخترنا المزيد من استخدام طريقة التردد اللاسلكي في هذه الدراسة لأنها حققت أفضل دقة تحقق متقاطع بمقدار 10 أضعاف بنسبة 70.86٪. نعتقد أن تناثر البيانات جنبًا إلى جنب مع العينة المنخفضة لنسبة الميزة وصعوبة التنبؤ متعدد الطبقات هي الأسباب وراء هذه الدقة المعتدلة.

نلاحظ أيضًا أن خوارزميات SVM حققت دقة قريبة جدًا ولكن مع خسارة في قياس TPR و FPR و F. وأسفرت طريقة KNN عن أسوأ دقة لجميع الطرق التي استخدمناها. يوضح الجدول 5 مقاييس الأداء لكل خوارزمية ML.

يوضح الشكل 6 منحنيات خاصية تشغيل المستقبل (ROC) لكل فئة توضح العلاقة بين TPR (الحساسية) و FPR (الخصوصية 1) لكل فئة. في الحالة المثالية ، يرتفع منحنى ROC بشكل مستقيم على المحور Y ثم إلى اليمين الموازي للمحور X وبالتالي يزيد المنطقة الواقعة أسفل المنحنى (AUC). يشير AUC القريب من واحد إلى أن المصنف يتنبأ بحد أقصى TP والحد الأدنى FP. حسبنا AUC للمجموعات 1 و 2 و 3 (تستخدم بالتبادل كفئة في هذا القسم) كـ 0.88 و 0.8 و 0.95 ، على التوالي ، مما يشير إلى أن نموذج التصنيف يمكن أن يفرق بشكل أفضل مرضى المرحلة المتأخرة عن المرضى الباقين.

منحنيات ROC. يوضح منحنى ROC ، الذي يستخدم لإظهار دقة التنبؤات التي قدمها النموذج ، العلاقة بين TPR (الحساسية) و FPR (1-الخصوصية) لكل فئة. نظرًا لأن قيم AUC تشير إلى أن نموذج التنبؤ يحقق دقة أفضل في التمييز بين الفئات المخصبة في مرحلة مبكرة والفئات المخصبة في مرحلة متأخرة مع 0.88 و 0.95 على التوالي

استخدمنا أيضًا اختبار التقليب ، من خلال تشغيل نفس إجراء التنبؤ بالفئة باستخدام RF على 10000 مجموعة بيانات ذات تصنيف عشوائي ولم يمنحنا أي من عمليات التحقق المتقاطعة 10 أضعاف دقة أفضل ، مما أدى إلى الحصول على قيمة p مهمة جدًا (ص-القيمة & lt 10 4) (انظر الطرق لمزيد من التفاصيل). هذا يدعم متانة نموذجنا ودقة التنبؤ.


كيفية إنشاء ملف .vcf صحيح استنادًا إلى data.frame في R؟ منخفض خارج الحدود؟

أنا أعمل حاليًا مع حزمة SigneR التي تسمح لك بإنشاء تواقيع للطفرات الجسدية. بادئ ذي بدء ، أود إعادة إنتاج نتائجهم من المقالة القصيرة.

كما ترى ، هناك خياران لملف بيانات الإدخال. vcf وملف حساب الطفرات المعالجة مسبقًا وهو عبارة عن إطار بيانات بسيط تم الحصول عليه بواسطة دالة genCountMatrixFromVcf () .. في الواقع من .vcf.

بالطبع هنا يمكنك العثور على بعض الأمثلة على ملف .vcf ومصفوفة عدد الطفرات هذه جاهزة لمزيد من التحليل.

في المقالة القصيرة استخدموا (كما قرأت) هذه البيانات: SUBSTITUTIONS_13Apr2012_snz.txt. لذلك قررت إنشاء ملف vcf من إطار البيانات هذا وتصفح جميع خطوات المقالة القصيرة.

لذلك قمت بعدة خطوات بسيطة لإنشاء .vcf من البيانات المذكورة أعلاه:

جميع الأعمدة الإلزامية لملف .vcf موجودة. لقد صنعت هذا النوع من الملفات سابقًا ، أكثر من استخدام readVcfAsVRanges () كل شيء يعمل بشكل جيد.

ولكن هنا في حزمة SigneR هناك بعض المشاكل. لأنه إذا كنت لا أريد إنشاء هذا مصفوفة عدد الطفرات لدي خطأ:

لذلك حاولت معرفة الخطأ في ملف .vcf الخاص بي مقارنةً بالملفات "العاملة".

ملف المثال الخاص بهم "العمل" (في الواقع بعد تشغيل الدالة genCountMatrixFromVcf () ، هناك أيضًا خطأ ولكن مختلف. ليس مهمًا في هذه اللحظة).


الإطار المقترح لتحقيق التقدم كمجتمع

لتسهيل الابتكار في هذا المجال ، نوصي بتطوير إطار عمل من التنسيقات الشائعة وواجهات برمجة التطبيقات (APIs) التي تمكن العديد من الموارد المتاحة للتفاعل بشكل أكثر فاعلية على مستوى المتغير الفردي وعلى النطاقات الكبيرة. نوصي كذلك بتطوير بوابة يمكن استخدامها للتعليق على الحالة الحالية للأدوات في هذا المجال وتوجيه المستخدمين حول كيفية التعامل مع هذه الأدوات واستخدامها لمعالجة أسئلة بحثية مختلفة. يأخذ مخطط إطار عمل GVto3D الموصى به زمام المبادرة من مراجعتنا الأوسع للمجال وكذلك من العروض التقديمية والمناقشات التي جرت بين أعضاء مجتمع البحث الذين حضروا ورشة العمل ، ويشتمل تصميمها على الاحتياجات والجهود الحالية لهؤلاء الباحثين .

يوضح الشكل 1 المكونات والتصميم الموصى به لإطار عمل GVto3D. سيعمل سجل الأدوات كمستودع مركزي لموارد البيانات وأدوات البرامج المتعلقة بالمتغيرات الجينية ، وتسلسل البروتين ، وهياكل البروتين ، والتنبؤ بالتأثير المتغير ، والتعليق التوضيحي المتغير. سيتم تخزين البيانات الوصفية حول كل مورد لتمكين إمكانية العثور على أدوات البرامج المختلفة وتقديمها من خلال واجهة ويب تفاعلية وأيضًا واجهة برمجة تطبيقات ، والتي بدورها تمكن من تطوير برنامج ذكي يمكنه اكتشاف الموارد القابلة للتطبيق تلقائيًا وجمع المعلومات حول كيفية التواصل مع منهم للحصول على النتائج المرجوة. بالإضافة إلى الاسم والوصف والاستشهادات ومعلومات الاتصال ومحددات الموارد الموحدة (عناوين URL) ، سيحتوي كل إدخال على معلومات مهمة للتشغيل البيني للأداة ، مثل المدخلات والمخرجات ودعم واجهة برمجة التطبيقات ومعلومات الجينوم المرجعي.

مكونات بوابة GVto3D. يحتوي سجل الأدوات على وصف قابل للبحث وبيانات وصفية للأدوات والموارد ومجموعات البيانات المرجعية لخدمات التنبؤ بالتأثيرات المتغيرة والتعليقات التوضيحية. واجهات برمجة التطبيقات الموحدة (واجهات برمجة التطبيقات) توفر إمكانية التشغيل البيني لإدخال البيانات وإخراجها لأدوات الجهات الخارجية هذه. يمكن أن توفر المحولات المخصصة إمكانية تشغيل متداخل محدودة للأدوات التي لا يمكنها اعتماد واجهة برمجة التطبيقات. توفر خدمة رسم الخرائط تعيينات ثنائية الاتجاه من إحداثيات الجينوم المرجعية إلى مواضع بروتين UniProt وإلى بنك بيانات البروتين (PDB) مواقف البقايا. يمكن للأدوات استخدام خدمة التعيين لقبول المواضع المتغيرة في أي من أنظمة الإحداثيات الثلاثة. يتيح نظام المنارة الاستعلامات حول المواضع المتغيرة حيث يكون ثلاثي الأبعاد (ثلاثي الأبعاد) تتوفر المعلومات الهيكلية والشروح

سيكون المكون الثاني للبوابة هو تعريف واجهات برمجة التطبيقات القياسية بحيث يمكن إرسال المعلومات وطلبها من أدوات مختلفة بنفس الطريقة ، وبالتالي تقليل النفقات العامة لتطوير البرامج ، والتي يتم تثبيتها عادةً بأدوات مختلفة باستخدام واجهات برمجة تطبيقات مختلفة. من المتصور أن أدوات الطرف الثالث الجديدة ستستخدم API محليًا بينما سيتم تطوير محولات API من أجل التواصل مع أدوات الطرف الثالث الموجودة مسبقًا. تتيح واجهة برمجة التطبيقات إمكانية التشغيل البيني السلس بين الأدوات المختلفة المتعلقة بالمتغيرات وأيضًا الوصول القياسي إلى الخرائط متعددة الاتجاهات بين إحداثيات الجينوم وتسلسل البروتين وإحداثيات بنية البروتين. سيتم توفير هذه التعيينات من خلال واجهات برمجة التطبيقات وكملفات بيانات قابلة للتنزيل. سيتم تحديث التعيينات بناءً على جداول التحديث لمصادر البيانات الأساسية (PDB ، UniProt الأسبوعية ، شهريًا) ، مما يحرر المطورين من صيانة وتحديث نسخ من هذه البيانات. بمجرد أن تدعم العديد من الموارد المماثلة واجهات برمجة التطبيقات القياسية ، يمكن تطوير الموقع بشكل أكبر إلى بوابة تجميع ، حيث يمكن استعلام في البوابة الإلكترونية تلقائيًا إلى موارد متعددة ، ويتم تجميع النتائج وإعادتها إلى المستخدم دفعة واحدة. يعمل هذا الإطار على تطوير مبادئ FAIR الخاصة بإمكانية البحث وإمكانية الوصول وقابلية التشغيل البيني وإعادة الاستخدام [99] لجميع الأدوات والموارد التي تشارك.

يتيح استخدام تنسيقات الملفات القياسية والتمثيلات المعيارية للبيانات إمكانية التشغيل البيني لأدوات التنبؤ ، على سبيل المثال ، يمكن تمرير الإخراج من أداة واحدة كمدخل إلى أداة ثانية ، وبالتالي يمكن تبسيط مقارنة الطرق المختلفة. تعد التنسيقات الموحدة أيضًا مكونات أساسية لمجموعة قابلة لإعادة الاستخدام من الأدوات المتكاملة (مكدس البرامج) ، بما في ذلك أدوات لقراءة وتفسير ملفات البيانات (محللات الملفات) وواجهات برمجة التطبيقات وأدوات التصور. تستخدم معظم الأدوات الحالية مجموعة متنوعة من المدخلات والمخرجات ، مما يضع عبئًا كبيرًا على المستخدم لتحويل البيانات. ستكون تنسيقات الملفات القياسية وواجهات برمجة التطبيقات الموحدة في صميم الخدمات المستقبلية التي ستجمع وتقارن بين الأساليب المختلفة. الأنظمة الأساسية والأدوات المختلفة لها جداول زمنية مختلفة وموثوقية الترقيات وتتبع الإصدارات أمر مهم لأن التغييرات التي تطرأ على البرامج قد يكون لها تأثيرات كبيرة على النتائج.

تنسيق ملف VCF [37] ، على الرغم من تعقيده ، هو التنسيق القياسي الفعلي لتخزين المكالمات المتغيرة لمجموعة واسعة من المتغيرات ، من SNVs إلى عمليات الإدراج والحذف الطويلة. يحدد فريق تنسيقات ملفات مجموعة عمل البيانات التابعة للتحالف العالمي لعلم الجينوم والصحة مواصفات VCF وتطورها [100]. يمكن تسجيل التعليقات التوضيحية المتنوعة - على سبيل المثال ، نتائج أدوات التنبؤ - في سجلات INFO ، وهي مجموعة من السجلات المهيكلة المستخدمة لإضافة تعليق توضيحي إلى ملفات VCF. إصدارات VCF 4.x ، بما في ذلك الإصدار الحالي 4.3 [101] ، تحدد خطوط المعلومات الوصفية التي تصف أنواع بيانات سجل INFO وتفرض التوحيد القياسي [102]. بالإضافة إلى VCF ، تم وصف بعض التنسيقات الأخرى ، مثل ANN ، والتي تحدد معيارًا مختلفًا لتمثيل المعلومات المتغيرة في حقول INFO. يدعم VEP [97] علامة تبويب بسيطة ، بالإضافة إلى إخراج JavaScript Object Notation (JSON) صيغة.

فيما يتعلق بتسمية الجينوم ، قامت جمعية تنوع الجينوم البشري ، والتي تهدف إلى تعزيز اكتشاف وتوصيف الاختلافات الجينية ، بما في ذلك التوزيع السكاني والجمعيات المظهرية ، بوضع مبادئ توجيهية وتوصيات لتسميات الاختلافات الجينية ، وتعمل كمعيار دولي [103] .

يعتمد التقدم في هذا المجال على التعاون العالمي ومشاركة الأدوات وإعادة استخدامها. توفر واجهات برمجة التطبيقات بروتوكولات لتمكين هذا التعاون. تقدم الأدوات المغلفة في واجهات برمجة التطبيقات القياسية واجهة متسقة للأدوات غير المتجانسة ، وتعزز قابلية التشغيل البيني ، وتحمي المستخدم من التغييرات التي تطرأ على البرنامج الأساسي. على سبيل المثال ، تحدد العديد من أدوات التنبؤ التي تستخدم المعلومات الهيكلية للبروتين ثلاثي الأبعاد موقع الطفرات على مستوى البروتين باستخدام إحداثيات UniProt أو PDB. يعد تعيين الإحداثيات الجينومية لبنية البروتين ثلاثي الأبعاد أمرًا غير تافه وعرضة للخطأ. يمكن لواجهات برمجة التطبيقات القوية التي يمكنها إجراء هذا التعيين باستخدام معلومات ثلاثية الأبعاد محدثة باستخدام كلا النوعين من إحداثيات البروتين زيادة الأدوات الحالية التي تستند إلى إحداثيات تسلسل البروتين الخطي فقط.

علاوة على ذلك ، فإن التقدم في التنبؤ بتأثير الطفرات واستخدام المعلومات الهيكلية ثلاثية الأبعاد يعتمد على توافر مجموعات التدريب والاختبار والتحقق المصممة جيدًا. سيكون مستودع الأداة مكانًا لمشاركة مجموعات البيانات ، بالإضافة إلى البروتوكولات والمراجع (البيانات الوصفية) لكيفية إنشاء مجموعات البيانات هذه. ستشمل مجموعات التحقق من الصحة ، المصحوبة بدروس أو المقالات القصيرة الموثقة جيدًا ، مجموعة فرعية من المتغيرات ذات التأثيرات المفهومة بوضوح والتي يمكن استخدامها لاختبار مخرجات الموارد المتاحة. في النهاية يمكن أن تكون هذه بمثابة مجموعة من اختبارات الوحدة للإطار نفسه.


التعليقات على هذا المقال التعليقات (0)

المصالح المتنافسة: لم يتم الكشف عن المصالح المتنافسة.

خبرة المراجع: علم الجينوم ، تجميع الجينوم ، شرح الجينوم ، استدعاء متغير ، هندسة الجينوم.

قام المؤلفون بمراجعة الوثيقة وإضافة مجموعة مكالمات INDEL.

في رأيي ، قدم المؤلفون بيانات وتحليلات كافية لتمكين القارئ من فهم التحذيرات المرتبطة بالبيانات التي أعدها. أكمل القراءة

قام المؤلفون بمراجعة الوثيقة وإضافة مجموعة مكالمات INDEL.

في رأيي ، قدم المؤلفون بيانات وتحليلات كافية لتمكين القارئ من فهم التحذيرات المرتبطة بالبيانات التي أعدوها.

لدي مصدر قلق صغير متبقي. أود أن أوضح المؤلفون سلوك معالجتهم عند التعامل مع المتغيرات متعددة النوكليوتيدات (MNVs). هل هم مستبعدون؟ إذا لم يكن الأمر كذلك ، فقد يؤدي نهج التسوية والدمج إلى نتائج زائفة.

المصالح المتنافسة: لم يتم الكشف عن المصالح المتنافسة.

خبرة المراجع: المعلوماتية الحيوية ، الجينوميات السريرية

يقدم المؤلفون مجموعة مكالمات جديدة من مشروع 1000 جينوم. هذه المرة ، تعد مجموعة الاستدعاء استدعاءًا جديدًا للبيانات مقابل GRCh38. تتكون مجموعة النداء فقط من SNPs biallelic (biallelic. تابع القراءة

يقدم المؤلفون مجموعة مكالمات جديدة من مشروع 1000 جينوم. هذه المرة ، تعد مجموعة الاستدعاء استدعاءًا جديدًا للبيانات مقابل GRCh38. تتكون مجموعة النداء فقط من SNPs biallel (biallelic في هذه الدراسة). تم رفع مجموعات المكالمات المتغيرة السابقة على GRCh38 من نظيراتها الأصلية GRCh37. تحدد الدراسة أشكال تعدد الأشكال عن طريق استدعاء المتغيرات أولاً مع عدة خوارزميات ، وإنشاء مجموعة نقابية ثم التنميط الجيني لهذه المواقع بشكل صريح عبر مجموعة البيانات الكاملة. ثم يتم تقسيم الأنماط الجينية على مراحل. تم إجراء مقارنة مع بيانات GIAB لـ NA12878 لتقييم حساسية ونوعية مجموعة المكالمات.

تعد مجموعة الاستدعاء الأصلية لبيانات مشروع الجينوم الألف على GRCh38 جهدًا مهمًا للغاية. تحتوي هذه البيانات على العديد من الاستخدامات النهائية المهمة بما في ذلك استخدامات الجينوم السريرية للتصفية المتغيرة ودراسات الجينوميات السكانية. على الرغم من أهمية مجموعة البيانات هذه ، لدي مشاكل مع ملاحظة البيانات كما هي. أعتقد أن الورقة وصفت ببساطة ما فعله المؤلفون لتوليد هذه البيانات ، لكنها تبذل القليل من الجهد لشرح سبب القيام بذلك بهذه الطريقة. هذا الأخير مهم لاكتساب الثقة في مجموعة المكالمات.

بصفتي مستخدمًا للبيانات ، سأشعر بالرضا عن جودة مجموعة المكالمات. هذا مهم بشكل خاص لأن العديد من المشاريع الكبيرة الأخرى قد أطلقت ترددات أليل لعدة آلاف من الجينوم الكامل المتسلسل العميق (مثل Topmed و Gnomad). بالتوازي مع ذلك ، تم اقتراح أطر عمل لتقييم الأداء التحليلي للمكالمات المتغيرة من قبل GIAB و GA4GH وتم نشرها مؤخرًا. تم إصدار مجموعات الحقيقة للعديد من العينات المهمة بخلاف NA12878 بما في ذلك القدرة على تقييم مدى جودة مجموعات البيانات. كما هو موضح في التعليقات المحددة أدناه ، أعتقد أنه كان ينبغي القيام بالمزيد من العمل لإقناع القارئ بأنه قد تم الالتزام بالعناية الواجبة الكافية لمجموعة البيانات هذه.
من منظور تعيين مكالمة محلية على GRCh38 ، من العار أن يكون هناك القليل جدًا لإظهار الفوائد المحتملة لهذه المكالمة المحددة على GRCh38. لا يوجد أي ذكر [أو لقد فاتني ذلك حقًا] حول كيفية التعامل مع أنماط الفردانية البديلة والآثار المترتبة على وجود متغيرات في أنماط الفرد البديلة. يتجاهل إصدار البيانات أيضًا أي مناطق غير ثنائية الصبغيات في الجينوم.
من منظور منهجي ، تبدو سلسلة الأدوات قديمة حيث لا يقل عمر BCFtools و GATK عن عامين. تُستخدم العتبات على نطاق واسع ولكن لم يتم بذل الكثير من الجهد لشرح كيفية تحديد هذه العتبات. أفترض أن المعلمات المستخدمة في الأدوات نفسها ، هي قياسية أو ربما تم تحديدها في التكرارات السابقة للمشروع. ومع ذلك ، فإن عتبات التصفية في الجداول 1-4 ، على الأقل من القراءة ، تبدو وكأنها تم انتزاعها من فراغ.
في ملاحظة أكثر إيجابية ، أود أن أثني على المؤلفين للجهود الكبيرة التي بذلوها لإتاحة الكود وتنظيمه وتوثيقه وجعل مجموعة البيانات هذه قابلة لإعادة الإنتاج.

  1. * سلسلة الأدوات قديمة حقًا *. هل هذا بسبب وجود تغييرات طفيفة في الخوارزميات المحددة المستخدمة (mpileup و genotyper الموحد؟). أفترض أن العديد من التحسينات وإصلاحات الأخطاء قد ظهرت في العامين الماضيين بالإضافة إلى ظهور هذه الإصدارات.
  2. * إظهار التحسينات على GRCh38 ولماذا أفضل من المصعد *. فاتني بعض الأرقام التي توضح كيف كان هذا تحسنًا. على سبيل المثال مقارنة بين مجموعة المكالمات التي تم رفعها والمجموعة الأصلية. هل توجد مناطق في الجينوم حيث تؤدي أداءً مختلفًا؟ هل كانت تستحق الجهد؟ ماذا عن ALTs ، هل لدينا الآن ترددات أليل أفضل في هذه المناطق؟ كيف تؤثر على الترددات المقابلة لها في التجميع الأولي؟
  3. * تطبيع المتغير *. تم إخفاء هذا في النص ولا يُقال سوى القليل عن كيفية تنفيذه. من واقع خبرتي ، غالبًا ما تقدم هذه الخطوة مقايضات صعبة. الرجاء التوسع في هذا.
  4. *المرجعية*. هذه المنطقة غير موجودة هنا. أفهم أنك تبحث فقط عن مواقع بياليليك لذا فإن المقارنة مع مجموعة الحقيقة أسهل. ومع ذلك ، فإن معايير القيام بذلك موجودة منذ أكثر من عام وتم نشرها مؤخرًا. وهي تستند إلى المقارنة على مستوى النمط الفرداني وليس على مستوى الموقع.
  5. * مراحل *. تتيح هذه المعايير أيضًا مقارنة دقة المراحل. بالنظر إلى الجهد المبذول هنا لتقسيم الأنماط الجينية ، سيكون من المفيد أيضًا قياس بيانات التدريج.
  6. * مجموعة الاتحاد *. كنت أرغب في رؤية رقم يوضح كيف ساهم المتصلون المتنوعون في مجموعة مكالمات الاتحاد. هل هناك واحد غير ضروري؟ هل هناك مسئول عن العديد من الإيجابيات الكاذبة؟
  7. * الأداء التحليلي *. & qu يبدو أن لديك TP أقل و FN أكثر من الإصدار 37.في هذه الأيام ، لا تمثل هذه الأرقام حساسية وخصوصية عالية (على الأقل مع جينومات 30X). مطلوب على الأقل مناقشة أكثر دقة هنا. يرتبط هذا ارتباطًا وثيقًا بالعتبات التي اخترتها لخطوات التصفية المختلفة.
  8. * مجموعات الحقيقة *. سيكون من المفيد جدًا إضافة المزيد من مجموعات الحقائق ، على سبيل المثال لثلاثي الأشكناز والصينيين.
  9. * الاتصال المشترك *. كان النهج هنا هو إجراء استدعاء لعينة واحدة ، وتجميع مجموعة نقابية ثم التنميط الجيني لتلك المواقع. هل يمكن للمؤلفين شرح سبب هذا النهج بدلاً من الدعوة المشتركة. أفترض أنه بالنسبة للجينومات منخفضة التغطية ، قد يكون الاتصال المشترك أكثر قوة لأنه يمكن أن يستفيد من المعلومات عبر المزيد من العينات.

هل الأساس المنطقي لإنشاء مجموعة (مجموعات) البيانات موصوف بوضوح؟

هل البروتوكولات مناسبة وهل العمل سليم فنيا؟

هل تم توفير تفاصيل كافية عن الأساليب والمواد للسماح للآخرين بتكرارها؟

هل مجموعات البيانات معروضة بوضوح في تنسيق قابل للاستخدام ويمكن الوصول إليه؟

1. Krusche P، Trigg L، Boutros PC، Mason CE، et al: أفضل الممارسات لقياس مكالمات المتغيرات الصغيرة للخط الجرثومي في الجينوم البشري.Nat Biotechnol. 2019. ملخص PubMed | الناشر النص الكامل
2. Zook JM ، و McDaniel J ، و Olson ND ، و Wagner J ، وآخرون: مورد مفتوح لإجراء تقييم دقيق للمكالمات المتغيرة والمرجعية الصغيرة.Nat Biotechnol. 2019. ملخص PubMed | الناشر النص الكامل

المصالح المتنافسة: لم يتم الكشف عن المصالح المتنافسة.

خبرة المراجع: المعلوماتية الحيوية ، الجينوميات السريرية

أولاً ، نود أن نشكر المراجع على التعليقات التي تم تقديمها وعلى اهتمامه بهذا العمل.

في الملاحظات العامة يلاحظ المراجع أن. مواصلة القراءة أولاً ، نود أن نشكر المراجع على التعليقات التي تم تقديمها وعلى اهتمامه بهذا العمل.

في الملاحظات العامة ، يلاحظ المراجع أن مذكرة البيانات مقصورة على وصف لما تم القيام به ، دون مناقشة كبيرة للأسباب المنطقية وراء النهج. نلاحظ أن هذه مذكرة بيانات ، تهدف إلى وصف مجموعة البيانات وكيف تم إنتاجها ، ومع ذلك ، قمنا أيضًا بتعديل النص ليشمل المزيد من التفاصيل المتعلقة بالأساس المنطقي وراء نهجنا.

أيضًا ، في الملاحظات العامة ، يسلط المراجع الضوء على المشكلات المتعلقة بجودة البيانات: مجموعات النداءات الأخرى ، والقيود المفروضة على المقارنة مع NA12878 فقط والمراحل المعيارية. بينما توجد مجموعات مكالمات أخرى ، مثل TOPmed و gNOMAD ، تظل مجموعة بيانات 1000 Genomes Project فريدة من نوعها من حيث تكوينها للسكان ويمكن الوصول إلى جميع البيانات إلى مستوى الزوج الأساسي. فيما يتعلق بمجموعات الحقيقة الأخرى ، بخلاف NA12878 ، لم نتمكن من تحديد بيانات "المعيار الذهبي" لأي عينات أخرى في مجموعة البيانات الخاصة بنا. فيما يتعلق بالتدريج ، فقد استخدمنا برنامج WhatsHap لتقييم ذلك وأضفنا النتائج إلى المخطوطة.

فيما يتعلق بـ GRCh38 ، لم يكن هدفنا إظهار تفوق GRCh38 بل توفير مورد لأولئك الذين يرغبون في استخدام هذا التجميع. نعتقد أن فوائد التجميع قد أثبتتها شنايدر وآخرون.

لقد قمنا بتعديل النص لتوضيح أن الاستدعاء لم يتم على مواقع بديلة. تم تعديل النص أيضًا لوصف نية استخدام تنسيق ملاحظة البيانات لإصدار البيانات ووصفها مبكرًا ، بهدف إعادة النظر في العناصر غير المدرجة في هذه المجموعة.

فيما يتعلق بسلسلة الأدوات ، يعكس هذا حجم الحساب المتضمن في هذا العمل. وقد بدأ هذا العمل منذ حوالي عامين. تستغرق المرحلة الأخيرة من خط الأنابيب وحدها حوالي ستة أشهر للتشغيل ، حتى مع الوصول إلى موارد الحوسبة السخية.

تم تعديل النص ليشمل معلومات عن اختيار العتبة.

أما التفصيل في النقاط:

1) سلسلة الأدوات قديمة حقًا

تعكس إصدارات البرامج طول الوقت المطلوب لتشغيل هذا الحساب ، كما هو مذكور أعلاه.

2) إظهار التحسينات على GRCh38 ولماذا هي أفضل من المصعد

كما هو مذكور أعلاه ، لم يكن هدفنا إثبات أن GRCh38 كان التجميع الأفضل. نحن نعتبر أن هذا قد تم من قبل شنايدر وآخرون. لقد أضفنا مقارنة مع الرافعة.

3) التطبيع المتغير

لقد قمنا بتحديث النص ليشمل المزيد من المعلومات حول هذا الموضوع.

نلاحظ أنه تم نشر hap.py بعد تقديم هذا العمل. ومع ذلك ، لم نتمكن من أن نثبت من المخطوطة كيف يمكن استخدامها لتحسين المقارنة المعيارية الحالية. يشير الملخص الوارد في الشكل 1 (https://www.nature.com/articles/s41587-019-0054-x) إلى أنه يلف الأدوات للوصول إلى تمثيل متسق للمتغيرات (تم التعامل معه في خطوات التطبيع لخط الأنابيب لدينا في نقطة إنتاج مجموعة مكالمات الإجماع) ثم ينتج تقريرًا "موحدًا" ، يوفر مقاييس مماثلة لتلك التي نقدمها. من هذا ، يبدو أنه يوفر وظائف مماثلة للخطوات الموجودة بالفعل في عملنا. لم تنجح محاولتنا للاتصال بالمؤلفين للحصول على مزيد من المعلومات حول هذا الأمر.

فيما يتعلق بقرارنا باستخدام "مجموعة الحقيقة" ، نعتقد أن المقارنة مع "المعيار الذهبي" المنتج بشكل مستقل هو استراتيجية قياس مرجعية قيمة.

لقد قمنا بتمديد القياس باستخدام WhatsHap.

تم ذلك باستخدام WhatsHap وأضيفت النتائج. كما أشرنا أعلاه ، فإن محاولتنا للاتصال بمؤلف hap.py لتحديد كيفية استخدامها لقياس التدرج لم تنجح للأسف.

لقد أضفنا الرقم المطلوب.

7) الأداء التحليلي

تم تقديم هذه البيانات في سياق المقارنة مع مجموعة مكالمات المرحلة الثالثة. تم تعديل النص. لقد قمنا أيضًا بإجراء مقارنة مع تحليل أولي لبيانات تغطية 30x جديدة تم إنتاجها بواسطة خطوط الأنابيب القياسية في مدينة نيويورك. بناءً على معيارنا ، فإن أداء مجموعة المكالمات لدينا أفضل قليلاً. نحن نتفق على أن التصفية لها تأثير هنا.

استخدم نهج الاتصال الخاص بنا بيانات التغطية المنخفضة وبيانات exome من الفترة من 2008 إلى 2012 تقريبًا لإجراء التنميط الجيني المشترك. نعتقد أنه ستكون هناك أسئلة حول صحة محاولة قياس نتائجنا بعينات هي في وقت واحد (1) ليست جزءًا من أحد مجموعاتنا السكانية ، (2) لها ارتباط مختلف بالعينات الأخرى في السكان ، و (3) لديها أنواع البيانات المختلفة المتاحة للاتصال المتغير. هذا يستثني عينات اشكنازي كمعيار مناسب. بالنسبة لعينات هان الصينية ، لم نتمكن من تحديد البيانات التي تتطابق مع ملف تعريف ذلك لعيناتنا. لقد قمنا بتحديث النص في محاولة لتحسين مناقشة القضايا المتعلقة بوضع المعايير.

هذا لم يستخدم الاتصال المشترك. تم تعديل النص لتوضيح ذلك.

أولاً ، نود أن نشكر المراجع على التعليقات التي تم تقديمها وعلى اهتمامه بهذا العمل.

في الملاحظات العامة ، يلاحظ المراجع أن مذكرة البيانات مقصورة على وصف لما تم القيام به ، دون مناقشة كبيرة للأسباب المنطقية وراء النهج. نلاحظ أن هذه مذكرة بيانات ، تهدف إلى وصف مجموعة البيانات وكيف تم إنتاجها ، ومع ذلك ، قمنا أيضًا بتعديل النص ليشمل المزيد من التفاصيل المتعلقة بالأساس المنطقي وراء نهجنا.

أيضًا ، في الملاحظات العامة ، يسلط المراجع الضوء على المشكلات المتعلقة بجودة البيانات: مجموعات النداءات الأخرى ، والقيود المفروضة على المقارنة مع NA12878 فقط والمراحل المعيارية. بينما توجد مجموعات مكالمات أخرى ، مثل TOPmed و gNOMAD ، تظل مجموعة بيانات 1000 Genomes Project فريدة من نوعها من حيث تكوينها للسكان ويمكن الوصول إلى جميع البيانات إلى مستوى الزوج الأساسي. فيما يتعلق بمجموعات الحقيقة الأخرى ، بخلاف NA12878 ، لم نتمكن من تحديد بيانات "المعيار الذهبي" لأي عينات أخرى في مجموعة البيانات الخاصة بنا. فيما يتعلق بالتدريج ، فقد استخدمنا برنامج WhatsHap لتقييم ذلك وأضفنا النتائج إلى المخطوطة.

فيما يتعلق بـ GRCh38 ، لم يكن هدفنا إظهار تفوق GRCh38 بل توفير مورد لأولئك الذين يرغبون في استخدام هذا التجميع. نعتقد أن فوائد التجميع قد أثبتتها شنايدر وآخرون.

لقد قمنا بتعديل النص لتوضيح أن الاستدعاء لم يتم على مواقع بديلة. تم تعديل النص أيضًا لوصف نية استخدام تنسيق ملاحظة البيانات لإصدار البيانات ووصفها مبكرًا ، بهدف إعادة النظر في العناصر غير المدرجة في هذه المجموعة.

فيما يتعلق بسلسلة الأدوات ، يعكس هذا حجم الحساب المتضمن في هذا العمل. وقد بدأ هذا العمل منذ حوالي عامين. تستغرق المرحلة الأخيرة من خط الأنابيب وحدها حوالي ستة أشهر للتشغيل ، حتى مع الوصول إلى موارد الحوسبة السخية.

تم تعديل النص ليشمل معلومات عن اختيار العتبة.

أما التفصيل في النقاط:

1) سلسلة الأدوات قديمة حقًا

تعكس إصدارات البرامج طول الوقت المطلوب لتشغيل هذا الحساب ، كما هو مذكور أعلاه.

2) إظهار التحسينات على GRCh38 ولماذا هي أفضل من المصعد

كما هو مذكور أعلاه ، لم يكن هدفنا إثبات أن GRCh38 كان التجميع الأفضل. نحن نعتبر أن هذا قد تم من قبل شنايدر وآخرون. لقد أضفنا مقارنة مع الرافعة.

3) التطبيع المتغير

لقد قمنا بتحديث النص ليشمل المزيد من المعلومات حول هذا الموضوع.

نلاحظ أنه تم نشر hap.py بعد تقديم هذا العمل. ومع ذلك ، لم نتمكن من أن نثبت من المخطوطة كيف يمكن استخدامها لتحسين المقارنة المعيارية الحالية. يشير الملخص الوارد في الشكل 1 (https://www.nature.com/articles/s41587-019-0054-x) إلى أنه يلف الأدوات للوصول إلى تمثيل متسق للمتغيرات (تم التعامل معه في خطوات التطبيع لخط الأنابيب لدينا في نقطة إنتاج مجموعة مكالمات الإجماع) ثم ينتج تقريرًا "موحدًا" ، يوفر مقاييس مماثلة لتلك التي نقدمها. من هذا ، يبدو أنه يوفر وظائف مماثلة للخطوات الموجودة بالفعل في عملنا. لم تنجح محاولتنا للاتصال بالمؤلفين للحصول على مزيد من المعلومات حول هذا الأمر.

فيما يتعلق بقرارنا باستخدام "مجموعة الحقيقة" ، نعتقد أن المقارنة مع "المعيار الذهبي" المنتج بشكل مستقل هو استراتيجية قياس مرجعية قيمة.

لقد قمنا بتمديد القياس باستخدام WhatsHap.

تم ذلك باستخدام WhatsHap وأضيفت النتائج. كما هو مذكور أعلاه ، فإن محاولتنا للاتصال بمؤلف hap.py لإثبات كيفية استخدامها لقياس التدرج لم تنجح للأسف.

لقد أضفنا الرقم المطلوب.

7) الأداء التحليلي

تم تقديم هذه البيانات في سياق المقارنة مع مجموعة مكالمات المرحلة الثالثة. تم تعديل النص. لقد قمنا أيضًا بإجراء مقارنة مع تحليل أولي لبيانات تغطية 30x جديدة تم إنتاجها بواسطة خطوط الأنابيب القياسية في مدينة نيويورك. بناءً على معيارنا ، فإن أداء مجموعة المكالمات لدينا أفضل قليلاً. نحن نتفق على أن التصفية لها تأثير هنا.

استخدم نهج الاتصال الخاص بنا بيانات التغطية المنخفضة وبيانات exome من الفترة من 2008 إلى 2012 تقريبًا لإجراء التنميط الجيني المشترك. نعتقد أنه ستكون هناك أسئلة حول صحة محاولة قياس نتائجنا بعينات هي في وقت واحد (1) ليست جزءًا من أحد مجموعاتنا السكانية ، (2) لها ارتباط مختلف بالعينات الأخرى في السكان ، و (3) لديها أنواع البيانات المختلفة المتاحة للاتصال المتغير. هذا يستثني عينات اشكنازي كمعيار مناسب. بالنسبة لعينات هان الصينية ، لم نتمكن من تحديد البيانات التي تتطابق مع ملف تعريف ذلك لعيناتنا. لقد قمنا بتحديث النص في محاولة لتحسين مناقشة القضايا المتعلقة بوضع المعايير.

هذا لم يستخدم الاتصال المشترك. تم تعديل النص لتوضيح ذلك.

أولاً ، نود أن نشكر المراجع على التعليقات التي تم تقديمها وعلى اهتمامه بهذا العمل.

في الملاحظات العامة يلاحظ المراجع أن. مواصلة القراءة أولاً ، نود أن نشكر المراجع على التعليقات التي تم تقديمها وعلى اهتمامه بهذا العمل.

في الملاحظات العامة ، يلاحظ المراجع أن مذكرة البيانات مقصورة على وصف لما تم القيام به ، دون مناقشة كبيرة للأسباب المنطقية وراء النهج. نلاحظ أن هذه مذكرة بيانات ، تهدف إلى وصف مجموعة البيانات وكيف تم إنتاجها ، ومع ذلك ، قمنا أيضًا بتعديل النص ليشمل المزيد من التفاصيل المتعلقة بالأساس المنطقي وراء نهجنا.

أيضًا ، في الملاحظات العامة ، يسلط المراجع الضوء على المشكلات المتعلقة بجودة البيانات: مجموعات النداءات الأخرى ، والقيود المفروضة على المقارنة مع NA12878 فقط ومراحل قياس الأداء. بينما توجد مجموعات مكالمات أخرى ، مثل TOPmed و gNOMAD ، تظل مجموعة بيانات 1000 Genomes Project فريدة من نوعها من حيث تكوينها للسكان ويمكن الوصول إلى جميع البيانات إلى مستوى الزوج الأساسي. فيما يتعلق بمجموعات الحقيقة الأخرى ، بخلاف NA12878 ، لم نتمكن من تحديد بيانات "المعيار الذهبي" لأي عينات أخرى في مجموعة البيانات الخاصة بنا. فيما يتعلق بالتدريج ، فقد استخدمنا برنامج WhatsHap لتقييم ذلك وأضفنا النتائج إلى المخطوطة.

فيما يتعلق بـ GRCh38 ، لم يكن هدفنا إظهار تفوق GRCh38 بل توفير مورد لأولئك الذين يرغبون في استخدام هذا التجميع. نعتقد أن فوائد التجميع قد أثبتتها شنايدر وآخرون.

لقد قمنا بتعديل النص لتوضيح أن الاستدعاء لم يتم على مواقع بديلة. تم تعديل النص أيضًا لوصف نية استخدام تنسيق ملاحظة البيانات لإصدار البيانات ووصفها مبكرًا ، بهدف إعادة النظر في العناصر غير المدرجة في هذه المجموعة.

فيما يتعلق بسلسلة الأدوات ، يعكس هذا حجم الحساب المتضمن في هذا العمل. وقد بدأ هذا العمل منذ حوالي عامين. تستغرق المرحلة الأخيرة من خط الأنابيب وحدها حوالي ستة أشهر للتشغيل ، حتى مع الوصول إلى موارد الحوسبة السخية.

تم تعديل النص ليشمل معلومات عن اختيار العتبة.

أما التفصيل في النقاط:

1) سلسلة الأدوات قديمة حقًا

تعكس إصدارات البرامج طول الوقت المطلوب لتشغيل هذا الحساب ، كما هو مذكور أعلاه.

2) إظهار التحسينات على GRCh38 ولماذا هي أفضل من المصعد

كما هو مذكور أعلاه ، لم يكن هدفنا إثبات أن GRCh38 كان التجميع الأفضل. نحن نعتبر أن هذا قد تم من قبل شنايدر وآخرون. لقد أضفنا مقارنة مع الرافعة.

3) التطبيع المتغير

لقد قمنا بتحديث النص ليشمل المزيد من المعلومات حول هذا الموضوع.

نلاحظ أنه تم نشر hap.py بعد تقديم هذا العمل. ومع ذلك ، لم نتمكن من أن نثبت من المخطوطة كيف يمكن استخدامها لتحسين المقارنة المعيارية الحالية. يشير الملخص الوارد في الشكل 1 (https://www.nature.com/articles/s41587-019-0054-x) إلى أنه يلف الأدوات للوصول إلى تمثيل متسق للمتغيرات (تم التعامل معه في خطوات التطبيع لخط الأنابيب لدينا في نقطة إنتاج مجموعة مكالمات الإجماع) ثم ينتج تقريرًا "موحدًا" ، يوفر مقاييس مماثلة لتلك التي نقدمها. من هذا ، يبدو أنه يوفر وظائف مماثلة للخطوات الموجودة بالفعل في عملنا. لم تنجح محاولتنا للاتصال بالمؤلفين للحصول على مزيد من المعلومات حول هذا الأمر.

فيما يتعلق بقرارنا باستخدام "مجموعة الحقيقة" ، نعتقد أن المقارنة مع "المعيار الذهبي" المنتج بشكل مستقل هو استراتيجية قياس مرجعية قيمة.

لقد قمنا بتمديد القياس باستخدام WhatsHap.

تم ذلك باستخدام WhatsHap وأضيفت النتائج. كما هو مذكور أعلاه ، فإن محاولتنا للاتصال بمؤلف hap.py لإثبات كيفية استخدامها لقياس التدرج لم تنجح للأسف.

لقد أضفنا الرقم المطلوب.

7) الأداء التحليلي

تم تقديم هذه البيانات في سياق المقارنة مع مجموعة مكالمات المرحلة الثالثة. تم تعديل النص. لقد قمنا أيضًا بإجراء مقارنة مع تحليل أولي لبيانات تغطية 30x جديدة تم إنتاجها بواسطة خطوط الأنابيب القياسية في مدينة نيويورك. بناءً على معيارنا ، فإن أداء مجموعة المكالمات لدينا أفضل قليلاً. نحن نتفق على أن التصفية لها تأثير هنا.

استخدم نهج الاتصال الخاص بنا بيانات التغطية المنخفضة وبيانات exome من الفترة من 2008 إلى 2012 تقريبًا لإجراء التنميط الجيني المشترك. نعتقد أنه ستكون هناك أسئلة حول صحة محاولة قياس نتائجنا مع عينات في نفس الوقت (1) ليست جزءًا من أحد مجموعاتنا السكانية ، (2) لها ارتباط مختلف بالعينات الأخرى في المجتمع ، و (3) لديها أنواع البيانات المختلفة المتاحة للاتصال المتغير. هذا يستثني عينات اشكنازي كمعيار مناسب. بالنسبة لعينات هان الصينية ، لم نتمكن من تحديد البيانات التي تتطابق مع ملف تعريف ذلك لعيناتنا. لقد قمنا بتحديث النص في محاولة لتحسين مناقشة القضايا المتعلقة بوضع المعايير.

هذا لم يستخدم الاتصال المشترك. تم تعديل النص لتوضيح ذلك.

أولاً ، نود أن نشكر المراجع على التعليقات التي تم تقديمها وعلى اهتمامه بهذا العمل.

في الملاحظات العامة ، يلاحظ المراجع أن مذكرة البيانات مقصورة على وصف لما تم القيام به ، دون مناقشة كبيرة للأسباب المنطقية وراء النهج. نلاحظ أن هذه مذكرة بيانات ، تهدف إلى وصف مجموعة البيانات وكيف تم إنتاجها ، ومع ذلك ، قمنا أيضًا بتعديل النص ليشمل المزيد من التفاصيل المتعلقة بالأساس المنطقي وراء نهجنا.

أيضًا ، في الملاحظات العامة ، يسلط المراجع الضوء على المشكلات المتعلقة بجودة البيانات: مجموعات النداءات الأخرى ، والقيود المفروضة على المقارنة مع NA12878 فقط والمراحل المعيارية. بينما توجد مجموعات مكالمات أخرى ، مثل TOPmed و gNOMAD ، تظل مجموعة بيانات 1000 Genomes Project فريدة من نوعها من حيث تكوينها للسكان ويمكن الوصول إلى جميع البيانات إلى مستوى الزوج الأساسي. فيما يتعلق بمجموعات الحقيقة الأخرى ، بخلاف NA12878 ، لم نتمكن من تحديد بيانات "المعيار الذهبي" لأي عينات أخرى في مجموعة البيانات الخاصة بنا. فيما يتعلق بالتدريج ، استخدمنا برنامج WhatsHap لتقييم ذلك وأضفنا النتائج إلى المخطوطة.

فيما يتعلق بـ GRCh38 ، لم يكن هدفنا إظهار تفوق GRCh38 بل توفير مورد لأولئك الذين يرغبون في استخدام هذا التجميع. نعتقد أن فوائد التجميع قد أثبتتها شنايدر وآخرون.

لقد قمنا بتعديل النص لتوضيح أن الاستدعاء لم يتم على مواقع بديلة. تم تعديل النص أيضًا لوصف نية استخدام تنسيق ملاحظة البيانات لإصدار البيانات ووصفها مبكرًا ، بهدف إعادة النظر في العناصر غير المدرجة في هذه المجموعة.

فيما يتعلق بسلسلة الأدوات ، يعكس هذا حجم الحساب المتضمن في هذا العمل. لقد بدأ هذا العمل منذ حوالي عامين. تستغرق المرحلة الأخيرة من خط الأنابيب وحدها حوالي ستة أشهر للتشغيل ، حتى مع الوصول إلى موارد الحوسبة السخية.

تم تعديل النص ليشمل معلومات عن اختيار العتبة.

أما التفصيل في النقاط:

1) سلسلة الأدوات قديمة حقًا

تعكس إصدارات البرامج طول الوقت المطلوب لتشغيل هذا الحساب ، كما هو مذكور أعلاه.

2) إظهار التحسينات على GRCh38 ولماذا هي أفضل من المصعد

كما هو مذكور أعلاه ، لم يكن هدفنا إثبات أن GRCh38 كان التجميع الأفضل. نحن نعتبر أن هذا قد تم من قبل شنايدر وآخرون. لقد أضفنا مقارنة مع الرافعة.

3) التطبيع المتغير

لقد قمنا بتحديث النص ليشمل المزيد من المعلومات حول هذا الموضوع.

نلاحظ أنه تم نشر hap.py بعد تقديم هذا العمل.ومع ذلك ، لم نتمكن من أن نثبت من المخطوطة كيف يمكن استخدامها لتحسين المقارنة المعيارية الحالية. يشير الملخص الوارد في الشكل 1 (https://www.nature.com/articles/s41587-019-0054-x) إلى أنه يلف الأدوات للوصول إلى تمثيل متسق للمتغيرات (تم التعامل معه في خطوات التطبيع لخط الأنابيب لدينا في نقطة إنتاج مجموعة مكالمات الإجماع) ثم ينتج تقريرًا "موحدًا" ، يوفر مقاييس مماثلة لتلك التي نقدمها. من هذا ، يبدو أنه يوفر وظائف مماثلة للخطوات الموجودة بالفعل في عملنا. لم تنجح محاولتنا للاتصال بالمؤلفين للحصول على مزيد من المعلومات حول هذا الأمر.

فيما يتعلق بقرارنا باستخدام "مجموعة الحقيقة" ، نعتقد أن المقارنة مع "المعيار الذهبي" المنتج بشكل مستقل هو استراتيجية قياس مرجعية قيمة.

لقد قمنا بتمديد القياس باستخدام WhatsHap.

تم ذلك باستخدام WhatsHap وأضيفت النتائج. كما هو مذكور أعلاه ، فإن محاولتنا للاتصال بمؤلف hap.py لإثبات كيفية استخدامها لقياس التدرج لم تنجح للأسف.

لقد أضفنا الرقم المطلوب.

7) الأداء التحليلي

تم تقديم هذه البيانات في سياق المقارنة مع مجموعة مكالمات المرحلة الثالثة. تم تعديل النص. لقد قمنا أيضًا بإجراء مقارنة مع تحليل أولي لبيانات تغطية 30x جديدة تم إنتاجها بواسطة خطوط الأنابيب القياسية في مدينة نيويورك. بناءً على معيارنا ، فإن أداء مجموعة المكالمات لدينا أفضل قليلاً. نحن نتفق على أن التصفية لها تأثير هنا.

استخدم نهج الاتصال الخاص بنا بيانات التغطية المنخفضة وبيانات exome من الفترة من 2008 إلى 2012 تقريبًا لإجراء التنميط الجيني المشترك. نعتقد أنه ستكون هناك أسئلة حول صحة محاولة قياس نتائجنا مع عينات في نفس الوقت (1) ليست جزءًا من أحد مجموعاتنا السكانية ، (2) لها ارتباط مختلف بالعينات الأخرى في المجتمع ، و (3) لديها أنواع البيانات المختلفة المتاحة للاتصال المتغير. هذا يستثني عينات اشكنازي كمعيار مناسب. بالنسبة لعينات هان الصينية ، لم نتمكن من تحديد البيانات التي تتطابق مع ملف تعريف ذلك لعيناتنا. لقد قمنا بتحديث النص في محاولة لتحسين مناقشة القضايا المتعلقة بوضع المعايير.

هذا لم يستخدم الاتصال المشترك. تم تعديل النص لتوضيح ذلك.

في العمل الذي يحمل عنوان 'Variant calling on the GRCh38 Assembly with data from stage 3 of the 1000 Genomes Project' ، Lowy-Gallego وآخرون. وصف جهودهم لإعادة تحليل بيانات الجينوم 1000 الحالية. أكمل القراءة

في العمل الذي يحمل عنوان 'Variant calling on the GRCh38 Assembly with data from stage three of the 1000 Genomes Project' ، Lowy-Gallego وآخرون. وصف جهودهم لإعادة تحليل بيانات 1000 جينوم على مجموعة GRCh38 الحالية. لا يقومون بإجراء تحليل متغير كامل ، ولكنهم يطلقون مجموعة من SNVs biallel كمجموعة استدعاء متغيرة أولية. يقارنون هذه المجموعة المتغيرة باستدعاءات متغير جينوم في زجاجة (GIAB) على العينة NA12878.

إنه لأمر رائع أن نرى جهودًا لتحديث مجموعات البيانات المهمة في مجموعة المراجع البشرية الحالية ، GRCh38. كما لاحظ المؤلفون ، يمثل مرجع GRCh38 تحسنًا كبيرًا عن مرجع GRCh37 ، لكن الافتقار إلى التعليق التوضيحي المستند إلى GRCh38 أعاق اعتماد هذا الإصدار من التجميع المرجعي. يواصل المؤلفون مناقشة سبب عدم كفاية الأساليب القائمة على "الارتقاء" ، الأمر الذي حفز هذا العمل. أوافق على أن الأساليب القائمة على "الرفع" غير كافية ، لكنني أجد النتائج المقدمة في هذه المخطوطة غير مقنعة فيما يتعلق بهذا التأكيد.

يقضي المؤلفون مساحة كبيرة في المقدمة في شرح كل من التحسينات في GRCh38 ، بما في ذلك إضافة مواقع بديلة ، ولكن بعد ذلك لم يبذلوا أي جهد في توضيح سبب أهميتها. بالإضافة إلى ذلك ، يقضي المؤلفون وقتًا في مناقشة سبب عدم كفاية الأساليب القائمة على "التحمل" ، لكنهم لا يقومون بإجراء مقارنات لإظهار سبب من جديد النهج هو تحسن.

بينما أعتقد أن هذا العمل مهم ، أشعر أن المؤلفين فشلوا في توضيح سبب القيام بذلك من جديد تحليل مرجع GRCh38 مهم.

1. شرح سبب وجود قيود على مناهج "الرفع": أنا أتفق مع العبارة القائلة بأن "الرفع" غير كافٍ. ومع ذلك ، فإن وصف هذا في الصفحة 1 غير واضح. العبارة 1 "أنها تعتمد على منطقة مكافئة موجودة في الجينوم الجديد ، لذلك يتم استبعاد التسلسل الجديد في التجميع المحسن بشكل فعال" يربك نقطتين. سيتم استبعاد المناطق الموجودة في التجميع القديم ولكن لن يتم استبعاد المناطق الجديدة من نهج "الرفع". بالإضافة إلى ذلك ، سيتم أيضًا حذف التسلسل الجديد في المرجع المحدث - لكن هاتين حالتين منفصلتين.
النقطة 2 ، التي تتعلق بمحاذاة اثنين ، تربك أيضًا العديد من القضايا. نعم - المحاذاة الصحيحة هي مفتاح نهج "الرفع" ، ولكن هناك حالتان "محاذاة سيئة". الحالة أنا فكر في تشير المخطوطة إلى حالة يمكن أن يؤدي فيها التنوع المتزايد في إصدار واحد من التجميع إلى إرباك المحاذاة (أي تغيير التسلسل). الحالة الأخرى ذات الصلة هي إضافة تسلسل متوازي إلى مجموعة واحدة مفقودة من الأخرى. يمكن أن يؤدي هذا إلى محاذاة موضع إلى منطقة غير منطقية بدلاً من الموضع المكافئ (لقد رأيت أمثلة على ذلك) ، مما قد يؤدي أيضًا إلى "رفع" غير صحيح. النقطة الثالثة في هذا البيان هي بيان واضح ، لكن المؤلفين لم يقدموا أي دليل يدعم ذلك بالفعل.

2. يقدم المؤلفون فقط النيوكلوتايد ثنائي النواة: يمكنني رؤية الأداة المساعدة في التركيز على مجموعة محدودة من المتغيرات ، ولكن فقط إذا تم استخدام هذه المجموعة من البيانات فعليًا لإثبات قيمة من جديد تحليل حول "رفع" ، وهو ما لم يتم في هذه المخطوطة. في الصفحة 3 ، ذكر المؤلفون أن & quot ؛ هذه تمثل الجزء الأكبر من SNVs الموجودة في الجينوم البشري. & quot ؛ لكني أرغب في الحصول على المزيد من الأرقام الصعبة على هذا. ما هي النسبة المئوية من جميع SNVs التي تمثلها biallelics؟ ما هي النسبة المئوية من جميع الاختلافات التي يمثلونها؟

3. الصفحة 3 ، مراقبة جودة ملفات المحاذاة: هل الخطوات المعروضة هنا هي مجرد اختلافات عن البروتوكول الأصلي؟ أعتقد أن هذا أمر جيد ، لكن ليس من الواضح من قراءة المخطوطة ما إذا كانت هذه هي المجموعة الكاملة من الخطوات أم مجرد الاختلافات.

4. اكتشاف متغير: لماذا استخدمت أدوات الاتصال المتنوعة التي اخترتها؟

5. التصفية المتغيرة: يبدو أن حذف المتغيرات من الكروموسومات الجنسية بمثابة إغفال كبير ويحد من استخدام مجموعة البيانات هذه.

6. التحقق من صحة مجموعة البيانات: لدي مخاوف كبيرة هنا. أفهم سبب استخدام NA12878 لبعض عمليات التحقق من الصحة. ومع ذلك ، ما أفهمه هو أن مجموعة بيانات GIAB لا تأخذ في الاعتبار المواقع البديلة في الاتصال المتغير ، بينما تحاول هذه المخطوطة الاستفادة من هذه التسلسلات - كيف أثر ذلك على المقارنة؟ على سبيل المثال ، أتوقع المزيد من النزاعات في المناطق التي توجد بها مواقع بديلة في GRCh38. هل هذا يحدث؟
كما أنني لست مقتنعًا بأن الدقة في NA12878 تترجم جيدًا حقًا إلى عينات أخرى ، لا سيما العينات غير الأوروبية (حيث أن NA12878 لها أصل أوروبي). هل ستمتد الدقة حقًا إلى العينات غير الأوروبية؟ أيضًا ، قراءتي للجدول 5 هي أن مجموعة البيانات هذه تؤدي أداءً أسوأ قليلاً من مجموعة مكالمات GRCh37. هذا لا يفعل الكثير لإقناع هذا القارئ بأن عمل إعادة التحليل يستحق العناء - وأنا مؤمن ، بناءً على عمل سابق كنت جزءًا منه! لدي بعض المخاوف من أن هذا قد يكون بسبب التحسينات في مجموعة المكالمات الجديدة (بسبب تضمين البدائل والفخ الأكثر تعقيدًا) ولكن الأمر يتطلب بعض العمل المهم لتعقب ذلك. هناك أمثلة على هذا النوع من التحليل 1. يجب على المؤلفين أيضًا تحديد جزء الجينوم الذي يمكنهم تقييمه باستخدام هذه الطريقة بوضوح.

7. التحليل المحذوف: يناقش المؤلفون قيمة المرجع المحسن في المقدمة ، لكنهم لا يفعلون شيئًا لإظهار قيمة الموقع البديل. كم عدد المتغيرات الجديدة التي تم تحديدها في هذه المواقع؟ كيف يؤدي تضمين هذه التسلسلات إلى تغيير المتغير الذي يستدعي الأساسي؟
ربما يكون الأمر الأكثر إحباطًا هو عدم وجود تحليل لكيفية عمل ملف من جديد هو تحسين على نهج "الرفع". كيف يفعل ال من جديد مكالمات متنوعة مقارنة بمكالمات "lift-over"؟ بدون هذا التحليل ، ليس من الواضح لي أن أي شخص سيكون مقتنعًا بأن القيام بـ من جديد نهج الاتصال يستحق كل هذا الجهد.
أخيرًا ، يفوت المؤلفون الفرصة لإجراء مقارنة دقة من خلال النظر في مناطق المرجع المكونة من الحيوانات المستنسخة "ABC". هذه مكتبات فوسميد شُيِّدت من عدة عينات دخلت في مشروع ألف جينوم. توفر هذه قاعدة اختبار رائعة لكل من البحث في المكالمات المتغيرة (يجب أن تكون أي مكالمة في هذه المنطقة متغايرة الزيجوت أو متفاوتة الزيجوت لأن التسلسل المرجعي يمثل نمطًا فرديًا صالحًا في العينة التي يتم تحليلها) ويسمح أيضًا بتأكيد تأكيدات النمط الفرداني المحلي.

هل الأساس المنطقي لإنشاء مجموعة (مجموعات) البيانات موصوف بوضوح؟

هل البروتوكولات مناسبة وهل العمل سليم فنيا؟

هل تم توفير تفاصيل كافية عن الأساليب والمواد للسماح للآخرين بتكرارها؟

هل مجموعات البيانات معروضة بوضوح في تنسيق قابل للاستخدام ويمكن الوصول إليه؟

1. Marks P و Garcia S و Barrio AM و Belhocine K وآخرون: حل الطيف الكامل لتنوع الجينوم البشري باستخدام Linked-Reads.الدقة الجينوم. 29 (4): 635-645 خلاصة PubMed | الناشر النص الكامل

المصالح المتنافسة: لم يتم الكشف عن المصالح المتنافسة.

خبرة المراجع: علم الجينوم ، تجميع الجينوم ، شرح الجينوم ، استدعاء متغير ، هندسة الجينوم.

أولاً ، نود أن نشكر المراجع على التعليقات التي تم تقديمها وعلى اهتمامه بهذا العمل.

نلاحظ أن التعليقات عالية المستوى قد تم تقسيمها. مواصلة القراءة أولاً ، نود أن نشكر المراجع على التعليقات التي تم تقديمها وعلى اهتمامه بهذا العمل.

نلاحظ أن التعليقات عالية المستوى مقسمة إلى نقاط مفصلة ومعالجتها بتعليقات مفصلة أدناه. لقد قمنا بتحديث المخطوطة بشكل إضافي في محاولة لتحسين الوضوح حيث تمت الإشارة إلى عدم وجودها. قدمنا ​​أيضًا المعلومات المطلوبة التي تقارن مجموعة المكالمات التي تم إنشاؤها بالرفع وقمنا بتضمين تحديثات أخرى متنوعة.

ردًا على التعليقات عالية المستوى ، والتي نفهم أنها تتعلق بشكل أساسي بـ أ) تحسينات GRCh38 على GRCh37 و ب) المقارنة بين من جديد دعوة مقابل رفع:

أ) لم يكن في نيتنا إثبات تفوق GRCh38 على GRCh37. نعتقد أن مركز الخليج للأبحاث ، ولا سيما في ورقة شنايدر وآخرون.، لقد أثبتوا ذلك بالفعل. قمنا بتضمين معلومات حول هذا لمعلومات القراء الذين قد لا يكونون على دراية بهذه القضايا. ومع ذلك ، فإننا نقبل أن هذا قد يعطي انطباعًا غير دقيق عن تركيز ملاحظة البيانات. على هذا النحو ، تم تعديل النص ، مما قلل من شرح تغييرات التجميع ، وبدلاً من ذلك ، تم الإشارة إلى الورقة بواسطة Schnieder وآخرون. كان هدفنا هو توفير مورد لأولئك الذين يرغبون في اعتماد الجمعية الجديدة ، وليس لعرض القضية حول سبب اعتماد GRCh38 ، والذي نعتقد أنه تم بالفعل في مكان آخر.
ب) ينصب تركيزنا على توفير الموارد للمجتمع. لإتاحة البيانات للمستخدمين في الوقت المناسب قدر الإمكان ، اخترنا استخدام تنسيق مذكرة البيانات للنشر. يركز هذا على وصف كيفية إنتاج البيانات ، مع التحقق من صحة مخرجات البيانات المدرجة في المعلومات للمؤلفين على أنها اختيارية. في ضوء التعليقات ، أجرينا مقارنة مع المصعد فوق المجموعة ونظرنا أيضًا على وجه التحديد في مناطق التجميع التي تم تحديثها بين المجموعتين. مزيد من التفاصيل أدناه.

1) شرح سبب وجود قيود لمقاربات "الإنقاذ":

يتعلق هذا بمجموعة من ثلاثة بيانات تتعلق بعدم كفاية عمليات الرفع.

بالنسبة للبيان الأول ، يلاحظ المراجع أن إزالة التسلسل عند الانتقال من GRCh37 إلى GRCh38 واكتساب التسلسل هما حالتان منفصلتان وأنه تم الخلط بينهما في العبارة "أنها تعتمد على منطقة مكافئة موجودة في الجينوم الجديد ، لذلك يتم استبعاد التسلسل الجديد في التجميع المحسن بشكل فعال ". نحن نقبل أن هذا يجمع بين جوانب متعددة من التغييرات بين التجميعين. لذلك ، تم تحديث نص البيان الأول للتركيز على النقطة المركزية التي سعينا إلى إجرائها: أن التعيين بين التجميعات ضروري قبل أن يتمكن المرء من رفع متغير معين وأن هذا ليس ممكنًا دائمًا (لأي واحد من عدد من الأسباب المحتملة). علاوة على ذلك ، أضفنا عدد السجلات التي لا يمكن رفعها في الملفات المعالجة dbSNP / EVA لإعطاء مؤشر ملموس لأعداد السجلات التي يحدث فيها ذلك.

بالنسبة للبيان الثاني ، كانت النقطة التي نرغب في توضيحها هي أنه حتى عندما يمكن رفع متغير ، فإن ذلك لا يتبع أن الدليل الذي يدعم تلك المكالمة في التجميع الأصلي سينتقل أيضًا إلى الموقع الجديد. تم تعديل النص في محاولة لتوضيح ذلك ، مستشهداً أيضًا بأدلة من شنايدر وآخرون. فيما يتعلق بالمحاذاة والانتقال من GRCh37 إلى GRCh38.

بالنسبة للبيان الثالث ، لوحظ أن هذا كان واضحًا ولكن لم يتم تقديم أي دليل لدعم التأكيد. في ضوء التغييرات الأخرى ، تم تعديل هذا النص للتركيز على حالة إضافة تسلسل جديد إلى التجميع والإشارة إلى أمثلة محددة موضحة كجزء من الشكل 1 ، والتي توضح الاختلافات في الرافعة و من جديد مجموعات النداء في أمثلة للمواقع ذات الصلة سريريًا ، والتي تم تحديثها بين التجميعين

2) يقدم المؤلفون فقط النيوكلوتايد ثنائي النواة:

تم تناول المقارنة المطلوبة مع الرافعة في الرد على النقطة السابعة. لقد أضفنا الأرقام المطلوبة المتعلقة بأي جزء من SNVs هو biallelic (99.6 ٪) وعدد SNVs بالنسبة إلى المتغيرات القصيرة الأخرى. لقد انتهزنا أيضًا الفرصة لتحديث مجموعة المكالمات لتشمل biallelic INDELs ، وهي فئة من المتغيرات التي لم يتم تضمينها مسبقًا. تظل المكالمات متعددة الأليلات غائبة عن المجموعة نظرًا لأن SHAPEIT غير قادر على التعامل مع مثل هذه المكالمات وستتطلب خطوط الأنابيب لدينا مزيدًا من التطوير. كانت استراتيجيتنا هي إصدار المكالمات في أقرب وقت ممكن وإعادة النظر في مجموعة البيانات وإضافة فئات إضافية من المتغيرات بشكل عملي. تم ذلك بهدف جعل البيانات مفيدة للكثيرين وبهدف إعادة النظر في مجموعة البيانات لتوسيعها على أنها مفيدة.

3) الصفحة 3 ، مراقبة جودة ملفات المحاذاة:

تم وصف جميع الخطوات المستخدمة في ملاحظة البيانات ، وليس فقط الاختلافات. تم تحديث النص في محاولة لتوضيح ذلك للقراء.

تم اختيار الأدوات بالتشاور مع أعضاء اتحاد 1000 Genomes Project Consortium. بينما كان هدفنا هو تلخيص تحليل GRCh37 الخاص بهم في التجميع الجديد ، لم يكن هذا ممكنًا نظرًا للعدد الكبير من المتصلين المستخدمين في المشروع الأصلي والحساب المصاحب والأساليب المعقدة نسبيًا المستخدمة في تصفية مجموعات المكالمات ودمجها ، والتي كانت على حد سواء حساب وعمالة كثيفة. أجبرنا هذا على النظر في استخدام مجموعة مخفضة من المتصلين ومنهجية مبسطة. لقد سعينا إلى التوصيات التي أخذت في الاعتبار أداء المتصلين في 1000 جينوم بيانات المرحلة الثالثة ، والتي على عكس معظم اللوحات الأخرى هي مزيج من التغطية المنخفضة والإكسوم مع تنوع جغرافي أكبر بشكل ملحوظ. بالإضافة إلى ذلك ، فإن أداء بعض المتصلين على مجموعة البيانات جعل استخدامها غير عملي.

تم تحديث النص لإعلام القراء بما ورد أعلاه.

كان القصد من ذلك أن يكون إصدارًا أوليًا للبيانات ، بهدف إعادة النظر وإضافة عناصر إضافية تتطلب مزيدًا من المعالجة. نظرًا لأن الكروموسومات الجنسية تتطلب تحليلًا إضافيًا ، لم يتم تضمينها في هذا الإصدار الأول. علاوة على ذلك ، نعتقد أن مجموعة البيانات لا تزال مفيدة لبعض المستخدمين في غيابهم. نتوقع إطلاق دعوات على الكروموسومات الجنسية GRCh38 في المستقبل.

6) التحقق من صحة مجموعة البيانات:

نحن نقر بأن معيار GIAB NA12878 غير مثالي. كما يلاحظ المراجع ، إنها عينة واحدة والاختلافات في إصدارات الجينوم المرجعي المستخدمة للمحاذاة (مع وبدون مواضع بديلة) من قبلنا ومن المتوقع أن يكون لـ GIAB تأثير على اكتشاف المتغير.

فيما يتعلق بالمواقع البديلة ، فإن إمكانية مقارنة مستوى التعارض مع المعيار في المناطق التي توجد بها مواقع بديلة وحيث لا يتم ذكرها. ومع ذلك ، نظرًا لأنه من المتوقع أيضًا أن يكون لوجود الموقع البديل بعض التأثير على الأقل عبر الجينوم (بغض النظر عن وجود مواقع بديلة في هذا الموقع المحدد) ، فإننا نشعر أنه من أجل تقييم التأثير الحقيقي موقع بديل في التحليل ، سيكون من الضروري تكرار التحليل ، باستخدام ، بدلاً من ذلك ، المحاذاة حيث لم يكن الموقع البديل موجودًا. نظرًا لأن مجموعة بياناتنا تعتمد أيضًا على التنميط الجيني المشترك ، فإن هذا يعني بشكل فعال إعادة تنظيم جميع البيانات وتكرار التحليل على جميع البيانات للإجابة على هذا السؤال. سيضيف حجم الحساب الكبير المتضمن في هذا وقتًا ونفقات كبيرة ، وبالتالي ، يجعل هذه المقارنة غير عملية. ومع ذلك ، سيكون من الضروري استنباط استنتاجات هادفة وسليمة حول تأثير الموقع البديل على تحليلنا.

يعرب المراجع أيضًا عن قلقه من أن الدقة مع NA12878 قد لا تنتقل إلى عينات أخرى ، خاصة تلك التي تنتمي إلى أصول غير أوروبية. نظرًا لانتشار البيانات من NA12878 ، قد يبدو من المعقول استنتاج أن طرق الاستدعاء يجب أن تعمل بشكل جيد ، وربما أعلى من المتوسط ​​، مع تلك العينة. ومع ذلك ، يحتوي NA12878 على بيانات مشابهة لتلك الخاصة بالعينات الأخرى في مجموعة البيانات الخاصة بنا. علاوة على ذلك ، تتكون مجموعة البيانات الخاصة بنا فقط من بيانات Illumina ، لذلك لا نتوقع ، على سبيل المثال ، اختلاف أنواع أخطاء التسلسل عبر العينات. في العمل الذي قام به الآخرون ، بمقارنة مجموعة الاستدعاءات الجديدة بـ 1000 جينوم المرحلة الثالثة ، نرى أن نتائجنا وتلك الخاصة بالمرحلة الثالثة تُظهر مستوى قويًا من الاتساق عبر العينات (Robinson and Glusman ، 2019 ، https: //www.biorxiv .org / content / 10.1101 / 600254v1) ، مع عدم وجود إشارة إلى أن NA12878 متجاوزة.

فيما يتعلق بمقارنتنا مع المرحلة الثالثة ، لم يكن في نيتنا محاولة التفوق في الأداء على المرحلة الثالثة ، بل عرض من جديد مجموعة استدعاء ذات جودة مماثلة على GRCh38. الأداة هي لأولئك الذين يرغبون في العمل مع GRCh38 والعمل مع من جديد مجموعة النداء التي تم إنشاؤها في هذا التجمع بما في ذلك مناطق GRCh38 الجديدة. يتم تقديم المقارنة مع المرحلة الثالثة لمساعدة المستخدمين في فهم كيفية مقارنة مجموعة مكالماتنا بالمرحلة الثالثة. تُظهر مجموعة المكالمات الخاصة بنا سلوكًا مشابهًا إلى حد كبير للمرحلة الثالثة ، مع توازن مختلف قليلاً من الحساسية والخصوصية. ومع ذلك ، نظرًا لأن المرحلة الثالثة تضمنت جهدًا تحليليًا أكبر بشكل كبير ، مما يجعل من المستحيل تكرار الموارد ، فربما لا يكون من المستغرب أن تشهد المرحلة الثالثة عائدًا أعلى. بدوره ، ينعكس هذا في الرفع ولكن مع وجود اختلافات جوهرية تظهر في مناطق جديدة حيث من جديد تكتشف مجموعة الاتصال المتغيرات الغائبة في الرفع.

بينما نعترف بقيود معيار GIAB الذي استخدمناه ، لم نجد بدائل أفضل. لقياس بياناتنا بشكل فعال ، استنادًا إلى التنميط الجيني المشترك ، كنا بحاجة إلى بيانات "المعيار الذهبي" للعينات في مجموعة البيانات الخاصة بنا. بالنسبة للمتغيرات القصيرة ، كانت مجموعة البيانات الوحيدة التي تمكنا من تحديد موقعها هي GIAB NA12878. بدائل الفحص اليدوي للبيانات أو أنواع البيانات البديلة ، مثل قراءات PacBio التي يتم تقييمها من قبلنا ، لها أيضًا قيود وتفقد الفوائد المكتسبة من مجموعة بيانات "المعيار الذهبي" المستقلة التي أنشأتها مجموعة أخرى.

تم تحديث النص في محاولة ليعكس بشكل أفضل ما ورد أعلاه.

تم استخدام الموقع البديل في محاذاة القراءات لضمان أفضل تعيين قراءة ممكن ولكن لم يتم استدعاء المتغيرات في هذه المواقع. تم تعديل النص لتوضيح ذلك. هذا في جزء كبير منه بسبب عدم وجود بروتوكولات لاستدعاء الموقع البديل بنجاح. المعلومات الوحيدة التي قدمها مطورو برامج الاتصال والتي نعلم بوجودها فيما يتعلق بهذا البرنامج هي برنامج تعليمي تجريبي من GATK (https://software.broadinstitute.org/gatk/documentation/article.php؟id=8017). نظرًا لعدم وجود أدوات وبروتوكولات للاتصال بثقة بالمواقع البديلة ، لم يتم إجراء مكالمات في تلك المواقع.

لقد قمنا بتوسيع نطاق عملنا المعياري ليشمل مجموعة بيانات الزيادة في المقارنة. لقد نظرنا أيضًا على وجه التحديد في مناطق جديدة من GRCh38. تم تضمين هذه في النص المنقح.

الاقتراح المتعلق باستنساخ fosmid مثير للاهتمام وسيوفر مزيدًا من التحقق من الصحة. ومع ذلك ، نلاحظ أن هذه مذكرة بيانات ، تقدمها المجلة كوسيلة لوصف إنتاج مجموعة بيانات ، حيث توصف المقارنة المعيارية بأنها اختيارية. تغطي مقاييسنا الحالية الجينوم على نطاق أوسع ، وبالتالي ، يجب أن تعطي بالفعل مؤشرًا أفضل لأداء الجينوم المتصل لدينا على نطاق واسع. علاوة على ذلك ، أضفنا قياس الأداء على مراحل باستخدام WhatsHap.

أولاً ، نود أن نشكر المراجع على التعليقات التي تم تقديمها وعلى اهتمامه بهذا العمل.

نلاحظ أن التعليقات عالية المستوى مقسمة إلى نقاط مفصلة ومعالجتها بتعليقات مفصلة أدناه. لقد قمنا بتحديث المخطوطة بشكل إضافي في محاولة لتحسين الوضوح حيث تمت الإشارة إلى عدم وجودها. قدمنا ​​أيضًا المعلومات المطلوبة التي تقارن مجموعة المكالمات التي تم إنشاؤها بالرفع وقمنا بتضمين تحديثات أخرى متنوعة.

ردًا على التعليقات عالية المستوى ، والتي نفهم أنها تتعلق بشكل أساسي بـ أ) تحسينات GRCh38 على GRCh37 و ب) المقارنة بين من جديد دعوة مقابل رفع:

أ) لم يكن في نيتنا إثبات تفوق GRCh38 على GRCh37. نعتقد أن مركز الخليج للأبحاث ، ولا سيما في ورقة شنايدر وآخرون.، لقد أثبتوا ذلك بالفعل. قمنا بتضمين معلومات حول هذا لمعلومات القراء الذين قد لا يكونون على دراية بهذه القضايا. ومع ذلك ، فإننا نقبل أن هذا قد يعطي انطباعًا غير دقيق عن تركيز ملاحظة البيانات. على هذا النحو ، تم تعديل النص ، مما قلل من شرح تغييرات التجميع ، وبدلاً من ذلك ، تم الإشارة إلى الورقة بواسطة Schnieder وآخرون. كان هدفنا هو توفير مورد لأولئك الذين يرغبون في اعتماد الجمعية الجديدة ، وليس لعرض القضية حول سبب اعتماد GRCh38 ، والذي نعتقد أنه تم بالفعل في مكان آخر.
ب) ينصب تركيزنا على توفير الموارد للمجتمع. لإتاحة البيانات للمستخدمين في الوقت المناسب قدر الإمكان ، اخترنا استخدام تنسيق مذكرة البيانات للنشر. يركز هذا على وصف كيفية إنتاج البيانات ، مع التحقق من صحة مخرجات البيانات المدرجة في المعلومات للمؤلفين على أنها اختيارية. في ضوء التعليقات ، أجرينا مقارنة مع المصعد فوق المجموعة ونظرنا أيضًا على وجه التحديد في مناطق التجميع التي تم تحديثها بين المجموعتين. مزيد من التفاصيل أدناه.

1) شرح سبب وجود قيود لمقاربات "الإنقاذ":

يتعلق هذا بمجموعة من ثلاثة بيانات تتعلق بعدم كفاية عمليات الرفع.

بالنسبة للبيان الأول ، يلاحظ المراجع أن إزالة التسلسل عند الانتقال من GRCh37 إلى GRCh38 واكتساب التسلسل هما حالتان منفصلتان وأنه تم الخلط بينهما في العبارة "أنها تعتمد على منطقة مكافئة موجودة في الجينوم الجديد ، لذلك يتم استبعاد التسلسل الجديد في التجميع المحسن بشكل فعال ". نحن نقبل أن هذا يجمع بين جوانب متعددة من التغييرات بين التجميعين. لذلك ، تم تحديث نص البيان الأول للتركيز على النقطة المركزية التي سعينا إلى إجرائها: أن التعيين بين التجميعات ضروري قبل أن يتمكن المرء من رفع متغير معين وأن هذا ليس ممكنًا دائمًا (لأي واحد من عدد من الأسباب المحتملة). علاوة على ذلك ، أضفنا عدد السجلات التي لا يمكن رفعها في الملفات المعالجة dbSNP / EVA لإعطاء مؤشر ملموس لأعداد السجلات التي يحدث فيها ذلك.

بالنسبة للبيان الثاني ، كانت النقطة التي نرغب في توضيحها هي أنه حتى عندما يمكن رفع متغير ، فإن ذلك لا يتبع أن الدليل الذي يدعم تلك المكالمة في التجميع الأصلي سينتقل أيضًا إلى الموقع الجديد. تم تعديل النص في محاولة لتوضيح ذلك ، مستشهداً أيضًا بأدلة من شنايدر وآخرون. فيما يتعلق بالمحاذاة والانتقال من GRCh37 إلى GRCh38.

بالنسبة للبيان الثالث ، لوحظ أن هذا كان واضحًا ولكن لم يتم تقديم أي دليل لدعم التأكيد. في ضوء التغييرات الأخرى ، تم تعديل هذا النص للتركيز على حالة إضافة تسلسل جديد إلى التجميع والإشارة إلى أمثلة محددة موضحة كجزء من الشكل 1 ، والتي توضح الاختلافات في الرافعة و من جديد مجموعات النداء في أمثلة للمواقع ذات الصلة سريريًا ، والتي تم تحديثها بين التجميعين

2) يقدم المؤلفون فقط النيوكلوتايد ثنائي النواة:

تم تناول المقارنة المطلوبة مع الرافعة في الرد على النقطة السابعة. لقد أضفنا الأرقام المطلوبة المتعلقة بأي جزء من SNVs هو biallelic (99.6 ٪) وعدد SNVs بالنسبة إلى المتغيرات القصيرة الأخرى. لقد انتهزنا أيضًا الفرصة لتحديث مجموعة المكالمات لتشمل biallelic INDELs ، وهي فئة من المتغيرات التي لم يتم تضمينها مسبقًا. تظل المكالمات متعددة الأليلات غائبة عن المجموعة نظرًا لأن SHAPEIT غير قادر على التعامل مع مثل هذه المكالمات وستتطلب خطوط الأنابيب لدينا مزيدًا من التطوير. كانت استراتيجيتنا هي إصدار المكالمات في أقرب وقت ممكن وإعادة النظر في مجموعة البيانات وإضافة فئات إضافية من المتغيرات بشكل عملي. تم ذلك بهدف جعل البيانات مفيدة للكثيرين وبهدف إعادة النظر في مجموعة البيانات لتوسيعها على أنها مفيدة.

3) الصفحة 3 ، مراقبة جودة ملفات المحاذاة:

تم وصف جميع الخطوات المستخدمة في ملاحظة البيانات ، وليس فقط الاختلافات. تم تحديث النص في محاولة لتوضيح ذلك للقراء.

تم اختيار الأدوات بالتشاور مع أعضاء اتحاد 1000 Genomes Project Consortium. بينما كان هدفنا هو تلخيص تحليل GRCh37 الخاص بهم في التجميع الجديد ، لم يكن هذا ممكنًا نظرًا للعدد الكبير من المتصلين المستخدمين في المشروع الأصلي والحساب المصاحب والأساليب المعقدة نسبيًا المستخدمة في تصفية مجموعات المكالمات ودمجها ، والتي كانت على حد سواء حساب وعمالة كثيفة. أجبرنا هذا على النظر في استخدام مجموعة مخفضة من المتصلين ومنهجية مبسطة. لقد سعينا إلى التوصيات التي أخذت في الاعتبار أداء المتصلين في 1000 جينوم بيانات المرحلة الثالثة ، والتي على عكس معظم اللوحات الأخرى هي مزيج من التغطية المنخفضة والإكسوم مع تنوع جغرافي أكبر بشكل ملحوظ. بالإضافة إلى ذلك ، فإن أداء بعض المتصلين على مجموعة البيانات جعل استخدامها غير عملي.

تم تحديث النص لإعلام القراء بما ورد أعلاه.

كان القصد من ذلك أن يكون إصدارًا أوليًا للبيانات ، بهدف إعادة النظر وإضافة عناصر إضافية تتطلب مزيدًا من المعالجة. نظرًا لأن الكروموسومات الجنسية تتطلب تحليلًا إضافيًا ، لم يتم تضمينها في هذا الإصدار الأول. علاوة على ذلك ، نعتقد أن مجموعة البيانات لا تزال مفيدة لبعض المستخدمين في غيابهم. نتوقع إطلاق دعوات على الكروموسومات الجنسية GRCh38 في المستقبل.

6) التحقق من صحة مجموعة البيانات:

نحن نقر بأن معيار GIAB NA12878 غير مثالي. كما يلاحظ المراجع ، إنها عينة واحدة والاختلافات في إصدارات الجينوم المرجعي المستخدمة للمحاذاة (مع وبدون مواضع بديلة) من قبلنا ومن المتوقع أن يكون لـ GIAB تأثير على اكتشاف المتغير.

فيما يتعلق بالمواقع البديلة ، فإن إمكانية مقارنة مستوى التعارض مع المعيار في المناطق التي توجد بها مواقع بديلة وحيث لا يتم ذكرها. ومع ذلك ، نظرًا لأنه من المتوقع أيضًا أن يكون لوجود الموقع البديل بعض التأثير على الأقل عبر الجينوم (بغض النظر عن وجود مواقع بديلة في هذا الموقع المحدد) ، فإننا نشعر أنه من أجل تقييم التأثير الحقيقي موقع بديل في التحليل ، سيكون من الضروري تكرار التحليل ، باستخدام ، بدلاً من ذلك ، المحاذاة حيث لم يكن الموقع البديل موجودًا. نظرًا لأن مجموعة بياناتنا تعتمد أيضًا على التنميط الجيني المشترك ، فإن هذا يعني بشكل فعال إعادة تنظيم جميع البيانات وتكرار التحليل على جميع البيانات للإجابة على هذا السؤال. سيضيف حجم الحساب الكبير المتضمن في هذا وقتًا ونفقات كبيرة ، وبالتالي ، يجعل هذه المقارنة غير عملية. ومع ذلك ، سيكون من الضروري استنباط استنتاجات هادفة وسليمة حول تأثير الموقع البديل على تحليلنا.

يعرب المراجع أيضًا عن قلقه من أن الدقة مع NA12878 قد لا تنتقل إلى عينات أخرى ، خاصة تلك التي تنتمي إلى أصول غير أوروبية. نظرًا لانتشار البيانات من NA12878 ، قد يبدو من المعقول استنتاج أن طرق الاستدعاء يجب أن تعمل بشكل جيد ، وربما أعلى من المتوسط ​​، مع تلك العينة. ومع ذلك ، يحتوي NA12878 على بيانات مشابهة لتلك الخاصة بالعينات الأخرى في مجموعة البيانات الخاصة بنا. علاوة على ذلك ، تتكون مجموعة البيانات الخاصة بنا فقط من بيانات Illumina ، لذلك لا نتوقع ، على سبيل المثال ، اختلاف أنواع أخطاء التسلسل عبر العينات. في العمل الذي قام به الآخرون ، بمقارنة مجموعة الاستدعاءات الجديدة بـ 1000 جينوم المرحلة الثالثة ، نرى أن نتائجنا وتلك الخاصة بالمرحلة الثالثة تُظهر مستوى قويًا من الاتساق عبر العينات (Robinson and Glusman ، 2019 ، https: //www.biorxiv .org / content / 10.1101 / 600254v1) ، مع عدم وجود إشارة إلى أن NA12878 متجاوزة.

فيما يتعلق بمقارنتنا مع المرحلة الثالثة ، لم يكن في نيتنا محاولة التفوق في الأداء على المرحلة الثالثة ، بل عرض من جديد مجموعة استدعاء ذات جودة مماثلة على GRCh38. الأداة هي لأولئك الذين يرغبون في العمل مع GRCh38 والعمل مع من جديد مجموعة النداء التي تم إنشاؤها في هذا التجمع بما في ذلك مناطق GRCh38 الجديدة. يتم تقديم المقارنة مع المرحلة الثالثة لمساعدة المستخدمين في فهم كيفية مقارنة مجموعة مكالماتنا بالمرحلة الثالثة. تُظهر مجموعة المكالمات الخاصة بنا سلوكًا مشابهًا إلى حد كبير للمرحلة الثالثة ، مع توازن مختلف قليلاً من الحساسية والخصوصية. ومع ذلك ، نظرًا لأن المرحلة الثالثة تضمنت جهدًا تحليليًا أكبر بشكل كبير ، مما يجعل من المستحيل تكرار الموارد ، فربما لا يكون من المستغرب أن تشهد المرحلة الثالثة عائدًا أعلى. بدوره ، ينعكس هذا في الرفع ولكن مع وجود اختلافات جوهرية تظهر في مناطق جديدة حيث من جديد تكتشف مجموعة الاتصال المتغيرات الغائبة في الرفع.

بينما نعترف بقيود معيار GIAB الذي استخدمناه ، لم نجد بدائل أفضل. لقياس بياناتنا بشكل فعال ، استنادًا إلى التنميط الجيني المشترك ، كنا بحاجة إلى بيانات "المعيار الذهبي" للعينات في مجموعة البيانات الخاصة بنا. بالنسبة للمتغيرات القصيرة ، كانت مجموعة البيانات الوحيدة التي تمكنا من تحديد موقعها هي GIAB NA12878. بدائل الفحص اليدوي للبيانات أو أنواع البيانات البديلة ، مثل قراءات PacBio التي يتم تقييمها من قبلنا ، لها أيضًا قيود وتفقد الفوائد المكتسبة من مجموعة بيانات "المعيار الذهبي" المستقلة التي أنشأتها مجموعة أخرى.

تم تحديث النص في محاولة ليعكس بشكل أفضل ما ورد أعلاه.

تم استخدام الموقع البديل في محاذاة القراءات لضمان أفضل تعيين قراءة ممكن ولكن لم يتم استدعاء المتغيرات في هذه المواقع. تم تعديل النص لتوضيح ذلك. هذا في جزء كبير منه بسبب عدم وجود بروتوكولات لاستدعاء الموقع البديل بنجاح. المعلومات الوحيدة التي قدمها مطورو برامج الاتصال والتي نعلم بوجودها فيما يتعلق بهذا البرنامج هي برنامج تعليمي تجريبي من GATK (https://software.broadinstitute.org/gatk/documentation/article.php؟id=8017). نظرًا لعدم وجود أدوات وبروتوكولات للاتصال بثقة بالمواقع البديلة ، لم يتم إجراء مكالمات في تلك المواقع.

لقد قمنا بتوسيع نطاق عملنا المعياري ليشمل مجموعة بيانات الزيادة في المقارنة. لقد نظرنا أيضًا على وجه التحديد في مناطق جديدة من GRCh38. تم تضمين هذه في النص المنقح.

الاقتراح المتعلق باستنساخ fosmid مثير للاهتمام وسيوفر مزيدًا من التحقق من الصحة. ومع ذلك ، نلاحظ أن هذه مذكرة بيانات ، تقدمها المجلة كوسيلة لوصف إنتاج مجموعة بيانات ، حيث توصف المقارنة المعيارية بأنها اختيارية. تغطي مقاييسنا الحالية الجينوم على نطاق أوسع ، وبالتالي ، يجب أن تعطي بالفعل مؤشرًا أفضل لأداء الجينوم المتصل لدينا على نطاق واسع. علاوة على ذلك ، أضفنا قياس الأداء على مراحل باستخدام WhatsHap.

أولاً ، نود أن نشكر المراجع على التعليقات التي تم تقديمها وعلى اهتمامه بهذا العمل.

نلاحظ أن التعليقات عالية المستوى قد تم تقسيمها. مواصلة القراءة أولاً ، نود أن نشكر المراجع على التعليقات التي تم تقديمها وعلى اهتمامه بهذا العمل.

نلاحظ أن التعليقات عالية المستوى مقسمة إلى نقاط مفصلة ومعالجتها بتعليقات مفصلة أدناه. لقد قمنا بتحديث المخطوطة بشكل إضافي في محاولة لتحسين الوضوح حيث تمت الإشارة إلى عدم وجودها. قدمنا ​​أيضًا المعلومات المطلوبة التي تقارن مجموعة المكالمات التي تم إنشاؤها بالرفع وقمنا بتضمين تحديثات أخرى متنوعة.

ردًا على التعليقات عالية المستوى ، والتي نفهم أنها تتعلق بشكل أساسي بـ أ) تحسينات GRCh38 على GRCh37 و ب) المقارنة بين من جديد دعوة مقابل رفع:

أ) لم يكن في نيتنا إثبات تفوق GRCh38 على GRCh37. نعتقد أن مركز الخليج للأبحاث ، ولا سيما في ورقة شنايدر وآخرون.، لقد أثبتوا ذلك بالفعل. قمنا بتضمين معلومات حول هذا لمعلومات القراء الذين قد لا يكونون على دراية بهذه القضايا. ومع ذلك ، فإننا نقبل أن هذا قد يعطي انطباعًا غير دقيق عن تركيز ملاحظة البيانات. على هذا النحو ، تم تعديل النص ، مما قلل من شرح تغييرات التجميع ، وبدلاً من ذلك ، تم الإشارة إلى الورقة بواسطة Schnieder وآخرون. كان هدفنا هو توفير مورد لأولئك الذين يرغبون في اعتماد الجمعية الجديدة ، وليس لعرض القضية حول سبب اعتماد GRCh38 ، والذي نعتقد أنه تم بالفعل في مكان آخر.
ب) ينصب تركيزنا على توفير الموارد للمجتمع. لإتاحة البيانات للمستخدمين في الوقت المناسب قدر الإمكان ، اخترنا استخدام تنسيق مذكرة البيانات للنشر. يركز هذا على وصف كيفية إنتاج البيانات ، مع التحقق من صحة مخرجات البيانات المدرجة في المعلومات للمؤلفين على أنها اختيارية. في ضوء التعليقات ، أجرينا مقارنة مع المصعد فوق المجموعة ونظرنا أيضًا على وجه التحديد في مناطق التجميع التي تم تحديثها بين المجموعتين. مزيد من التفاصيل أدناه.

1) شرح سبب وجود قيود لمقاربات "الإنقاذ":

يتعلق هذا بمجموعة من ثلاثة بيانات تتعلق بعدم كفاية عمليات الرفع.

بالنسبة للبيان الأول ، يلاحظ المراجع أن إزالة التسلسل عند الانتقال من GRCh37 إلى GRCh38 واكتساب التسلسل هما حالتان منفصلتان وأنه تم الخلط بينهما في العبارة "أنها تعتمد على منطقة مكافئة موجودة في الجينوم الجديد ، لذلك يتم استبعاد التسلسل الجديد في التجميع المحسن بشكل فعال ". نحن نقبل أن هذا يجمع بين جوانب متعددة من التغييرات بين التجميعين. لذلك ، تم تحديث نص البيان الأول للتركيز على النقطة المركزية التي سعينا إلى إجرائها: أن التعيين بين التجميعات ضروري قبل أن يتمكن المرء من رفع متغير معين وأن هذا ليس ممكنًا دائمًا (لأي واحد من عدد من الأسباب المحتملة). علاوة على ذلك ، أضفنا عدد السجلات التي لا يمكن رفعها في الملفات المعالجة dbSNP / EVA لإعطاء مؤشر ملموس لأعداد السجلات التي يحدث فيها ذلك.

بالنسبة للبيان الثاني ، كانت النقطة التي نرغب في توضيحها هي أنه حتى عندما يمكن رفع متغير ، فإن ذلك لا يتبع أن الدليل الذي يدعم تلك المكالمة في التجميع الأصلي سينتقل أيضًا إلى الموقع الجديد. تم تعديل النص في محاولة لتوضيح ذلك ، مستشهداً أيضًا بأدلة من شنايدر وآخرون. فيما يتعلق بالمحاذاة والانتقال من GRCh37 إلى GRCh38.

بالنسبة للبيان الثالث ، لوحظ أن هذا كان واضحًا ولكن لم يتم تقديم أي دليل لدعم التأكيد. في ضوء التغييرات الأخرى ، تم تعديل هذا النص للتركيز على حالة إضافة تسلسل جديد إلى التجميع والإشارة إلى أمثلة محددة موضحة كجزء من الشكل 1 ، والتي توضح الاختلافات في الرافعة و من جديد مجموعات النداء في أمثلة للمواقع ذات الصلة سريريًا ، والتي تم تحديثها بين التجميعين

2) يقدم المؤلفون فقط النيوكلوتايد ثنائي النواة:

تم تناول المقارنة المطلوبة مع الرافعة في الرد على النقطة السابعة. لقد أضفنا الأرقام المطلوبة المتعلقة بأي جزء من SNVs هو biallelic (99.6 ٪) وعدد SNVs بالنسبة إلى المتغيرات القصيرة الأخرى. لقد انتهزنا أيضًا الفرصة لتحديث مجموعة المكالمات لتشمل biallelic INDELs ، وهي فئة من المتغيرات التي لم يتم تضمينها مسبقًا. تظل المكالمات متعددة الأليلات غائبة عن المجموعة نظرًا لأن SHAPEIT غير قادر على التعامل مع مثل هذه المكالمات وستتطلب خطوط الأنابيب لدينا مزيدًا من التطوير. كانت استراتيجيتنا هي إصدار المكالمات في أقرب وقت ممكن وإعادة النظر في مجموعة البيانات وإضافة فئات إضافية من المتغيرات بشكل عملي. تم ذلك بهدف جعل البيانات مفيدة للكثيرين وبهدف إعادة النظر في مجموعة البيانات لتوسيعها على أنها مفيدة.

3) الصفحة 3 ، مراقبة جودة ملفات المحاذاة:

تم وصف جميع الخطوات المستخدمة في ملاحظة البيانات ، وليس فقط الاختلافات. تم تحديث النص في محاولة لتوضيح ذلك للقراء.

تم اختيار الأدوات بالتشاور مع أعضاء اتحاد 1000 Genomes Project Consortium. بينما كان هدفنا هو تلخيص تحليل GRCh37 الخاص بهم في التجميع الجديد ، لم يكن هذا ممكنًا نظرًا للعدد الكبير من المتصلين المستخدمين في المشروع الأصلي والحساب المصاحب والأساليب المعقدة نسبيًا المستخدمة في تصفية مجموعات المكالمات ودمجها ، والتي كانت على حد سواء حساب وعمالة كثيفة. أجبرنا هذا على النظر في استخدام مجموعة مخفضة من المتصلين ومنهجية مبسطة. لقد سعينا إلى التوصيات التي أخذت في الاعتبار أداء المتصلين في 1000 جينوم بيانات المرحلة الثالثة ، والتي على عكس معظم اللوحات الأخرى هي مزيج من التغطية المنخفضة والإكسوم مع تنوع جغرافي أكبر بشكل ملحوظ.بالإضافة إلى ذلك ، فإن أداء بعض المتصلين على مجموعة البيانات جعل استخدامها غير عملي.

تم تحديث النص لإعلام القراء بما ورد أعلاه.

كان القصد من ذلك أن يكون إصدارًا أوليًا للبيانات ، بهدف إعادة النظر وإضافة عناصر إضافية تتطلب مزيدًا من المعالجة. نظرًا لأن الكروموسومات الجنسية تتطلب تحليلًا إضافيًا ، لم يتم تضمينها في هذا الإصدار الأول. علاوة على ذلك ، نعتقد أن مجموعة البيانات لا تزال مفيدة لبعض المستخدمين في غيابهم. نتوقع إطلاق دعوات على الكروموسومات الجنسية GRCh38 في المستقبل.

6) التحقق من صحة مجموعة البيانات:

نحن نقر بأن معيار GIAB NA12878 غير مثالي. كما يلاحظ المراجع ، إنها عينة واحدة والاختلافات في إصدارات الجينوم المرجعي المستخدمة للمحاذاة (مع وبدون مواضع بديلة) من قبلنا ومن المتوقع أن يكون لـ GIAB تأثير على اكتشاف المتغير.

فيما يتعلق بالمواقع البديلة ، فإن إمكانية مقارنة مستوى التعارض مع المعيار في المناطق التي توجد بها مواقع بديلة وحيث لا يتم ذكرها. ومع ذلك ، نظرًا لأنه من المتوقع أيضًا أن يكون لوجود الموقع البديل بعض التأثير على الأقل عبر الجينوم (بغض النظر عن وجود مواقع بديلة في هذا الموقع المحدد) ، فإننا نشعر أنه من أجل تقييم التأثير الحقيقي موقع بديل في التحليل ، سيكون من الضروري تكرار التحليل ، باستخدام ، بدلاً من ذلك ، المحاذاة حيث لم يكن الموقع البديل موجودًا. نظرًا لأن مجموعة بياناتنا تعتمد أيضًا على التنميط الجيني المشترك ، فإن هذا يعني بشكل فعال إعادة تنظيم جميع البيانات وتكرار التحليل على جميع البيانات للإجابة على هذا السؤال. سيضيف حجم الحساب الكبير المتضمن في هذا وقتًا ونفقات كبيرة ، وبالتالي ، يجعل هذه المقارنة غير عملية. ومع ذلك ، سيكون من الضروري استنباط استنتاجات هادفة وسليمة حول تأثير الموقع البديل على تحليلنا.

يعرب المراجع أيضًا عن قلقه من أن الدقة مع NA12878 قد لا تنتقل إلى عينات أخرى ، خاصة تلك التي تنتمي إلى أصول غير أوروبية. نظرًا لانتشار البيانات من NA12878 ، قد يبدو من المعقول استنتاج أن طرق الاستدعاء يجب أن تعمل بشكل جيد ، وربما أعلى من المتوسط ​​، مع تلك العينة. ومع ذلك ، يحتوي NA12878 على بيانات مشابهة لتلك الخاصة بالعينات الأخرى في مجموعة البيانات الخاصة بنا. علاوة على ذلك ، تتكون مجموعة البيانات الخاصة بنا فقط من بيانات Illumina ، لذلك لا نتوقع ، على سبيل المثال ، اختلاف أنواع أخطاء التسلسل عبر العينات. في العمل الذي قام به الآخرون ، بمقارنة مجموعة الاستدعاءات الجديدة بـ 1000 جينوم المرحلة الثالثة ، نرى أن نتائجنا وتلك الخاصة بالمرحلة الثالثة تُظهر مستوى قويًا من الاتساق عبر العينات (Robinson and Glusman ، 2019 ، https: //www.biorxiv .org / content / 10.1101 / 600254v1) ، مع عدم وجود إشارة إلى أن NA12878 متجاوزة.

فيما يتعلق بمقارنتنا مع المرحلة الثالثة ، لم يكن في نيتنا محاولة التفوق في الأداء على المرحلة الثالثة ، بل عرض من جديد مجموعة استدعاء ذات جودة مماثلة على GRCh38. الأداة هي لأولئك الذين يرغبون في العمل مع GRCh38 والعمل مع من جديد مجموعة النداء التي تم إنشاؤها في هذا التجمع بما في ذلك مناطق GRCh38 الجديدة. يتم تقديم المقارنة مع المرحلة الثالثة لمساعدة المستخدمين في فهم كيفية مقارنة مجموعة مكالماتنا بالمرحلة الثالثة. تُظهر مجموعة المكالمات الخاصة بنا سلوكًا مشابهًا إلى حد كبير للمرحلة الثالثة ، مع توازن مختلف قليلاً من الحساسية والخصوصية. ومع ذلك ، نظرًا لأن المرحلة الثالثة تضمنت جهدًا تحليليًا أكبر بشكل كبير ، مما يجعل من المستحيل تكرار الموارد ، فربما لا يكون من المستغرب أن تشهد المرحلة الثالثة عائدًا أعلى. بدوره ، ينعكس هذا في الرفع ولكن مع وجود اختلافات جوهرية تظهر في مناطق جديدة حيث من جديد تكتشف مجموعة الاتصال المتغيرات الغائبة في الرفع.

بينما نعترف بقيود معيار GIAB الذي استخدمناه ، لم نجد بدائل أفضل. لقياس بياناتنا بشكل فعال ، استنادًا إلى التنميط الجيني المشترك ، كنا بحاجة إلى بيانات "المعيار الذهبي" للعينات في مجموعة البيانات الخاصة بنا. بالنسبة للمتغيرات القصيرة ، كانت مجموعة البيانات الوحيدة التي تمكنا من تحديد موقعها هي GIAB NA12878. بدائل الفحص اليدوي للبيانات أو أنواع البيانات البديلة ، مثل قراءات PacBio التي يتم تقييمها من قبلنا ، لها أيضًا قيود وتفقد الفوائد المكتسبة من مجموعة بيانات "المعيار الذهبي" المستقلة التي أنشأتها مجموعة أخرى.

تم تحديث النص في محاولة ليعكس بشكل أفضل ما ورد أعلاه.

تم استخدام الموقع البديل في محاذاة القراءات لضمان أفضل تعيين قراءة ممكن ولكن لم يتم استدعاء المتغيرات في هذه المواقع. تم تعديل النص لتوضيح ذلك. هذا في جزء كبير منه بسبب عدم وجود بروتوكولات لاستدعاء الموقع البديل بنجاح. المعلومات الوحيدة التي قدمها مطورو برامج الاتصال والتي نعلم بوجودها فيما يتعلق بهذا البرنامج هي برنامج تعليمي تجريبي من GATK (https://software.broadinstitute.org/gatk/documentation/article.php؟id=8017). نظرًا لعدم وجود أدوات وبروتوكولات للاتصال بثقة بالمواقع البديلة ، لم يتم إجراء مكالمات في تلك المواقع.

لقد قمنا بتوسيع نطاق عملنا المعياري ليشمل مجموعة بيانات الزيادة في المقارنة. لقد نظرنا أيضًا على وجه التحديد في مناطق جديدة من GRCh38. تم تضمين هذه في النص المنقح.

الاقتراح المتعلق باستنساخ fosmid مثير للاهتمام وسيوفر مزيدًا من التحقق من الصحة. ومع ذلك ، نلاحظ أن هذه مذكرة بيانات ، تقدمها المجلة كوسيلة لوصف إنتاج مجموعة بيانات ، حيث توصف المقارنة المعيارية بأنها اختيارية. تغطي مقاييسنا الحالية الجينوم على نطاق أوسع ، وبالتالي ، يجب أن تعطي بالفعل مؤشرًا أفضل لأداء الجينوم المتصل لدينا على نطاق واسع. علاوة على ذلك ، أضفنا قياس الأداء على مراحل باستخدام WhatsHap.

أولاً ، نود أن نشكر المراجع على التعليقات التي تم تقديمها وعلى اهتمامه بهذا العمل.

نلاحظ أن التعليقات عالية المستوى مقسمة إلى نقاط مفصلة ومعالجتها بتعليقات مفصلة أدناه. لقد قمنا بتحديث المخطوطة بشكل إضافي في محاولة لتحسين الوضوح حيث تمت الإشارة إلى عدم وجودها. قدمنا ​​أيضًا المعلومات المطلوبة التي تقارن مجموعة المكالمات التي تم إنشاؤها بالرفع وقمنا بتضمين تحديثات أخرى متنوعة.

ردًا على التعليقات عالية المستوى ، والتي نفهم أنها تتعلق بشكل أساسي بـ أ) تحسينات GRCh38 على GRCh37 و ب) المقارنة بين من جديد دعوة مقابل رفع:

أ) لم يكن في نيتنا إثبات تفوق GRCh38 على GRCh37. نعتقد أن مركز الخليج للأبحاث ، ولا سيما في ورقة شنايدر وآخرون.، لقد أثبتوا ذلك بالفعل. قمنا بتضمين معلومات حول هذا لمعلومات القراء الذين قد لا يكونون على دراية بهذه القضايا. ومع ذلك ، فإننا نقبل أن هذا قد يعطي انطباعًا غير دقيق عن تركيز ملاحظة البيانات. على هذا النحو ، تم تعديل النص ، مما قلل من شرح تغييرات التجميع ، وبدلاً من ذلك ، تم الإشارة إلى الورقة بواسطة Schnieder وآخرون. كان هدفنا هو توفير مورد لأولئك الذين يرغبون في اعتماد الجمعية الجديدة ، وليس لعرض القضية حول سبب اعتماد GRCh38 ، والذي نعتقد أنه تم بالفعل في مكان آخر.
ب) ينصب تركيزنا على توفير الموارد للمجتمع. لإتاحة البيانات للمستخدمين في الوقت المناسب قدر الإمكان ، اخترنا استخدام تنسيق مذكرة البيانات للنشر. يركز هذا على وصف كيفية إنتاج البيانات ، مع التحقق من صحة مخرجات البيانات المدرجة في المعلومات للمؤلفين على أنها اختيارية. في ضوء التعليقات ، أجرينا مقارنة مع المصعد فوق المجموعة ونظرنا أيضًا على وجه التحديد في مناطق التجميع التي تم تحديثها بين المجموعتين. مزيد من التفاصيل أدناه.

1) شرح سبب وجود قيود لمقاربات "الإنقاذ":

يتعلق هذا بمجموعة من ثلاثة بيانات تتعلق بعدم كفاية عمليات الرفع.

بالنسبة للبيان الأول ، يلاحظ المراجع أن إزالة التسلسل عند الانتقال من GRCh37 إلى GRCh38 واكتساب التسلسل هما حالتان منفصلتان وأنه تم الخلط بينهما في العبارة "أنها تعتمد على منطقة مكافئة موجودة في الجينوم الجديد ، لذلك يتم استبعاد التسلسل الجديد في التجميع المحسن بشكل فعال ". نحن نقبل أن هذا يجمع بين جوانب متعددة من التغييرات بين التجميعين. لذلك ، تم تحديث نص البيان الأول للتركيز على النقطة المركزية التي سعينا إلى إجرائها: أن التعيين بين التجميعات ضروري قبل أن يتمكن المرء من رفع متغير معين وأن هذا ليس ممكنًا دائمًا (لأي واحد من عدد من الأسباب المحتملة). علاوة على ذلك ، أضفنا عدد السجلات التي لا يمكن رفعها في الملفات المعالجة dbSNP / EVA لإعطاء مؤشر ملموس لأعداد السجلات التي يحدث فيها ذلك.

بالنسبة للبيان الثاني ، كانت النقطة التي نرغب في توضيحها هي أنه حتى عندما يمكن رفع متغير ، فإن ذلك لا يتبع أن الدليل الذي يدعم تلك المكالمة في التجميع الأصلي سينتقل أيضًا إلى الموقع الجديد. تم تعديل النص في محاولة لتوضيح ذلك ، مستشهداً أيضًا بأدلة من شنايدر وآخرون. فيما يتعلق بالمحاذاة والانتقال من GRCh37 إلى GRCh38.

بالنسبة للبيان الثالث ، لوحظ أن هذا كان واضحًا ولكن لم يتم تقديم أي دليل لدعم التأكيد. في ضوء التغييرات الأخرى ، تم تعديل هذا النص للتركيز على حالة إضافة تسلسل جديد إلى التجميع والإشارة إلى أمثلة محددة موضحة كجزء من الشكل 1 ، والتي توضح الاختلافات في الرافعة و من جديد مجموعات النداء في أمثلة للمواقع ذات الصلة سريريًا ، والتي تم تحديثها بين التجميعين

2) يقدم المؤلفون فقط النيوكلوتايد ثنائي النواة:

تم تناول المقارنة المطلوبة مع الرافعة في الرد على النقطة السابعة. لقد أضفنا الأرقام المطلوبة المتعلقة بأي جزء من SNVs هو biallelic (99.6 ٪) وعدد SNVs بالنسبة إلى المتغيرات القصيرة الأخرى. لقد انتهزنا أيضًا الفرصة لتحديث مجموعة المكالمات لتشمل biallelic INDELs ، وهي فئة من المتغيرات التي لم يتم تضمينها مسبقًا. تظل المكالمات متعددة الأليلات غائبة عن المجموعة نظرًا لأن SHAPEIT غير قادر على التعامل مع مثل هذه المكالمات وستتطلب خطوط الأنابيب لدينا مزيدًا من التطوير. كانت استراتيجيتنا هي إصدار المكالمات في أقرب وقت ممكن وإعادة النظر في مجموعة البيانات وإضافة فئات إضافية من المتغيرات بشكل عملي. تم ذلك بهدف جعل البيانات مفيدة للكثيرين وبهدف إعادة النظر في مجموعة البيانات لتوسيعها على أنها مفيدة.

3) الصفحة 3 ، مراقبة جودة ملفات المحاذاة:

تم وصف جميع الخطوات المستخدمة في ملاحظة البيانات ، وليس فقط الاختلافات. تم تحديث النص في محاولة لتوضيح ذلك للقراء.

تم اختيار الأدوات بالتشاور مع أعضاء اتحاد 1000 Genomes Project Consortium. بينما كان هدفنا هو تلخيص تحليل GRCh37 الخاص بهم في التجميع الجديد ، لم يكن هذا ممكنًا نظرًا للعدد الكبير من المتصلين المستخدمين في المشروع الأصلي والحساب المصاحب والأساليب المعقدة نسبيًا المستخدمة في تصفية مجموعات المكالمات ودمجها ، والتي كانت على حد سواء حساب وعمالة كثيفة. أجبرنا هذا على النظر في استخدام مجموعة مخفضة من المتصلين ومنهجية مبسطة. لقد سعينا إلى التوصيات التي أخذت في الاعتبار أداء المتصلين في 1000 جينوم بيانات المرحلة الثالثة ، والتي على عكس معظم اللوحات الأخرى هي مزيج من التغطية المنخفضة والإكسوم مع تنوع جغرافي أكبر بشكل ملحوظ. بالإضافة إلى ذلك ، فإن أداء بعض المتصلين على مجموعة البيانات جعل استخدامها غير عملي.

تم تحديث النص لإعلام القراء بما ورد أعلاه.

كان القصد من ذلك أن يكون إصدارًا أوليًا للبيانات ، بهدف إعادة النظر وإضافة عناصر إضافية تتطلب مزيدًا من المعالجة. نظرًا لأن الكروموسومات الجنسية تتطلب تحليلًا إضافيًا ، لم يتم تضمينها في هذا الإصدار الأول. علاوة على ذلك ، نعتقد أن مجموعة البيانات لا تزال مفيدة لبعض المستخدمين في غيابهم. نتوقع إطلاق دعوات على الكروموسومات الجنسية GRCh38 في المستقبل.

6) التحقق من صحة مجموعة البيانات:

نحن نقر بأن معيار GIAB NA12878 غير مثالي. كما يلاحظ المراجع ، إنها عينة واحدة والاختلافات في إصدارات الجينوم المرجعي المستخدمة للمحاذاة (مع وبدون مواضع بديلة) من قبلنا ومن المتوقع أن يكون لـ GIAB تأثير على اكتشاف المتغير.

فيما يتعلق بالمواقع البديلة ، فإن إمكانية مقارنة مستوى التعارض مع المعيار في المناطق التي توجد بها مواقع بديلة وحيث لا يتم ذكرها. ومع ذلك ، نظرًا لأنه من المتوقع أيضًا أن يكون لوجود الموقع البديل بعض التأثير على الأقل عبر الجينوم (بغض النظر عن وجود مواقع بديلة في هذا الموقع المحدد) ، فإننا نشعر أنه من أجل تقييم التأثير الحقيقي موقع بديل في التحليل ، سيكون من الضروري تكرار التحليل ، باستخدام ، بدلاً من ذلك ، المحاذاة حيث لم يكن الموقع البديل موجودًا. نظرًا لأن مجموعة بياناتنا تعتمد أيضًا على التنميط الجيني المشترك ، فإن هذا يعني بشكل فعال إعادة تنظيم جميع البيانات وتكرار التحليل على جميع البيانات للإجابة على هذا السؤال. سيضيف حجم الحساب الكبير المتضمن في هذا وقتًا ونفقات كبيرة ، وبالتالي ، يجعل هذه المقارنة غير عملية. ومع ذلك ، سيكون من الضروري استنباط استنتاجات هادفة وسليمة حول تأثير الموقع البديل على تحليلنا.

يعرب المراجع أيضًا عن قلقه من أن الدقة مع NA12878 قد لا تنتقل إلى عينات أخرى ، خاصة تلك التي تنتمي إلى أصول غير أوروبية. نظرًا لانتشار البيانات من NA12878 ، قد يبدو من المعقول استنتاج أن طرق الاستدعاء يجب أن تعمل بشكل جيد ، وربما أعلى من المتوسط ​​، مع تلك العينة. ومع ذلك ، يحتوي NA12878 على بيانات مشابهة لتلك الخاصة بالعينات الأخرى في مجموعة البيانات الخاصة بنا. علاوة على ذلك ، تتكون مجموعة البيانات الخاصة بنا فقط من بيانات Illumina ، لذلك لا نتوقع ، على سبيل المثال ، اختلاف أنواع أخطاء التسلسل عبر العينات. في العمل الذي قام به الآخرون ، بمقارنة مجموعة الاستدعاءات الجديدة بـ 1000 جينوم المرحلة الثالثة ، نرى أن نتائجنا وتلك الخاصة بالمرحلة الثالثة تُظهر مستوى قويًا من الاتساق عبر العينات (Robinson and Glusman ، 2019 ، https: //www.biorxiv .org / content / 10.1101 / 600254v1) ، مع عدم وجود إشارة إلى أن NA12878 متجاوزة.

فيما يتعلق بمقارنتنا مع المرحلة الثالثة ، لم يكن في نيتنا محاولة التفوق في الأداء على المرحلة الثالثة ، بل عرض من جديد مجموعة استدعاء ذات جودة مماثلة على GRCh38. الأداة هي لأولئك الذين يرغبون في العمل مع GRCh38 والعمل مع من جديد مجموعة النداء التي تم إنشاؤها في هذا التجمع بما في ذلك مناطق GRCh38 الجديدة. يتم تقديم المقارنة مع المرحلة الثالثة لمساعدة المستخدمين في فهم كيفية مقارنة مجموعة مكالماتنا بالمرحلة الثالثة. تُظهر مجموعة المكالمات الخاصة بنا سلوكًا مشابهًا إلى حد كبير للمرحلة الثالثة ، مع توازن مختلف قليلاً من الحساسية والخصوصية. ومع ذلك ، نظرًا لأن المرحلة الثالثة تضمنت جهدًا تحليليًا أكبر بشكل كبير ، مما يجعل من المستحيل تكرار الموارد ، فربما لا يكون من المستغرب أن تشهد المرحلة الثالثة عائدًا أعلى. بدوره ، ينعكس هذا في الرفع ولكن مع وجود اختلافات جوهرية تظهر في مناطق جديدة حيث من جديد تكتشف مجموعة الاتصال المتغيرات الغائبة في الرفع.

بينما نعترف بقيود معيار GIAB الذي استخدمناه ، لم نجد بدائل أفضل. لقياس بياناتنا بشكل فعال ، استنادًا إلى التنميط الجيني المشترك ، كنا بحاجة إلى بيانات "المعيار الذهبي" للعينات في مجموعة البيانات الخاصة بنا. بالنسبة للمتغيرات القصيرة ، كانت مجموعة البيانات الوحيدة التي تمكنا من تحديد موقعها هي GIAB NA12878. بدائل الفحص اليدوي للبيانات أو أنواع البيانات البديلة ، مثل قراءات PacBio التي يتم تقييمها من قبلنا ، لها أيضًا قيود وتفقد الفوائد المكتسبة من مجموعة بيانات "المعيار الذهبي" المستقلة التي أنشأتها مجموعة أخرى.

تم تحديث النص في محاولة ليعكس بشكل أفضل ما ورد أعلاه.

تم استخدام الموقع البديل في محاذاة القراءات لضمان أفضل تعيين قراءة ممكن ولكن لم يتم استدعاء المتغيرات في هذه المواقع. تم تعديل النص لتوضيح ذلك. هذا في جزء كبير منه بسبب عدم وجود بروتوكولات لاستدعاء الموقع البديل بنجاح. المعلومات الوحيدة التي قدمها مطورو برامج الاتصال والتي نعلم بوجودها فيما يتعلق بهذا البرنامج هي برنامج تعليمي تجريبي من GATK (https://software.broadinstitute.org/gatk/documentation/article.php؟id=8017). نظرًا لعدم وجود أدوات وبروتوكولات للاتصال بثقة بالمواقع البديلة ، لم يتم إجراء مكالمات في تلك المواقع.

لقد قمنا بتوسيع نطاق عملنا المعياري ليشمل مجموعة بيانات الزيادة في المقارنة. لقد نظرنا أيضًا على وجه التحديد في مناطق جديدة من GRCh38. تم تضمين هذه في النص المنقح.

الاقتراح المتعلق باستنساخ fosmid مثير للاهتمام وسيوفر مزيدًا من التحقق من الصحة. ومع ذلك ، نلاحظ أن هذه مذكرة بيانات ، تقدمها المجلة كوسيلة لوصف إنتاج مجموعة بيانات ، حيث توصف المقارنة المعيارية بأنها اختيارية. تغطي مقاييسنا الحالية الجينوم على نطاق أوسع ، وبالتالي ، يجب أن تعطي بالفعل مؤشرًا أفضل لأداء الجينوم المتصل لدينا على نطاق واسع. علاوة على ذلك ، أضفنا قياس الأداء على مراحل باستخدام WhatsHap.


نتائج

مقارنة مع التقويم الخطي

المحاذاة من التسلسل إلى التسلسل هي حالة خاصة من محاذاة التسلسل إلى الرسم البياني ، حيث يتكون الرسم البياني من سلسلة خطية من العقد. قارنا GraphAligner بمحاذاة تسلسل إلى تسلسل مُحسَّنة جيدًا ، خريطة مصغرة 2 [13] ، في محاذاة قراءة الجينوم البشري بالكامل. قمنا بمحاكاة قراءات تغطية 20x من مرجع GRCh38 باستخدام pbsim [33] مع المعلمات الافتراضية. قمنا بتصفية القراءات الأقل من 1000 نقطة أساس والقراءات التي تحتوي على أي أحرف غير ATCG. بعد ذلك ، قمنا بمحاذاة القراءات مع المرجع باستخدام كل من minimap2 و GraphAligner. بعد ذلك ، قمنا بتقييم دقة التعيين. نحن نعتمد المعايير المستخدمة في تقييم الخريطة المصغرة 2 [13] ونأخذ بعين الاعتبار أن القراءة المعينة بشكل صحيح إذا كانت أطول محاذاة لها تتداخل بنسبة 10٪ على الأقل مع الموقع الجينومي من حيث تمت محاكاتها.

يوضح الجدول 1 النتائج. تتم محاذاة GraphAligner و minimap2 بنفس الدقة تقريبًا ، مع محاذاة minimap2 لعدد أكبر قليلاً من القراءات بشكل صحيح (95.0٪ مقابل 95.1٪). تأخذ GraphAligner حوالي 3 × وقت تشغيل minimap2 ، والتي نعتبرها مقدارًا زائدًا متواضعًا لأداة قادرة على التعامل مع الرسوم البيانية مقارنة بأداة تعيين تسلسل إلى تسلسل محسّنة للغاية. لاحظ أن الخريطة المصغرة 2 أسرع من الأدوات المنافسة شائعة الاستخدام ، مثل BWA-MEM [14] ، بأكثر من ترتيب واحد من حيث الحجم [13].

محاذاة الرسم البياني مع المتغيرات

في هذه التجربة ، قمنا بتقييم دقة التعيين على رسم بياني باستخدام المتغيرات. استخدمنا مرجع الكروموسوم 22 (GRCh37) وجميع المتغيرات في إطلاق المرحلة الثالثة من مشروع ألف جينوم [34]. أنشأنا رسمًا بيانيًا للتباين من المرجع والمتغيرات باستخدام vg [16] ، مما أدى إلى إنتاج رسم بياني للكروموسوم 22 مع متغيرات 2،212،133 ، تحتوي في المتوسط ​​على متغير واحد كل 15 زوجًا أساسيًا في المناطق غير التيلوميرية ( متغير الرسم البياني). بعد ذلك ، قمنا بمحاكاة قراءات ذات أطوال متفاوتة من التسلسل المرجعي للكروموسوم 22 (GRCh37) باستخدام pbsim [33] مع معلمات CLR الافتراضية ومواءمتها مع الرسم البياني باستخدام GraphAligner.نحن نعتبر أن القراءة تم تعيينها بشكل صحيح إذا تداخلت محاذاة الأطول بنسبة 10 ٪ على الأقل مع موضع الجينوم من حيث تمت محاكاته وتقييم عدد القراءات المحاذاة بشكل صحيح. قمنا أيضًا بمحاذاة نفس القراءات مع مرجع الكروموسوم 22 بدون متغيرات (ملف رسم بياني خطي) مع GraphAligner للتمييز بين القراءات التي لا يمكن محاذاتها بسبب المتغيرات والقراءات التي لا يمكن محاذاتها لأسباب أخرى مثل أطوال القراءة القصيرة التي تؤدي إلى فقدان البذور. بالإضافة إلى القراءات التي تمت محاكاتها من المرجع ، قمنا أيضًا بمحاكاة قراءات من كروموسوم دي نوفو ثنائي الصبغة المتجمع من الكروموسوم 22 لـ HG00733 الفردي [35]. تم إجراء ذلك لاختبار دقة المحاذاة على القراءات ذات المتغيرات الواقعية.

يوضح الشكل 1 النتائج. يوضح الجزء الأيسر من الشكل دقة المحاذاة للقراءات المرجعية التي تمت محاكاتها. لأغراض المقارنة ، يمثل المنحنى الأزرق نتائج رسم الخرائط التي تمت محاكاتها من GRCh37 إلى الجينوم المرجعي (الخطي) وبالتالي يشير إلى الأداء الذي يمكن تحقيقه في بيئة مثالية. عند المحاذاة مع الرسم البياني المتغير ، تتم محاذاة 95٪ من القراءات المرجعية التي تمت محاكاتها بشكل صحيح بمجرد نمو طول القراءة فوق 1200 زوج أساسي. في 1500 زوج أساسي ، تتم محاذاة 97.0٪ من القراءات بشكل صحيح مع الرسم البياني المتغير. يُظهر الجزء الأيمن من الشكل 1 دقة القراءات المحاكية من contigs المُجمَّع de novo. من المتوقع أن تكون دقة المحاذاة للقراءات المحاكية من contigs أسوأ من القراءات التي تمت محاكاتها من المرجع (GRCh37) عند المحاذاة مع المرجع الخطي ، ولكنها متشابهة عند المحاذاة مع الرسم البياني مع المتغيرات. تظهر النتائج أن GraphAligner قادرة على محاذاة القراءات الطويلة بدقة مع الرسم البياني الغني بالتنوع.

تمت محاذاة جزء من القراءات بشكل صحيح بأطوال قراءة مختلفة للرسم البياني المتغير والرسم البياني الخطي. اليسار: يقرأ المحاكاة من مرجع GRCh37. إلى اليمين: قراءة تمت محاكاتها من كونتيجات de novo المُجمَّعة لـ HG00733

مقارنة بـ vg

في هذه التجربة ، قارنا GraphAligner و vg [16] لمحاذاة القراءات الطويلة. استخدمنا الرسم البياني من التجربة السابقة التي تحتوي على مرجع الكروموسوم 22 وجميع المتغيرات في إطلاق المرحلة 3 من مشروع ألف جينوم [34]. قمنا بمحاكاة قراءات من مرجع الكروموسوم 22 باستخدام pbsim [33] مع المعلمات الافتراضية. بعد ذلك ، قمنا بمحاذاة القراءات المحاكاة للرسم البياني باستخدام GraphAligner و vg.

يوضح الجدول 2 النتائج. محاذاة GraphAligner 96.6٪ من القراءات بشكل صحيح ، وهو ما يتوافق مع نتائج تجربة الرسم البياني للتباين. في المقابل ، محاذاة vg 93.8٪ من القراءات في المنطقة الجينومية الصحيحة. ومع ذلك ، وجدنا أن بعض المحاذاة بواسطة vg لم تكن متسقة مع طوبولوجيا الرسم البياني ، أي أن المحاذاة اجتازت عبر العقد غير المتصلة بحافة. في بعض الحالات ، كانت المحاذاة "ملتفة للخلف" في نفس المنطقة المرجعية عدة مرات وحتى تغطي كلا أليلات متغير (ملف إضافي 1: الشكل S2). لم نقم بتقييم عدد محاذاة vg التي كانت غير متوافقة مع طوبولوجيا الرسم البياني. يتضمن وقت تشغيل GraphAligner وذاكرة الذروة كلاً من الفهرسة والمحاذاة. على الرغم من تضمين مرحلة الفهرسة ، فإننا نرى أن GraphAligner أسرع بعشر مرات تقريبًا من مرحلة رسم خرائط vg. عند تضمين فهرسة vg أيضًا ، يكون GraphAligner أسرع بثلاث عشرة مرة من vg. استخدام الذاكرة القصوى أصغر بثلاث مرات.

التنميط الجيني المتغير

قمنا بتنفيذ خط أنابيب التنميط الجيني المتغير البسيط لقراءات طويلة. أولاً ، يتم استخدام قائمة المتغيرات المرجعية والجينوم المرجعي لبناء مخطط pangenome باستخدام vg [16]. بعد ذلك ، تتم محاذاة القراءات الطويلة إلى الرسم البياني pangenome باستخدام GraphAligner. أخيرًا ، يتم استخدام vg لتحديد التركيب الوراثي للمتغيرات وفقًا لمحاذاة القراءة الطويلة.

اختبرنا خط أنابيب التنميط الجيني المتغير الخاص بنا باستخدام تغطية 35x يقرأ PacBio hifi من HG002 الفردي [36] ، باستخدام مجموعة متغير قياس Genome in a Bottle (GIAB) الإصدار 3.3.2 لـ GRCh38 [37] كحقيقة أساسية. اختبرنا ثلاثة سيناريوهات مختلفة: أولاً ، سيناريو مثالي حيث نستخدم المتغيرات في مجموعة متغيرات GIAB لبناء الرسم البياني ثانيًا ، سيناريو أكثر واقعية حيث استخدمنا متغيرات من مصدر مختلف ، باستخدام المتغير الذي تم تعيينه بواسطة Lowy-Gallego et al. . [38] تم استدعاؤها من جينوم GRCh38 باستخدام البيانات من المرحلة 3 من مشروع ألف جينوم (1000 جرام) لبناء الرسم البياني والثالث ، باستخدام المتغيرات من 1000 جيجا لبناء الرسم البياني ولكن فقط تقييم الدقة على المتغيرات التي تحدث في كل من 1000G ومجموعة متنوعة GIAB (1000G + GIAB). السبب في استخدام السيناريوهات الثلاثة المختلفة هو أن خط أنابيب التنميط الجيني لا يمكنه استدعاء متغيرات جديدة بدلاً من ذلك ، فهو فقط متغيرات الأنماط الجينية الموجودة بالفعل في قائمة المتغيرات المرجعية. هذا يفصل الأخطاء الناتجة عن نهج pangenome ، والأخطاء الناتجة عن متغير مرجعي غير كامل ، سيُظهر سيناريو GIAB كيف سيتصرف خط الأنابيب إذا كانت مجموعة المتغير المرجعي مثالية ، بينما سيُظهر سيناريو 1000G الأداء بمتغير مرجعي واقعي غير كامل سيُظهر سيناريو 1000G + GIAB الأداء في وضع واقعي لتلك المتغيرات التي يمكن لخط الأنابيب من حيث المبدأ الوراثي.

قمنا بتقييم دقة التنميط الجيني باستخدام RTG Tools vcfeval [39] ، والتي تحسب الدقة والاستدعاء لجميع المتغيرات ، SNPs فقط وغير SNPs فقط. ينتج vg ثقة لكل متغير ، وينتج التقييم منحنى استدعاء دقيق لحدود ثقة مختلفة. لقد اخترنا العتبة بأعلى مقياس F وقمنا بالإبلاغ عن الدقة والاستدعاء لتلك العتبة. قمنا بتقييم النتائج في مناطق ثقة عالية جينوم في زجاجة من جميع الكروموسومات في كل سيناريو.

يوضح الجدول 3 النتائج. دقة التنميط الجيني عالية في سيناريو GIAB ، لكنها أقل في سيناريو 1000G. يوضح هذا أن اختيار مجموعة المتغيرات يؤثر على الدقة بشكل ملحوظ مع انخفاض مقياس F من 0.985 إلى 0.930. ومع ذلك ، عند استبعاد المتغيرات التي لا يستطيع خط الأنابيب تركيبها وراثيًا حتى من حيث المبدأ ، يكون مقياس F هو 0.970. يوضح هذا أن جزءًا كبيرًا من الاسترجاع المفقود في سيناريو 1000G يأتي من المتغيرات التي لم يتم تضمينها في مجموعة المتغيرات المرجعية.

على الرغم من أن المنشورات السابقة [36] أظهرت أداءً يتجاوز النتائج الواردة في الجدول 3 ، فإن تجربة التنميط الجيني تُظهر مثالاً لحالة استخدام GraphAligner. يتمثل القيد الرئيسي لخط الأنابيب في أنه لا يمكن استدعاء المتغيرات الجديدة ، بدلاً من ذلك فقط التنميط الجيني المتغيرات المعروفة. لم نحاول تغيير معلمات وحدة التنميط الجيني لـ vg أو تعديل عملية التنميط الجيني بطريقة أخرى ، والتي يتم ضبطها للتنميط الجيني للقراءة القصيرة وقد لا تكون مثالية للقراءات الطويلة.

تصحيح الاخطاء

لقد قمنا بتنفيذ خط أنابيب مختلط لتصحيح الخطأ بناءً على محاذاة التسلسل إلى الرسم البياني. تعد محاذاة القراءة مع رسم بياني لبروين (DBG) طريقة لتصحيح الأخطاء في القراءات الطويلة من القراءات القصيرة [6 ، 7]. الفكرة هي بناء DBG من القراءات القصيرة ثم إيجاد أفضل محاذاة بين القراءة الطويلة والمسار في DBG. يمكن بعد ذلك استخدام تسلسل المسار كقراءة طويلة مصححة.

تشانغ وآخرون. [40] أجرى تقييمًا لـ 16 طريقة مختلفة لتصحيح الأخطاء. بناءً على نتائجهم ، اخترنا FMLRC [8] كمصحح أخطاء هجين سريع ودقيق للمقارنة. نحن نقارن أيضًا بـ LoRDEC [6] نظرًا لأن خط الأنابيب لدينا يستخدم نفس الفكرة العامة.

يبني LoRDEC [6] رسمًا بيانيًا لـ Bruijn من القراءات القصيرة ، ثم يحاذي القراءات الطويلة إليه باستخدام بحث العمق أولاً ويستخدم تسلسل المسار على أنه القراءة المصححة. يقوم FMLRC [8] أيضًا بمحاذاة القراءات إلى رسم بياني ، إلا أنه بدلاً من إنشاء رسم بياني واحد من Bruijn ، فإنه يستخدم مؤشر FM والذي يمكن أن يمثل جميع الرسوم البيانية لـ Bruijn ويغير ديناميكيًا ك-حجم أصغر. ثم يصحح FMLRC القراءات في مرحلتين ، باستخدام مختلف ك-مرأحجام. يشبه خط أنابيب تصحيح الخطأ الخاص بنا LoRDEC. يوضح الشكل 2 خط الأنابيب. نقوم أولاً بتصحيح ما يقرأه Illumina ذاتيًا باستخدام Lighter [41] ، ثم نبني الرسم البياني لـ de Bruijn باستخدام BCalm2 [42] ، ونحاذي القراءات الطويلة باستخدام GraphAligner مع المعلمات الافتراضية ، وأخيراً نستخرج المسار على أنه القراءة المصححة.

نظرة عامة على خط أنابيب تصحيح الخطأ. تمثل الدوائر البيانات وبرامج المستطيلات

بسبب التقلبات والتحيزات في تغطية Illumina ، من المستحيل تصحيح بعض المناطق الجينومية بقراءات قصيرة حتى من حيث المبدأ. يحتوي خط الأنابيب الخاص بنا على وضعين: إما أن نخرج القراءات الكاملة ، مع الاحتفاظ بالمناطق غير المصححة كما هي أو القراءات المقطوعة ، والتي تزيل المناطق غير المصححة وتقسيم القراءة إلى قراءات فرعية متعددة مصححة ، إذا لزم الأمر. في النتائج ، نقدم القراءة الكاملة كـ "GraphAligner" ، ويقرأ المقطع على أنه "مقطع GraphAligner". وبالمثل نُبلغ عن "LoRDEC" كقراءات كاملة و "LoRDEC-clip" كقراءات مقطوعة. لا يقدم FMLRC خيارًا لقص القراءات ، لذلك فإننا نبلغ فقط بالقراءات الكاملة.

لتقييم النتائج ، نستخدم منهجية التقييم من Zhang et al. [40]. يتم تصحيح القراءات الطويلة أولاً ، ثم يتم تشغيل خط أنابيب التقييم لكل من القراءات الأولية والقراءات المصححة. تتمثل الخطوة الأولى في التقييم في إزالة القراءات الأقل من 500 نقطة أساس. لاحظ أنه تتم إزالة القراءات أثناء خطوة التقييم ، أي أنه يتم تصحيحها في خطوة التصحيح الأولية ويمكن إزالة القراءات المختلفة في المجموعات غير المصححة والمصححة. بعد ذلك ، تتم محاذاة القراءات المتبقية مع الجينوم المرجعي. ينتج عن المحاذاة العديد من مقاييس الجودة ، بما في ذلك عدد القراءات المتوافقة والأزواج الأساسية وقراءة N50 ومعدل الخطأ والتغطية الجينية. هنا ، نقوم بالإبلاغ عن معدل الخطأ كما هو محدد بواسطة إحصائيات samtools بدلاً من هوية المحاذاة. يتم قياس استهلاك الموارد من وقت وحدة المعالجة المركزية وأقصى استخدام للذاكرة. نحن نستخدم ال بكتريا قولونية مجموعة بيانات Illumina + PacBio (بكتريا قولونية، المسمى D1-P + D1-I بواسطة Zhang et al.) و D. melanogaster مجموعة بيانات Illumina + ONT (ذبابة الفاكهة ، تسمى D3-O + D3-I بواسطة Zhang et al.) من Zhang et al. [40]. بالإضافة إلى ذلك ، نستخدم بيانات الجينوم البشري الكامل PacBio Sequel Footnote 1 و Illumina Footnote 2 من HG00733 ، مقسمة عشوائيًا إلى تغطية 15x لـ PacBio و 30x لـ Illumina. نستخدم التجميع ثنائي الصيغة الصبغية من [43] كحقيقة أساسية للتقييم مقابل HG00733. لم نقم بتضمين LoRDEC في تجارب ذبابة الفاكهة أو HG00733 حيث أظهرت النتائج في [40] أن FMLRC يتفوق عليه من حيث السرعة والدقة. على الرغم من أننا نستخدم نفس طريقة التقييم ، إلا أن نتائجنا مختلفة قليلاً. هذا يرجع إلى عاملين: الأول ، تشانغ وآخرون. استخدم الإصدار 0.8 من LoRDEC مع المعلمات الافتراضية ، بينما نستخدم الإصدار 0.9 مع المعلمات المقترحة لـ بكتريا قولونية في ورقة LoRDEC [6]. ثانيًا ، Zhang et al. استخدم الإصدار 0.1.2 من FMLRC وقم ببناء BWT مع msBWT [44] ، بينما نستخدم الإصدار 1.0.0 ونبني BWT مع RopeBWT2 [45] على النحو الموصى به من قبل وثائق FMLRC.

يوضح الجدول 4 النتائج. مقدار التسلسل المحاذي مماثل في جميع الحالات. بالنسبة لمجموعات بيانات PacBio ، يكون مقدار التسلسل المصحح أقل من تسلسل الإدخال غير المصحح ، بينما بالنسبة لـ ONT ، يزداد مقدار التسلسل المصحح أثناء التصحيح. يتوافق هذا مع الملاحظة التي تفيد بأن أخطاء الإدراج أكثر شيوعًا من عمليات الحذف في PacBio والعكس بالعكس في ONT [47]. عدد القراءات أعلى بشكل ملحوظ ، و N50 أقل للأوضاع المقصوصة لكل من LoRDEC و GraphAligner ، مما يوضح أن معظم القراءات تحتوي على مناطق غير مصححة ويقلل قص القراءات من تواصُل القراءة. بالإضافة إلى ذلك ، تُظهر التجارب البشرية وذبابة الفاكهة أن قص القراءات يقلل بشكل كبير من جزء الجينوم الذي تغطيه القراءات. يكون القطع أكثر وضوحًا في الجينومات الأكثر تعقيدًا ، حيث يتم تقطيع القراءات في مجموعة بيانات الجينوم البشري بأكملها في المتوسط ​​إلى أربع قطع ، وفقد حوالي 4 ٪ من الجينوم بسبب القطع وانخفاض كبير في قراءة N50. نرى أن GraphAligner أسرع بنحو 30 مرة وأكثر دقة بمقدار 2.7 مرة من LoRDEC بكتريا قولونية. يعد GraphAligner أسرع أربع مرات من FMLRC في جميع مجموعات البيانات. عند عدم قص القراءات ، يكون معدل أخطاء GraphAligner أسوأ قليلاً من معدل أخطاء FMLRC بكتريا قولونية (0.51٪ مقابل 0.30٪) ، ولكن أفضل بشكل كبير لـ D. melanogaster (1.2٪ مقابل 2.3٪) والبشر (3.4٪ مقابل 7.1٪). بالنسبة للجينوم البشري HG00733 ، ينتج GraphAligner معدلات خطأ أفضل بأكثر من مرتين بينما يكون وقت التشغيل أسرع بأكثر من اثني عشر مرة.

يمثل خط الأنابيب لدينا تحسنًا كبيرًا في وقت التشغيل مقارنة بأحدث التقنيات. معدلات الخطأ تنافسية بالنسبة للجينومات الأبسط وأفضل بكثير للجينومات الأكثر تعقيدًا. نحن نفترض أن طريقة التمريرين المستخدمة بواسطة FMLRC يمكن من حيث المبدأ تمكين تصحيح أفضل من التصحيح الفردي كرسم بياني بحجم أصغر ، ولكن أداء FMLRC مع الجينومات الأكبر محدود من خلال طريقة المحاذاة ، بينما يمكن لـ GraphAligner التعامل مع الجينومات الأكثر تعقيدًا. عند استخدام الوضع المقطوع ، أي عند النظر فقط في أجزاء من القراءات التي تم تصحيحها ، يمكن أن تقترب الدقة في المناطق المصححة من دقة القراءات القصيرة أو تتجاوزها. هذا يؤكد قيمة هذا الوضع المقطوع للمستخدمين. المصدر الرئيسي للأخطاء هو في الواقع مناطق غير مصححة بدون تغطية قراءة قصيرة كافية.


شكر وتقدير

نشكر العديد من الأشخاص الذين جعلوا البيانات والبرامج متاحة للجمهور ، على وجه الخصوص vgteam لتوفير مجموعة أدوات vg كبرنامج مفتوح المصدر. نشكر Braunvieh Schweiz على توفير بيانات النسب والنمط الجيني لأبقار Braunvieh الأصلية و Brown Swiss. تم تقديم عينات السائل المنوي للثيران المتسلسلة من قبل Swissgenetics.

مراجعة التاريخ

يتوفر سجل المراجعة كملف إضافي 4.

معلومات مراجعة الأقران

كان أندرو كوسجروف هو المحرر الرئيسي لهذه المقالة وأدار عملية التحرير ومراجعة الأقران بالتعاون مع بقية فريق التحرير.


مقدمة

تمثل المتغيرات الهيكلية (SVs) مثل الحذف والإدخال والازدواجية جزءًا كبيرًا من التنوع الجيني بين الأفراد وقد تورطت في العديد من الأمراض بما في ذلك السرطان. مع ظهور تقنيات جديدة لتسلسل الحمض النووي ، أصبح تسلسل الجينوم الكامل (WGS) جزءًا لا يتجزأ من تشخيصات السرطان التي يمكن أن تتيح علاجات مخصصة للمرضى الفرديين (ستراتون ، 2011). على الرغم من التقدم في مشاريع الجينوميات السرطانية واسعة النطاق (مثل TCGA و PCAWG التابعين لاتحاد جينوم السرطان الدولي https://icgc.org/) ، فإن التحليل المنهجي والشامل للبيانات الجينومية الضخمة ، لا سيما اكتشاف SVs في الجينوم ، لا يزال يمثل تحديًا بسبب القيود الحسابية والخوارزمية (Alkan، Coe & amp Eichler، 2011 Yung et al.، 2017 Ma et al.، 2018 Gröbner et al.، 2018).

الأدوات الحديثة لاكتشاف SV الجسدية والخطية (المتصلون) تستغل أكثر من نوع واحد من المعلومات الموجودة في بيانات WGS (Lin et al. ، 2015). على سبيل المثال ، يعتمد DELLY (Rausch et al. ، 2012) على قراءات مقسمة وأزواج قراءة غير متوافقة بينما يستخدم LUMPY (Layer et al. ، 2014) معلومات عمق القراءة. علاوة على ذلك ، فإن المتصلين مثل Manta (Chen et al. ، 2016) و GRIDSS (Cameron et al. ، 2017) يدمجون أيضًا التجميع القصير القراءة. للحصول على مجموعة مكالمات أكثر شمولاً و / أو دقة ، أسفرت مناهج المجموعات عن نتائج واعدة (English et al.، 2015 Mohiyuddin et al.، 2015 Becker et al.، 2018 Fang et al.، 2018). في مثل هذا النهج ، (1) يتم تنفيذ مجموعة من مستدعي SV ، و (2) يتم دمج نتائجهم في مجموعة استدعاء واحدة. بينما تم إثبات هذا النهج لتحسين مجموعات مكالمات SV ، فإن الخطوة (1) تشكل عنق الزجاجة الرئيسي حيث إن تشغيل العديد من متصلين SV بكفاءة على البنية التحتية الحاسوبية للمستخدم و / أو إضافة متصلين جدد بـ SV (عندما تصبح متاحة) بعيدة كل البعد عن البساطة.


شاهد الفيديو: Merge Multiple VCF files into a Single VCF file (كانون الثاني 2022).