معلومة

لماذا يجب علينا استخدام مجموعة البيانات NA12878 للقياس؟

لماذا يجب علينا استخدام مجموعة البيانات NA12878 للقياس؟



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

بقدر ما أفهم ، فإن عينة الجينوم البشري تسمى NA12878 يوفر متغيرات ثقة عالية لعينة بشرية. يتم استخدامه كمعيار للعديد من مشاريع البحث الجينومي.

س: لماذا بالضبط NA12878 هي مجموعة بيانات مرجعية شائعة؟ فقط لأن لدينا مجموعة من المتغيرات عالية الثقة؟ ولكن يمكننا أيضًا الحصول على بعض المتغيرات عالية الثقة من مشروع 1000 Genome. هل هذا له علاقة بتقنية التسلسل؟ أي شيء يتعلق بالعينة نفسها؟ لماذا نريد قياس تجاربنا مع NA12878؟


لتوضيح الأشخاص الذين ليسوا على دراية بـ NA12878 ، هذا هو تحديد العينة لامرأة معينة من ولاية يوتا. والداها هما NA12891 و NA12892. في مجموعات بيانات التباين البشري ، هذا ما نقدمه لتحديد الأفراد والمعرف والجنس والسكان. تتم إزالة جميع البيانات الأخرى لحماية خصوصية المريض. لذا فإن السؤال هو لماذا تم اختيار NA12878 (هذه المرأة من ولاية يوتا) كمريض مرجعي في التحليل الجينومي ...

لا أعرف الجواب العملي الحقيقي ولكن مما أجمعه هو القصور الذاتي.

ليس لدي تاريخ كامل لها ولكني أعرف أشياء تجعل جينومها اختيارًا جيدًا لمعيار. NA12878 هي قديمة إلى حد ما بالنسبة لعلماء الوراثة ويتم تضمين حمضها النووي في العديد من المشاريع القديمة ، على وجه التحديد HapMap.

لديها مرض وراثي (CYP2D6 الطفرة) والذي ربما يكون هو ما اشتمل في البداية على التحليل الجيني لها وعائلتها. هذا سبب أفضل لدراسة هذا الجينوم بالتفصيل بدلاً من كونه مجرد شخص مشهور (مثل Venter).

إنها يوتا مورمون (مجموعة مؤسسية صغيرة مع معلومات نسب واسعة النطاق) ، لديها 11 طفلاً (يمكنها إجراء تحليل إعادة التركيب / الوراثة). ما يعنيه هذا هو أن الفهم العميق لجينومها سيكون له تطبيقات لهذه الفئة من السكان.

تم تضمين خط الخلية اللمفاوية الأرومية GM12878 كخلية دراسة من المستوى 1 ENCODE. هذا يعني أن هناك تيرابايت من البيانات التاريخية الخاصة بها أيضًا.

عندما أختار إجراء تحليل الجينوم البشري ، فإن NA12878 هو الخيار الواضح نظرًا لكمية البيانات المتاحة بالفعل ، مما يعني أيضًا توفر المزيد من البيانات. وبالتالي أعتقد أن الإجابة هي القصور الذاتي إلى حد كبير.

ضع في اعتبارك أيضًا الأمر بهذه الطريقة ، إذا كنت تحاول أن تقول أن تقنية خط الأنابيب أو التسلسل أفضل من التقنيات الأخرى ، ويستخدم الجميع NA12878 لقياس تقنيتهم ​​، فمن الحكمة أيضًا استخدام NA12878 حتى تكون النتائج قابلة للمقارنة.


قياس التطبيقات بشكل شامل للكشف عن اختلاف عدد النسخ

الانتماءات كلية علوم الكمبيوتر ، جامعة سيتشوان ، تشنغدو ، الصين ، مركز البيانات الطبية الضخمة ، جامعة سيتشوان ، تشنغدو ، الصين ، Zdmedical ، Information polytron Technologies Inc. تشونغتشينغ ، تشونغتشينغ ، الصين

ساهم بالتساوي في هذا العمل مع: Le Zhang و Wanyu Bai و Na Yuan

الأدوار تنظيم البيانات ، الكتابة - المسودة الأصلية ، الكتابة - المراجعة والتحرير

كلية الانتساب لعلوم الحاسب ، جامعة سيتشوان ، تشنغدو ، الصين

ساهم بالتساوي في هذا العمل مع: Le Zhang و Wanyu Bai و Na Yuan

أدوار تنظيم البيانات ، البرمجيات

مركز الانتساب BIG Data ، معهد بكين لعلم الجينوم ، الأكاديمية الصينية للعلوم ، بكين ، جمهورية الصين الشعبية

الأدوار تنظيم البيانات ، الكتابة - المسودة الأصلية ، الكتابة - المراجعة والتحرير

مركز الانتساب BIG Data ، معهد بكين لعلم الجينوم ، الأكاديمية الصينية للعلوم ، بكين ، جمهورية الصين الشعبية


خلفية

يتم تعريف الاختلافات الهيكلية الجينومية (SVs) بشكل عام على أنها عمليات حذف (DELs) ، وإدخال (INS) ، ومضاعفات (DUPs) ، وانعكاسات (INVs) ، وتحويلات (TRAs) بحجم 50 نقطة أساس على الأقل. غالبًا ما يتم النظر إلى SVs بشكل منفصل عن المتغيرات الصغيرة ، بما في ذلك متغيرات النوكليوتيدات المفردة (SNVs) والإدخالات القصيرة والحذف (indels) ، حيث يتم تشكيلها غالبًا بواسطة آليات متميزة [1]. INVs و TRAs هي أشكال متوازنة ، مع عدم وجود تغيير صافٍ في الجينوم ، و SVs المتبقية هي أشكال غير متوازنة. يُشار أيضًا إلى عمليات الحذف غير المتوازنة (DELs) والتكرار (DUPs) على أنها اختلافات في عدد النسخ (CNVs) ، مع DUPs التي تشتمل على أنواع مترادفة ومتباعدة اعتمادًا على المسافة بين النسخ المكررة [2 ، 3]. يتم تصنيف INS إلى عدة فئات بناءً على تسلسل الإدراج: إدخال العناصر المتنقلة (MEIs) ، والإدخال النووي لجينوم الميتوكوندريا (NUMTs) ، وإدخال العناصر الفيروسية (VEIs المشار إليها في هذه الدراسة) ، وإدخال تسلسل غير محدد.

تعتبر SVs مسؤولة إلى حد كبير عن تنوع وتطور الجينوم البشري على مستوى الأفراد والسكان [3،4،5،6]. تم تقدير الفرق الجينومي بين الأفراد الناجم عن SVs بنسبة 3-10 مرات أعلى من تلك التي كتبها SNVs [2 ، 6 ، 7]. وبالتالي ، يمكن أن يكون لـ SVs تأثيرات أعلى على وظائف الجينات والتغيرات المظهرية مقارنة بآثار SNVs و indels القصيرة. وفقًا لذلك ، ترتبط SVs بعدد من الأمراض التي تصيب الإنسان ، بما في ذلك اضطرابات النمو العصبي والسرطانات [3 ، 8 ، 9 ، 10 ، 11].

تم استخدام نوعين من الطرق لاكتشاف SVs: (1) الكشف المستند إلى الصفيف ، بما في ذلك تهجين الجينوم المقارن للمصفوفة الدقيقة (المصفوفة CGH) ، و (2) الطرق الحسابية القائمة على التسلسل [2 ، 12]. تعتبر الطرق المستندة إلى المصفوفة مفيدة للتحليل عالي الإنتاجية ، ولكنها تكتشف فقط أنواعًا معينة من SVs ، ولديها حساسية أقل لـ SVs الصغيرة ، ولديها دقة أقل لتحديد نقاط التوقف (BPs) من الطرق القائمة على التسلسل. على الرغم من أن التسلسل يتطلب وقتًا ومالًا أكثر من الطريقة القائمة على المصفوفة ، إلا أنه سيكون ضروريًا للكشف عن مجموعة واسعة من SVs لاعتماد الأساليب القائمة على التسلسل ، كما هو الحال في المشاريع الأخيرة التي تهدف إلى تحديد SVs على نطاق السكان [6 ، 13 ، 14،15].

تتخذ الطرق المستندة إلى التسلسل عدة مناهج مفاهيمية لاشتقاق معلومات حول SVs من بيانات تسلسل القراءة القصيرة [2 ، 9 ، 16 ، 17 ، 18]. تستخدم مقاربات أزواج القراءة (RP) وعمق القراءة (RD) ميزات المحاذاة المتنافرة وميزات العمق لقراءات النهاية المزدوجة التي تشمل SV أو تتداخل معها ، على التوالي. يستخدم أسلوب القراءة المنقسمة (SR) ميزات المحاذاة المنقسمة (ذات القطع الناعم) للقراءات أحادية النهاية أو ذات النهاية المزدوجة التي تمتد عبر BP لـ SV. يكتشف نهج التجميع (AS) SVs عن طريق محاذاة contigs ، مجمعة مع قراءات التسلسل بالكامل أو غير المعينة ، إلى التسلسل المرجعي. يستخدم عدد من خوارزميات اكتشاف SV التي تم تطويرها مؤخرًا مجموعة (CB) من الطرق الأربعة المذكورة أعلاه (هنا ، نشير إلى طرق اكتشاف SV الأساسية الخمس هذه باسم "الطرق" وكل أداة محددة للكشف عن SV باعتبارها "خوارزمية"). بصرف النظر عن الإستراتيجية ، فإن الأساليب القائمة على التسلسل تعاني من معدل مرتفع من الخطأ في SVs لأنها تنطوي على أخطاء في الاتصال الأساسي أو المحاذاة أو التجميع الجديد ، خاصة في المناطق المتكررة التي لا يمكن تمديدها بقراءات قصيرة. للتغلب على أوجه القصور في تسلسل القراءة القصيرة ، تم مؤخرًا استخدام القراءات الطويلة التي تم إنشاؤها باستخدام تقنية التسلسل أحادي الجزيء للكشف عن SVs في عينة بشرية باستخدام نهج AS و / أو SR [19،20،21،22]. ومع ذلك ، فإن التكلفة العالية والإنتاجية المنخفضة لهذه الاستراتيجية يحدان حاليًا من استخدامها العام.

على الرغم من أن الأساليب القائمة على التسلسل يمكنها نظريًا اكتشاف أي نوع من أنواع SVs ، إلا أنه لا توجد خوارزمية حسابية واحدة يمكنها اكتشاف جميع أنواع وأحجام SVs بدقة وحساسية [23]. لذلك ، تستخدم معظم المشاريع خوارزميات متعددة لاستدعاء SVs ، ثم دمج المخرجات لزيادة الدقة و / أو الاسترجاع [6 ، 13 ، 14 ، 15 ، 17 ، 24 ، 25 ، 26 ، 27 ، 28 ، 29]. تستخدم العديد من المشاريع خوارزميات اكتشاف SV الشائعة ، بما في ذلك BreakDancer [30] و CNVnator [31] و DELLY [32] و GenomeSTRiP [33] و Pindel [34] و Lumpy [35] ، والتي تقدم مكالمات بدقة عالية نسبيًا. على الرغم من أن إحدى الدراسات قد حققت في أداء 13 من خوارزمية الكشف عن SVs [36] ، لم يكن هناك تحقيق منهجي في أي الخوارزميات يمكنها اكتشاف أنواع SVs بدقة. الأهم من ذلك ، في حين أنه من الممارسات الشائعة القيام بذلك ، لم يكن هناك تحقيق منهجي في الاستراتيجيات المثلى لدمج نتائج الخوارزميات المتعددة للوصول إلى التوصيف الأكثر اكتمالا لـ SVs في الجينوم. في هذه الدراسة ، قمنا بتقييم 69 خوارزمية لدقتها واسترجاعها لكل من مكالمات SV الفردية والمتداخلة ، باستخدام مجموعات بيانات متعددة وحقيقية من مجموعات بيانات WGS.


توافر البيانات

تم نشر بيانات التسلسل الأولي مسبقًا بتنسيق البيانات العلمية (https://doi.org/10.1038/sdata.2016.25) وتم إيداعها في NCBI SRA برموز الانضمام SRX1049768 – SRX1049855، SRX847862 – SRX848317، SRX1388368 – SRX1388459، SRX1388732 – SRX138873643 SRX848744 و SRX326642 و SRX1497273 و SRX1497276. تتوفر ملفات 10x Genomics Chromium bam المستخدمة على ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/data/AshkenazimTrio/analysis/10XGenomics_ChromiumGenome_LongRanger2.0_06202016/. تتوفر ملفات vcf المرجعية وملفات السرير الناتجة عن العمل في هذه المخطوطة في دليل NISTv.3.3.2 تحت كل جينوم في مجلد إصدار GIAB FTP ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp / release / ، وفي المستقبل ، ستكون المكالمات المحدثة في الدليل "الأخير" تحت كل جينوم. البيانات المستخدمة في هذه المخطوطة ومجموعات البيانات الأخرى لهذه الجينومات متاحة على ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/data/ ، وكذلك في NCBI BioProject No. PRJNA200694.


تكامل قابل للتكرار لمجموعات بيانات التسلسل المتعددة لتشكيل دعوات SNP و indel والمرجعية عالية الثقة لخمس مواد مرجعية للجينوم البشري

تم استخدام مكالمات المتغيرات الصغيرة المعيارية من Genome in a Bottle Consortium (GIAB) لجينوم CEPH / HapMap NA12878 (HG001) على نطاق واسع لتطوير وتحسين وإثبات أداء التسلسل وأساليب المعلوماتية الحيوية. هنا ، نقوم بتحسين وتبسيط الطرق التي نستخدمها لدمج مجموعات بيانات التسلسل المتعددة ، بهدف نشر خط أنابيب قابل للتكرار قائم على السحابة للتطبيق على الجينوم البشري التعسفي. نحن نستخدم هذه الأساليب القابلة للتكرار لتشكيل مكالمات عالية الثقة فيما يتعلق بـ GRCh37 و GRCh38 لـ HG001 و 4 جينومات إضافية متفق عليها على نطاق واسع من مشروع الجينوم الشخصي والمتوفرة كمواد مرجعية لـ NIST. طرقنا الجديدة تنتج 17٪ أكثر من تعدد الأشكال و 176٪ إندلس أكثر من مكالماتنا المنشورة سابقًا لـ HG001. قمنا أيضًا بوضع 99.5 ٪ من المتغيرات في HG001 واستدعاء حوالي 90 ٪ من الجينوم المرجعي بثقة عالية ، بزيادة من 78 ٪ سابقًا. تحتوي مكالماتنا فقط على 108 اختلافات من مكالمات Illumina Platinum Genomes في GRCh37 ، 14 منها فقط غامضة أو من المحتمل أن تكون أخطاء في مكالماتنا. من خلال مقارنة العديد من مجموعات المكالمات بمكالماتنا الجديدة ، ومكالماتنا المنشورة سابقًا ، ومكالمات Illumina Platinum Genomes ، فإننا نسلط الضوء على التحديات في تفسير مقاييس الأداء عند المقارنة مع المكالمات غير الكاملة عالية الثقة. تعالج مكالماتنا الجديدة بعض هذه التحديات ، ولكن يجب دائمًا تفسير مقاييس الأداء بعناية. تعد أدوات المقارنة المعيارية من التحالف العالمي للجينوم والصحة مفيدة في تقسيم مقاييس الأداء حسب نوع المتغير وسياق الجينوم لتوضيح نقاط القوة والضعف في الطريقة. نستكشف أيضًا الاختلافات بين المقارنة مع الدعوات عالية الثقة لجينومات GIAB الخمسة ، ونبين أن مقاييس الأداء لخط أنابيب واحد متشابهة إلى حد كبير ولكنها غير متطابقة عند مقارنتها مع الجينومات الخمسة. أخيرًا ، لاستكشاف إمكانية تطبيق أساليبنا للجينومات التي تحتوي على مجموعات بيانات أقل ، نشكل مكالمات عالية الثقة باستخدام Illumina و 10x Genomics فقط ، ووجدنا أن لديهم مكالمات عالية الثقة ولكن لديهم معدل خطأ أعلى. تتمتع هذه الجينومات المميزة حديثًا بموافقة واسعة ومفتوحة مع وجود قيود قليلة على توفر العينات والبيانات ، مما يتيح مجموعة متنوعة وفريدة من التطبيقات.


MoleculeNet الجزء 1: مجموعات البيانات للتعلم العميق في العلوم الكيميائية وعلوم الحياة

شارك Bharath Ramsundar في تأليف هذا المنشور من DeepChem.

تعد مجموعات البيانات المعيارية محركًا مهمًا للتقدم في التعلم الآلي. على عكس رؤية الكمبيوتر ومعالجة اللغة الطبيعية ، فإن تنوع مجموعات البيانات وتعقيدها في العلوم الكيميائية وعلوم الحياة تجعل هذه المجالات مقاومة إلى حد كبير لمحاولات تنظيم المعايير المقبولة على نطاق واسع في المجتمع. في هذا المنشور ، نوضح كيفية إضافة مجموعات البيانات إلى ملف جزيء نت معيار للتعلم الآلي الجزيئي وإتاحة الوصول إليها برمجيًا باستخدام ديب كيم API.

تنظيم مجموعة بيانات ML الجزيئية

تجمع MoleculeNet [1] مجموعات البيانات في ست فئات رئيسية: ميكانيكا الكم والكيمياء الفيزيائية والبروتينات والفيزياء الحيوية وعلم وظائف الأعضاء وعلم المواد. أظهر "الجيل الأول" من MoleculeNet الشكل الذي قد يبدو عليه معيار ML الجزيئي ، وكشف عن بعض الاتجاهات المثيرة للاهتمام فيما يتعلق بندرة البيانات ، واختلالات الفئات ، وقوة الخصائص المدركة للفيزياء على بنى النماذج لبعض مجموعات البيانات.

ليس من السهل تغطية اتساع وعمق ML الجزيئي ، ولهذا السبب تتطور MoleculeNet إلى إطار عمل مرن للمساهمة بمجموعات البيانات وأداء نموذج القياس بطريقة موحدة ، مدعومة من DeepChem.

لماذا يجب أن نهتم بالمعايير؟

التعرف على الصور والكلام بدا مثل المهام العملاقة ، لكنها في الحقيقة بسيطة جدًا مقارنة بأنواع المشكلات التي نراها في الفيزياء والكيمياء والبيولوجيا. هذا هو السبب في أنه من النادر نسبيًا أن ترى أي شخص يدعي أن مشكلة في العلوم الفيزيائية أو علوم الحياة قد "تم حلها" عن طريق التعلم الآلي. تعد مجموعات البيانات الأفضل وطرق إنشاء مجموعات البيانات والمعايير القوية مكونات أساسية للتقدم في التعلم الآلي الجزيئي ، وربما أكثر من ابتكار حيل أو بنى تعلم عميق جديدة.

في العديد من الحقول الفرعية للتعلم العميق ، يسير المسار القياسي للتقدم إلى حد ما

1. اختر مجموعة بيانات معيارية مستخدمة على نطاق واسع (على سبيل المثال ، ImageNet أو CIFAR-10 أو MNIST).

2. تطوير واختبار بنية نموذجية تحقق أداء "على أحدث طراز" في بعض جوانب المعيار المعياري.

3. ابتكر شرحًا "نظريًا" مخصصًا لسبب تفوق الهندسة المعمارية الخاصة بك على البقية.

4. انشر نتائجك في مؤتمر رفيع المستوى.

إذا كنت محظوظًا ، فقد يستخدم باحثون آخرون نموذجك أو يبنون عليه لأبحاثهم الخاصة قبل ظهور بنية SOTA التالية. هناك مشكلات واضحة في هذا النموذج ، بما في ذلك التحيز في مجموعات البيانات ، وتحولات التوزيع ، وقانون Goodhart-Strathern - عندما يصبح المقياس هدفًا ، لم يعد مقياسًا جيدًا. ومع ذلك ، ليس هناك شك في أن المعايير توفر نوعًا من الوضوح للهدف وتغذي الاهتمام بأبحاث التعلم الآلي التي تفتقر إليها المجالات الأخرى.

ربما الأهم من ذلك ، أن المعايير تشجع الباحثين وتكافئهم على إنشاء مجموعات بيانات عالية الجودة ، والتي لم يتم تقديرها تاريخياً في العديد من المجالات. وتمكن مجموعات البيانات المعيارية من تحقيق اختراقات مذهلة ، مثل DeepMind’s AlphaFold ، والذي أصبح ممكنًا بفضل عقود من الجهد في تجميع هياكل البروتين عالية الدقة. يمثل AlphaFold نوعًا من "لحظة ImageNet" في طي البروتين ، مما يعني أن المشكلة "تم حلها" بمعنى ما.

تحتوي MoleculeNet على مئات الآلاف من المركبات والخصائص المُقاسة / المحسوبة ، ويمكن الوصول إليها جميعًا من خلال DeepChem API. إنه يجلب نكهة لأطر التقييم التقليدية المشهورة في مؤتمرات تعلم الآلة ، ولكنه يوفر أيضًا طريقة موحدة للمساهمة والوصول إلى مجموعات البيانات الجديدة.

المساهمة بمجموعة بيانات في MoleculeNet

تم تبسيط وتوثيق مساهمة مجموعة البيانات بشكل كبير. تتمثل الخطوة الأولى في فتح مشكلة على GitHub في مستودع DeepChem لمناقشة مجموعة البيانات التي تريد إضافتها ، مع التركيز على مهام ML الجزيئية الفريدة التي تغطيها مجموعة البيانات والتي ليست بالفعل جزءًا من MolNet. إذا قمت بإنشاء مجموعة بيانات أو تنسيقها بنفسك ، فهذه طريقة رائعة لمشاركتها مع مجتمع ML الجزيئي! بعد ذلك ، تحتاج إلى

  • اكتب فئة DatasetLoader التي ترث من deepchem.molnet.load_function.molnet_loader._MolnetLoader. يتضمن ذلك توثيق أي خيارات خاصة لمجموعة البيانات والأهداف أو "المهام" لـ ML.
  • قم بتنفيذ دالة create_dataset تقوم بإنشاء مجموعة بيانات DeepChem عن طريق تطبيق السمات المقبولة ، والمقسمات ، والتحويلات.
  • اكتب وظيفة load_dataset التي توثق مجموعة البيانات وتوفر طريقة بسيطة للمستخدمين لتحميل مجموعة البيانات الخاصة بك.

يعد كود مصدر محمل QM9 MolNet نقطة بداية لطيفة وبسيطة لكتابة محمل MolNet الخاص بك.

يسمح إطار العمل هذا باستخدام مجموعة بيانات مباشرة في خط أنابيب ML مع أي مجموعة معقولة من السمات (يحول المدخلات الأولية مثل سلاسل SMILES إلى تنسيق يمكن قراءته آليًا) ، والمقسم (يتحكم في كيفية إنشاء مجموعات التدريب / التحقق من الصحة / الاختبار) ، والتحويلات (على سبيل المثال، إذا كانت الأهداف بحاجة إلى التطبيع قبل التدريب).

المقسمات مهمة بشكل خاص هنا. عند مقارنة أداء النماذج المختلفة في نفس المهمة ، من الأهمية بمكان أن "يرى" كل نموذج نفس بيانات التدريب ويتم تقييمه بناءً على نفس البيانات. نريد أيضًا معرفة كيفية عمل النموذج على العينات التي تشبه ما تمت رؤيته من قبل (باستخدام تقسيم عشوائي للقطار / الصمام / الاختبار) مقابل كيفية عمله على العينات غير المتشابهة (على سبيل المثال، باستخدام الانقسام على أساس التراكيب الكيميائية).

الوصول إلى مجموعات البيانات باستخدام DeepChem API

تقوم لوادر MolNet بالوصول إلى مجموعات البيانات والمعالجة المسبقة لهم من أجل ML ممكن بسطر واحد من كود بايثون:

لإتاحة مجموعة البيانات فعليًا من خلال واجهة برمجة تطبيقات DeepChem ، ما عليك سوى توفير ملف تار أو مجلد مضغوط لمطور DeepChem ، والذي سيضيفه إلى حاوية DeepChem AWS S3. أخيرًا ، أضف وثائق أداة التحميل ومجموعة البيانات الخاصة بك.

نريد مجموعات البيانات الخاصة بك!

بعد إلقاء نظرة على القائمة الطويلة لمجموعات البيانات في MoleculeNet ، قد تجد أن هناك شيئًا مهمًا مفقودًا. الخبر السار هو أنه يمكنك (نعم ، أنت!) المساهمة بمجموعات بيانات جديدة! إذا لم تكن مرتاحًا لبرمجة Python ، فيمكنك ببساطة فتح مشكلة على GitHub ، وتضمين معلومات حول سبب إضافة مجموعة البيانات إلى MolNet ، وطلب المساعدة من مطور DeepChem. إذا كنت تشعر بالراحة في البرمجة ، بل أفضل - يمكنك اتباع الخطوات الموضحة أعلاه وتقديم مساهمة.

تكمن القوة الحقيقية لمعيار مفتوح المصدر في أنه يمكن لأي شخص المساهمة في ذلك مما يسمح لشركة MolNet بالتطور والتوسع إلى ما يتجاوز ما يمكن لمجموعة بحثية واحدة دعمه.

الخطوات التالية: أداء نموذج ML الجزيئي

في المنشور التالي ، سنناقش كيفية استخدام نصوص DeepChem و MolNet لإضافة مقاييس أداء لنماذج ML.

تواصل معنا

إذا أعجبك هذا البرنامج التعليمي أو كان لديك أي أسئلة ، فلا تتردد في التواصل مع ناثان البريد الإلكتروني أو الاتصال ينكدين و تويتر.

يمكنك معرفة المزيد عن مشاريع ناثان ومنشوراته على موقعه موقع الكتروني.


المواد والأساليب

خط أنابيب TEMP2

يظهر خط الأنابيب الكلي لـ TEMP2 في الشكل & # x200B الشكل 1 ، 1 ، الذي يحتوي على ثلاث خطوات موضحة على النحو التالي.

الرسوم التخطيطية التي تصور كيف يكتشف TEMP2 خط جرثومي جديد و من جديد ادخال الينقولات. (أ) الكشف عن ادخال الينقولات الجديدة. تحتوي الطريقة على ثلاث خطوات: المحاذاة والتجميع / التصنيف والتصفية. يتم تصوير القراءات المزدوجة على شكل أزواج من المربعات متصلة بخط أفقي قصير: مربعات مفتوحة للقراءات غير المعينة ومربعات ملونة للقراءات المعينة. يتم تمثيل الجينوم المرجعي على شكل خط أزرق بينما يمثل الينقولات & # x000a0element (TE) كخط أحمر. يتم تمييز جزء القراءة المعين إلى الجينوم المرجعي باللون الأزرق ويتم تمييز جزء القراءة المعين إلى الينقولات باللون الأحمر. ترتبط أزواج القراءة المعينة بشكل صحيح بخطوط صلبة بينما ترتبط أزواج القراءة المتنافرة بخطوط متقطعة. يتم تجميع أزواج القراءة الداعمة لـ Transposon والمثبتة في نفس الموقع الجيني (المحدد على أنه في حدود 95 ٪ من طول جزء مكتبة التسلسل). يتم دعم الكتلة 1p1 من خلال أزواج قراءة متعددة مع زوج قراءة واحد على الأقل على كل جانب من جوانب إدراج الترانسبوسون ، ويتم دعم الكتلة 2p من قبل اثنين أو أكثر من أزواج القراءة ، ولكن على جانب واحد فقط من الإدراج ، وقراءة غير متفاوتة -أزواج مفردة. (ب) تقدير العدد الإجمالي لـ من جديد إدخال من عائلة الينقولات. تتم محاذاة جميع القراءات الأولية (المربعات الفارغة) والقراءات المفردة كما هو محدد في A (المربعات الملونة) مع تسلسل الإجماع لكل عائلة من الينقولات. وفقًا للمكان الذي توافق عليه خريطة القراءة ، يتم تصنيفها على أنها قراءة خرائط نهائية وقراءات تخطيط مركزية (انظر المواد والطرق). العدد الإجمالي لل من جديد تُعرَّف إدخالات عائلة الينقولات على أنها الفرق بين العدد الفعلي للقراءات الفردية لرسم الخرائط النهائية والعدد المتوقع لقراءات الوهم لرسم الخرائط النهائية ، مع تقدير الأخير باستخدام قراءات فردية لرسم الخرائط المركزية وجميع القراءات.

الخطوة الأولى من TEMP2 هي تعيين القراءات إلى الجينوم المرجعي باستخدام خوارزمية bwa mem (16) باستخدام الأمر التالي: bwa mem -T 20 -Y. ثم يتم استخراج نوعين من أزواج القراءة من نتائج التعيين: (1) أزواج القراءة المعينة بشكل غير متناسق والتي يتم تعيين قراءة واحدة لها بشكل فريد إلى الجينوم المرجعي بينما القراءة الأخرى غير قابلة للتخطيط أو تعيينها إلى مواقع متعددة في الجينوم (الشكل التكميلي) أزواج القراءة S1 # 1 & # x02013 # 8 ، # 13 & # x02013 # 36 ، و # 41 & # x02013 # 56) (2) أزواج القراءة المقسمة التي تم تعيينها بشكل صحيح إلى موقع واحد فقط من الجينوم ولكن 5 & # x02032- نهاية قراءة واحدة مقطوعة بشكل ناعم (أزواج قراءة الشكل التكميلي S1 # 9 & # x02013 # 12 و # 37 & # x02013 # 40). يتم بعد ذلك محاذاة القراءات غير القابلة للتخطيط والمضاعفة والقراءات المقسمة إلى تسلسلات إجماع ترانسبوسون باستخدام bwa mem ، وتعتبر أزواج القراءة التي يمكن تعيينها إلى الينقولات بمثابة قراءات يمكن أن تدعم إدراج الينقولات.

الخطوة الثانية من TEMP2 هي التجميع والتصنيف. يتم وضع قراءتين تدعمان الينقولات في نفس المجموعة إذا كانت تفي بأي من الشرطين التاليين: (1) أنها ترسم نفس الجانب من إدخال الينقولات والمسافة بين مواقعها المعينة في الجينوم أصغر من 95٪ كمي من طول الجزء لمكتبة التسلسل ، أو (2) يخططون للجوانب المتقابلة لإدراج الينقولات ومسافتهم أصغر من ضعف مقدار 95 ٪ من طول الجزء لمكتبة التسلسل. ثم نحدد نقاط توقف الإدراج باستخدام موقع القطع الناعم للقراءات المنقسمة. في حالة عدم توفر قراءات مقسمة ، نقوم بتعيين متوسط ​​إحداثيات النهايات 3 & # x02032 للقراءات الداعمة (الشكل & # x200B (الشكل 1 أ) 1 أ) كنقطة توقف. يتم تصنيف جميع الإدخالات التي تدعمها مجموعات القراءة إلى ثلاثة أنواع وفقًا لموقعها الجيني وعدد القراءة: يتم دعم عمليات الإدراج 1p1 (واحد زائد واحد) بواسطة أزواج القراءة على جانبي الإدراج 2p (اثنان زائد). من خلال اثنين أو أكثر من أزواج القراءة ولكن هذه القراءات تأتي جميعها من جانب واحد للإدراج و من جديد يتم دعم عمليات الإدراج بواسطة زوج قراءة واحد فقط (أي & # x000a0singleton). يعتبر TEMP2 إدخالات 1p1 و 2p كإدخالات سلالة جرثومية يتم تمريرها إلى الجيل التالي وتستخدم أزواج قراءة مفردة لتقدير مستوى من جديد عمليات الإدخال ، والتي تشمل عمليات الإدخال في الجينومات الجسدية أو عمليات الإدخال في جينومات السلالة الجرثومية التي لا تؤدي إلى النسل. يسمح TEMP2 أيضًا للمستخدمين بتعيين حد تردد الإدخال لتصنيف ما إذا كان الإدراج أم لا من جديد، وهو أمر ضروري عندما يتم إنشاء مكتبة التسلسل من عدد صغير من الخلايا لأنه في مثل هذه الحالات من جديد يمكن دعم عمليات الإدخال بقراءات متعددة بسبب تضخيم PCR لكمية صغيرة من بدء DNA.

الخطوة الثالثة من TEMP2 هي التصفية. يتم تطبيق ثلاثة أنواع من التصفية لإزالة الإدخالات الإيجابية الخاطئة. أولاً ، يتجاهل TEMP2 الإدخالات بواسطة الينقولات في موقع في الجينوم الذي تم شرحه لاحتواء نسخة من نفس الينقولات ، لأن القراءات المتعارضة التي تدعم مثل هذه الإدخالات من المحتمل أن تكون بسبب أخطاء في محاذاة التسلسل. علاوة على ذلك ، نضع مواضع الإدراج هذه في قائمة سوداء لتصفية عمليات الإدخال الأخرى المكتشفة في نفس المواضع الجينومية ، والتي غالبًا ما تأتي من الينقولات في نفس العائلة ، مرة أخرى ، مما يشير إلى أخطاء المحاذاة. ثانيًا ، يقدر TEMP2 عمق التسلسل في المنطقة الجينومية حول كل إدخال مرشح ويقارنه بمتوسط ​​عمق التسلسل عبر الجينوم بأكمله. يتبع عدد قراءات تسلسل الجينوم المعين التي تقع في نافذة الجينوم توزيعًا ثنائي النسق بوضع واحد حول متوسط ​​التغطية والوضع الآخر أعلى بكثير من خمسة أضعاف متوسط ​​التغطية (الشكل التكميلي S2A). على وجه التحديد ، في بيانات تسلسل Illumina الخاصة بنا ، كان للنوافذ الجينومية 0.226٪ 5 & # x000d7 قراءات أو أكثر من تغطية الجينوم الإجمالية (27.1 & # x000d7). وبالتالي ، قمنا بتصفية الإدخالات الموجودة في المناطق الجينومية ذات أعماق التسلسل 5 & # x000d7 أو أعلى. ثالثًا ، يقوم TEMP2 بدمج الإدخالات في نفس الموضع الجينومي تمامًا & # x02014 الغالبية العظمى من هذه الإدخالات مأخوذة من عائلات ترانسبوسون الفرعية ذات الصلة & # x02014 وتعيين جميع القراءات الداعمة للإدراج مع القراءات الأكثر دعمًا. لقد أجرينا خطوات التصفية الثلاث هذه فورًا بعد استدعاء إدخالات الينقولات المحتملة لتقليل عدد الإدخالات والمناطق الجينية المحتوية على الإدراج التي نحتاج إلى فحصها ، مما يقلل من وقت تشغيل TEMP2 & # x02019.

بعد تحديد إدخال ينقولات السلالة الجرثومية ، يقدر TEMP2 أيضًا تواتر كل إدخال ينقلب. يتم تعريف أزواج القراءة غير المنقسمة المعينة بشكل صحيح والتي تتخطى أكثر من 20 نقطة أساس من نقطة توقف الإدراج كأزواج قراءة مرجعية. يتم تقدير تكرار كل إدخال ينقلب باستخدام المعادلة أدناه:

يقدر TEMP2 المستوى العام لـ من جديد إدخال ترانسبوسون لكل عائلة ترانسبوسون في الجينوم بأكمله باستخدام قراءات مفردة تدعم ترانسبوسون ، ومع ذلك ، لا يقوم TEMP2 بعمل تنبؤات حول إدخال الينقولات في مواضع فردية. للكشف عن من جديد عمليات الإدراج ، يجب أن يحمي TEMP2 من قراءات الوهم التي يتم تقديمها أثناء إنشاء المكتبة ، والتي غالبًا ما تكون فردية. يجب أن يتم تعيين قراءات Chimera إلى جميع المواقع في تسلسل إجماع الينقولات بشكل موحد ، بينما يقرأ المفرد أنه يجب إثراء إدخالات الينقولات الداعمة في طرفي تسلسل إجماع الينقولات ، بقدر ما هو داخل تسلسل الإجماع مثل طول جزء التسلسل سوف تسمح المكتبة. وبالتالي ، يمكننا استخدام قراءة مفردة لتلك الخريطة إلى المنطقة المركزية (تسلسل الإجماع مطروحًا منه الطرفين) لتقدير عدد القراءات الوهمية. يحدد TEMP2 أطوال الأجزاء لجميع أزواج القراءة التي تعين تمامًا موقعًا فريدًا في الجينوم المرجعي ثم تحدد نهاية الينقولات على أنها طول الجزء المئوي 95 مطروحًا منه 25 nts. عدد ال من جديد يمكن الاستدلال على إدخالات عائلة ترانسبوسون من خلال الاختلاف بين عدد القراءات الفردية لرسم الخرائط النهائية وعدد قراءات رسم الخرائط المنفردة ، وبالتالي ، فإن المستوى العام لـ من جديد إدخال عائلة الينقولات هو:

ينتج TEMP2 درجة ثقة (تتراوح من 0 & # x02013100٪) لكل عائلة ترانسبوسون تساوي واحدًا مطروحًا منه المعدل الإجمالي المقدر لقراءات الكيميرا لعائلة الينقولات هذه. يستخدم الشكل التكميلي S2B مثالين على الينقولات لتوضيح كيفية تقدير TEMP2 من جديد ترددات الإدراج. باستخدام بيانات تسلسل Illumina الخاصة بنا ، يقدر TEMP2 ذلك رو ليس له مستوى أعلى من الخلفية وهو من جديد عمليات الإدراج لأن العدد الإجمالي للنهاية المفردة & # x02013reads لا يتجاوز العدد المتوقع للنهاية المفردة & # x02013reads ، بينما تيرانت يقدر أن لديها 43 من جديد الإدخالات.

في تطبيق نموذجي عندما يتم استخدام عدد كبير بما فيه الكفاية من الخلايا (الآلاف أو أكثر) في مادة البداية لإعداد مكتبة التسلسل ، يعتبر TEMP2 فقط عمليات الإدراج المفردة محتملة من جديد عمليات الإدخال لتقدير مستوى الجينوم من جديد معدل الإدراج. في الحالات النادرة التي يتم فيها استخدام عدد محدود من الجينومات (المئات أو أقل) في مادة البداية ، لن يفكر TEMP2 في عمليات الإدراج المفردة فحسب ، بل سيطلب بدلاً من ذلك من المستخدم توفير عدد الجينومات في مادة البداية ثم تعيينها تلقائيًا عتبة تردد الإدخال تكون ضعف التردد النظري لـ من جديد ملحقات لتمييز الإمكانات من جديد عمليات الإدراج من إدخال السلالة الجرثومية.

لتفسير حالات المبتور من جديد عمليات الإدراج مثل 5 & # x02032 عناصر L1 مقتطعة (15،17،18) ، يمكن أيضًا تصنيف TEMP2 للقراءة المفردة تلك الخريطة إلى طرفي الينقولات المجزأة كقراءات تدعم الإدراج (باستخدام الخيار & # x02018-T & # x02019) ، إذا كان هناك ما يكفي من القراءات (افتراضيًا ثلاث قراءات أو أكثر في كل نهاية) لدعم هذه الينقولات المجزأة في أماكن أخرى من الجينوم. يتم استخدام الينقولات المجزأة مع الينقولات كاملة الطول في نفس العائلة لحساب قراءات رسم الخرائط النهائية وقراءات تعيين المركز في المعادلة أعلاه لحساب المعدل الإجمالي لـ من جديد الإدخالات.

بيانات محاكية

لقياس أداء TEMP2 وطرق الكشف عن الينقولات الأخرى ، تمت محاكاة مجموعة من بيانات تسلسل Illumina (انظر الشكل التكميلي S3 للحصول على ملخص). قمنا بمحاكاة الجينوم مع 400 إدخال جديد من ترانسبوزون السلالة الجرثومية بترددات مختلفة (0.25 ، 0.5 ، 0.75 & # x000a0 و 1) وأطوال الإدراج على النحو التالي. قمنا أولاً ببناء 10000 جينوم مرجعي (dm6) ثم أدخلنا 90 ترانسبوزونات كاملة الطول (منتقاة عشوائيًا) و 10 ينقولات جزئية الطول (6) العنصر الأول, 2 وثيقة, 2 عنصر F) في نفس إحداثيات 2500 و 5000 & # x000a0 أو 7500 من الجينوم المرجعي البالغ 10000 واحدًا تلو الآخر. قمنا أيضًا بمحاكاة 10000 جينوم مع 20 إدخالًا من الينقولات الجسدية. أدخلنا ثمانية كاملة الطول 297، أربعة كاملة الطول كوبيا، ثلاثة بالحجم الكامل تيرانت، اثنان جزئي الطول وثيقة، واحد بالحجم الكامل 17.6، واحد بالحجم الكامل عنصر F& # x000a0 وواحد كامل الطول دم، ومن ثم 20 ينقل في المجموع ، إلى إحداثيات مختلفة من الجينوم المحاكاة البالغ 10000 واحدًا تلو الآخر. تم استبعاد مناطق التعيين المنخفضة عند إدخال الينقولات.

تمت محاكاة أزواج قراءة Illumina باستخدام خوارزمية ART (الإصدار 2.5.1) مع المعلمات -ss HS25 -p -l 100 (طول القراءة) -m 450 (حجم الجزء) -s 10 -na (19). لكل من الجينومات المحاكية البالغ عددها 10000 ، قمنا بمحاكاة أزواج قراءة Illumina عند 0.0001 & # x000d7 ، 0.0002 & # x000d7 ، 0.0003 & # x000d7 ، 0.0004 & # x000d7 ، 0.0005 & # x000d7 ، 0.001 & # x000d7 ، 0.002 & # x000d7 ، 0.003 & # x000d7، 0.004 & # x000d7 & # x000a0and 0.005 & # x000d7 & # x000a0 تغطية الجينوم بإضافة المعلمة -f. في المجموع ، تم إنشاء أزواج قراءة Illumina على عمق تسلسل تغطية الجينوم & # x000a01 & # x0201350 & # x000d7 & # x000a0 لـ 10000 جينوم مقلد لكل مجموعة جينوم. ليس ذلك من خلال تغطية 1 & # x0201350 & # x000d7 & # x000a0genome ، فإننا نعني أن العدد الإجمالي للنيوكليوتيدات التي تم تعيينها للجينوم المرجعي كان عند 1 & # x0201350 & # x000d7 طول الجينوم. تم إنشاء مجموعتي بيانات إضافيتين بنسب مختلفة من أزواج قراءة الوهم (0.05٪ و 0.5٪) من خلال الجمع بين قراءتين عشوائيتين في زوج قراءة واحد.

PacBio و Illumina تسلسل الجينوم الكامل لـ ذبابة الفاكهة

بالنسبة لتسلسل PacBio ، تم جمع الذباب البكر الأنثوي (سلالة ISO-1 ، & # x0223c180 فردًا لكل من عينتين) وتم تجويعه لمدة 1.5 ساعة وتجميده في النيتروجين السائل. تم استخلاص الحمض النووي الجيني وتنقيته بإجراءات معيارية. The DNA library preparation for PacBio sequencing was performed by following the PacBio protocol called ‘procedure & checklist of 20 kb template preparation using the BluePippin size-selection system’. Briefly, the DNA was sheared by a Covaris g-TUBE device and purified using AMPure PB beads. The fragmented DNA was subject to DNA damage repairing and ligated with adapters. Then purified ligation products were size-selected using the BluePippin Size Selection system. After annealing and binding of SMRTbell templates and preparation for MagBead loading, the two libraries were run on the PacBio RS II and Sequel system in NextOmics (Wuhan, China), respectively. The sequencing results for each sample contained two SMART cells.

For Illumina short-read sequencing, the whole bodies of 3𠄵-day-old female virgin flies (ISO-1 strain, � individuals) were collected and used for DNA extraction. DNA quality was assessed by OD260/OD280 with Nanodrop and agarose gel electrophoresis. The library for Illumina sequencing was prepared as follows: (i) fragmentation with Covaris ultrasonicator, (ii) end-repair and phosphorylation of the 5′ ends, (iii) A-tailing of the 3′ ends, (iv) ligation of adapters, (v) 12 cycles of PCR to enrich for the ligated product. Sequencing was done with the Illumina HiSeq-2500 sequencer (run type: paired-end read length: 125 nt) in Novogene (Tianjin, China).

Build a benchmark of transposon insertions using PacBio sequencing data

PacBio sequencing data were transformed to the FASTA format and then aligned to the dm6 genome using the Minimap2 algorithm (version 2.16) with parameters -x map-pb –MD (20). The mapping result was then provided to the Sniffles algorithm for structural variation detection with parameters -l 300 -s 1 (21). Only insertions longer than 300-bp were retained for further analysis because the shortest transposon in D. melanogaster يكون Stalker3, which is 372-nt in full length. The sequences of insertions were extracted and aligned to transposon consensus sequences using Minimap2 again to define new transposon insertions. A new transposon insertion is considered valid if both of the following conditions are satisfied: (i) the aligned length is longer than half of the insertion (ii) the alignment starts within 500-nt of the 5′-end of the insertion and ends within 500-nt of the 3′-end of the insertion. Transposon insertions within 50 bp were merged, and insertions with more than one supporting read were retained and considered as germline transposon insertions. Breakpoints of the insertions were set to the insertion sites that were supported by the most reads. The 5′-end and 3′-end of each inserted transposon were also annotated. To estimate insertion frequencies, genome-mapping PacBio reads around each breakpoint were tallied. Reads that cross a breakpoint for at least 50 bps were defined as reference reads, and reads split within 50 bp of the breakpoint were defined as supporting reads. Some PacBio reads were long enough to split in both the 5′-end and the 3′-end of an insertion, and these reads were counted as two supporting reads. The insertion frequencies were then estimated using the same equation as TEMP2:

We then manually inspected each of the 405 transposon insertions detected using the PacBio data. Among these 405 insertions, 73 were located in an annotated copy of the same transposon in the reference genome. We visualized the PacBio raw reads supporting each insertion using the IGV browser (v2.7.2) to examine detailed alignments (22). Furthermore, we manually aligned each inserted sequence back to the transposon consensus sequence. For 11 high-frequency insertions supported by many PacBio reads, the insertion sites made by the supporting PacBio reads were typically at exactly the same location of the reference genome or within a few base-pairs of each other, indicating that these are true insertions. For the remaining 62 insertions, a portion of the supporting PacBio read could not align to the reference genome due to high sequencing errors in the portion. However, when we manually aligned the portion back to the transposon consensus sequence, more than half of the portion could be aligned. Furthermore, their supporting PacBio reads point to positions in the reference genome that were far from one another (hundreds to thousands of base pairs away), suggesting alignment errors. We deemed these insertions false positives. We further examined whether the 332 PacBio-detected insertions that were not in a copy of the same transposon could be supported by any Illumina reads. We first aligned Illumina reads to the reference genome via bwa mem using default parameters and then identified discordantly mapped read-pairs from the ± 500 bp region flanking each of the 332 insertions. We aligned these discordant read-pairs to transposon consensus sequences via bwa mem using default parameters. If there was at least one discordant read-pair that could align to the inserted transposon, we deemed the insertion supported by Illumina reads.

Algorithm comparison

The main differences between the algorithms assessed by us are listed in Supplementary Table S4. Algorithms were benchmarked on three sets of short-read whole-genome sequencing data: simulated D. melanogaster data, experimental D. melanogaster data we produced, and human data in the NA12878 lymphoblastoid cell line downloaded from the 1000 Genomes Project.

For simulated and D. melanogaster data, default parameters for each algorithm were used. To achieve a fair comparison of the algorithms, the same cutoff of transposon-supporting reads were used for each of the algorithms (five reads). Sum of squared residue (SSR) was defined as the sum of errors of estimated من جديد insertion rate across all transposons including the transposons with 0 simulated insertions:

The SSRs were 0.3 for TEMP2 and 24.75 for TEMP (Figure ​ (Figure2F). 2F ). When we considered only those seven transposons with non-zero simulated insertions, SSRs were 0.3 for TEMP2 and 17.69 for TEMP. The transposon library of D. melanogaster was downloaded from Flybase (23). Transposon insertions in the reference genome (dm6) were annotated using RepeatMasker with parameters -s -no_is -norna -nolow -e ncbi -cutoff 255 -div 40 -frag 20000 (24).

The performance of TEMP2 on simulated datasets. Simulated Illumina read-pairs at different sequencing depth (1�× genome coverage) were used for comparing the performance of TEMP2, TEMP, ERVcaller, MELT, RetroSeq and RelocaTE2 (in red, blue, green, yellow, purple and gray respectively). Panels A𠄽, germline insertions. Panels E-F, somatic insertions. Except for panel E, for which three levels of chimera read-pairs were tested, the datasets with 0.05% chimera read-pairs were used for all other panels. (أ) Performance of TEMP2 and other transposon-detection methods in detecting transposon insertions. Three panels of line plots depict the sensitivity, precision, and F1 score of detecting germline transposon insertions, respectively, as a function of sequencing depth. (ب) Accuracies of TEMP2, TEMP and RetroSeq in estimating transposon-insertion frequencies. Line plots show the average error of estimated frequencies of germline transposon insertions as a function of sequencing depth. (ج) Accuracies of TEMP2 and other transposon-detection methods in identifying the breakpoints in the reference genome. Line plots show the average distance between detected and simulated breakpoints of new germline transposon insertions. (د) Accuracies of TEMP2 and two other transposon-insertion methods in predicting the ends of inserted transposons. Line plots show the average distance between detected and simulated transposon ends of new germline insertions. (ه) Accuracies of TEMP2 and TEMP in estimating somatic transposon insertion numbers. Line plots show the sum of squared residuals (SSR) of estimated somatic insertion numbers for all transposon subfamilies. Simulated data with 0%, 0.05%, and 0.5% chimera were tested and the results are displayed as solid, dashed and dot-dashed lines respectively. This panel and panel F are benchmarked using simulated من جديد insertions from six full-length transposons and one fragmented transposon (وثيقة). (F) Accuracies of TEMP2 and TEMP in estimating somatic transposon insertion numbers the sequencing depth was set to 20×. Scatterplots compare simulated and estimated insertion numbers. Each dot denotes a transposon subfamily, and the 8 transposon subfamilies with simulated somatic insertions are in black while the other transposon subfamilies are in gray.

We downloaded the .cram or .bam file of NA12878 low-depth and high-depth data from the 1000 Genomes Project. Although TEMP2 can directly work with these files, we wanted to ensure that the same parameters were used for genome mapping, so we extracted raw reads from these files using samtools (25) and then aligned the reads to hg38 using bwa mem with parameters ‘-T 20 -Y’ (16). Default parameters for ERVcaller, MELT, RetroSeq were used to analyze the NA12878 data. We allowed 10% sequence divergence for TEMP2 and TEMP when aligning reads to transposon consensus sequences, the same for MELT. To achieve a fair comparison of the algorithms, the same cutoff of transposon-supporting reads were used for each of the algorithms (3 for low-depth data and 10 for high-depth data). The transposon library, which contains Alu, SVA, and LINE1 consensus sequences, was downloaded from the MELT package (10). The reference insertion annotation of Alu, SVA, and LINE1 was also downloaded from the MELT package.


We thank members of the Myers, Moffat, Boone, and Andrews laboratory for fruitful discussions. This research was funded by grants from the National Science Foundation (MCB 1818293), the National Institutes of Health (R01HG005084, R01HG005853), the Canadian Institutes for Health Research (MOP-142375), Ontario Research Fund, Genome Canada (Bioinformatics and Computational Biology program), and the Canada Research Chairs Program. M.B. was supported by a DFG Fellowship (Bi 2086/1-1).

Study conception: MB, MR, and CLM Software and analysis: MR and MB Result interpretation: MR, MB, MC, HNW, KRB, CB, JM, and CLM Experiments: AHYT, KC, and MA Manuscript drafting: MC, MA, HNW, KRB, BJA, CB, JM. MB, MR, and CLM Funding: BJA, CB, JM, and CLM.


1 المقدمة

Next-generation sequencing is revolutionizing biological and clinical research. Long hampered by the difficulty and expense of obtaining genomic data, life scientists now face the opposite problem: faster, cheaper technologies are beginning to generate massive amounts of new sequencing data that are overwhelming our technological capacity to conduct genomic analyses ( Mardis, 2010 ). Computational processing will soon become the bottleneck in genome sequencing research, and as a result, computational biologists are actively developing new tools to more efficiently and accurately process human genomes and call variants, e.g. SAMTools ( Li وآخرون. , 2009 ), GATK ( DePristo وآخرون. , 2011 ), Platypus ( http://www.well.ox.ac.uk/platypus ), BreakDancer ( Chen وآخرون. , 2009 ), Pindel ( Ye وآخرون. , 2009 ) and Dindel ( Albers وآخرون. , 2011 ).

Unfortunately, single-nucleotide polymorphism (SNP) callers disagree as much as 20% of the time ( Lyon وآخرون. , 2012 ), and there is even less consensus in the outputs of structural variant algorithms ( Alkan وآخرون. ، 2011). Moreover, reproducibility, interpretability and ease of setup and use of existing software are pressing issues currently hindering clinical adoption ( Nekrutenko and Taylor, 2012 ). Indeed, reliable benchmarks are required to measure accuracy, computational performance and software robustness, and thereby improve them.

In an ideal world, benchmarking data to evaluate variant calling algorithms would consist of several fully sequenced, perfectly known human genomes. However, ideal validation data do not exist in practice. Technical limitations, such as the difficulty in accurately sequencing low-complexity regions, along with budget constraints, such as the cost to generate high-coverage Sanger reads, limit the quality and scope of validation data. Nonetheless, significant resources have already been devoted to generate subsets of benchmarking data that are substantial enough to drive algorithmic innovation. Alas, the existing data are not curated, thus making it extremely difficult to access, interpret and ultimately use for benchmarking purposes.

Owing to the lack of curated ground truth data, current benchmarking efforts with sequenced human genomes are lacking. The majority of benchmarking today relies on either simulated data or a limited set of validation data associated with real-world datasets. Simulated data are valuable but do not tell the full story, as variant calling is often substantially easier using synthetic reads generated via simple generative models. Sampled data, as mentioned earlier, are not well curated, resulting in benchmarking efforts, such as the Genome in a Bottle Consortium ( Zook and Salit, 2011 ) and the Comparison and Analytic Testing resource (GCAT) ( http://www.bioplanet.com/gcat ), that rely on a single dataset with a limited quantity of validation data.

Rigorously evaluating predictions against a validation dataset presents several additional challenges. Consensus-based evaluation approaches, used in various benchmarking efforts ( The 1000 Genomes Project Consortium, 2010 DePristo وآخرون. , 2011 Kedes and Campany, 2011 ), may be misleading. Indeed, different methods may in fact make similar errors, a fact that remains hidden without ground truth data. In cases where ‘noisy’ ground truth data are used, e.g. calls based on Sanger sequencing with some known error rate or using SNP chips with known error rates, accuracy metrics should account for the effect of this noise on predictive accuracy. Additionally, given the inherent ambiguity in the Variant Calling Format (VCF) format used to represent variants, evaluation can be quite sensitive to the (potentially inconsistent) representations of predicted and ground truth variants. Moreover, owing to the growing need to efficiently process raw sequencing data, computational performance is an increasingly important yet to date largely overlooked factor in benchmarking. There currently exist no benchmarking methodologies that—in a consistent and principled fashion—account for noise in validation data, ambiguity in variant representation or computational efficiency of variant calling methods.

Without any standard datasets and evaluation methodologies, research groups inevitably perform ad hoc benchmarking studies, working with different datasets and accuracy metrics, and performing studies on a variety of computational infrastructures. Competition-based exercises ( Earl وآخرون. , 2011 Kedes and Campany, 2011 ) are a popular route for benchmarking that aim to address some of these inconsistencies, but they are ephemeral by design and often suffer from the same data and evaluation pitfalls described earlier.

In short, the lack of consistency in datasets, computational frameworks and evaluation metrics across the field prevents simple comparisons across methodologies, and in this work, we make a first attempt at addressing these issues. We propose SM a SH, a standard methodology for benchmarking variant calling algorithms based on a suite of س ynthetic, م ouse أ اختصار الثاني س ampled ح uman data. SM a SH leverages a rich set of validation resources, in part bootstrapped from the patchwork of existing data. We provide free and open access to SM a SH, which consists of:

A set of five full genomes with associated deep coverage short-read datasets (real and synthetic)

Three contaminated variants of these datasets that mimic real-world use cases (M.DePristo, 2013, personal communication) and test the robustness of variant callers in terms of accuracy and required computational resources

Ground truth validation data for each genome along with detailed error profiles

Accuracy metrics that account for the uncertainty in validation data

Methodology to resolve the ambiguity in variant representations, resulting in stable measurements of accuracy and

Performance metrics to measure computational efficiency (and implicitly measure software robustness) that leverage the Amazon Web Services (AWS) cloud computing environment.

SM a SH is designed to facilitate progress in algorithm development by making it easier for researchers to evaluate their systems against each other.


معلومات الكاتب

الانتماءات

CRUK Cambridge Institute, University of Cambridge, Cambridge, UK

Maurizio Callari, Stephen-John Sammut, Leticia De Mattos-Arruda, Alejandra Bruna, Oscar M. Rueda, Suet-Feung Chin & Carlos Caldas

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

المؤلفون المراسلون