معلومة

استعلام بخصوص ملفات مسار KEGG KGML


فيما يتعلق بمسار Wnt في KEGG ، يحتوي ملف KGML لهذا المسار على وصف لكل تفاعل بين زوج من الجينات. يتم تحديد هذه التفاعلات في النموذج:

entry1 = "46" entry2 = "41" type = "PPrel" اسم النوع الفرعي = "تثبيط" القيمة = "- |" / اسم النوع الفرعي = "phosphorylation" value = "+ p" /

في بعض الإدخالات ، تكون إدخالات "النوع الفرعي" للتفاعل 2 في العدد بينما في بعضها ، تكون واحدة ، كما هو الحال بالنسبة للتفاعل المذكور أعلاه. إدخال آخر على النحو التالي:

entry1 = "47" entry2 = "46" type = "PPrel" واسم النوع الفرعي = "phosphorylation" value = "+ p" / Relation

لماذا تحتوي بعض الإدخالات على نوعين من التفاعلات بينما يحتوي البعض الآخر على نوع واحد؟ ماذا يعني هذا بيولوجيا؟

هناك نوع تفاعل يسمى "مركب". ماذا يعني التفاعل المركب بيولوجيا؟

 

انظر الدليل:

يعني PPrel ، في كل من هذه ، التفاعل بين البروتين والبروتين ، لذلك نريد مقاربتهم من خلال التفكير في ما يمكن أن تفعله منتجات البروتين من هذه الجينات مع بعضها البعض.

بالنسبة للمثال الأول والثاني ، يقدم النوع (الأنواع) الفرعية مزيدًا من المعلومات حول التفاعل. لا يستبعد أحدهما الآخر بالضرورة. على سبيل المثال ، يمكن أن تؤدي الفسفرة إلى تنشيط أو تثبيط أو شيء آخر أو غير معروف. بالنسبة للأول ، هناك الفسفرة والتأثير هو التثبيط. بالنسبة للتفاعل الثاني ، يكون التفاعل عبارة عن فسفرة ولكن التأثير لم يتم تمييزه.

عندما يكون المركب تحت النوع الفرعي لعلاقة PPrel ، فإن القيمة هي معرف عنصر الإدخال للمركب (لذا ابحث عن عنصر الإدخال 4) ، وهي تشير إلى وسيط من بروتينين متفاعلين.


KEGG - موسوعة كيوتو للجينات والجينوم (kegg) ¶

kegg هي وحدة بيثون للوصول إلى KEGG (موسوعة كيوتو للجينات والجينوم) باستخدام خدمات الويب الخاصة بها.

تتطلب هذه الوحدة النوم وتطلب حزمًا.

يمكن أن تكون فئة الكائن الحي نقطة انطلاق ملائمة لقواعد البيانات الخاصة بالكائن.

فئة ملائمة لاسترداد المعلومات المتعلقة بالكائن الحي في قاعدة بيانات KEGG Genes.

العوامل:غزاله (شارع) - كود كائن KEGG (مثل "hsa" ، "sce"). يمكن أيضًا أن يكون اسمًا وصفيًا (مثل "الخميرة" ، "الإنسان العاقل") وفي هذه الحالة سيتم البحث عن رمز الكائن باستخدام KEGG find api.

organism_name_search () ابحث في KEGG عن رمز كائن

مثيل قاعدة بيانات الجينات لهذا الكائن الحي.

قم بإرجاع قائمة مجموعات الجينات المتساوية (المرادفات) في KEGG لهذا الكائن الحي.

يتضمن هذا فقط سجلات "ncbi-geneid" و "ncbi-proteinid" من إدخالات KEGG Genes DBLINKS.

قم بإرجاع قائمة بجميع المسارات الخاصة بهذا الكائن الحي.

ضع قائمة بجميع المسارات لهذا الكائن الحي.

get_enriched_pathways ( الجينات, المرجع = لا شيء, prob = & ltorangecontrib.bioinformatics.utils.statistics.Binomial object & gt, رد الاتصال = لا شيء ) [مصدر] ¶

قم بإرجاع قاموس به معرفات مسارات غنية كمفاتيح و (list_of_genes، p_value، num_of_reference_genes) مجموعات كعناصر.

المسارات التي تشمل جميع الجينات في gene_ids.

orangecontrib.bioinformatics.kegg. organism_name_search ( اسم ) [مصدر] ¶

ابحث عن كائن حي بالاسم وأعد إليه رمز كائن KEGG.

orangecontrib.bioinformatics.kegg. مسارات ( غزاله ) [مصدر] ¶

قم بإرجاع قائمة بجميع مسارات KEGG لمؤسسة كود كائن KEGG.

orangecontrib.bioinformatics.kegg. from_taxid ( الرقم الضريبي ) [مصدر] ¶

قم بإرجاع رمز كائن KEGG لسلسلة معرف تصنيف NCBI.

orangecontrib.bioinformatics.kegg. to_taxid ( اسم ) [مصدر] ¶

قم بإرجاع معرف تصنيف NCBI لاسم كائن KEGG محدد


14 ديسمبر 2009

تطبيقات بيولوجيا الأنظمة في اكتشاف الأدوية

حتى الآن ، قدمنا ​​الكثير من المشاركات في علم الأحياء الأنظمة وتطبيقاتها ونطاقها. في الواقع ، أحدثت بيولوجيا الأنظمة ثورة كبيرة في بيولوجيا الخلية وتحليل المسار. عند رؤيته بالاقتران مع علاج الأمراض واكتشاف الأدوية ، فإنه يثبت أنه مفيد أكثر. نناقش هنا بيولوجيا الأنظمة بالاشتراك مع اكتشاف الأدوية.

الهدف من بيولوجيا الأنظمة الحديثة هو فهم علم وظائف الأعضاء والمرض من مستوى المسارات الجزيئية ، والشبكات التنظيمية ، والخلايا ، والأنسجة ، والأعضاء ، وفي النهاية الكائن الحي بأكمله. كما هو مستخدم حاليًا ، يشمل مصطلح & # 8216systems biology & # 8217 العديد من الأساليب والنماذج المختلفة لاستكشاف وفهم التعقيد البيولوجي ، ودراسات العديد من الكائنات الحية من البكتيريا إلى الإنسان. ينصب الكثير من التركيز الأكاديمي على تطوير الأدوات الحسابية والمعلوماتية الأساسية اللازمة لدمج كميات كبيرة من البيانات الاختزالية (التعبير الجيني العالمي ، والبيانات البروتينية والأيضية) في نماذج الشبكات التنظيمية وسلوك الخلية. لأن التعقيد البيولوجي هو دالة أسية لعدد مكونات النظام والتفاعلات بينها ، ويتصاعد في كل مستوى إضافي من التنظيم.

هناك ثلاثة تطورات أساسية في التطبيقات العملية لبيولوجيا الأنظمة لاكتشاف الأدوية. وهذه هي:

1. التكامل المعلوماتي لمجموعات البيانات & # 8216omics & # 8217 (نهج من أسفل إلى أعلى)

تركز مناهج Omics لبيولوجيا الأنظمة على اللبنات الأساسية للأنظمة المعقدة (الجينات والبروتينات والمستقلبات). تم تبني هذه الأساليب بكل إخلاص من قبل صناعة الأدوية لاستكمال الأساليب التقليدية لتحديد الهدف والتحقق من صحته ، لتوليد الفرضيات والتحليل التجريبي في الأساليب التقليدية القائمة على الفرضيات.

2. النمذجة الحاسوبية للمرض أو فسيولوجيا نظام الأعضاء من معلومات مستوى استجابة الخلية والأعضاء المتاحة في الأدبيات (نهج من أعلى إلى أسفل لاختيار الهدف ، والمؤشرات السريرية وتصميم التجارب السريرية).
الهدف من النمذجة في بيولوجيا الأنظمة هو توفير إطار لتوليد الفرضيات والتنبؤ بناءً على محاكاة سيليكو لبيولوجيا الأمراض البشرية عبر نطاقات المسافات والزمان المتعددة للكائن الحي. يمكن أن يساعد الفهم الأكثر تفصيلاً لسلوك أنظمة مسارات الإشارات بين الخلايا ، مثل تحديد العقد الرئيسية أو النقاط التنظيمية في الشبكات أو الفهم الأفضل للتداخل بين المسارات ، في التنبؤ بتأثيرات العقاقير المستهدفة وترجمتها إلى فسيولوجيا مستوى العضو والكائن.

3. استخدام أنظمة الخلايا البشرية المعقدة نفسها لتفسير الأنشطة البيولوجية للأدوية والأهداف الجينية والتنبؤ بها (نهج تجريبي مباشر لفهرسة الاستجابات البيولوجية المعقدة ذات الصلة بالأمراض).

لا تزال نمذجة المسار منفصلة للغاية عن بيولوجيا الأمراض الجهازية بحيث يكون لها تأثير كبير على اكتشاف الأدوية. تُظهر النمذجة التنازلية على مقياس من خلية إلى عضو وكائن واعدة ، ولكنها تعتمد بشكل كبير على بيانات استجابة الخلية السياقية. علاوة على ذلك ، لسد الفجوة بين omics والنمذجة ، نحتاج إلى جمع نوع مختلف من بيانات بيولوجيا الخلية - البيانات التي تتضمن التعقيد والخصائص الناشئة للأنظمة التنظيمية للخلية ، ومع ذلك فهي قابلة للتكرار وقابلة للتخزين في قواعد البيانات والمشاركة والكمية. التحليلات.

هذه هي الطريقة التي ساعدت بها Systems Biology في أبحاث اكتشاف الأدوية ومهدت طريقها لعلاج العديد من الأمراض الحيوية.


نتائج

يكشف الحفظ في المجموعات اللاهوائية عن فسيولوجيا LBCA

لتحديد الجينات التي تتبع LBCA ، بدأنا من 5443 جينومًا مرجعيًا من البكتيريا واخترنا 1089 من الجينات المصنفة على أنها لا هوائية بسبب نقص اختزال الأكسجين 31 وتسلسل البروتين gt1000 (لاستبعاد طفيليات الطاقة البيانات التكميلية 1 والجدول التكميلي 1). احتوت الجينومات الناتجة على 2،465،582 تسلسل بروتين تم تجميعها بعد ذلك في 114،326 عائلة. من بين هؤلاء ، هناك 146 عائلة لديها تسلسل واحد على الأقل موجود في جميع المجموعات التصنيفية الرئيسية الـ 25 التي تم تحليلها. تتوافق هذه المجموعات تقريبًا مع الشعبة في تصنيف GenBank ، باستثناء Proteobacteria و Firmicutes ، والتي قسمناها إلى فئات نظرًا لتمثيلها العالي في مجموعة البيانات. من الجدير بالذكر أن وفرة البكتريا المتينة والمتشكلة ليس فقط نتيجة الإفراط التصنيفي ولكن أيضًا انعكاس لوفرة أكبر من حيث الحجم في الموائل الطبيعية 32. عند الفحص الدقيق ، كانت العائلات موجودة في معظم الجينومات في التحليل ، مع وجود 122 من الـ 146 في المتوسط ​​في 90 ٪ على الأقل من جميع الجينومات في مجموعة (البيانات التكميلية 2 والشكل التكميلي 1). هذه الجينات عالمية تقريبًا وهي من بين أكثر الجينات الموروثة رأسياً في بدائيات النوى (الجدول 1). تمت إعادة فحص هذه العائلات البالغ عددها 146 يدويًا فيما يتعلق بالتعليق التوضيحي الوظيفي (البيانات التكميلية 3) لتوفير قائمة بوظائف الجينات التي تتبع LBCA. يشارك حوالي نصف هذه العائلات في معالجة المعلومات ، أو تخليق البروتين ، أو الوظائف الهيكلية الأخرى (الجدول 1) ، ويمكن تعيين النصف الآخر على تفاعل استقلابي واحد على الأقل في KEGG ، موسوعة كيوتو للجينات والجينومات (حتى لو غالبًا يشارك أيضًا في معالجة المعلومات ، على سبيل المثال ، فئة شحن RNA (tRNA) نقل) ، وبالتالي توفير نظرة ثاقبة في فسيولوجيا وأسلوب حياة LBCA.

تشير سطور مختلفة من الأدلة إلى أن الخلايا الأولى كانت ذاتية التغذية أنتجت أسيتيل CoA والبيروفات عبر مسار أسيتيل CoA 33،34،35 والسكريات عبر استحداث السكر 36،37،38. امتلك LBCA مسارًا شبه كامل لتوليد الجلوكوز في الجذع مع بيروفات كيناز (PK) ، إينولاز ، فوسفوغليسيرات كيناز (PGK) ، نازعة هيدروجين الغليسيرالديهيد 3-فوسفات ، وإيزوميراز ثلاثي الفوسفات. طفرات الفوسفوجليسيرات ، والتي يمكن أن تكون إما تعتمد على 2،3-بيسفوسفوجليسيرات أو مستقلة عن العامل المساعد ، تفلت من معايير العالمية ، ولكنها موزعة بشكل كبير ، الأولى في 21 ، والأخيرة في 18 من 25 مجموعة بكتيرية تم أخذ عينات منها. نظرًا لأن تفاعل PK قابل للعكس في حقيقيات النوى في الجسم الحي 39 وفي البكتيريا 40 ، فمن المحتمل أن يكون PK البكتيرية تعمل في اتجاه تكوين الجلوكوز لتزويد LBCA بفوسفوينول بيروفات لتخليق الأحماض الأمينية والببتيدوغليكان 41 والعمود الفقري للكربون مع أكثر من ثلاث ذرات كربون في بيئة الأرض المبكرة غنية في CO2 42. أربعة كينازات أخرى بالإضافة إلى PK و PGK تتبع لـ LBCA ، اثنان يشاركان في التمثيل الغذائي للعامل المساعد واثنان في الفسفرة ريبونوكليوتيدات إلى نيوكليوزيد ثنائي الفوسفات ، والتي يمكن أن يتم تنشيطها الإضافي لـ LBCA's NTPs عن طريق اختلاط الركيزة من PK ، كما يحدث في اللاهوائية الإشريكية القولونية 43. أيضًا تتبع إلى LBCA هناك نوعان من الإنزيمات المشاركة في انقسام الخلية ، FtsH و FtsY ، والتي تؤدي أيضًا عددًا من الوظائف الأخرى في الخلية بما في ذلك تدهور البروتين وتجميعه والاستهداف الصحيح للبروتينات والريبوزومات للغشاء 45. يمكن تتبع ثلاثة بروتينات أخرى تستهدف الغشاء إلى LBCA: Ffh و YidD و SecA للمسار sec. أحد التحقق من صحة تحليلنا هو عدم وجود جينات مهمة في عائلات LBCA التي فقدت في سلف مجموعات معينة ، على سبيل المثال ، FtsZ ، موجودة فقط في 24 من 25 من المجموعات التصنيفية في مجموعة البيانات الخاصة بنا ، بما يتوافق مع التقارير السابقة لها الخسارة في الكلاميديا ​​46.

كانت هناك حاجة لتسعة مركبات فقط لإكمال التمثيل الغذائي الوسيط في LBCA

تعد قائمة جينات LBCA متحفظة لأن معاييرنا ، على الرغم من أنها لا تفرض الشمولية البكتيرية ، تتطلب التواجد في 25 مجموعة تصنيفية أعلى. ومع ذلك ، على الرغم من أن القائمة قصيرة ، فإن 146 عائلة بروتينية في LBCA تولد شبكة استقلابية متصلة بإحكام (الشكل التكميلي 2) من 243 مركبًا مع تفاعل واحد فقط (diaminopimelate epimerase) من أصل 130 منفصل عن الباقي (البيانات التكميلية 4A) . اقتربت الشبكة من الاكتمال من حيث أنها تولد 48 من 57 مستقلبًا أساسيًا عالميًا بدائية النواة 47: الأحماض الأمينية 20 ، وأربع قواعد DNA ، وأربعة قواعد RNA ، وثمانية عوامل مساعدة عالمية ، وغليسيرول 3-فوسفات كمقدمة دهنية ، و 20 tRNAs مشحونة (البيانات التكميلية 4 ب). المركبات المفقودة هي tRNAs المشحونة لـ Lys و Met و Ile و Pro و Asn و Gly و Gln واثنين من العوامل المساعدة (ثيامين ثنائي فوسفات وبيريدوكسال 5 فوسفات). باستخدام خوارزمية توسيع الشبكة 48 ، مع إضافة جميع التفاعلات المشفرة بواسطة جينات غير LBCA إلى الشبكة ، ثم إزالتها بالتتابع والتدريجي حتى يصبح إنتاج جميع المستقلبات العالمية ممكنًا مع الحد الأدنى من مجموعة التفاعلات (انظر "الطرق") ، وجدت أن إضافة تسعة جينات فقط - سبعة توليفات aminoacyl tRNA (aaRS) ، ADP: ثيامين ثنائي فوسفات فوسفات ترانسفيراز ود-ريبولوز 5-فوسفات ، د -جليسيرالديهيد 3-فوسفات بيريدوكسال 5-فوسفات-لياز- يكمل الشبكة لتوليد الكل 57 مركبًا عالميًا (الشكل 1 والبيانات التكميلية 4). من المحتمل أن أسلاف فئتي إنزيمات aaRS تصرفوا بطريقة غير مشروعة في شحن الحمض الريبي النووي النقال في LBCA 49. لا يتم إنشاء الشبكة ذاتيًا من مجموعة أولية من العناصر الغذائية 50. كان سيتطلب جينات إضافية مشتقة من LUCA 7 وفقدت في بعض سلالات البكتيريا اللاهوائية (بما في ذلك الناقلات ، الغائبة تمامًا في مجموعة 146 جينًا) ومركبات من التوليف الجيوكيميائي 34،35 لتكون شبكة استقلابية على نطاق الجينوم تعمل بكامل طاقتها. ومع ذلك ، يتم تمثيل غالبية جوهر التمثيل الغذائي الخلوي في الشبكة.

يتم عرض التحويلات البينية الأيضية المشفرة بواسطة 146 جينًا من LBCA بالإضافة إلى 9 جينات موجودة في مجموعات أقل في رسم بياني ثنائي الأجزاء ، مع 243 نواتج أيضية (عقد دائرية) و 130 تفاعل (عقد ماسية). تمثل الدوائر السوداء 57 مستقلبًا مستهدفًا عالميًا وتمثل الدوائر الرمادية المستقلبات المتبقية. لاحظ ، مع ذلك ، أن بعضًا منها عالمي أيضًا (على سبيل المثال ، NADH) ، ولكنه متصل مباشرة بالأهداف المختارة (على سبيل المثال ، في هذه الحالة NAD +). تزداد أحجام العقد وفقًا لدرجة العقدة. يتم تلوين الماس (التفاعلات) وفقًا لوجود ترميز الجينات لتلك التفاعلات في مجموعات تصنيفية مختلفة: باللون الأسود ، التفاعلات الموجودة في جميع الأصناف بتدرج من التفاعلات الأرجواني إلى البرتقالية المضافة أثناء توسع الشبكة وتوزيعها في عدد أقل من الأصناف (المركبات المستهدفة هي مظللة بنفس لون المخطط التفصيلي إذا تم تقديمها مع توسيع الشبكة). تُبرز الأشكال البيضاوية الشفافة جوهر نقل الطاقة (الأحمر) للهيدريد (الأزرق) واستقلاب الكربون (الأصفر).

شبكة LBCA منظمة للغاية حول ثلاثة محاور استقلابية رئيسية: (1) ATP / ثنائي الفوسفات ، (2) NADP (H) / H + ، و (3) CO2/ ACP / malonyl-ACP. تمثل هذه النوى (1) الطاقة ، (2) نقل الهيدريد ، و (3) استقلاب الكربون لـ LBCA (الشكل 1). Malonyl-ACP أساسي في بدء وتنظيم التخليق الحيوي للأحماض الدهنية 51. عندما نزيل PK من مجموعة الإنزيمات ، فإن فسفرة dADP إلى dATP لم يعد ممكنًا ، مما يشير إلى أن PK ربما يكون قد تصرف بشكل مختلط في الفسفرة النوكليوتيدية المبكرة 43،52. تتضمن توصيلية ATP بشكل أساسي شحن الحمض الريبي النووي النقال وتخليق البروتين (الشكل 1) ، والذي قد يبدو غير متوقع في البداية ، لأن ATP هي العملة العالمية في جميع عمليات التمثيل الغذائي. في اللاهوائيات الحديثة ، على الرغم من ذلك ، ما يقرب من 90 ٪ من ميزانية طاقة الخلية مخصصة لتخليق البروتين 21 ، ويبدو أن مشابهًا قد تم تطبيقه على LBCA أيضًا.

كانت السلالات الأولى التي تباعدت أكثر تشابهًا مع المطثيات الحديثة

يمكن أن يؤدي الانقسام الأعمق في الأشجار البكتيرية إلى تحديد الأنساب والسمات التي تعكس أسلوب حياة LBCA. لطالما اعتبرت السلالات مثل Aquificae و Thermotogae متفرعة مبكرة بناءً على أشجار بروتينات الريبوسوم و RNA الريبوسوم (rRNA) ، لكن الريبوسوم لا يمكنه التحدث إلى فسيولوجيا LBCA لأن LGT يفصل تطور الريبوسوم من علم وظائف الأعضاء. يعتبر LGT متكررًا للغاية داخل وبين معظم المجموعات البكتيرية 13 ، فهو يعيق استنتاج الجذر البكتيري من خلال تحليل النشوء والتطور التقليدي من خلال تقديم إشارات متضاربة تقلل من العمودية. للتخفيف من تأثير LGT ، قمنا بفحص الترتيب النسبي للظهور للمجموعات البكتيرية الـ 25 باستخدام 63،324 شجرة متجذرة مع الحد الأدنى من انحراف السلف (MAD). في الممارسة الحالية ، تم إجراء غالبية الاستدلالات الجذرية لمجال البكتيريا باستخدام تأصيل خارج المجموعة 55،56. إن اختيارنا لطريقة تأصيل مستقلة عن المجموعة الخارجية المطبقة على العديد من أشجار الجينات هو ثلاثة أضعاف: (1) نتائج الخلط بين العتائق والبكتيريا 13،57،58 تسلسل خارج المجموعة معرضة بشكل ملحوظ للقطع الأثرية طويلة الفروع والتطور 59 وعدم وجود معايير للتقييم جودة الجذور المختلفة ، وهو أمر ممكن مع MAD. أظهرت الدراسات المستقلة مؤخرًا أن طريقة MAD أكثر كفاءة من طرق التجذير الأخرى وقوة لمجموعة واسعة من معلمات النشوء والتطور ، مع كل من أشجار الجينات بدائية النواة المحاكاة والتجريبية 60.

بدأنا بالتركيز على الأشجار لـ 146 عائلة بروتين LBCA ، وقمنا بتحليل الاختلاف المتراكم من الجذر البكتيري إلى كل جينوم حديث ، تم قياسه كمسافة من الجذر إلى الطرف من حيث (1) تباعد التسلسل (طول الفرع) و (2) عمق العقدة (الشكل 2) (تم تجاهل 15 شجرة ذات استدلالات جذر غامضة فهارس غموض الجذر الواردة في البيانات التكميلية 3 انظر "الطرق"). تحدد النتائج جينومات المطثيات على أنها الأقل تباعدًا من حيث تباعد التسلسل (اختبار تصنيف موقع ويلكوكسون مع تصحيح Bonferroni ، الأكبر ص القيمة & lt 1e - 5 ، متوسط ​​المسافة المقيسة 0.299) وعمق العقدة (اختبار تصنيف موقع ويلكوكسون مع تصحيح Bonferroni ، الأكبر ص القيمة & lt 0.05 ، ومتوسط ​​المسافة الطبيعية 0.116 الشكل التكميلي 3) ، تليها Deltaproteobacteria (متوسط ​​الاختلاف الطبيعي 0.354 ، ومتوسط ​​العمق الطبيعي 0.156). يُظهر الأعضاء اللاهوائيون في Aquificae أيضًا قربًا كبيرًا من الجذر كما يُحكم عليه بطول الفرع (متوسط ​​المسافة الطبيعية 0.382 ، الشكل التكميلي 3). لا يوجد سوى ثلاثة جينومات من الأحياء المائية (اللاهوائية) في مجموعة البيانات الخاصة بنا ، وجميعها تنتمي إلى كيميائيات كيميائية معزولة من الفتحات الحرارية المائية التي يمكن أن تنمو على H2 وشارك2 61. تُظهر قيم الاختلاف لجميع الجينومات في جميع الأشجار المصنفة من الأقل إلى الأبعد أن جينومات 12 ذات الترتيب الأعلى هي جميع الأنواع المحبة للحرارة التي تنتمي إلى فئة Clostridia ، والعديد منها يمتلك مسار acetyl-CoA (الجدول التكميلي 2). النتائج الموضحة في الشكل 2 لا تعتمد على وفرة الجينوم في مجموعة البيانات (المجموعة الأكثر وفرة هي Bacilli ، مع 38٪ من جميع الجينومات الجدول التكميلي 1).

تحليل 131 شجرة متجذرة من الجينات موجودة عالميًا في الأصناف البكتيرية اللاهوائية التي تغطي الفئات الوظيفية الرئيسية (مرتبة أفقيًا وفقًا للتصنيفات المنسقة الموضحة بالترتيب الأعلى كما في البيانات التكميلية 3). توضح الأشجار التوضيحية الموجودة على الجانب المقياس المستخدم في كل تحليل وتحديد المجموعة الموجودة في الجذر في كل منها باستخدام العقد الصفراء. أ يتم قياس المسافة من الجذر إلى الحافة على أنها عمق العقدة (المقيسة بأكبر مسافة في كل شجرة). ب تقاس المسافة من الجذر إلى الحافة بطول الفرع (المقيسة بأكبر مسافة في كل شجرة).

تختلف أشجار الجينات بدائية النواة عن شجرة الأنواع بسبب كل من أخطاء التطور العشوائي والتأثير التراكمي لـ LGT 62. في غياب LGT ، تتفرع سلالات الجينات معًا (أحادي النمط) ويعكس التنوع التطوري للكتل الشقيقة الوقت منذ نشأتها ، مع وجود أنساب أقدم لها تنوع أخت أعلى. في سياق تطور الجينات مع LGT ، تتفرع الأنساب الجينية إلى مجموعات متعددة ، مع زيادة عدد الكتل مع انتشار نقل الجينات. نظرًا لأن LGT هي ظاهرة مستمرة في التطور بدائية النواة ، فإن العلامات التصنيفية للأنساب الشقيقة تتغير ديناميكيًا ، لكن تنوعها الوراثي يعطينا الوسائل لاستنتاج التوقيت النسبي لأصل السلالات. لدمج معلومات علاقة الأخت من جميع أشجار الجينات التي تغطي 25 مجموعة بكتيرية ، سجلنا التنوع التطوري للكتل الشقيقة لكل مجموعة في الأشجار الفردية ، مما يسمح بأكبر عدد ممكن من LGT بين المجموعات حسب الضرورة في الأشجار (5402 شجرة مع على الأقل ست مجموعات ، الشكل 3 والبيانات التكميلية 5). تُظهر التحليلات Clostridia باعتبارها المجموعة ذات أعلى تنوع clade الشقيقة ، ويتم قياسها على أنها أقصى عدد من الشعب في كليد أخت (في المتوسط ​​خمسة) ، متبوعًا برباط بين Deltaproteobacteria و Bacilli و Actinobacteria و Spirochaetes جميعها مع ثلاث مجموعات متميزة على متوسط ​​الحاضر في الكتل الشقيقة. تظهر النتيجة عند النظر إلى 131 شجرة عالمية فقط ، حيث تحتوي كلوستريديا في المتوسط ​​على تسع مجموعات شقيقة متميزة ، تليها بكتيريا أكتينوبكتيريا بسبعة وبكتريا دلتابروتيوبكتريا بخمسة (البيانات التكميلية 6). تشير عمليات إعادة بناء حالة الأسلاف ذات الاحتمالية القصوى باستخدام 131 شجرة عالمية إلى أن LBCA كانت خلية على شكل قضيب (الشكل التكميلي 4) وتعيد بناء كلوستريديا باعتبارها أكثر نسب الأجداد (الشكل التكميلي 5) بالاتفاق مع التحليلات السابقة.

تنوع الأخت (الحد الأقصى لعدد المجموعات المختلفة في الفرع الشقيق) لكل مجموعة (صفوف) لـ 5402 شجرة مع ست مجموعات على الأقل (أعمدة). تصور الشجرة التوضيحية السؤال المطروح في التحليلات ، حيث تكون المجموعة الصفراء هي المجموعة ذات أعلى درجات التنوع الشقيقة ، وبالتالي يُستدل عليها على أنها معظم الأجداد.

تشير التحليلات حتى الآن إلى أن 146 عائلة بروتينية محفوظة في جميع مجموعات البكتيريا اللاهوائية كانت موجودة في LBCA ، ليس فقط بسبب طبيعتها في كل مكان وشبه العالمية (الشكل التكميلي 1) ولكن أيضًا لأنها تشكل وحدة وظيفية: ، شبكة التمثيل الغذائي الأساسية شبه كاملة (الشكل 1). ولكن هل الطبيعة المنتشرة لهذه الجينات سببها العصور القديمة ، أم أنها نتيجة LGT؟ للإجابة على هذا السؤال ، حصلنا على جميع قيم العمودي لعائلات الجينات بدائية النواة 29 كبديل لقياس ميل الجين للخضوع أو مقاومة LGT. إن عائلات بروتين LBCA مميزة وملحوظة (إحصاء كولغوموروف-سميرنوف = 0.99 ، ص القيمة = 2.4e - 318) عموديًا أكثر من متوسط ​​عائلة بروتين بدائية النواة (الشكل 4 أ ، البيانات التكميلية 7 ، والجدول 1). تُظهر الشبكة الأيضية المشروحة بقيم عمودية أن الجينات المشاركة في كل من عملية التمثيل الغذائي ومعالجة المعلومات (مثل aaRSs) عمودية للغاية (الشكل 4 ب والبيانات التكميلية 7). على الرغم من أن الجينات الأكثر تطورًا عموديًا في جينومات بدائية النواة ، تلك الخاصة ببروتينات الريبوسوم ، لا تشارك في تخليق حيوي محدد وبالتالي لا يتم تمثيلها في خرائط التمثيل الغذائي ، فإن الوظائف الأيضية الأكثر ارتباطًا بتخليق البروتين ، تلك الخاصة بـ aaRSs ، تبني جوهر شبكة التمثيل الغذائي هذا عمودي بطبيعته وبالتالي موجود في كل مكان بسبب العصور القديمة ، وليس نقله (الشكل 4) وبالتالي السلفية إلى مجال البكتيريا.

أ الرأسية لجميع عائلات الجينات بدائية النواة (بني فاتح) ولعائلات الجينات LBCA (بني غامق) وإحصاءات Kolmogorov-Smirnov بين التوزيعين. ب شبكة التمثيل الغذائي LBCA مشروحة بقيمة عمودية لكل عقدة تفاعل.


قبل الشروع في هذه الإجابة أنا بقوة نشجعك على قراءة http://www.kegg.jp/kegg/legal.html. KEGG مجاني فقط للاستخدام الأكاديمي وتحتاج إلى ترخيص مناسب لتوفير API / مكتبة للخدمات. لذلك على الأرجح أنك تريد وصولاً غير مجهول الهوية إلى ftp://ftp.genome.jp/ الذي يتطلب مثل هذا الترخيص.

ومع ذلك ، فيما يتعلق بسؤالك الفعلي ، يمكنك العثور على ملف ثابت لجميع المسارات ضمن http://www.kegg.jp/kegg-bin/download_htext؟htext=br08901.keg&format=htext. فقط قم بتنزيله وتحليله:

لاحظ أن هذا أيضًا قد يتم فقط لأغراض غير تجارية. ومع ذلك ، فإن حقوق النشر لا تنص على ما إذا كان برنامج بدون متصفح قد يزور الموقع الإلكتروني للاستخدام غير التجاري. لذا من الأفضل ألا تحاول ذلك بشكل مكثف دون الاتصال بهم.


أساليب

تحديد الإنزيمات الأيضية للأسماك وتحليل التسلسل

تم استرجاع جميع تسلسلات (كدنا) لأنواع الأسماك الخمسة من قاعدة بيانات Ensembl [82]. تم تحديد الجينات الأيضية من خلال حساب علم الجينات (GO) [83]. من بين أنواع الأسماك الخمسة ، كان سمك الزرد هو الوحيد الذي لديه تعليقات توضيحية جيدة لـ GO. تم تحليل التسلسلات من الأنواع الأربعة الأخرى بواسطة SeaSpider ، أداة تحليل التسلسل الخاصة بنا. يتم توجيه الاستعلامات إلى SeaSpider أولاً ضد تسلسلات الزرد ، ثم ضد التسلسلات المرجعية في قاعدة بيانات GO. عندما يتم العثور على التماثل (قيمة BLAST E تحت 1E-5 و 33 على الأقل من القواعد المتطابقة في المحاذاة المحلية) ، يتم تعيين مصطلحات GO للتسلسل في الاستعلام. تعتبر جميع الجينات التي تحمل مصطلح GO تحت شجرة التمثيل الغذائي من الجينات الأيضية. على الرغم من أن هذا الاختيار الأولي شامل بشكل مفرط - على سبيل المثال ، يمكن أن تحصل بروتينات النقل أيضًا على مصطلح GO تحت التمثيل الغذائي - يتم استخدام الجينات التي يمكن أن تتطابق مع أرقام EC فقط في بناء MetaFishNet. استنتجنا أرقام EC بطريقتين. كان النهج الأول هو نقل أرقام EC من أخصائي تقويم العظام البشري. تم تبني العلاقات التقويمية بين الأسماك والجينات البشرية من Ensembl ، والتي قامت بحساب علاقات تقويم / Paralog بدقة بناءً على شجرة النشوء والتطور لعائلة الجينات. تم تحليل EC البشري للجمعيات الجينية من قاعدة بيانات ExPASy [84] وبيانات EHMN [31]. كان النهج الثاني لاستدلال EC من خلال التعليقات التوضيحية في قاعدة بيانات GO عن طريق التشابه مع تسلسل إجماع الإنزيم ، والذي تم إنشاؤه عبر الأنواع. وتجدر الإشارة إلى أن أرقام EC في MetaFishNet مؤقتة - تتطلب لجنة التسمية في IUBMB في الواقع دليلًا تجريبيًا صارمًا لتعيين رقم EC رسمي.

تكامل بيانات التفاعل المرجعية

قمنا أولاً بدمج نموذجي التمثيل الغذائي البشري عالي الجودة [20 ، 31]. ثم تم استخلاص النموذج الأيضي لأسماك الزرد من KEGG ودمجه في البيانات المرجعية. احتوى نموذج UCSD على 1496 جينًا و 3311 تفاعلًا ، مع احتساب تفاعلات النقل والتجزئة. كان من أبرز ما في هذا العمل المعالجة اليدوية لدعم الأدبيات ، والتي كانت كثيفة العمالة لكنها حسنت جودة البيانات.

يحتوي نموذج EHMN على 2،322 جينًا و 2824 تفاعلًا (باستثناء تفاعلات النقل). تضمن نموذج EHMN بيانات التمثيل الغذائي السابقة من جميع قواعد البيانات الرئيسية ، وتبسيط هويات المركبات. كان الاستخراج التلقائي لنماذج التمثيل الغذائي من KEGG يمثل تحديًا. على الرغم من أن KEGG تقدم توزيع XML (لغة التوصيف الموسعة) (يسمى KGML) لمساراتها ، فقد تم خلط التفاعلات الجزيئية مع العناصر المرئية في ملفات KGML هذه. تم تقييد KEGG API (واجهة برمجة التطبيقات) أيضًا من خلال عدم التمييز بين المواد المتفاعلة والمنتجات. لقد طورنا حلاً عمليًا من خلال الجمع بين ملفات KGML و KEGG API ، حيث تحدد KGML نطاق التفاعلات وتؤكد API العلاقات. نجح نص Python الخاص بنا ، بالاستفادة من مكتبات SBML ، في تحليل 101 من مسارات التمثيل الغذائي لأسماك الزرد من KEGG (تم استردادها في 24 مارس 2008) ، مع 517 ECs و 1031 تفاعلاً.

كان تكامل النماذج الثلاثة على مستويي التفاعل والمسار. تم اعتبار تفاعلين متطابقين عندما يكون لديهم نفس الإنزيمات والمركبات الرئيسية. للحصول على أكبر قدر من التوافق ، تم استخدام أرقام EC ومعرفات KEGG المركبة حيثما أمكن ذلك. اتبعت المسارات التقليدية في MetaFishNet بشكل أساسي تنظيم المسار في EHMN. تم دمج المسارات إذا كانت تشترك في عدد كبير من ردود الفعل الشائعة. تم التوفيق بين أنماط التسمية المختلفة. على سبيل المثال ، يتداخل مسار "استقلاب الكوليسترول" في نموذج UCSD مع مسار "التخليق الحيوي للسكولين والكولسترول" في نموذج EHMN بواسطة 14 إنزيمًا و 16 تفاعلًا. تم دمج المسارين أثناء تكامل النموذجين البشريين. تم تضمين جميع التفاعلات الثلاثة في مسار KEGG zebrafish "التخليق الحيوي Terpenoid" في مسار "Squalene and cholesterol biosynthesis" البشري وبالتالي تم دمجها مع الأخير. تم تضمين تسعة من أصل 11 إنزيمًا في مسار "التخليق الحيوي للمنشطات" لأسماك الزرد في مسار التخليق الحيوي للسكوالين والكوليسترول البشري ، وبالتالي تم دمجها أيضًا. يتم توفير قوائم كاملة لإعادة تنظيم المسار في الملف الإضافي 1. النموذج الحالي لا يأخذ في الاعتبار التقسيم الخلوي.

بداية البناء ، تحليل النموذجية والتنظيم اليدوي

من بين 911 إنزيمًا تم تحديده في هذا المشروع ، يمكن مطابقة 561 من الإنزيمات مع البيانات المرجعية. بالنسبة لـ 350 إنزيمًا المتبقية ، تم استرداد المركبات المرتبطة بها من قاعدة بيانات KEGG LIGAND حيثما توفرت. شكلت تفاعلات مركبات الإنزيم هذه 260 تفاعلًا تم استنتاجها حديثًا. نظرًا لعدم وجود طريقة لتمييز المواد المتفاعلة عن المنتجات في هذه البيانات الأيضية المستنبطة ، تم التعامل مع اتجاهات هذه التفاعلات على أنها غير معروفة. هذه التفاعلات المستنبطة حديثًا ، بالإضافة إلى التفاعلات المعزولة من البيانات المرجعية ، خضعت لنهج مشترك لإيجاد الوحدة والمعالجة اليدوية. اعتمدنا خوارزمية بواسطة مارك نيومان ، والتي تقسم وحدات الشبكة وفقًا للمتجهات الذاتية لمصفوفة مميزة للشبكة [34]. أنتج برنامج الوحدات النمطية عددًا من الوحدات النمطية المرشحة ، والتي تم بعد ذلك فحصها يدويًا لتنظيم المسار. تكررت هذه العملية حتى لا يمكن إجراء أي تغيير آخر. تم فحص التفاعلات المعزولة أيضًا لتحديد ما إذا كان يمكن ربطها بالمسارات الحالية. في هذه المرحلة ، تمت إزالة عدد من التفاعلات الزائدة عن الحاجة من UCSD من النموذج ، وتم تفكيك المسارات التي تحتوي على عدد قليل جدًا من التفاعلات لتفاعلات معزولة. من خلال هذا النهج ، تم إنشاء مسارات "استقلاب حمض السياليك" و "استقلاب الدينورفين" و "سلسلة نقل الإلكترون" و "تحلل الباراثيون" و "الفسفرة السداسية" من البداية البناء ، بينما تم تنظيم عدد من الوحدات في مسارات موجودة (ملف إضافي 1).

تصور المسار

بُنيت أداة FishEye ، وهي أداة تصور المسار الخاصة بنا ، على Networkx و PyGraphviz [85]. وسعت نسخة مطورة من Networkx لدعم الشبكات الثنائية. يتم التلاعب بالعديد من تفاصيل التصميم من خلال العلامات ذات المستوى المتوسط. من أجل الحفاظ على الرسوم البيانية للمسار أقل تشوشًا ، أجرينا عددًا من التحسينات. يتم تقديم نسختين من الرسوم البيانية للمسار ، أحدهما يحتوي على أرقام EC ومعرفات مركبة (على سبيل المثال الشكل 5) والآخر به أسماء إنزيمات وأسماء مركبة (على سبيل المثال الشكل 4 و 6). يتوفر كلا الإصدارين لجميع المسارات على موقع المشروع على الويب. يمكن دمج الحواف المتشابهة في المسار في الرسم البياني المرئي ، ويتم التفاف الأسماء الطويلة. من الممارسات الشائعة في هذا المجال حذف جميع مستقلبات العملة ، لأنها تجلب عددًا كبيرًا من الحواف. اعتمدنا قائمة مستقلبات العملة في [86] ، لأنها تتوافق تمامًا مع العقد الأكثر ارتباطًا في MetaFishNet. ومع ذلك ، فإننا نترك إدراج مستقلبات العملة اختياريًا ، اعتمادًا على درجاتها في مسارات محددة.

التنميط التعبير عن البلم رأس الغنم المعرض للكادميوم

لقد أنشأنا سابقًا مكتبات التهجين الطرحي القمعي لحيوانات المنوة ، وقمنا بتسلسل أكثر من 10000 استنساخ [87]. بناءً على هذه التسلسلات ، قمنا بتصميم مصفوفة ميكروأري للحمض النووي تتكون من 14494 مجسًا لـ 4101 استنساخًا. تم تصنيع جميع المجسات على رقائق ميكروأري بواسطة شركة Nimblegen مع أربعة مكررات.

تم إجراء التعرضات وأخذ عينات من الحيوانات كما هو موضح سابقًا [88 ، 89]. تم إعطاء الكادميوم (0.3 مجم / لتر) ليرقات المنوة ذات رأس الغنم في 24 ساعة بعد الفقس عبر مضخات الحقن الدقيقة في نظام التدفق المتقطع [90]. اشتملت الدراسة على ثلاث مكررات بيولوجية ، تحتوي كل منها على 80 يرقة في أربعة أكواب. After seven days of exposures, whole larvae were sacrificed and stored in RNAlater (Ambion Inc., Austin, TX). Total RNAs were then extracted using the phenol/chloroform method, and treated with DNase. The purified RNAs were checked by NanoDrop and BioAnalyzer for quality assurance. The labeling of RNAs was carried out according to recommendation by Nimblegen Inc. In short, mRNAs were converted to double-strand cDNA. Cy3-labeled random nonamers were used as primers for DNA polymerase reaction, which produced labeled DNA targets off the double-strand cDNA. These labeled targets were purified and hybridized to microarrays. The resulted fluorescent intensities were corrected by quantile normalization. Data at the probe level were averaged over on-slide replicates, with outliers removed. The expression values at the gene level were summarized as the geometric mean of its probe intensities.


أساليب

KEGG pathways and the KEGG Markup Language

For the construction of quantitative kinetic models and qualitative models, the content of the KEGG PATHWAY database was obtained through its FTP site prior to 1 July 2011. Generic, reference pathways and organism-specific pathways for 1 515 specie were downloaded, all encoded in the KEGG Markup Language (KGML). These files mainly consist of entries, describing proteins and compounds of a pathway, and interactions بينهم. ال interactions are subdivided into reactions و علاقات. تفاعلات correspond to biochemical reactions involving compounds and enzymes. علاقات are used in the case of signaling pathways to specify protein-protein interactions. Layout information is given only for entries (i.e., nodes). Furthermore, each organism-specific pathway is derived from a reference pathway map. This involves adding organism-specific identifiers and setting the color (green) of enzymes that have protein instances in the current organism. Enzymes that have no known instance in an organism-specific pathway are retained in the map (albeit, while being colored differently) and keep their orthology identifier. This retention of absent enzymes is due to the focus of KGML files on visual representation of pathways rather than computational modeling. Completion and post-processing steps are therefore required to generate correct models from the KGML files [67].

Construction of the genome-scale metabolic reconstructions was performed through access of the publicly accessible KEGG web services, and was therefore applied to a more recent version of April 2013.

Generation of SBML Level 3 Core from KEGG metabolic pathways

The generation of pathway models from KEGG information was performed with KEGGtranslator [49, 67]. Each KGML دخول was translated to an SBML Level 3 محيط (SBML Core) and an SBO term [68] was assigned (see Table 1). Each KGML تفاعل was translated to an SBML تفاعل (SBML Core). In addition to all substrates, products and catalyzing enzymes, this includes information about the reversibility of the reaction and the stoichiometry of each participant. Each reaction was checked against the KEGG API’s reaction definition and missing reaction components and reaction modifiers (i.e., enzymes) were added to the model. The layout of each node (position, width and height) was also stored in the model, using the SBML Layout extension [69]. During the translation, enzymes that are contained in the orthologous template pathway, but have no instance in the current organism were removed from the model. Furthermore, for the metabolic translations, all nodes that do not correspond to physical instances of compounds or gene products were removed (i.e., pathway-reference nodes).

The models were augmented with Identifiers.org URI [70] cross-references to the following resources: 3DMET, ChEBI, DrugBank, Enzyme Nomenclature (EC code), Ensembl, Gene Ontology, GlycomeDB, HGNC, KEGG (gene, glycan, reaction, compound, drug, pathway, orthology), LipidBank, NCBI Gene, OMIM, PDBeChem, PubChem, Taxonomy, UniProt. Furthermore, every species, qualitative species, reaction and transition was assigned the ECO-code ECO:0000313 meaning “a type of imported information that is used in an automatic assertion”. If multiple identifiers from the same database could be assigned to a single element, BioModels.net biology qualifier [71]has version كان مستعملا. Otherwise, BioModels.net biology qualifier يكون كان مستعملا.

Additional information was stored in SBML notes, including a human-readable description (i.e., the full name), synonyms (different gene symbols, compound labels, etc.), pathways, and for small molecules, links to images of chemical compounds (hosted by KEGG and ChEBI), Chemical Abstract Service (CAS) numbers, chemical formula and molecular weight.

KEGG مجموعات (which mostly correspond to complexes or gene families) were translated to species with all contained elements specified in the SBML notes و annotation. A human-readable list of contained gene symbols was added to the notes. A machine-readable term from a controlled vocabulary with a BioModels.net biology qualifier is encoded by was used to denote all group members.

Generation of kinetics models for the metabolic networks

The program SBMLsqueezer [72, 73] was used to fetch kinetic equations from SABIO-RK. For all cases when a corresponding entry for a reaction in the model could be found in SABIO-RK, the rate law and kinetic parameters (including SBML values and UnitDefinition objects) were extracted. Corresponding entries within the SABIO-RK database were identified using the MIRIAM-compliant annotations of reactions within each model. SABIO-RK returns an SBML document that may contain several rate equations for the same reaction, depending on experimental conditions. For every rate law found in SABIO-RK, a correspondence was established between its species and compartments and those involved in the reaction of the query model. Functions and units defined by SABIO-RK that are referenced within the rate law of interest were also added to the model. In some cases such a matching was not possible. In these situations, the algorithm tries to add another rate law from SABIO-RK that matches the search criteria to the current reaction. The algorithm retains the order of rate laws as given by the search results from SABIO-RK. For the remaining reactions, either SABIO-RK could not find a rate equation or it was not possible to match species and compartments returned by SABIO-RK to the ones in the query model.

All missing rate laws were generated with the program SBMLsqueezer. To create ab initio kinetic laws for reversible enzyme-catalyzed reactions, the Common Modular (CM) rate law of Liebermeister et al. [52] was used. The explicit cat form was selected because it requires fewer independent parameters than the Haldane- (hal [74]) and Wegscheider-compliant (weg [75]) CM forms, described in more detail below. The CM rate law can be used for any kind of reversible enzyme-catalyzed metabolic reaction whose precise mechanism remains unknown. This is the case if rate laws are automatically created for all reactions in KEGG. In their work on the CM rate law, Liebermeister et al. also proposed four additional modular rate laws that all cover certain special cases.

A common denominator characterizes all modular rate laws. The precise structure of the denominator term depends on the number and type of involved modulators, such as inhibitors or stimulators, as well as the number of reactants and products. Each modular rate laws can be used in three different modes or versions: the explicit (قط), Haldane-compliant, and Wegscheider-compliant. These versions determine the form of the numerator in the equation. ال قط version has the smallest number of parameters. Its numerator resembles the mass action rate law, but with each reacting species divided by its corresponding Michaelis constant. Equation (1) displays the قط version of the CM rate law with modulation function F that includes activations, inhibitions and effects of catalysts:

ص ص, ص ص، و م ص denote the index sets for reactants, products and modifiers in the ص ذ reaction, ن الأشعة تحت الحمراء gives the stoichiometric coefficient for the أنا ذ reactant, and vector ك contains all parameters, such as the Michaelis constant ك ري and the cooperativity factors ح ص. Multiplying the rate law with a well-defined prefactor function f allows the influence of modifiers, such as non-competitive inhibition to be included.

As mentioned above, modular rate laws are only defined for reversible enzyme-catalyzed reactions. Table 2 summarizes the selected rate laws for irreversible reactions. In simple cases, the well-described Henri-Michaelis-Menten equation and the random-order ternary-complex mechanism were selected as the default rate law [76]. For arbitrary irreversible enzyme-catalyzed reactions, convenience rate laws [77] were created. These used the simpler thermodynamically dependent form when the stoichiometric matrix of the reaction system has full column rank, and the more complex thermodynamically independent form otherwise. For non-enzymatic reactions, the generalized mass action rate law [78] has been used. Effects of inhibitors or activators using the prefactor terms suggested by Liebermeister and Klipp were included. Just like the convenience rate law this equation can also be applied for arbitrary numbers of reactants and products and is therefore well suited for the automatic creation of unknown kinetic equations.

In order to keep the kinetic equations simple, a list of ions and small molecules to ignore when creating kinetic equations was defined. This is necessary to reduce the complexity of rate laws where their contribution would actually be limited (Table 3).

For gene-regulatory processes, the generalized version of Hill’s equation [79] was selected. For species that are annotated as genes (SBO term identifier is a derivative of الجين SBO:0000), the boundaryCondition in the SBML definition of the محيط was set to حقيقية. This means that the concentration of genes is seen as a constant pool that cannot be influenced by reactions. Finally, in case of zeroth order reactions (i.e., reactions without any reactant or reversible reactions without any product), zeroth order versions of the generalized mass-action rate law were used.

The values of all new parameters were set to 1.0. The compartment sizes and species amounts or concentrations were also initialized with 1.0. If no substance, time, and volume units were defined in previous steps, the default substance unit was set to mole, time unit to second, and volume unit to litre. The units of all newly generated parameter objects were derived in order to ensure consistency of the overall models. This means that upon derivation, the units of reaction rates are all specified in substance per time. To this end, the SBML hasOnlySubstanceUnits attribute was set to حقيقية if it was undefined before, and species quantities that were given in concentration units were multiplied by the size of their containing compartment (within the kinetic equation) in order to obtain substance units for all species, irrespective if these were initially defined in concentration or substance units.

In order to facilitate the interpretation of the equations, units, and parameter objects created by this procedure, all elements were annotated with appropriate terms from SBO and the Unit Ontology [80].

Development and implementation of SBML Level 3 Qual صفقة

Level 3 of SBML introduced the concept of modularity, with a Core package, shared by all, and domain-specific packages that add representational features on top of the core. ال qual package is designed to provide SBML with the ability to encode qualitative models, such as logical models, or qualitative Petri-net models. The variables and the transformations of the models encoded in qual differ from species and reactions as defined in SBML Core. Qualitative models typically represent discrete levels of activities that are involved in transformations that cannot always be described as processes (consuming from and producing to pools of elements). To represent those concepts, QualitativeSpecies و انتقال elements have been defined, together with their attributes and sub-elements. Briefly, a QualitativeSpecies encodes a variable representing a quantity or activity associated with an entity (e.g., gene, protein, but also phenomenological entity such as external condition, cell size, etc.) that can take discrete values (Boolean or multi-valued, e.g., in <0,1,2>). أ انتقال element encodes the rules governing the evolution of its انتاج | node depending on the state of its مدخل nodes, both مدخل و انتاج | nodes each referencing a particular QualitativeSpecies whilst providing additional information relating to the انتقال. As most of the software packages used in this project were written in Java, JSBML [81] was chosen to implement the first library support for the SBML qual صفقة. JSBML is a community-driven project to create a pure Java application programming interface (API) for reading, writing, and manipulating SBML files. It is an alternative to the Java interface provided in the C++ version, libSBML [82].

Generation of SBML Level 3 Qual from KEGG signaling pathways

The overall generation of SBML qualitative maps from KGML files was performed with KEGGtranslator [49, 67] using an approach similar as used for kinetic models. Each KGML دخول was translated to an SBML Level 3 Qualitative Species (qual package) and each KGML علاقة was translated in an SBML انتقال (qual package).

In KGML, all interactions between two or more entities that are not molecular reactions are named KEGG relations. These relations describe enzyme-enzyme relations, protein-protein interactions, interactions of transcription factors and genes, protein-compound interactions and links to other pathways. The KEGG specification defines 16 different subtypes to describe the nature of the relations in more detail [83]. SBML qual describes relations as الانتقالات. الانتقالات consist of مدخل, انتاج |، و شرط أشياء. In contrast to KGML, SBML qual specifies the kind of relation in the attribute لافتة التابع مدخل, instead of using type and subtype attributes for the relation. ال لافتة attribute can take the values إيجابي عندما qualitativeSpecies linked to the input stimulates the transition, نفي when it inhibits the transition, مزدوج when the effects can go in both directions (depending upon the context), and غير معروف.

Before converting the KEGG pathway to SBML qual, the pathway relations were further enriched with BioCarta information distributed by the Nature Pathway Interaction Database [3], which provides human pathways in BioPAX Level 3 format. To this end, for each KEGG relation, a search for a corresponding BioCarta interaction was performed. Then, the relation was assigned to a new subtype depending on the BioCarta-ControlType attribute that can be activating or inhibiting.

For the conversion from KGML to SBML qual, the subtypes التنشيط و التعبير are translated to the value إيجابي. The subtypes كبت و قمع are translated to the value نفي. All other subtypes are translated to the value غير معروف. القيمة مزدوج is assigned if a KEGG relation has both an activating as well as an inhibiting subtype. In addition to the sign attribute, the مدخل object is assigned an SBO term that further specifies the semantics based on subtype translated (see Table 4).

Genome-scale metabolic reconstructions

The genome-scale metabolic reconstructions were generated by applying a software pipeline based on modules of the SuBliMinaL Toolbox [39] and libAnnotationSBML [38] to all organisms in KEGG, release 66 (April 2013), accessed via the resource’s web services interface. Many models were augmented with metabolic pathway information extracted from MetaCyc (version 17.0, March 2013), extending a previous approach that was applied to نبات الأرابيدوبسيس thaliana[84]. In the cases of both KEGG and MetaCyc, this metabolic pathway information included metabolites, metabolic reactions and catalytic enzymes. Metabolites and reactions were reconciled with MNXref [40], and enzymes were specified with UniProt identifiers where possible.

The models do not contain any definitions of intracellular compartments. However, extracellular and intracellular compartments are specified, and a minimal extracellular growth medium was applied to all models, along with necessary transport reactions that allow for its uptake. The medium contains: α-D-Glucose, β-D-Glucose, ammonium, sodium, potassium, magnesium, calcium, sulphate, chlorate, phosphate, protons, water, carbon dioxide and oxygen. Furthermore, default transport reactions have been added to allow for the transport of all intracellular metabolites into the extracellular space.

Commonly used biomass components were applied to each model, containing the 20 most common amino acids, the nucleotide precursors of RNA and DNA, glycogen and ATP, along with a default biomass reaction consisting of all 30 of these components. No attempt to tailor the biomass components to the organism was performed, and as such, clear anomalies such as the inclusion of glycogen in bacteria and plants remain. However, the removal of such terms, and the amendment of the biomass function itself, is a simple task for manual curation. All models were analyzed with the COBRA Toolbox [43] to determine whether they were able to synthesize the biomass components, with the results provided in Additional file 1: Table S1.

The genome-scale metabolic reconstructions described in this work adhere to the existing dialect that is compatible with the COBRA Toolbox. That is, fields such as formula are represented in the SBML notes, and flux bounds are specified under reaction kineticLaw عناصر. However, as uptake of the newly proposed SBML Flux Balance Constraints package [85] increases, subsequent releases of the genome-scale metabolic reconstructions will also support this extension.

All source code and the compiled software application for generating genome-scale models is available in Additional file 2.

The Systems Biology Graphical Notation

The Systems Biology Graphical Notation [10] is a set of standard graphical languages for representing biological processes and interactions. ال Process Description (PD) language allows scientists to represent chemical kinetics models, with pools of molecular entities consumed and produced by reactions. ال Activity Flow (AF) language allows scientists to represent influence diagrams, in which entity activities inhibit or stimulate other entity activities.

Generation of SBGN PD maps from SBML Level 3 Core

The generation of SBGN Process Description (PD) maps from SBML Level 3 Core and their subsequent automatic layout was performed with SBGN-ED [86]. Each SBML entry was translated to the corresponding SBGN PD glyph based on SBO terms (see Table 2). The original positions of the KGML elements, which were stored using the SBML Layout package, were used as initial positions for the SBGN PD glyphs. For each reaction, arcs to the corresponding reaction glyph connected the reaction partners. The types of the arcs, reflecting consumption, production or catalysis, were also set using SBO terms. Simple chemicals without a previously stored position or with more than one connection, along with all macromolecules with more than one connection, were cloned so that they appeared multiple times in the diagram, each with a connection to just a single element. The results of these steps were SBGN PD maps with valid structure but incomplete layout. The final layout of the maps was computed as a subsequent step.

For process glyphs representing reactions not contained in the original KEGG pathway, initial positions were calculated based on availability of reaction partners with layout information from KEGG: if these reaction partners were not available, the reactions were placed at the top of the map, otherwise the reactions were placed near to reaction partners with layout information. For macromolecules representing enzymes, initial positions were computed taking into account the positions of corresponding substrates, products and reaction glyphs. For simple chemicals representing secondary compounds, initial positions were computed such that these elements were grouped into substrates and products and placed close to the process glyph that represents the reaction. The automatic re-layout of the maps was done using a constrained-based approach [63] with orthogonal edge routing [64] for connections. Based on layout information stored in the model, geometric constraints were defined to preserve horizontal and vertical alignments, containment, as well as relative order of glyphs. Orthogonal object-avoiding edge routing was performed for all edges except the ones connecting glyphs representing secondary compounds and the corresponding process glyphs. The resulting edge routes are similar to those in the KEGG images available online. Edge nudging (moving apart overlapping parallel edges) was then applied to ensure that the edge routes conform to the SBGN layout rules.

The results of these steps were SBGN PD maps with a compact SBGN-conforming layout similar to the original KEGG layout. Finally, the maps were exported as SBGN-ML [87] and PNG image files, and stored in the BioModels Database.

Generation of SBGN AF maps from SBML Qual

Analogous to SBGN Process Description, SBGN Activity Flow (AF) maps were generated by parsing glyph locations and size information from the original KEGG layout via the SBML Layout extension in the generated qualitative model files. Glyph and arc types were set on the basis of SBO terms. Glyphs having multiple positions in the original layout were added to the map only once at the best fitting position of the pre-defined set. Overlapping glyphs were spaced out using libvpsc [88] from the Adaptagrams project [89]. PNG renderings of the SBGN-ML files were created using PathVisio [90].

Extension of BioModels database to support the distribution of models

In order to distribute the models produced by the project, several changes to the database software infrastructure were required. In order to manage models encoded in SBML Level 3 and using several SBML packages, the infrastructure has been upgraded to use the latest version of JSBML. The underlying pipeline (handling all models from their submission to their release) has been extended, and a new branch was created in order to accommodate the models. This separate branch was necessary because these automatically generated models are not expected to go through the normal curation and annotation phases, which are mainly manual processes. The schema of the database (which is used to store metadata about the models) had to be extended. The models themselves are stored in the file system. A custom structure has been devised in order to ensure acceptable access time (as too many files in a given folder puts a lot of stress on the file system). The resulting new branch is sufficiently generic to be able to store models coming from other similar projects. A generic system of categories was also created, in order to classify the models and provide a simple method for their browsing. This is currently used to handle the three main categories (metabolic, non-metabolic and whole genome metabolism) as well as the various sub-categories (such as البناء الضوئي أو Caffeine metabolism which have models for several organisms).

A model display facility was developed, providing access to information about the model, including the annotation of the نموذج element and its associated notes. The model page offers the possibility to download the model (encoded in SBML) as well as its graphical representation (in PNG, SVG and SBGN-ML). A link to an online form provides a convenient way for users to report any issues they may encounter.

Finally, a tool was developed to automatically submit a large number of models. It is able to read the models, perform several checks and customize model files (mainly at the level of the notes و الشروح التابع نموذج element) to ensure greater consistency, extract all the information necessary for their display, and store both metadata and models in the database and file system.

Several methods have been created for browsing the data. One can start from the list of all represented organisms, followed by individual pathways, such as البناء الضوئي or Caffeine metabolism, and the display of a selected model. Alternatively, one can start with the three main categories of models (metabolic, non-metabolic, and whole genome metabolism), followed by the kind of models available in this category, then choose an organism and finally access the display of one model. In addition, a dedicated search engine is provided, allowing users to retrieve models based on textual queries. It relies on an index (generated using Lucene, http://lucene.apache.org/core/) of the content of all the models. A query expansion mechanism allows searches using Gene Ontology term names.

Three archives (one per main category) of all the models are available for downloading from the EBI’s FTP servers.

Availability of supporting data

All models generated by the project are availaible from BioModels Database [40].


INTRODUCTION

In the past decade, there has been accumulation of large mass of biological data by the use of high-throughput omics technologies (e.g. genomics, transcriptomics, proteomics and metabolomics). Biological pathways can represent complex processes at molecular level and can be a valuable aid for computational and experimental research utilizing the omics data (1). Biologists can use pathway databases equipped with easy-to-use analytical and visualization tools to garner insight about their experiments (e.g. genome wide association studies, next generation genome sequencing projects and molecular profiling data), digest large amounts of information and generate hypotheses.

There are several manually curated publically available pathway resources, including PANTHER (2), Reactome (3), KEGG (4), MetaCyc (5), WikiPathways (6), PharmGKB (7), SMPDB (8), PID (9) and large process maps frequently published by the Systems Biology Institute (SBI) (10,11) and deposited in Payao (12). Several companies provide open-access to curated pathway databases such as Qiagen's GeneGlobe Pathway Central (https://www.qiagen.com/geneglobe/pathways.aspx), BioCarta pathways (http://www.biocarta.com),) and Ambion’s Pathway Atlas (http://www.ambion.com/tools/DARKSITE/pathway/all_pathway_list.php). Additionally a number of commercial pathway databases such as GeneGo's Pathway Maps (http://www.genego.com/mapbrowse.php) and Ingenuity Pathway Analysis tool (http://www.ingenuity.com/) are also available.

Integrated Pathway Resources, Analysis and Visualization System (IPAVS) is a freely available, interactive and integrated pathway database which is designed to address the needs of bench biologists, computational biologists and physicians. It offers biologists a single point of access to several manually curated pathway resources, in addition to its own expert-curated pathways that are in standard format.


METHODS

Metagraphs

A metagraph is a data structure for representing nodes, edges and subnetworks in a nested structure. One significant difference between a compound graph and a metagraph is that metagraphs allow one node to have multiple instances and these instances are automatically tracked. This capability allows a metanode in a metagraph to share nodes: each metanode has its own instance of the same node. Metanodes have two semantic states: an expanded state that reveals the associated subgraph inside, and a contracted state that hides the internal structure, rendering the metanode as a simple node. Edges between the nodes in an expanded metanode have the usual meaning (associations based on experimental data or computationally inferred correlations) edges between metanodes either reflect a correlation between standard (hidden) nodes or indicate that the same gene/protein occurs in both metanodes ( 20).

KGML and pathway integration tools

KGML is an exchange format for KEGG graph objects, particularly KEGG pathways, which are manually drawn and updated. The KGML files for KEGG metabolic pathways specify how enzymes (boxes) are linked by a relation and how compounds (circles) are linked by a reaction. In contrast, the KGML files for KEGG regulatory pathways contain only the former. KGML files for all supported species in VisANT have been preprocessed to map genes to their KEGG pathways, and a VisANT user can identify pathways for a specified gene either by searching for its interactions or resolving (normalizing) its names or IDs as explained subsequently.

Two pathway recommendation web services for identifying functionally related genes from transcriptional profiles are integrated in VisANT through its plugin architecture ( 20). Given a set of query genes, typically the known genes of a pathway, these services recommend additional genes in the same pathway as the query set. Both search engines support five species: الانسان العاقل, Mus musculus, ذبابة الفاكهة سوداء البطن, أنواع معينة انيقة و خميرة الخميرة. When VisANT is run as an online applet, connections to the services are mediated by the VisANT server.

GeneRecommender ( 29) discovers new genes with similar function to a given list of genes (the query) already known to have closely related function. It ranks genes according to how strongly they correlate with a set of query genes in those experiments for which the query genes are most strongly coregulated.

ClueGene ( 30) uses the pattern of how genes cluster together in sets of experiments to recommend new genes in a pathway. ClueGene bases its recommendations on the query set and on a cluster compendium. Each set of experiments is clustered independently. The collection of clusters constitutes the cluster compendium. Each gene in the genome is given a co-clustering score. Higher scoring genes are more highly recommended and tend to be found in small clusters in the cluster compendium along with query genes.

The use of VisANT ( 20, 31, 32) to mine, integrate and display biological interactions based on KEGG pathways and expression data is facilitated by a name-normalization service which resolves IDs used by different databases. In addition, customized ID mappings, as well as corresponding Web links, can be easily added to the network through a simple tab-delimited format. VisANT is developed using Java technology. In addition to the Web browser applet interface, VisANT can also be run as a stand-alone application which implements an auto-upgrading detection system to keep it up-to-date. Detailed information on VisANT's three-tier structure ( 31) and plugin framework( 20) can be found at http://visant.bu.edu. In addition, a new error-reporting system has been implemented to enhance the integration reliability of distributed systems: users will have the option to report critical errors to the plugin authors and VisANT team.


KENeV: A web-application for the automated reconstruction and visualization of the enriched metabolic and signaling super-pathways deriving from genomic experiments

Gene expression analysis, using high throughput genomic technologies,has become an indispensable step for the meaningful interpretation of the underlying molecular complexity, which shapes the phenotypic manifestation of the investigated biological mechanism. The modularity of the cellular response to different experimental conditions can be comprehended through the exploitation of molecular pathway databases, which offer a controlled, curated background for statistical enrichment analysis. Existing tools enable pathway analysis, visualization, or pathway merging but none integrates a fully automated workflow, combining all above-mentioned modules and destined to non-programmer users.

We introduce an online web application, named KEGG Enriched Network Visualizer (KENeV), which enables a fully automated workflow starting from a list of differentially expressed genes and deriving the enriched KEGG metabolic and signaling pathways, merged into two respective, non-redundant super-networks. The final networks can be downloaded as SBML files, for further analysis, or instantly visualized through an interactive visualization module.


شاهد الفيديو: KEGG: A pathway Database (كانون الثاني 2022).