التكنولوجيا والاتصالات
التنبؤ بموقع البروتين داخل الخلية باستخدام خوارزميات الذكاء الاصطناعي
التنبؤ بموقع البروتين داخل الخلية باستخدام خوارزميات الذكاء الاصطناعي.
• مقدمة
تعتبر الخلية الحية أصغر وحدة حية في الوجود، وتعتبر البروتينات الوحدات الأساسية التي تتكوّن منها الخلية الحيّة، كما تعتبر الأحماض الأمينية الوحدات الأساسيّة التي تتكوّن منها البروتينات.
يوجد في الإنسان البالغ حوالي 100 تريليون خلية، وفي الخلية الواحدة يوجد حوالي 100 مليون بروتين. وتقوم البروتينات بالعديد من الوظائف، مثل: تخزين الطعام، وتوليد الطاقة، وتحليل وتفكيك الجزيئات بالماء، ونقل المواد.. إلخ. وتؤدّي البروتينات وظائفها بحسب مكان وجودها في الخلية، وقد لوحظ أن البروتينات المتجمّعة في مكان واحد تتشابه في سلسلة الأحماض الأمينية، وكلما اختلفت مواقع البروتينات اختلفت هذه السلسلة أكثر. في هذا البحث سنسلط الضوء على إحدى الآليات الحاسوبية التي يستطيع العلماء بواسطتها معرفة مكان وجود أي بروتين، والتنبّؤ بالوجهة التي سيسافر إليها البروتين بعد حقنه في الخلية! وتعرف هذه المسألة بين الأبحاث العلمية باسم Protein subcellular localization prediction. وهي مسألة مهمّة جدًّا في علم الأحياء (biology) وعلم دراسة البروتينات (proteomics).
• الطريقة التقليدية لتحديد موقع البروتين:
يستطيع العلماء تحديد موقع البروتين بإجراء تجارب مخبرية، لكن هذه الطريقة المخبرية تستهلك الكثير من الوقت والمال! وقد استمر العلماء بإجراء التجارب المخبرية وتسجيل الملاحظات في جداول (قواعد بيانات) في محاولة منهم لاكتشاف الأنماط وتحليل المعلومات، وكلّما رُصدت الثنائيّة (هذا البروتين في هذا الموقع)؛ وضعت هذه المعلومة في قواعد البيانات، ثم تصدر نسخ جديدة من قواعد البيانات هذه كل فترة. ومع زيادة حجم قواعد البيانات أصبح بالإمكان نمذجة هذه المسألة حاسوبيًّا والعمل على بناء أنظمة التنبّؤ، وكان أول نظام تنبّؤ هو نظام (PSORT) الذي رُصد عام 1999.
• فوائد أنظمة التنبّؤ الحاسوبية
1- سنتمكّن بواسطة أنظمة التنبّؤ من توقّع وجهة البروتينات المصنوعة مخبريًا (الأدوية والعقاقير) عند حقنها في جسد المريض، وهذا مهم لتجنّب الأخطاء التي قد تحصل فيما لو تمت التجربة عمليًا (فقد تؤدّي لحدوث أمراض وسرطانات وتتفاقم الحالة المرضية).
2- سنتمكّن أيضًا من تحديد وظيفة البروتين، لأن وظيفة البروتين متعلّقة بمكان وجوده.
3- بناء قواعد بيانات ضخمة عن البروتينات، والاستفادة من هذه المعلومات في مختلف مسائل علم دراسة البروتينات (proteomics). وذلك من خلال تخزين نتائج أنظمة التوقع في قواعد البيانات من جديد. لنلقِ نظرةً على تطوّر حجم قاعدة البيانات الشهيرة (SWISS-PROT):
ففي النسخة 33.0 كان فيها معلومات عن 15.775 بروتين. ثم في الإصدار 35.0 (عام 1997) صار حجمها 69.113 (بزيادة قدرها 17.10% على النسخة 34.0). وفي النسخة 52.0 (عام 2007) أصبح عدد البروتينات فيها حوالي 260.175 بروتين. ولإن استُثنيت البروتينات التي يبلغ طولها أقل من 50 حمض أميني؛ يبق لدينا 133.652 بروتين. ومن بين كل هذه البروتينات يوجد فقط 49.367 بروتين منمّط مخبريًا، والباقي منمّط آليًّا بواسطة أنظمة التنبّؤ.
ملاحظات:
1- تختلف الأنظمة عن بعضها من حيث التخصص: فبعض الأنظمة متخصصة ببعض أعضاء جسم الإنسان، وبعضها الآخر بالبكتيريا، وبعضها بالنباتات.
2- لا تتوزّع البروتينات على المواقع بشكل عادل، بل بانحياز كبير (أي: لا يوجد توازن في توزّع الصفوف)، وتوجد دراسات متخصصة بكيفيّة توزّع البروتينات في المواقع داخل الخلية.
3- بعض الدراسات تستخدم قواعد بيانات صغيرة أقل من 1000 بروتين.
4- يوجد الكثير من أنظمة التنبّؤ السحابية online. مثل: Euk-mPLoc الذي يستخدم قاعدة بيانات UniProtKB (في عام 2007 كان فيها معلومات عن حوالي 4,949,164 بروتين). يستقبل هذا النظام سلسلة الأحماض الأمينية بصيغة FASTA (وهي تمثيل نصّي للأحماض الأمينية يستخدم فيه 22 محرف من محارف اللغة كل محرف يقابل حمض أميني). ولتجريب هذا النظام اذهب إلى (http://www.csbio.sjtu.edu.cn/bioinf/euk-multi-2/ ) واطلب منه تحديد موقع هذا البروتين:
>
MEPSSLELPADTVQRIAAELKCHPTDERVALHLDEEDKLRHFRECFYIPKIQDLPPVDLS LVNKDENAIYFLGNSLGLQPKMVKTYLEEELDKWAKIAAYGHEVGKRPWITGDESIVGLM KDIVGANEKEIALMNALTVNLHLLMLSFFKPTPKRYKILLEAKAFPSDHYAIESQLQLHG LNIEESMRMIKPREGEETLRIEDILEVIEKEGDSIAVILFSGVHFYTGQHFNIPAITKAG QAKGCYVGFDLAHAVGNVELYLHDWGVDFACWCSYKYLNAGAGGIAGAFIHEKHAHTIKP ALVGWFGHELSTRFKMDNKLQLIPGVCGFRISNPPILLVCSLHASLEIFKQATMKALRKK SVLLTGYLEYLIKHNYGKDKAATKKPVVNIITPSHVEERGCQLTITFSVPNKDVFQELEK RGVVCDKRNPNGIRVAPVPLYNSFHDVYKFTNLLTSILDSAETKN
لنجد أن هذا البروتين يقع في ال (Cytoplasm) هيولى الخلية.
• نظام KNN (التصنيف بحسب أقرب K مجاور)
هذه خوارزمية رياضيّة تعمل بالشكل التالي:
1- نقوم بتحويل كل بروتين في قاعدة البيانات إلى شعاع (نسق) من الأرقام. يوجد العديد من التمثيلات الرياضيّة وأبسطها هو تمثيل (AA composition) الذي يحوّل البروتين إلى شعاع طوله 20 رقم.
2- أصبح لدينا فضاء رياضي ب20 بُعدًا (20 محورًا). تنتشر فيه البروتينات الموجودة في قاعدة البيانات والتي نعلم مواقعها.
3- الآن: عندما يريد مستخدم النظام الاستفسار عن موقع بروتين ما؛ فإننا سنحول هذا البروتين إلى شعاع من الأرقام بتمثيل (AA composition) السابق نفسه. ثمّ سننظر إلى البروتينات القريبة منه، إن كانت K=1 فهذا يعني أننا سنصنّف هذا البروتين بنفس صنف أقرب بروتين مجاور له. وإن كانت K=6 فسننظر إلى أقرب 6 بروتينات وننظر إلى مواقعها، ونصنّف البروتين بنفس صنف الأكثرية من البروتينات.
• ملاحظات:
1- حديثًا بُنيت أنظمة تَعلّم عميق (Deep Learning) لحل هذه المسألة, وقد أظهرت هذه التقنيات تفوّقَا على التقنيات التقليدية (مثل KNN و SVM).
2- توجد أنواع من البروتينات تنتمي لأكثر من موقع، وتعتبر مسألة اكتشاف عدة مواقع لوجود البروتين أعقد من مسألة اكتشاف موقع واحد.
المراجع:
Dönnes, P., & Höglund, A. (2004). Predicting protein subcellular localization: past, present, and future. Genomics, proteomics & bioinformatics, 209-215.
Dubey, A., & Chouhan, U. (2011). Subcellular localization of proteins. Archives of Applied Science Research, 392-401.
K C Chou, H. B. (2007). Recent progress in protein subcellular location prediction. Elsevier.
Lu, Z., Szafron, D., Greiner, R., Lu, P., Wishart, D. S., Poulin, B., & Eisner, R. (2004). Predicting subcellular localization of proteins using machine-learned classifiers. Bioinformatics, 547-556.