يوجد في الإنسان البالغ حوالي 100 تريليون خلية، وفي الخلية الواحدة يوجد حوالي 100 مليون بروتين. وتقوم البروتينات بالعديد من الوظائف، مثل: تخزين الطعام، وتوليد الطاقة، وتحليل وتفكيك الجزيئات بالماء، ونقل المواد.. إلخ. وتؤدّي البروتينات وظائفها بحسب مكان وجودها في الخلية، وقد لوحظ أن البروتينات المتجمّعة في مكان واحد تتشابه في سلسلة الأحماض الأمينية، وكلما اختلفت مواقع البروتينات اختلفت هذه السلسلة أكثر. في هذا البحث سنسلط الضوء على إحدى الآليات الحاسوبية التي يستطيع العلماء بواسطتها معرفة مكان وجود أي بروتين، والتنبّؤ بالوجهة التي سيسافر إليها البروتين بعد حقنه في الخلية! وتعرف هذه المسألة بين الأبحاث العلمية باسم Protein subcellular localization prediction. وهي مسألة مهمّة جدًّا في علم الأحياء (biology) وعلم دراسة البروتينات (proteomics).
يستطيع العلماء تحديد موقع البروتين بإجراء تجارب مخبرية، لكن هذه الطريقة المخبرية تستهلك الكثير من الوقت والمال! وقد استمر العلماء بإجراء التجارب المخبرية وتسجيل الملاحظات في جداول (قواعد بيانات) في محاولة منهم لاكتشاف الأنماط وتحليل المعلومات، وكلّما رُصدت الثنائيّة (هذا البروتين في هذا الموقع)؛ وضعت هذه المعلومة في قواعد البيانات، ثم تصدر نسخ جديدة من قواعد البيانات هذه كل فترة. ومع زيادة حجم قواعد البيانات أصبح بالإمكان نمذجة هذه المسألة حاسوبيًّا والعمل على بناء أنظمة التنبّؤ، وكان أول نظام تنبّؤ هو نظام (PSORT) الذي رُصد عام 1999.
ففي النسخة 33.0 كان فيها معلومات عن 15.775 بروتين. ثم في الإصدار 35.0 (عام 1997) صار حجمها 69.113 (بزيادة قدرها 17.10% على النسخة 34.0). وفي النسخة 52.0 (عام 2007) أصبح عدد البروتينات فيها حوالي 260.175 بروتين. ولإن استُثنيت البروتينات التي يبلغ طولها أقل من 50 حمض أميني؛ يبق لدينا 133.652 بروتين. ومن بين كل هذه البروتينات يوجد فقط 49.367 بروتين منمّط مخبريًا، والباقي منمّط آليًّا بواسطة أنظمة التنبّؤ.
4- يوجد الكثير من أنظمة التنبّؤ السحابية online. مثل: Euk-mPLoc الذي يستخدم قاعدة بيانات UniProtKB (في عام 2007 كان فيها معلومات عن حوالي 4,949,164 بروتين). يستقبل هذا النظام سلسلة الأحماض الأمينية بصيغة FASTA (وهي تمثيل نصّي للأحماض الأمينية يستخدم فيه 22 محرف من محارف اللغة كل محرف يقابل حمض أميني). ولتجريب هذا النظام اذهب إلى (http://www.csbio.sjtu.edu.cn/bioinf/euk-multi-2/ ) واطلب منه تحديد موقع هذا البروتين:
MEPSSLELPADTVQRIAAELKCHPTDERVALHLDEEDKLRHFRECFYIPKIQDLPPVDLS LVNKDENAIYFLGNSLGLQPKMVKTYLEEELDKWAKIAAYGHEVGKRPWITGDESIVGLM KDIVGANEKEIALMNALTVNLHLLMLSFFKPTPKRYKILLEAKAFPSDHYAIESQLQLHG LNIEESMRMIKPREGEETLRIEDILEVIEKEGDSIAVILFSGVHFYTGQHFNIPAITKAG QAKGCYVGFDLAHAVGNVELYLHDWGVDFACWCSYKYLNAGAGGIAGAFIHEKHAHTIKP ALVGWFGHELSTRFKMDNKLQLIPGVCGFRISNPPILLVCSLHASLEIFKQATMKALRKK SVLLTGYLEYLIKHNYGKDKAATKKPVVNIITPSHVEERGCQLTITFSVPNKDVFQELEK RGVVCDKRNPNGIRVAPVPLYNSFHDVYKFTNLLTSILDSAETKN
3- الآن: عندما يريد مستخدم النظام الاستفسار عن موقع بروتين ما؛ فإننا سنحول هذا البروتين إلى شعاع من الأرقام بتمثيل (AA composition) السابق نفسه. ثمّ سننظر إلى البروتينات القريبة منه، إن كانت K=1 فهذا يعني أننا سنصنّف هذا البروتين بنفس صنف أقرب بروتين مجاور له. وإن كانت K=6 فسننظر إلى أقرب 6 بروتينات وننظر إلى مواقعها، ونصنّف البروتين بنفس صنف الأكثرية من البروتينات.
المراجع:
Dönnes, P., & Höglund, A. (2004). Predicting protein subcellular localization: past, present, and future. Genomics, proteomics & bioinformatics, 209-215.
Dubey, A., & Chouhan, U. (2011). Subcellular localization of proteins. Archives of Applied Science Research, 392-401.
K C Chou, H. B. (2007). Recent progress in protein subcellular location prediction. Elsevier.
Lu, Z., Szafron, D., Greiner, R., Lu, P., Wishart, D. S., Poulin, B., & Eisner, R. (2004). Predicting subcellular localization of proteins using machine-learned classifiers. Bioinformatics, 547-556.