محرك بحث جديد لخدمة عصر البيانات الجينومية الهائلة
26 October 2025
نشرت بتاريخ 26 أكتوبر 2025
أداة «ميتاجراف» تقلص سعة أرشيفات البيانات البيولوجية الشاسعة وتحولها إلى محرك بحث للعلماء، ما يفتح آفاقًا جديدة للاكتشافات في علم الأحياء.
كما أن «جوجل» هو بوابتك على عالم الإنترنت، فإن نافذتك على عالم البيولوجيا هي محرك البحث الجديد «ميتاجراف». يُمكن لمحرك البحث هذا، والذي نتناوله بالتفصيل في هذا التحقيق الإخباري من دوريةNature1أن يُمشط فيض البيانات البيولوجية الهائل الذي تحتفظ به مستودعات البيانات العامة.
فحول محرك البحث، يقول رايان تشيكهي، اختصاصي دراسات الحوسبة البيولوجية من معهد باستور في باريس: "إنه لإنجاز ضخم". فبتعبيره، "أرسى مطورو المحرك معيارًا جديدًا" لتحليل البيانات البيولوجية الخام، بما في ذلك بيانات التسلسلات البروتينية وتسلسلات الحمض النووي والحمض النووي الريبي، التي تستخرج من قواعد بيانات قد تحتوي على ملايين المليارات من أحرف الحمض النووي، ما يشكل معلومات عن آلاف التريليونات من القواعد النيوكليوتيدية، وهذا يعني مدخلات بيانية يفوق عددها إجمالي صفحات الويب في فهرس «جوجل» الشاسع.
ورغم أن أداة «ميتاجراف» تُوصف بأنها "نظير محرك بحث جوجل في عالم الحمض النووي"، يشبهها تشيكهي بمحرك بحث موفع «يوتيوب» لأنه يجري من الناحية الحوسبية مهامًا أكثر تعقيدًا من محرك بحث جوجل. فكما يمكن لعمليات البحث على موقع «يوتيوب» استخراج كل مقطع فيديو يعرض مثلًا بالونات حمراء، حتى لو لم ترد هذه الكلمات المفتاحية في عنوان مقطع الفيديو أو واسماته أو توصيفه، يمكن لأداة «ميتاجراف» اكتشاف الأنماط الجينية التي تنطوي عليها مجموعات بيانات مقاطع الحمض النووي الشاسعة دون الحاجة إلى وضع توصيف مفصل سلفًا لهذه الأنماط.
وهذا، بتعبير تشيكهي، "يُفسح المجال أمام تطبيقات كانت لتغدو مستحيلة لولا ذلك".
فهرسة لمكتبة علوم الحياة
صُممت أداة « ميتاجراف» بغية حل مشكلة في الوصول إلى مجموعات بيانات التسلسلات الجينية. فأحجام مستودعات بيانات هذه التسلسلات نمت بسرعة صاروخية في غضون العقود الأخيرة، غير أن هذا النمو شكل تحديًا أمام العلماء الساعين إلى استخدام البيانات التي تحفظها هذه المستودعات. فالبيانات الخام حول التسلسلات الجينية جاءت متفرقة في أرجاء هذه المستودعات، تصنع صخبًا وفيضًا من المعلومات يعsجز أمامه المرء عن تنقيبها مباشرة. في ذلك الصدد، يقول آرتيم بابايان، اختصاصي البيولوجيا الحوسبية من جامعة تورونتو الكندية: من المفارقات، أن حجم البيانات هو أكبر عائق نواجهه في الاستخدام الفعلي لها".
ووفقًا لأندريه كاليس، اختصاصي نظم المعلومات الحيوية من المعهد الفيدرالي السويسري للتكنولوجيا (ETH) في مدينة زيورخ السويسرية، وهو أحد واضعي الدراسة التي أسفرت عن أداة «ميتاجراف»، قد تساعد هذه الأداة الباحثين على طرح أسئلة في علم البيولوجيا على مستودعات البيانات مثل أرشيف «سيكوانس ريد آركايف» Sequence Read Archive (SRA)، وهو قاعدة بيانات جينومية عامة تحوي أكثر من 100 مليون مليار حرف من أحرف الحمض النووي2.
وقد تصدى كاليس وفريقه الحثي لمشكلة ضخامة حجم البيانات باستخدام "رسوم بيانية" رياضية، تربط بين مقاطع الجمض النووي التي تشترك في أجزاء معًا، على النحو نفسه الذي تتراص به الجمل التي تشترك في كلمات بعينها داخل فهرس كتاب.
دمج الفريق البحثي بين البيانات المستقاة من سبعة مستودعات بيانات ممولة حكوميًا، ليُنشئ بذلك 18.8 مليون مجموعة بيانات فريدة لتسلسلات الأحماض النووية والأحماض النووية الريبية و210 مليار مجموعة بيانات لتسلسلات الأحماض الأمينية على امتداد جميع أفرع شجرة الحياة، من الفيروسات والبكتيريا والفطريات والنباتات، والحيوانات، بما فيها البشر. كذلك طوَّر الفريق محرك بحث عن هذه التسلسلات، يمكن فيه للمستخدمين استعمال الأوامر النصية للتنقيب في هذه الأرشيفات المتكاملة من البيانات الخام.
حول ذلك، يقول كاليس: "إنها آلية جديدة تمامًا للتفاعل مع هذا الحجم من البيانات، إذ تأتي البيانات بسعة مقلصة لكن تتاح في التو واللحظة".
وللبرهنة على الفوائد التي تعود بها أداة «ميتاجراف»، استخدمها مؤلفو الدراسة لمسح 241,384 عينة ميكروبيوم معوي بشري بحثًا عن المؤشرات الجينية الدالة على مقاومة المضادات الحيوية حول العالم، وذلك بالبناء على دراسات استخدمت نسخًا سابقة من الأداة لتتبُع الجينات المكسبة للمقاومة ضد العقاقير في السلالات البكتيرية التي تستوطن أنظمة المترو في المراكز الحضرية الكبرى3. ويفيد مؤلفو الدراسة بأنهم أجروا التحليل في ما يقرب من ساعة على حاسوب عالي الأداء.
باب الاكتشاف فُتح على مصراعيه
بيد أن «ميتاجراف» ليست الأداة الوحيدة على الساحة للتنقيب على نطاق شاسع في التسلسلات الجينية.
على سبيل المثال، صمم تشيكهي وبابايان منصة باسم «لوجان» Logan، تربط بين مليارات التسلسلات الجينية القصيرة لصنع مقاطع حمض نووي أطول وأدق ترتيبًا. وهذا التصميم يسمح للمنصة برصد مقاطع جينية كاملة والأشكال المتحورة منها عبر مجموعات أكبر من تسلسلات الحمض النووي، على نحو لا يسنح بالدرجة نفسها مع أداة «ميتاجراف»، وإن كان ذلك يأتي على حساب بعض الجوانب الأخرى". فيقول تشيكهي: "تؤدي أداتنا وظائف أقل لكن بكفاءة أعلى".
وقد ساعدت هذه القدرة المعززة على سبر مقاطع الحمض النووي في اكتشاف أكثر من مائتي صورة من الإنزيمات الطبيعية المُحللة للبلاستيك والموجودة في طيف من البكتيريا والفطريات والحشرات ، بما في ذلك بعض صور الإنزيمات التي تعمل بكفاءة أكبر من تلك المصممة مختبريًا. وفي مسودة بحثية نُشرت الشهر الماضي، أفاد تشيكهي وبابايان بنتائج دراستهما4.
وقد استخدما مع آخرين أداة بحثية أقدم وذات نطاق بحث أضيق مصممة للتنقيب في مستودعات بيانات الحمض النووي الفيروسي بهدف اكتشاف عوالم من الفيروسات والملوِّثات الفيروسية غير الموثقة5 في علاجات السرطان بالخلايا التائية المهندسة 6.
وبحسب بابايان، لم تكن هذه الاكتشافات لتتحقق إلا بمقومين، هما: أدوات البحث مفتوحة المصدر - المتاحة في مواقع مثل metagraph.ethz.ch، وlogan-search.org- ومستودعات بيانات التسلسل الجيني العامة التي تنتفع بمواردها هذه الأدوات. من هنا، في الوقت الذي صارت فيه قواعد بيانات بيولوجية أخرى مهددة بسبب الاقتطاعات من حجم التمويلات الممنوحة لها ، يشدد بابايان على أن أدوات البحث المبتكرة تلك تُبرز "الأهمية القصوى للمشاركة المفتوحة للبيانات".
وختامًا يقول: "هذه الموارد تدفع عجلة التقدُم العلمي في شتى أنحاء العالم. وتفتح الباب على مصراعيه أمام مبحث جديد تمامًا يسبر بيانات الجينوم على نطاق يُقدر بآلاف التريليونات من البايتات. وحتى اليوم، لم تتحقق تطبيقاتها الأعمق تأثيرًا".
هذه ترجمة المقال الإنجليزي المنشور في دورية Nature بتاريخ 8 أكتوبر عام 2025.
doi:10.1038/nmiddleeast.2025.188
تواصل معنا: