إدارة البياناتتحليل البياناتعلم البياناتهندسة البيانات

سحابة جووجل (Google Cloud) لتحليل البيانات

مقدمة سريعة

تحولت العديد من الجهات سواء كانت حكومية أو شركات لاستخدام الخدمات السحابية. وذلك لأسباب عديدة، منها تخفيف أعباء الإدارة التقنية للأجهزة كالتحديثات وسد الثغرات وتجديد الأجهزة دورياً. وكذلك فصل الحوسبة عن التخزين بحيث يمكن عند الحاجة استخدام معالجات أقوى أو بعدد أكبر، وقد يكون ذلك لفترة قصيرة ثم إنهاء الاستخدام لتقليل التكاليف. وبهذا يكون أيضاً الاستخدام فقط عند الحاجة مقارنة بشراء أجهزة قد لا تكون مستغلة بشكل كامل لفترات طويلة. أيضاً رخص تكلفة التخزين وتنوع مستوياته حتى يصل إلى تكاليف زهيدة جداً للتخزين طويل الأمد. ومن المزايا أيضاً سهولة التوسع عند الحاجة، وقد يكون التوسع وقتي عند زيادة الضغط على الأجهزة وبطريقة آلية. وغيرها الكثير من المزايا.

ومقدموا الخدمات السحابية لديهم الكثير من الخدمات والمنتجات كاستضافة المواقع والتطبيقات وتخزين وتحليل البيانات والنسخ الاحتياطي وحلول المنظمات وحلول الأمن السيبراني وواجهات التطبيقات البرمجية، وتطبيقات الذكاء الاصطناعي. كما أن هناك العديد من مزودي الخدمات العالميين والمحلييين، من أشهر الشركات المزودة العالمية أمازون AWS وجووجل كلاود ومايكروسوفت Azure. سأستعرض في هذا الموضوع الخدمات السحابية من جووجل المختصة في تخزين ومعالجة وتحليل البيانات بسبب استخدامي لها فترة من الوقت، وعلى الأغلب ستجدون خدمات مشابهة لدى الشركات الأخرى.

الكثير من تقنيات ومعماريات تحليل البيانات الحديثة، لا سيما البيانات الضخمة، تبنت التقنيات السحابية ويطلق على هذه التقنيات حلول/حزم البيانات الحديثة (Modern Data Stack). لكثرة الخدمات والحلول سأستعرض بشكل سريع جداً أهم الخدمات باعتقادي (وليس كلها لكثرتها) مع صورة لأحد صفحاتها ورابط لها إذا أردت قراءة المزيد عنها. ليس الهدف التعمق، ولكن أن تتكون لديك نظرة عما تقدمه الخدمات السحابية في مجالات البيانات. كما يمكنك تجربة أي من هذه الخدمات إذا أردت، حيث أنه عند تسجيلك لأول مرة في سحابة جووجل ستحصل على رصيد 300$ تستطيع استخدامها كما تشاء.

 

حلول التخزين (Storage)

Cloud Storage

توفر هذه الخدمة التخزين الكائني (Object storage) والمناسب للملفات غير المهيكلة كالصور والفيدو وجميع أنواع الملفات الأخرى، ويمكن تحديد صلاحيات الوصول للملفات بسهولة. هناك عدة خيارات للتخزين حسب الحاجة، فمثلاً إذا كان التخزين لغرض الأرشفة فممكن تختار تصنيف Archive الذي يمكنك من التخزين لغرض الأرشفة فقط بوصول عند الضرورة فقط وبثمن أرخص بكثير من التخزين الأساسي Standard، ومن الأصناف أيضاً Nearline و Coldline وهما بين التخزين الأساسي والأرشيف.

للمزيد: https://cloud.google.com/storage

 

Filestore

تتيح هذه الخدمة التخزين باستخدام نظام ملفات كالذي اعتدت عليه في أنظمة تشغيل الحاسب، حيث يمكن ترتيب الملفات ضمن مجلدات. ويختلف هذا عن خدمة التخزين السابقة التي تضع الملفات في حاويات buckets بدون نظام ملفات. تشبه تخزين الشبكة المتصل NAS لمن استخدمه سابقاً.

للمزيد: https://cloud.google.com/filestore

 

Data Transfer

لنقل البيانات بين خدمات التخزين المختلفة سواءً كانت داخل سحابة جووجل أو بين خدمات سحابية من مقدمي خدمة آخرين مثل أمازون أو مايكروسوفت أو الخوادم المحلية في المنظمة.

للمزيد: https://cloud.google.com/storage-transfer-service

 

قواعد البيانات (Databases)

Cloud SQL

وهي خدمة مُدارة لقواعد البيانات العلائقية RDBMS، وتحديداً قواعد البيانات: MySQL و PostgreSQL و SQL Server. والمقصود بمدارة أنك فقط ستهتم بإنشاء قاعدة البيانات ومحتواها فقط بدون أن تحمل هم إدارة الخوادم وتحديث قواعد البيانات وسد الثغرات وإجراء النسخ الاحتياطي، وغيرها من أعمال إدارة وصيانة قواعد البيانات، والتركيز على نطاق الأعمال فقط.

للمزيد: https://cloud.google.com/sql

 

Firestore

قاعدة بيانات مُدارة من نوع document database. تستخدم قواعدالبيانات من نوع document عادة إذا كانت البيانات لا تلتزم بمخطط (schema) متسق دائماً، وتخزن البيانات بشكل هرمي غالباً باستخدام صيغة json.

المصدر: https://firebase.google.com/codelabs/firestore-web

للمزيد: https://cloud.google.com/firestore

 

Cloud Spanner

تعتبر قاعدة بيانات علائقية RDBMS، وتختلف عن Cloud SQL بأنها قابلة للتوسع وأنها عالمية، أي أنها قد تخزن في أكثر من منطقة (region). يتم استخدامها في التطبيقات التي تحتاج إلى التعامل مع بيانات علائقية ضخمة جداً وتوافر عالي.

للمزيد: https://cloud.google.com/spanner

 

Cloud Bigtable

وهي قاعدة بيانات مُدارة من نوع Wide Column، وتستخدم لتخزين البيانات الضخمة بطريقة سريعة جداً. من الاستخدامات لهذا النوع من قواعد البيانات تخزين بيانات انترنت الأشياء والسلاسل الزمنية والتطبيقات المالية.

للمزيد: https://cloud.google.com/bigtable

 

Memorystore

وتعد خدمة مُدارة لقاعدة بيانات Redis مفتوحة المصدر التي تستخدم في الذاكرة. وحيث أنها قاعدة بيانات في الذاكرة فهي تستخدم عند الحاجة لسرعة عالية، فمن استخداماتها مثلاً التخزين المؤقت (caching).

للمزيد: https://cloud.google.com/memorystore

 

هندسة وتحليل البيانات (Data Engineering and Analytics)

Cloud Composer

وهي خدمة مُدارة تستخدم Apache Airflow المفتوح المصدر، والذي يُستخدم لجدولة وإدارة سير العمل في السحابة (وقد تكون عدة سحابات).

للمزيد: https://cloud.google.com/composer

 

Dataproc

من الخدمات المُدارة لعمل مجموعة حواسيب (cluster) لتشغيل خدمات Hadoop و Spark و Flink و Presto وأكثر من 30 مشروع مفتوح المصدر بسهولة. تستخدم غالباً لنقل أنظمة Hadoop من الخوادم المحلية إلى سحابة جووجل.

للمزيد: https://cloud.google.com/dataproc

 

Pub/Sub

تتيح خدمة Pub/Sub المُدارة رسائل (messaging) سريعة تعمل بالوقت الحقيقي (real-time) وتدعم الاشتراك لنموذجي الدفع (push) أو السحب (pull). تساعد هذه الخدمة فصل الارتباط المباشر بين الخدمات الموزعة عن طريق قوائم انتظار للرسائل (messaging queues). أحد فوائد هذه الطريقة أنه إذا كانت مخرجات أحد الأنظمة أكثر أو أسرع من النظام المُستهلِك لها فلن ينتظره ويتوقف عمله لحين اللحاق به. من البدائل مفتوحة المصدر لهذه الخدمة Kafka.

للمزيد: https://cloud.google.com/pubsub

 

Dataflow

وهي خدمة مُدارة لمعالجة البيانات، سواء المتدفقة (stream) أو الحزمية (batch). الخدمة عبارة عن مشغل لمخططات سير العمل (pipelines) المكتوبة باستخدام Apache Beam API.

للمزيد: https://cloud.google.com/dataflow

 

BigQuery

وتعد قاعدة بيانات مُدارة تستخدم بشكل أساسي كمستودع بيانات data warehouse يجري عليها عمل التحليلات على البيانات، وبإمكانها عمل تحليلات على بيانات ضخمة جداً (petabyte-scale) وبتكلفة قليلة نسبياً.

للمزيد: https://cloud.google.com/bigquery

 

Looker

وهي خدمة ذكاء أعمال متكاملة مع سحابة جووجل لعمل التقارير ولوحات المعلومات، وهي مشابهة لبرامج مثل Tableau و PowerBI.

للمزيد: https://cloud.google.com/looker

 

Dataplex

تستخدم هذه الخدمة لإدارة وحوكمة البيانات على سحابة جووجل. كما تتيح لك حفظ وتصنيف والبحث عن وصف البيانات (metadata)، وهي أحد المكونات المهمة في إدارة البيانات، بعضها يتم تخزينها بشكل آلي من الخدمات المختلفة، وبالإمكان الإضافة بشكل يدوي.

للمزيد: https://cloud.google.com/dataplex

 

Dataprep

وهي أداة تساعد محللي البيانات إجراء العديد من العمليات المتعلقة بتجهيز البيانات بشكل مرئي قبل إجراء التحليلات، فتسمح لك باستكشاف البيانات، وتنظيفها ودمجها مع بيانات أخرى وتحويلها بطرق متعددة.

للمزيد: https://cloud.google.com/dataprep

 


أود التنبيه بأن هناك العديد من المنتجات المتعلقة بالذكاء الاصطناعي لم أتطرق لها هنا لاختلافها نوعاً ما عن طبيعة المنتجات المعروضة هنا، لكن هناك أداة قد تهم محلل أو عالم البيانات وهي Workbench تحت حزمة Vertex AI. هذه الأداة تشغل Jupyter Notebook داخل حاوية (container) في سحابة جووجل وتتيحها لك لإجراء تحليلاتك على البيانات بطريقة برمجية تفاعلية.

نقطة أخرى للتنبيه عليها، أن التسعير قد يشمل أكثر من مجرد الخدمة التي تستخدمها، فمثلاً بعض الخدمات حتى تستطيع استخدامها تحتاج أن تستأجر مكان للتخزين (storage) وأجهزة حوسبة (computer) قد تكون متعددة حسب إعدادات الوصول. قد يكون حساب الكلفة معقداً، لهذا وضعوا حاسبة للتكاليف حتى تُقَدِّر تكلفة مشروعك قبل أن تبدأ فيه وتتفاجأ بالتكاليف.

هذا كان استعراض سريع لأبرز الخدمات والمنتجات المتعلقة بتخزين ومعالجة وتحليل البيانات في سحابة جووجل. آمل أن أكون قد أثرت فضولك لاستكشاف المزيد عنها وتجربتها عملياً.

اظهر المزيد

فارس القنيعير

‏‏‏‏‏‏‏‏‏‏‏‏‏مختص بالذكاء الاصطناعي، تعلم الآلة ورؤية الحاسب. مهتم بتحليل ومعالجة البيانات بشكل عام. ضمن خبراء جووجل في تعلم الآلة (ML GDE).

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى