علم البياناتمترجم

13 مهارة مهمة للطامحين أن يصبحوا علماء بيانات

كتابة: Simplilearn ترجمة: هيا الداوود مراجعة: أسيل المسعد

[المقال الأصلي بالانجليزي اضغط هنا]

1. التعليم

معظم علماء البيانات حاصلون على تعليم عالي، 88% لديهم على الأقل درجة الماجستير و 46% لديهم درجة الدكتوراه، صحيح أنه هناك بعض الاستثناءات البارزة، لكن الخلفية التعليمية القوية غالباً ما تكون مطلوبة لبناء العمق المعرفي المطلوب لعالم البيانات. لكي تصبح عالم بيانات، تستطيع أن تحصل على درجة البكالوريوس في علوم الحاسب أو العلوم الانسانية أو العلوم الطبيعية أو الإحصاء. أكثر المجالات الدراسية شيوعاً هي الرياضيات و الإحصاء بنسبة 32% يليها تخصص علوم الحاسب بنسبة 19% و تخصص الهندسة بنسبة 16%. درجة علمية في أي من هذه التخصصات ستزودك بالمهارات اللازمة لمعالجة وتحليل البيانات الضخمة (big data).

مهمتك لا تنتهي بمجرد إنهاءك لبرنامج البكالوريوس. الحقيقة هي أن معظم علماء البيانات حاصلون على درجة الماجستير أو الدكتوراه، بالإضافة إلى الدورات الإلكترونية لتعلم مهارات خاصة مثل كيفية استخدام منصة هادوب أو كيفية التعامل مع البيانات الضخمة. لذلك يمكنك التسجيل في برنامج لدرجة الماجستير في مجال علوم البيانات أو الرياضيات أو الفيزياء الفلكية أو أي مجال آخر ذي صلة. المهارات التي سوف تتعلمها من البرنامج ستساعدك على الانتقال بسهولة لعلم البيانات.

بعيداً عن التعليم الرسمي، يمكنك أن تطبق ما تعلمته بممارسات مختلفة مثلاً ببناء تطبيق أو إنشاء مدونة، أو تعلم تحليل البيانات، مما سيتيح لك فرصة التعلم أكثر.

2. البرمجة بلغة R

المعرفة المتعمقة لأداة واحدة على الأقل من الأدوات التحليلية، بشكل عام لغة R هي اللغة المفضلة لعلم البيانات. لغة R هي لغة مصممة خصيصاً لاحتياجات علم البيانات وتستطيع أن تستخدمها لحل أي مشكلة تواجهها في علم البيانات. في الواقع 43% من علماء البيانات يستخدمون لغة R لحل المشاكل الإحصائية لكن لغة R لديها منحى تعلم حاد أي أنها تحتاج جهداً لتعلمها.

يمكن أن تواجه صعوبة في تعلمها خاصة إذا كنت تتقن لغة برمجة أخرى. بالرغم من ذلك يوجد مصادر رائعة لتعلمها على الإنترنت مثل Simplilearn’s Data Science Training with R Programming Language والذي يعد مصدراً رائعاً لعلماء البيانات الطموحين.

المهارات التقنية: علوم الحاسب

3. البرمجة باستخدام بايثون

بايثون هي أكثر لغات البرمجة شيوعاً، وأجد أنها عادةَ مطلوبة في مناصب أو أدوار متعلقة بعلوم البيانات بالإضافة إلى لغة جافا و لغة Perl أو لغة C أو C++. بايثون لغة برمجة ممتازة لعلماء البيانات ولهذا السبب 40% من الذين شملهم الاستطلاع الذي قامت به شركة O’Reilly يستخدمون بايثون كلغة برمجة أساسية.

لامتيازها بتعدد استخداماتها يمكن استخدام لغة بايثون تقريباً لكل المراحل في عمليات علم البيانات. تستطيع العمل على صيغ بيانات متعددة ويمكنك بسهولة أن تستورد جداول من SQL وتضمينها في الكود الخاص بك. أيضاً ستمكنك من إنشاء قواعد بيانات وبإمكانك أن تجد أي نوع تحتاجه من قواعد البيانات بالبحث في جوجل بكل بساطة.

4. هادوب (Apache Hadoop)

صحيح أنه ليس مطلوباً دائماً، لكنه مفضل بشكل كبير في حالات عديدة. أيضاً تعتبر نقطة قوة لصالحك إذا كان لديك خبرة في استخدام Hive أو Pig. كذلك معرفة استخدام الأدوات السحابية مثل Amazon S3 قد تكون مفيدة. دراسة أجرتها CrowdFlower على 3490 وظيفة منشورة في لينكد إن في مجال علوم/ علم البيانات صنفت أباتشي هادوب في المرتبة الثانية من حيث الأهمية بالنسبة لعالم البيانات بنسبة 49٪.

كعالم بيانات قد تواجه موقفاً حيث يتخطى حجم البيانات لديك حجم المساحة المتوفرة على النظام أو تحتاج أن ترسل البيانات إلى خوادم مختلفة، هنا يبرز دور هادوب. تستطيع استخدامه للنقل السريع للبيانات لعدة نقاط على النظام. وهذا ليس كل شيء، تستطيع أيضاً استخدامه لاستكشاف البيانات، فلترتها، أخذ العينات (data sampling) وأيضاً تلخيصها.

5. قواعد SQL

صحيح أن NoSQL و هادوب أصبحا يشكلان جزءاً كبيرا من علم البيانات، لكن ما زال يتوقع من المرشحين أن يكونوا قادرين على الاستعلام عن البيانات في SQL كمحترفين. SQL (لغة منظمة للاستعلام عن البيانات) هي لغة برمجة تمكنك من القيام بعمليات مثل الإضافة، والحذف والاستخراج من قاعدة البيانات. أيضاً تمكنك من إجراء عمليات حسابية و تغيير هيكلة قاعدة البيانات.

بصفتك عالم بيانات تحتاج أن تكون ماهر في استخدام SQL. وذلك لأنه مصمم خصيصاً لتمكينك من الوصول إلى البيانات، وفهمها و العمل عليها. ستتمكن من فهم البيانات بشكل أفضل عند استخدامه للاستعلام عن قاعدة البيانات. أيضاً هو يحتوي على أوامر مختصرة لتساعدك على توفير الوقت وتقليل مقدار البرمجة التي تحتاجها لتنفيذ استعلامات صعبة. سيساعدك تعلم SQL على فهم قواعد البيانات العلائقية بشكل أفضل وتعزيز سيرتك الذاتية كعالم بيانات.

Apache Spark. 6

أباتشي سبارك في طريقها لتصبح أكثر تقنيات البيانات الضخمة انتشاراً حول العالم. إنها إطار عمل حوسبي للبيانات الضخمة تماماً مثل هادوب. الفرق الوحيد أنها أسرع من هادوب. وذلك بسبب أن هادوب تستخدم القرص للقراءة والكتابة مما يجعلها أبطأ، بينما سبارك يستخدم الذاكرة المؤقتة لتخزين الحسابات.

أباتشي سبارك مصمم خصيصاً لعلم البيانات حيث أنه يساعد على تشغيل الخوارزميات المعقدة بشكل أسرع. أيضاً يساعد على نشر معالجة البيانات في حال كنا نتعامل مع بحر كبير من البيانات، وبالتالي توفير الوقت. وكذلك يساعد علماء البيانات على التعامل مع البيانات الغير منظمة ويمكن استخدامها على آلة واحدة أو على تجمع آلات.

اباتشي سبارك يمكن علماء البيانات من تجنب فقدان البيانات في علم البيانات. قوته تكمن في سرعته و منصته التي تجعل تنفيذ المشاريع أمراً سهلاً. معه يمكنك تنفيذ التحليلات من إدخال البيانات إلى التوزيع المحوسب.

7. تعلم الآلة و الذكاء الإصطناعي

عدد كبير من علماء البيانات ليسوا بارعين في تقنيات و مجالات تعلم الالة، وذلك يتضمن مجالات مثل الشبكات العصبية، التعلم التعزيزي، تعليم الآلة العدائي (adversarial learning) و إلخ. إذا أردت أن تتميز عن بقية علماء البيانات عليك بتعلم تقنيات تعلم الآلة مثل التعلّم الموجَّه، شجرة القرارات، الانحدار اللوجستي … إلخ. هذه المهارات سوف تساعدك على حل مختلف المشاكل التي تعتمد على تنبؤات مخرجات العمل التنظيمية الرئيسية باستخدام علم البيانات.

علم البيانات يحتاج تطبيق المهارات في مناطق مختلفة من تعلم الآلة. كشفت إحدى استبيانات موقع Kaggle أن نسبة قليلة من المهنيين متمكنون من مهارات تعلم الآلة المتقدم .مثل التعلم الموجهة و التعلم غير الموجهة، التسلسل الزمني، معالجة اللغة الطبيعية، كشف القيم الشاذة، رؤية الحاسب، محركات التوصية، تحليل البقاء (Survival analysis)، التعلم التعزيزي و التعلم العدائي (Adversarial learning).

علم البيانات يتضمن العمل على عدد كبير من مجموعات البيانات لذلك من الأفضل أن تكون على قدر من المعرفة بتعلم الآلة.

8. تمثيل البيانات

المؤسسات من حولنا تنتج عدد هائل من البيانات بشكل مستمر، وهذه البيانات تحتاج أن تترجم لصيغة يسهل فهمها. فالناس بطبيعتهم يفهمون الصور التي على شكل مخططات ورسوم بيانية أكثر من فهمهم للبيانات بشكلها الخام، وذلك لأن “الصورة تغني عن ألف كلمة” كما تقول المقولة الشهيرة.

كعالم بيانات يجب أن تكون قادراً على تمثيل البيانات بمساعدة أدوات تصوير البيانات مثل ggplot ,d3.js، Matplottlib و Tableau. هذه الأدوات سوف تساعدك على تحويل النتائج المعقدة التي قمت باستخراجها من مشاريعك إلى شكل يسهل فهمه. أغلب الناس لا يفهمون الارتباط التسلسلي أو القيمة الاحتمالية (p values)، لذلك عليك أن تريهم بشكل صوري ماذا تمثل هذه المصطلحات في نتائجك.

تمثيل البيانات يمكن المؤسسات من العمل على البيانات بشكل مباشر، حيث أنهم يستطيعون إدراك الفرص بسرعة مما سيساعدهم على العمل على الفرص الجديدة والبقاء في صدارة المنافسة.

9. البيانات غير المنظمة

من الضروري لعالم البيانات أن يكون قادراً على العمل على البيانات غير المنظمة، وهي محتوى غير معروف و لا يمكن لجداول قاعدة البيانات احتوائه. مثل مقاطع الفيديو، منشورات المدونات، مراجعات العملاء، منشورات من مواقع التواصل الاجتماعي، مقاطع الصوت و إلخ. هي تعتبر نصوص كثيفة ومُجمّعة و تنظيم مثل هذه البيانات صعب لأنها ليست بالتنسيق المطلوب.

معظم الناس يسمون البيانات الغير منظمة “البيانات الداكنة” لأنها معقدة. العمل على البيانات الغير منظمة قد يكشف عن معلومات مفيدة لصنع القرار. كعالم بيانات يجب أن تمتلك القدرة على فهمها و معالجتها من مختلف المنصات.

المهارات الغير تقنية

10. الفضول المعرفي

“أنا لا أمتلك أي موهبة خاصة، أنا فقط فضولي جداً”

-ألبرت أينشتاين

لاشك أنك رأيت هذه العبارة كثيراً مؤخراً خاصة أنها مرتبطة بعلماء البيانات. فرانك لو وصف ما تعنيه هذه العبارة وتحدث أيضاً عن المهارات الشخصية المهمة الأخرى في مدونته مؤخراً.

يمكن تعريف الفضول بالرغبة في الحصول على المزيد من المعرفة. كعالم بيانات تحتاج أن تكون قادراً على طرح الأسئلة المتعلقة بالبيانات، لأن علماء البيانات يمضون عادةً 80% من وقتهم على استكشاف وتجهيز البيانات. انظر المصدر. وذلك لأن علم البيانات مجال سريع التطور وعليك بالتعلم أكثر لتواكب سرعته.

يجب أن تجعل تطوير معارفك عادة مستمرة وذلك بقراءة المقالات على الانترنت والكتب التي تتحدث عن التوجهات في علم البيانات. لا تجعل الحجم الهائل للبيانات الموجود على الانترنت مصدر إحباط لك، بل عليك أن تتعلم كيف يمكنك جعل البيانات ذات معنى. الفضول هو إحدى المهارات التي تحتاجها لتنجح كعالم بيانات. على سبيل المثال قد لا تجد العديد من الفرص في البيانات التي جمعتها بعد النظرة المبدئية، لكن الفضول سيجعلك تغربل البيانات و تنخلها بحثاً عن مزيد من الاجابات و مزيد من الفرص.

11. فطنة الصنعة

لتصبح عالم بيانات يجب أن يكون لديك فهم عميق للصناعة التي تعمل فيها ومعرفة مشكلات الأعمال التي تحاول شركتك حلها. فيما يتعلق بعلوم البيانات، تعد القدرة على تمييز المشكلات المهمة والتي يجب حلها بالنسبة إلى العمل أمرًا في غاية الأهمية، بالإضافة إلى تحديد طرق جديدة لزيادة استفادة الشركة من بياناتها.

لتكون قادرًا على القيام بذلك، يجب أن تفهم كيف يمكن للمشكلة التي تحاول حلها التأثير على العمل. لهذا السبب تحتاج إلى معرفة كيفية عمل الشركات حتى تتمكن من توجيه جهودك في الاتجاه الصحيح.

12. مهارات التواصل

تطلب الشركات في علماء البيانات الممتازين الذين تبحث عنهم القدرة على ترجمة المخرجات التقنية بوضوح و طلاقة إلى الأقسام غير التقنية مثل التسويق أو المبيعات. على عالم البيانات أن يمكن المنشأة من اتخاذ القرار بالأفكار الثاقبة المستندة على المعلومات الكمية، بالإضافة إلى ذلك عليه أن يفهم احتياجات زملائه غير التقنيين من أجل أن يحول بياناته ويتعامل معها بالطريقة الملائمة. تستطيع أن تلقي نظرة على هذا المسح للمزيد من المعلومات حول مهارات التواصل للمهنيين في المجال الكمي.

بالإضافة إلى الحاجة للتحدث بنفس اللغة التي تفهمها المنشأة، أنت أيضاً تحتاج إلى التواصل باستخدام مهارة السرد القصصي للبيانات (data storytelling). كعالم بيانات تحتاج أن تعرف كيف تستطيع خلق قصة حول البيانات لجعل فهمها اسهل للجميع. على سبيل المثال، عرض البيانات كجدول لن يكون بقدر كفاءة عرضها كقصة تتضمن المعارف المفيدة التي استخلصتها منها. استخدام أسلوب السرد القصصي سيساعدك على إيصال مخرجاتك لمدرائك كما ينبغي.

أثناء إيصال المخرجات ركز اهتمامك على النتائج والقيم المبطنة في البيانات التي قمت بتحليلها. معظم الرؤساء لا يهتمون بمعرفة ما البيانات التي قمت بتحليلها بقدر اهتمامهم بكيف يمكن أن تؤثر على المنشأة ايجاباً. ركز على تقديم القيمة وبناء علاقات طويلة المدى من خلال التواصل.

13. فريق العمل

علماء البيانات لا يستطيعون العمل لوحدهم. عليك العمل مع المدراء التنفيذيين للشركة لتطوير الاستراتيجيات، والعمل مع مديري المنتجات والمصممين لإنشاء منتجات أفضل، والعمل مع المسوقين لإطلاق حملات أنجح، والعمل مع مطوري برامج العميل والخادم لإنشاء إجراءات سلسلة البيانات (data pipelines) وتحسين سير العمل. حرفياً ستحتاج إلى العمل مع الجميع، ومن ضمنهم عملائك.

بشكل أساسي ستحتاج إلى التعاون مع فريق عملك لتطوير حالات الاستخدام من أجل معرفة أهداف المنشأة والبيانات المطلوبة لحل المشكلة. ستحتاج إلى معرفة الأسلوب الصحيح لمعالجة حالات الاستخدام، أيضاً البيانات التي تحتاجها لمعالجة المشكلة وكذلك كيف ستقوم بترجمة وعرض النتائج بحيث تكون مفهومة لجميع المعنيين.

مصادر مفيدة

دراسات عليا: مؤخراً العديد من البرامج بدأت بالظهور لملاقاة الطلب على علم البيانات، تجد هنا قائمة بالبرامج المتخصصة بعلم البيانات، كذلك يوجد العديد من برامج الرياضيات، الإحصاء و علوم الحاسب يمكنك الاطلاع عليها هنا.

دورات على الانترنت: المواقع التالية ممتازة: Coursera, Udacity, codeacademy

الشهادات: قامت KDnuggets بتجميع قائمة شاملة تجدها في الرابط.

معسكرات تدريبية: لمعرفة كيف يمكن أن تفيدك المعسكرات التدريبية والمقارنة بينها وبين أساليب التعلم الأخرى، اطلع على هذه المقالة من علماء البيانات في Datascope Analytics.

منصة Kaggle: منصة كاغل تستضيف منافسات في مجال علم البيانات. المشاركة في المنافسات ستمكنك في التدريب وشحذ مهاراتك، والتعامل مع بيانات حقيقية و المساهمة في حل مشاكل فعلية. أصحاب الأعمال يأخذون تصنيفات المنصة محمل الجد لأنها تعتبر تمثيل حقيقي لمهاراتك.

مجموعات لينكد ان: لدى لينكد ان خاصية المجموعات المهنية، الانضمام لها سيمكنك من توسيع دائرة علاقاتك في مجتمع علم البيانات.

موقع Data Science Central و KDnuggets: قراءة المقالات ستمكنك من البقاء مطلعاً وواعياً بالتغيرات في المجال.

دراسة The Burtch Works عن أجور علماء البيانات: إذا كنت تريد معرفة المزيد حول أجور و ديموغرافيات علماء البيانات الحاليين تستطيع الاطلاع على هذه الدراسة.

اظهر المزيد

Haya Aldawood

هيا مهتمه بتعلم الآلة وعلم البيانات وتطبيقاتهما. متخرجة من جامعة الملك سعود بدرجة بكالوريوس العلوم في إدارة الأعمال.

تعليق واحد

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى