البيانات الضخمة أو Big Data هي مزيج من البيانات المنظمة وشبه المنظمة وغير المهيكلة التي تم جمعها من قبل المؤسسات والتي يمكن استخراجها للحصول على المعلومات واستخدامها في مشاريع التعلم الآلي والنمذجة التنبؤية وتطبيقات التحليلات المتقدمة الأخرى.
أصبحت الأنظمة التي تعالج وتخزن البيانات الضخمة مكون شائع لهياكل إدارة البيانات في المؤسسات جنباً إلى جنب مع الأدوات التي تدعم استخدامات تحليلات البيانات الضخمة.
غالباً ما تتميز البيانات الضخمة بالآتي:
- الحجم الكبير للبيانات في العديد من البيئات.
- مجموعة كبيرة ومتنوعة من أنواع البيانات المخزنة بشكل متكرر في أنظمة البيانات الضخمة.
- السرعة التي يتم بها إنشاء الكثير من البيانات وجمعها ومعالجتها.
تم تحديد هذه الخصائص لأول مرة في عام 2001 من قبل دوج لاني ثم محلل في شركة Meta Group Inc الاستشارية و قامت شركة Gartner بنشرها بعد أن استحوذت على Meta Group في عام 2005 وفي الآونة الأخيرة تمت إضافة العديد من Vs الأخرى إلى أوصاف مختلفة للبيانات الضخمة بما في ذلك الدقة والقيمة والتنوع.
على الرغم من أن البيانات الضخمة لا تعادل أي حجم محدد من البيانات إلا أن عمليات نشر البيانات الضخمة غالباً ما تتضمن تيرابايت وبيتابايت وحتى إكسابايت من البيانات التي تم إنشاؤها وجمعها بمرور الوقت.
اقرأ أيضاً: ما هو التوأم الرقمي ولماذا هو مهم لإنترنت الأشياء؟
لماذا البيانات الضخمة مهمة؟
تستخدم الشركات البيانات الضخمة في أنظمتها لتحسين العمليات وتقديم خدمة عملاء أفضل وإنشاء حملات تسويقية مخصصة واتخاذ إجراءات أخرى يمكنها في النهاية زيادة الإيرادات والأرباح.
تمتلك الشركات التي تستخدمها بشكل فعال ميزة تنافسية محتملة على تلك التي لا تستخدمها لأنها قادرة على اتخاذ قرارات عمل أسرع وأكثر استنارة.
على سبيل المثال توفر البيانات الضخمة رؤى قيمة للعملاء يمكن للشركات استخدامها لتحسين التسويق والإعلان والعروض الترويجية من أجل زيادة مشاركة العملاء ومعدلات التحويل.
يمكن تحليل كل من البيانات التاريخية والحقيقية لتقييم التفضيلات المتطورة للمستهلكين أو المشترين من الشركات مما يمكّن الشركات من أن تصبح أكثر استجابة لرغبات العملاء واحتياجاتهم.
يستخدم الباحثون الطبيون البيانات الضخمة أيضاً لتحديد علامات المرض وعوامل الخطر كما يستخدمها الأطباء للمساعدة في تشخيص الأمراض والحالات الطبية لدى المرضى.
بالإضافة إلى ذلك فإن مجموعة من البيانات المأخوذة من السجلات الصحية الإلكترونية ومواقع التواصل الاجتماعي وشبكة الإنترنت ومصادر أخرى توفر لمنظمات الرعاية الصحية والوكالات الحكومية معلومات محدثة عن تهديدات الأمراض المعدية أو تفشيها.
فيما يلي بعض الأمثلة حول كيفية استخدام المؤسسات للبيانات الضخمة:
- في صناعة الطاقة، تساعد البيانات الضخمة شركات النفط والغاز على تحديد مواقع الحفر المحتملة ومراقبة عمليات خطوط الأنابيب وبالمثل تستخدمه المرافق لتتبع الشبكات الكهربائية.
- تستخدم شركات الخدمات المالية أنظمة البيانات الضخمة لإدارة المخاطر والتحليل الفوري لبيانات السوق.
- يعتمد المصنعون وشركات النقل على البيانات الضخمة لإدارة سلاسل التوريد الخاصة بهم وتحسين طرق التسليم.
- تشمل الاستخدامات الحكومية الأخرى الاستجابة للطوارئ ومنع الجريمة ومبادرات المدن الذكية.
اقرأ أيضاً: الحوسبة المتطورة | تعريفها ولماذا هي مهمة؟
ما هي أمثلة الـ Big Data؟
تأتي البيانات الضخمة من مصادر لا تعد ولا تحصى – بعض الأمثلة هي أنظمة معالجة المعاملات وقواعد بيانات العملاء، والوثائق ورسائل البريد الإلكتروني والسجلات الطبية وسجلات النقر على الإنترنت وتطبيقات الهاتف المحمول والشبكات الاجتماعية.
ويشمل أيضاً البيانات التي تم إنشاؤها بواسطة الجهاز مثل ملفات سجل الشبكة والخادم والبيانات من أجهزة الاستشعار الموجودة على آلات التصنيع والمعدات الصناعية وأجهزة إنترنت الأشياء.
بالإضافة إلى البيانات من الأنظمة الداخلية غالباً ما تتضمن بيئات البيانات الضخمة بيانات خارجية عن المستهلكين والأسواق المالية وظروف الطقس وحركة المرور والمعلومات الجغرافية والبحث العلمي والمزيد.
الصور ومقاطع الفيديو والملفات الصوتية هي أشكال من البيانات الضخمة أيضاً والعديد من تطبيقات البيانات الضخمة تتضمن تدفق البيانات التي تتم معالجتها وجمعها على أساس مستمر.
اقرأ أيضاً: الذكاء الاصطناعي في الأمن السيبراني | لماذا يجب البدء باستخدامه؟
تحطيم قيم V الخاصة بالبيانات الضخمة
الحجم هو السمة الأكثر شيوع للبيانات الضخمة و لا يجب أن تحتوي بيئة البيانات الضخمة على كمية كبيرة من البيانات ولكن معظمها يفعل ذلك بسبب طبيعة البيانات التي يتم جمعها وتخزينها فيها.
تعد مسارات النقر وسجلات النظام وأنظمة معالجة التدفق من بين المصادر التي تنتج عادةً كميات هائلة من البيانات على أساس مستمر.
تشمل البيانات الضخمة أيضاً مجموعة متنوعة من أنواع البيانات، بما في ذلك ما يلي:
- البيانات المنظمة، مثل المعاملات والسجلات المالية.
- البيانات غير المهيكلة، مثل النصوص والمستندات وملفات الوسائط المتعددة.
- البيانات شبه المنظمة، مثل سجلات خادم الويب والبيانات المتدفقة من أجهزة الاستشعار.
اقرأ أيضاً: إنترنت الأشياء للخدمات المالية | الفوائد التي يمكنك الاستفادة منها اليوم
قد تحتاج أنواع البيانات المختلفة إلى تخزينها وإدارتها معاً في أنظمة البيانات الضخمة بالإضافة إلى ذلك غالباً ما تتضمن تطبيقات البيانات الضخمة مجموعات بيانات متعددة قد لا يتم دمجها مسبقاً.
على سبيل المثال، قد يحاول مشروع تحليلات البيانات الضخمة التنبؤ بمبيعات أحد المنتجات من خلال ربط البيانات الخاصة بالمبيعات السابقة والمرتجعات والمراجعات عبر الإنترنت ومكالمات خدمة العملاء.
تشير السرعة إلى السرعة التي يتم بها إنشاء البيانات ويجب معالجتها وتحليلها و في كثير من الحالات يتم تحديث مجموعات البيانات الضخمة على أساس الوقت الفعلي أو شبه الحقيقي بدلاً من التحديثات اليومية أو الأسبوعية أو الشهرية التي يتم إجراؤها في العديد من مستودعات البيانات التقليدية.
تعد إدارة سرعة البيانات مهمة أيضاً حيث يتوسع تحليل البيانات الضخمة ليشمل التعلم الآلي والذكاء الاصطناعي (AI) حيث تعثر العمليات التحليلية تلقائياً على أنماط في البيانات وتستخدمها لإنشاء رؤى.
اقرأ أيضاً: افضل كورسات لغة بايثون على الإنترنت للاختيار من بينها في عام 2022
المزيد من خصائص البيانات الضخمة
بالنظر إلى ما وراء الثلاثة V الأصلية إليك تفاصيل عن بعض العناصر الأخرى التي غالباً ما ترتبط الآن بالبيانات الضخمة:
- تشير الصدق إلى درجة الدقة في مجموعات البيانات ومدى موثوقيتهاو يمكن أن تتسبب البيانات الأولية التي يتم جمعها من مصادر مختلفة في حدوث مشكلات في جودة البيانات قد يصعب تحديدها بدقة وإذا لم يتم إصلاحها من خلال عمليات تطهير البيانات فإن البيانات السيئة تؤدي إلى أخطاء التحليل التي يمكن أن تقوض قيمة مبادرات تحليلات الأعمال و تحتاج فرق إدارة البيانات والتحليلات أيضاً إلى التأكد من أن لديهم بيانات دقيقة كافية متاحة لتحقيق نتائج صحيحة.
- يضيف بعض علماء البيانات والاستشاريين أيضاً قيمة إلى قائمة خصائص البيانات الضخمة و ليست كل البيانات التي يتم جمعها لها قيمة أو فوائد تجارية حقيقية نتيجة لذلك تحتاج المؤسسات إلى تأكيد أن البيانات تتعلق بقضايا الأعمال ذات الصلة قبل استخدامها في مشاريع تحليلات البيانات الضخمة.
- غالباً ما ينطبق التباين أيضاً على مجموعات البيانات الضخمة والتي قد يكون لها معان متعددة أو يتم تنسيقها بشكل مختلف في مصادر بيانات منفصلة – وهي عوامل تزيد من تعقيد إدارة البيانات الضخمة وتحليلاتها.
اقرأ أيضاً: ما هو Metaverse وماذا يعني للأعمال؟