बिग डेटा (अच्युत गोडबोले)

अच्युत गोडबोले achyut.godbole@gmail .com
रविवार, 1 सप्टेंबर 2019

बिग डेटा हे इतकं वाढत चालेलं पकरण आहे, की पूर्वी त्याला खूप महाग सुपर कम्प्युटर्सच लागले असते; पण आता हार्डवेअरच्या किंमतीही कमी होताहेत आणि सॉफ्टवेअर्सही खूपच जलद होत चालली आहेत. त्यामुळे आता बिग डेटा मॅनेज करणं शक्य झालेलं आहे. अशा वेळी आपला डेटा अनेक सर्व्हर्सवर तुकड्यातुकड्यांनी ठेवला जातो. त्यामुळं एकाच वेळी पॅरलल प्रोसेसिंग म्हणजे एकाच वेळी मल्टिपल सर्व्हर्सवर डिस्ट्रिब्युटेड कम्प्युटिंग होऊ शकतं आणि त्यामुळं आपल्याला एकदम झटपट रिझल्ट्स मिळू शकतात.

बिग डेटा हे इतकं वाढत चालेलं पकरण आहे, की पूर्वी त्याला खूप महाग सुपर कम्प्युटर्सच लागले असते; पण आता हार्डवेअरच्या किंमतीही कमी होताहेत आणि सॉफ्टवेअर्सही खूपच जलद होत चालली आहेत. त्यामुळे आता बिग डेटा मॅनेज करणं शक्य झालेलं आहे. अशा वेळी आपला डेटा अनेक सर्व्हर्सवर तुकड्यातुकड्यांनी ठेवला जातो. त्यामुळं एकाच वेळी पॅरलल प्रोसेसिंग म्हणजे एकाच वेळी मल्टिपल सर्व्हर्सवर डिस्ट्रिब्युटेड कम्प्युटिंग होऊ शकतं आणि त्यामुळं आपल्याला एकदम झटपट रिझल्ट्स मिळू शकतात.

‘बिग डेटा’ म्हणजेच दुसरं तिसरं काही नसून नावाप्रमाणंच खूप जास्त डेटा! इंटरनेटच्या आणि मोबाईलच्या उदयानंतर अतिशय मोठ्या प्रमाणावर डेटा निर्माण व्हायला सुरवात झाली. आपण जेव्हा काही खरेदी करतो, तेव्हा आपल्याविषयी आणि त्या व्यवहाराविषयी काही माहिती आपण मागं सोडून जात असतो. जेव्हा आपण इंटरनेटवर सर्फ करतो किंवा आपलं क्रेडिट कार्ड वापरतो किंवा आपला फिटनेस ट्रॅकर वापरून व्यायाम करतो, तेव्हाही आपण काही डेटाच निर्माण करत असतो. हे आपण दर दिवशी, दर क्षणी करत असतो. आपण अशा तऱ्हेनं निर्माण केलेला डेटा म्हणजे एका तऱ्हेनं आपला डिजिटल इतिहासच असतो.

आपल्या आवडी-निवडी, आपली खरेदी, केलेला प्रवास, हॉटेलमधलं राहणं, खाणं, आपण कोणाशी किती वेळा आणि काय बोलतो किंवा काय लिहिलं अशा सगळ्या गोष्टी या ना त्या तऱ्हेनं मोबाईल, इंटरनेट आणि सोशल मीडिया अशा सगळ्या माध्यमांमधून ‘डिजिटल डेटा’ होतात. त्यामध्ये आपली डिजिटाईज्ड म्हणजेच स्कॅन केलेली डॉक्युमेंट्‍स, डिजिटल कॅमेऱ्यातून काढलेले फोटो किंवा त्यातून किंवा मोबाइल फोनमधून काढलेले व्हिडिओज, सेल्फीज, ऑडिओ फाईल्स आपण सोशल नेटवर्किंगमध्ये टाकलेले पोस्ट्स, ईमेल्स, टेक्स्ट मेसेजेस, फोन रेकॉर्डस्, सर्च इंजिनमधल्या क्वेरीज, आरएफाईड टॅग्ज आणि बारकोड यांचे स्कॅन्स असं सगळं बिग डेटामध्ये समाविष्ट असतं.

आता तर त्यात इंटरनेट ऑफ थिंग्ज (आयओटी) प्रचंड भर टाकतेय. कोट्यवधी उपकरणांमधून आणि सेन्सर्समधून दर क्षणाला निर्माण होत असलेले सिग्नल्स, त्यांची रीडिंग्ज आणि इतर गोष्टींमधून दर क्षणाला खूप मोठ्या प्रमाणावर डेटा निर्माण होतो. मग ते घरचे कम्प्युटर्स, आपण आपलं कार्ड स्वाईप करतो ती रीटेल शॉप्समधली पोइंट ऑफ सेल्स (POS) टर्मिनल्स, इंटरनेटला जोडलेले स्मार्टफोन्स, वायफायला जोडलेली वेळोवेळी आपलं वजन ट्वीट करणारी उपकरणं, आपण किती चाललो किंवा किती कॅलरीज बर्न केल्या असं सांगणारी फिटनेसची अॅप्स, आपले व्हिडिओज आणि फोटोज आपोआप अपलोड करणारे कॅमेरे, ग्लोबल पोझिशनिंग सिस्टिममधून (जीपीएस) येणारा डेटा हेही बिग डेटाचा भाग बनतात. त्याचबरोबर डेटा गोळा करणारी अगदी ट्रॅफिक सिग्नल्स, सीसीटीव्ही कॅमेरे, विमानं; तसंच मोटारगाड्या यांच्यामधले सेन्सर्स, आजकालची रेफ्रिजरेटर्ससारखीही उपकरणं बिग डेटात सतत भर टाकत असतात.

एका अंदाजापमाणं सन २००३पर्यंत पाच एक्झाबाईट्स म्हणजेच पाच बिलियन म्हणजे पाचशे कोटी गिगाबाईट्स एवढा डेटा निर्माण झाला होता; पण २००३ ते २०१२ या फक्त दहा वर्षांच्या दरम्यान २.७ झिटाबाईट्स म्हणजे २७०० एक्झाबाईट्स एवढा डेटा निर्माण झाला. म्हणजे कॉम्प्युटरचा वापर सुरू झाल्यावर पन्नास वर्षांमध्ये जेवढा डेटा निर्माण झाला, त्याच्या ५४० पट डेटा त्यापुढच्या फक्त १० वर्षांत निर्माण झाला. आता तर हा वेग आणखीनच वाढलाय. युनिव्हर्सिटी ऑफ कॅलिफोर्नियाच्या (बर्कली) मते आपण दररोज २.५ क्वांटिलॉन-म्हणजे २५ वर १७ शून्य-एवढे बाइट्स निर्माण करत असतो! आपण अलीकडे तर इतक्या वेगानं ही माहिती (डेटा) निर्माण करतो, की आपल्याकडल्या डेटाच्या ९० टक्के डेटा आपण फक्त गेल्या दोन वर्षांत निर्माण केला आहे! या ‘बिग डेटा’ची किंमत अब्जावधी डॉलर्स आहे. याचं कारण याच माहितीतून उद्योगांना, सरकारला किंवा कोणालाही उपयोगी निष्कर्ष काढता येतात.
बिग डेटामध्ये व्हॉल्युम, व्हेलॉसिटी आणि व्हरायटी असे तीन ‘व्हीज’ महत्त्वाचे असतात. व्हॉल्युम म्हणजे डेटाचं प्रचंड मोठं स्वरूप. व्हेलॉसिटी म्हणजे ज्या वेगानं डेटा निर्माण होतो आणि बिग डेटामध्ये जोडला जातो आणि त्यावर प्रक्रिया होऊन निर्णय घेतला जातो तो वेग. व्हरायटी म्हणजे बिग डेटामध्ये असणारे डेटाचे वेगवेगळे प्रकार. यात डेटाबेससारखा स्ट्रक्चर्ड डेटासुद्धा येतो आणि सेन्सर्समधून निर्माण होणारा आणि व्हॉट्सअपचे संदेश असलेला असा अनस्ट्रक्चर्ड डेटा असे प्रकार त्यात येतात.
बिग डेटा हे इतकं वाढत चालेलं पकरण आहे, की पूर्वी त्याला खूप महाग सुपर कम्प्युटर्सच लागले असते; पण आता हार्डवेअरच्या किंमतीही कमी होताहेत आणि सॉफ्टवेअर्सही खूपच जलद होत चालली आहेत. त्यामुळे आता बिग डेटा मॅनेज करणं शक्य झालेलं आहे. अशा वेळी आपला डेटा अनेक सर्व्हर्सवर तुकड्यातुकड्यांनी ठेवला जातो. त्यामुळे एकाच वेळी पॅरलल प्रोसेसिंग म्हणजे एकाच वेळी मल्टिपल सर्व्हर्सवर डिस्ट्रिब्युटेड कम्प्युटिंग होऊ शकतं आणि त्यामुळे आपल्याला एकदम झटपट रिझल्ट्स मिळू शकतात. यासाठी पूर्वी स्ट्रक्चर्ड क्वेरी लँग्वेज (एसक्यूएल) नावाच्या डेटाबेसची क्वेरीची जी पद्धत होती ती पद्धतसुध्दा अपुरी पडायला लागली. त्यासाठी अपाचे हाडूप, कॅसन्डा आर, अपाचे स्टॉर्म अशा नवीन पद्धती आणि नवीन टूल्स तयार झालेली आहेत. तसंच एसक्यूएलऐवजी आता नो एसक्यूअल नावाचे डेटाबेसेस वापरले जातात आणि ते आपल्याला अतिशय उपयोगी पडायला लागलेले आहेत.
शिक्षण क्षेत्रात या बिग डेटाचा खूप उपयोग होतोय. युनिव्हर्सिटी ऑफ अलाबामामध्ये ३८००० विद्यार्थी रजिस्टर्ड आहेत. त्यांचा प्रचंड डेटा युनिव्हर्सिटीकडे आहे. पूर्वी या डेटाचा काय उपयोग करायचा हे युनिव्हर्सिटीला कळत नसे; पण आता बिग डेटाचा वापर करून, प्रत्येक विद्यार्थ्याची पार्श्वभूमी, त्याच्या आवडीनिवडी बघून त्याचं करिअर प्लॅनिंग करणं, प्रत्येकाना वेगळं (कस्टमाइज्ड) शिक्षण योजणं हे आता त्यांना शक्य होतंय.

सरकारमध्येही बिग डेटाचा खूप उपयोग होतो. उदाहरणार्थ, अमेरिकन फूड अँड ड्रग अॅडमिनिस्ट्रेशनला (FDA) बिग डेटाचा वापर करून वेगवेगळ्या अन्नपदार्थांमुळे कुठली वेगवेगळी इन्फेक्शन्स किंवा कुठले विकार होऊ शकतात याची शक्यता काढून त्यावर धोरणं ठरवता येतात. सुरक्षिततेच्या बाबतीत तर बिग डेटाचा उपयोग खूपच होतो. उदाहरणार्थ, कोण वारंवार स्फोटक रसायनं किंवा बॉंब बनवण्याचं साहित्य खरेदी करताहेत ते बघणं आणि त्यांची हालचाल टिपणं आणि त्यांच्यावर लक्ष ठेवणं किंवा अटक करणं आता शक्य होतंय. बिग डेटाचा उपयोग गुन्हेगारांना ट्रॅक करण्यासाठीही करता येतो. त्यांच्या सवयी, त्यांचं राहणीमान, त्यांच्या शरीरावरील खुणा अशा अनेक गोष्टी बिग डेटामध्ये साठवल्या तर गुन्हेगारांना पकडणं सोपं जातं. त्याचबरोबर दहशतवाद्यांची कटकारस्थानं उद्ध्वस्त करणं अशासारख्या गोष्टींसाठीही बिग डेटाचा उपयोग होतो.

हवामानाचा अंदाज बांधण्यासाठीही बिग डेटाचा उपयोग होतो. आयबीएमचा ‘आयबीएम डीप थंडर’ यात मदत करतो. उबरकडे ड्रायव्हर्स, त्यांची वाहनं, त्यांची लोकेशन्स, त्यांचे रुट्स आणि त्यांनी केलेल्या ट्रिप्स यांच्याविषयी प्रचंड डेटा असतो. त्याचा वापर करून प्रत्येक ट्रिपसाठी रूट्स आणि भाड्याचे दर अशा अनेक गोष्टी ठरवण्यासाठी ते याचा उपयोग करतात. बँक ऑफ अमेरिका बिग डेटाचा वापर करून मनी लाँडरिंग आणि फ्रॉड ओळखण्यासाठी करते. सिंगापूरची यूओबी बँक बिग डेटा रिस्क मॅनेजमेंटसाठी वापरते. गुगल, फेसबुक, ट्विटर आपल्या युजरचा, त्यांच्या इंटरअॅक्शनचा, आवडीनिवडीचा डेटा जाहिराती करणाऱ्या कंपन्यांना विकतात. त्या कंपन्या त्यांचा उपयोग करून वेगवेगळ्या वयोगटांसाठी जाहिरातींचं नियोजन करतात.

अमेरिकन एक्स्प्रेसनं बिग डेटा वापरून शंभरपेक्षा जास्त व्हेरिएबल्सचा उपयोग करून आपल्या उद्योगांविषयी आणि ग्राहकांविषयी भाकितं केली. (प्रेडिक्टिव्ह अॅनेलिसिस). यामुळे ऑस्ट्रेलियामध्ये पुढच्या चार महिन्यात आपले २४ टक्के ग्राहक आपली अकौंटस् बंद करण्याची शक्यता आहे हे त्यांच्या लक्षात आलं. त्यामुळे मग आपली धोरणं बदलून त्यांना थोपवता येईल का यावर विचार करणं शक्य झालं.
जनरल इलेक्ट्रिक आणि इतर अनेक कंपन्या आपल्या कारखान्यांमधल्या असंख्य सेन्सर्समधला डेटा वापरून कुठलं यंत्र केव्हा बंद पडेल याविषयी भाकीत करून त्यांचं मेंटेनन्स किंवा त्यांच्याऐवजी दुसरं यंत्र बसवणं याचे निर्णय घेऊ शकतात. जनरल इलेक्ट्रिक त्यांच्या गॅस टर्बाईन्स आणि जेट इंजिन्ससाठी विशेषकरून बिग डेटाचा उपयोग करतं.

अमेरिकत स्टारबक्स नवीन शाखा उघडण्यासाठी बिग डेटाचाच आधार घेतं; आणि यामुळे एकाच रस्त्यावर तीन तीन शाखा काढूनही त्या सगळ्या चांगल्या चालतात. कोकाकोला आपल्या हातून ग्राहक दुसरीकडे जाऊ नये (कस्टमर रिटेन्शन) यासाठी बिग डेटा वापरतात.

या बिग डेटाचा वापर कसा होऊ शकतो याची एक गंमत एका ठिकाणी झाली. अमेरिकेत ‘टार्गेट’ ही एक खूप मोठी रिटेल चेन आहे. त्यातल्या एका दुकानाजवळून एक मुलगी आपल्या वडिलांबरोबर चाललेली होती; या रीटेल चेननं त्यांना अचानक लहान मुलांचे कपडे विकत घेण्यासाठी कुपन्स इमेल केली. त्याबरोबर तिचे वडील रागानं त्या स्टोअरमध्ये गेले आणि त्यांनी विचारलं : ‘‘मला अशा ईमेल का पाठवता?’’ यावर दुकानदारानं त्यांची क्षमा मागितली. काही दिवसांनी त्या दुकानदारानं पुन्हा त्यांची क्षमा मागण्यासाठी तिच्या वडिलांना फोन केला तेव्हा तिच्या वडिलांनी ती खरंच गर्भवती होती हे दुकानदाराला सांगितलं आणि त्यांना ते कसं ओळखलं होतं असं विचारलं तेव्हा त्यानं बिग डेटाचा उपयोग केल्याचं उघडकीस आलं होतं!

मात्र, बिग डेटामुळे लोकांना आता भीतीही वाटायला लागलेली आहे. ऑरवेलनं बिग ब्रदरचं जसं वर्णन केलं होतं, तसंच आता बिग डेटामध्ये इतक्या लोकांचे वेगवेगळ्या तऱ्हेचे डेटा कैद होताहेत, की आपल्यावर आता पाळत ठेवणं सोपं जाईल अशी अनेकांना भीती वाटते आहे. विशेषत: लॉयल्टी कार्ड वापरणाऱ्या किंवा डेबिट आणि क्रेडिट कार्ड वापरणाऱ्या लोकांची संपूर्ण माहिती या बिग डेटामध्ये असते. उदाहरणार्थ, तुमचं वय, स्त्री आहात की पुरुष आहात, लग्न झालेलं आहे की नाही, तुमचं आरोग्य कसं आहे, तुमच्या आवडीनिवडी आणि छंद काय आहेत, सवयी काय आहेत, तुम्ही काय खाता, कुठे खाता, कसं खाता, कोणते कपडे वापरता, कुठले बूट वापरता, केव्हा बाहेर जाता, परदेशी जाता की देशातच जाता, किती मोकळा वेळ काढता, केव्हा घरी येता, या सगळ्यांचे तपशील बिग डेटामध्ये कैद असतात. शिवाय सीसीटीव्ही कॅमेरे सगळीकडे असल्यामुळे आपला असा सगळा डेटा त्यात भर टाकत असतो. त्यामुळे हा डेटा आपल्यावर पाळत ठेवण्यासाठी वापरणं शक्य होणार आहे, किंबहुना झालेलंही आहे आणि त्यामुळे याचा गैरवापर होण्याची शक्यता खूप जास्त आहे, असं अनेक लोकांचं म्हणणं आहे.

थोडक्यात उद्याच्या काळात बिग डेटा हा आपल्या आयुष्याचा अतिशय महत्त्वाचा भाग बनणार आहे यात शंकाच नाही.


स्पष्ट, नेमक्या आणि विश्वासार्ह बातम्या वाचण्यासाठी 'सकाळ'चे मोबाईल अॅप डाऊनलोड करा
Web Title: saptarang achyut godbole write big data article