डेटा मायनिंग (अच्युत गोडबोले)

achyut godbole
achyut godbole

कुठलाही प्रश्न न विचारावा लागता आपल्याकडल्या अवाढव्य डेटामधून त्यांच्यातले संबंध किंवा असोसिएशन्स शोधून काढून त्यातून निष्कर्ष किंवा ज्ञान मिळवणं हे डेटा मायनिंगचं वैशिष्ट्य आहे. मात्र, हे काम सोपं नसतं. याचं कारण यात असंख्य व्हेरीएबल्स असतात आणि त्यातल्या कशाकशामध्ये कशा तऱ्हेचे संबंध आहेत हे शोधून काढणं हे खूप किचकट काम असतं. डेटा मायनिंगचं सॉफ्टवेअर निष्कर्ष कसं काढतं? यासाठी संख्याशास्त्र, मशिन लर्निंग अशा अनेक गोष्टींचा वापर त्यात केलेला असतो. संख्याशास्त्रात ‘कोइफिशियंट ऑफ कोरिलेशन’ नावाची एक संकल्पना आहे. यात दोन गोष्टींमधला संबंध तपासला जातो.

डेटाबेस मॅनेजमेंट सिस्टिम (डीबीएमएस) आणि डेटा मायनिंग यांच्यामध्ये एक महत्त्वाचा फरक आहे. डीबीएमएसमध्ये आपण जेव्हा एखादी (SQL वापरून) ‘क्वेरी’ विचारतो, तेव्हा आपल्याला काय हवंय ते अगोदर माहीत असतं. उदाहरणार्थ, समजा आपल्या शाळेनं विद्यार्थ्यांचा एक डेटाबेस बनवलाय आणि त्यात प्रत्येक विद्यार्थ्याचं नाव, वय, पत्ता, इयत्ता, मार्क्स आणि इतर तपशील ठेवले आहेत. आता आपल्याला जर बारा वर्षांखालच्या सर्व मुलांची यादी पाहिजे असेल, तर तीही डीबीएमएस देऊ शकतो. तसंच जर आपल्याला ऐंशी टक्क्यांपेक्षा जास्त मार्क्स मिळवणाऱ्या मुलांची यादी हवी असेल, तर तीही कुठलाही डीबीएमएस देऊ शकतो. पण यात मला कुठली माहिती हवी आहे हे अगोदरच माहीत असावं लागतं.

डेटा मायनिंगमध्ये हेच नेमकं माहीत नसतं. माझ्याकडे असेलेला संपूर्ण डेटा मी डेटा मायनिंग सॉफ्टवेअरच्या स्वाधीन करतो आणि मग त्यातून काही असोसिएशन्स किंवा पॅटर्न्स निघताहेत का ते बघायला सांगतो. आणि त्यात जे निष्कर्ष मिळतील त्यावरून आपली स्ट्रॅटेजी ठरवतो.
उदाहरणार्थ, एका बँकेला आपल्या मोटागाड्यांसाठी देण्यात येण्याच्या कर्जांबद्दल धोरण ठरवायचं होतं. त्यांनी त्या दृष्टीनं जेव्हा डेटा मायनिंग केलं आणि आतापर्यंत मोटारीसाठी कर्ज घेणाऱ्यांची इतर कुठल्या गोष्टींशी असोसिएशन्स आहेत का हे तपासलं तेव्हा त्यांना आढळलं, की जर एखादा मुलगा/मुलगी एमबीए असेल आणि त्याला/तिला ३ वर्षांचा अनुभव असेल, तर तो/ती मोटारगाडीसाठी कर्ज घेण्याची शक्यता जास्त असते. आता हे असोसिएशन कळल्यावर त्या बँकेनं आपल्या ग्राहकांच्या डेटाबेसमधून तीन वर्षं अनुभव असलेले एमबीए झालेले सगळे ग्राहक निवडले आणि त्यांचे नंबर आपल्या कॉल सेंटरला देऊन प्रत्येकाला मोटारगाडीसाठी कर्ज हवंय का हा प्रश्न विचारून भंडावून सोडायला सुरुवात केली. अर्थातच यात त्यांना यश मिळालं. मात्र, असं न करता रँडमली जर बँक कोणालाही पकडून कर्जासाठी मागे लागली असती, तर त्यात फारसं यश मिळालं नसतं; आणि उगीचच खूप वेळ आणि पैसा खर्च झाला असता.

आता डेटा मायनिंगचं सॉफ्टवेअर हे निष्कर्ष कसं काढतं? यासाठी संख्याशास्त्र, मशिन लर्निंग अशा अनेक गोष्टींचा वापर त्यात केलेला असतो. संख्याशास्त्रात ‘कोइफिशियंट ऑफ कोरिलेशन’ नावाची एक संकल्पना आहे. यात दोन गोष्टीमधला संबंध तपासला जातो. जर हा कोइफिशियंट ० असेल, तर त्या दोन गोष्टींत काहीच संबंध नाही असा त्याचा अर्थ असतो. उदाहरणार्थ, एका महिन्यात मी कुठल्या दिवशी व्यायाम केला आणि कुठल्या दिवशी ऑफिसची बस उशिरा आली यांचा संबंध किंवा कोरिलेशन (म्हणजेच असोसिएशन) बघितलं तर आपल्याला हा कोइफिशियंट जवळपास ० मिळेल. मात्र, तेच सिगारेट पिणारे लोक आणि फुफ्फुसांचा कॅन्सर झालेले लोक यांचं कोरिलिशन काढलं, तर ते १ च्या आसपास मिळेल. अर्थात ही खूप सोपी उदाहरणं झाली. प्रत्यक्ष डेटा मायनिंगमध्ये वापरलं जाणारं संख्याशास्त्र खूपच जास्त गुंतागुंतीचं असतं आणि त्यामुळे मशीन लर्निंगसारखीच अनेक इतरही तंत्रंही त्यासाठी वापरली जातात.

यातली काही असोसिएशन अगदी सोपी किंवा उघड (obvious) असतात. उदाहरणार्थ, जर एखाद्या सुपरमार्केटनं आपल्या काउंटरवर कोण केव्हा कुठली वस्तू खरेदी करतोय (याला ‘पॉइंट ऑफ सेल (POS)’ असं म्हणतात) याचा डेटाबेस ठेवला आणि त्यात काही संबंध दिसताहेत का ते बघितलं आणि त्यांच्यामध्ये काही संबंध दिसले, तर त्यात आपल्याला आश्चर्य वाटणार नाही. उदाहरणार्थ, जो मोबाईल विकत घेईल तो त्यासाठी कव्हरही घेईल किंवा जो मोटारगाडी विकत घेईल तो सीट कव्हर्सही घेईल किंवा जे लोक व्हिस्की विकत घेतील ते सोडा आणि इतर चिवडा किंवा तत्सम ‘चखना’ही विकत घेतील. तसंच जे लोक छत्री किंवा रेनकोट विकत घेतील ते पावसाळी बूटही विकत घेतील याची शक्यता खूप जास्त आढळली आणि त्यामुळे त्यांच्यातलं कोरिलेशन १ जरी नसलं, तरी ०.८ किंवा ०.९ आलं तर आपल्याला आश्चर्य वाटणार नाही. ज्या प्रॉडक्टसची अशी असोसिएशन्स जिथं भक्कम असतात, ते प्रॉडक्टस् मग सुपरमार्केटमध्ये शेजारीच ठेवले, तर मग दोघांची विक्री वाढते असा अनुभव आहे.
मात्र, या तर्काला तडा देणारी एक गोष्ट घडली अशी एक (दंत)कथा उद्योगविश्वात सांगितली जाते. डेटा मायनिंगची संकल्पना त्यामुळे समजेल म्हणून आम्ही ती सविस्तर देत आहोत.

गोष्ट वॉलमार्टमध्ये घडली. वॉलमार्ट ही फक्त अमेरिकेतलीच नव्हे, तर संपूर्ण जगातली एक बलाढ्य कंपनी! त्यांची सन २०१९ मध्ये ११३०० स्टोअर्स होती आणि त्यावेळी त्यांचे २२ लाख कर्मचारी होते. ते २७ देशात ७.५ कोटी वेगवेगळे प्रॉडक्टस् विकत होते. त्यांची २०१९ मध्ये उलाढाल ५१४४० कोटी डॉलर्स होती. दर आठवड्याला त्यांच्याकडून २७.५ कोटी ग्राहक काही ना काही विकत घेत होते. एवढ्या अवाढव्य पसाऱ्यात दररोज किती महाप्रचंड डेटा रोज निर्माण होत असेल याची कल्पनाच केलेली बरी! अर्थातच माहितीच्या एवढ्या महासागरातून त्यांच्या ग्राहकांविषयी, प्रॉडक्टसविषयी निष्कर्ष काढणं म्हणजे एक खूपच अवघड काम होतं. अर्थातच वॉलमार्टनं हे काम डेटा मायनिंगच्या सॉफ्टवेअरवर सोपवलं.

या सॉफ्टवेअरनं या डेटाच्या महासागरातून अनेक निष्कर्ष आणि असोसिएशन्स बाहेर काढली. त्यातलं एक असोसिएशन बघून मात्र तिथल्या काही मॅनेजर्सना आश्चर्याचा धक्का बसला. त्यांना आढळलं होतं, की शुक्रवारी दुपारी जे तरुण अमेरिकन पुरुष डायपर्स किंवा नॅपीज खरेदी करतात. त्यातले कित्येक जणं बियरही खरेदी करतात! आपल्याला हे उदाहरण हास्यास्पद वाटेल; पण यासाठी २ लाख व्यवहार तपासले गेले. त्यापैकी दोन टक्के म्हणजे ४००० व्यवहारांमध्ये डायपर्स खरेदी केले गेले; तर २.७५ टक्के म्हणजे ५५०० व्यवहारात बियर खरेदी केली गेली. मात्र, १.७५ टक्के म्हणजे ३५०० व्यवहारांमध्ये डायपर्स आणि बियर या दोन्ही गोष्टी खरेदी केल्या गेल्या होत्या. याचाच वेगळ्या तऱ्हेनं विचार केला, तर लक्षात आलं की डायपर्स खरेदी करणाऱ्यांपैकी ८७.५ टक्के लोकांनी बियरही खरेदी केली होती. अशा तऱ्हेचे संबंध म्हणजेच ‘असोसिएशन्स.’ आणि एवढ्या मोठ्या व्यवहारांमधून काही निष्कर्ष शोधून किंवा खणून काढणं म्हणजेच ‘मायनिंग’ करणं. यांनाच ‘असोसिएशन रुल मायनिंग’ असं म्हणतात. हा डेटा मायनिंगचाच प्रकार झाला. डीबीएमएसमध्ये हे शक्य नव्हतं. याचं कारण तिथं आपल्याला ‘डायपर्स विकत घेणाऱ्यांपैकी किती लोक बियर घेतात?’ अशी क्वेरी विचारावी लागली असती. म्हणजे डायपर्स आणि बियर यांच्या खरेदीत काहीतरी संबंध आहे, हे प्रश्न विचारणाऱ्याला माहीत असणं गरजेचं होतं. डेटा मायनिंगची बिवटी ही की हे अगोदर माहीत असावं लागत नाही. डेटा मायनिंगचं सॉफ्टवेअर तो शोधून काढतो; पण सुपरमार्केटमध्ये अशा हजारो वस्तू विकल्या जातात आणि त्यांच्यातले असे संबंध शोधून काढणं सोपं नसतं.

आता हा निष्कर्ष कोणाच्या डोक्यातही आला नसेल! डायपर्स आणि बियर यांचा काय संबंध? शेवटी यावर मग काही मानसशास्त्रज्ञांनी आपलं डोकं फोडायला सुरवात केली. त्यांनी त्यातून आणखीनच वेगळा अर्थ काढला. ज्यांची बायको किंवा जोडीदार बाळंतीण झालेली असेल, ते मग सुपरमार्केटमध्ये शुक्रवारी डायपर्स विकत घ्यायला येतात. कित्येकदा अनेक अमेरिकन तरुण वीकएंडला म्हणजे शुक्रवारी संध्याकाळी एकत्र बसून मद्यपान आणि आरडाओरडा करत दंगामस्ती करत असतात; पण आता मूलबाळ झाल्यावर जबाबदारी वाढल्यामुळे अशी एकत्र बसून मजा करता येणार नाही हे लक्षात आल्यामुळे मग ते फक्त स्वत:साठी बियर घेऊन घरी जात असावेत, असा मानसशास्त्रज्ञांनी कयास बांधला.

कारण काही का असेना; पण वॉलमार्टनं डायपर्स आणि बियर यांच्यातलं असोसिएशन कळल्यावर डायपर्सच्या शेजारीच बियर्सचे कॅन्स ठेवायला सुरवात केली आणि त्यांची विक्री एकदम वाढली! ही दंतकथा खरी आहे की नाही याविषयी वाद असले, तरी उद्योगविश्वात डेटा मायनिंगच्या बाबतीत ती नेहमी सांगितली जाते. मात्र, काहींच्या मते ही गोष्ट १९९२ मध्येच ‘ऑस्को ड्रग स्टोअर्स’ या कंपनीच्या बाबतीत घडली होती. या कंपनीच्या काउंटर सेल्सचा (POS) डेटा थॉमस ब्लिशॉक (Thomas Blishock) हा टेराडेटा या कंपनीत काम करणारा मॅनेजर सांभाळत होता. त्यावेळी डेटा मायनिंगसारखं सॉफ्टवेअर उपलब्ध नसूनही त्यानं डायपर्स आणि बियर यांच्या संबंध लावला होता.

बँकेचं किंवा डायपरचं उदाहरण डेटा मायनिंगची संकल्पना समजण्यासाठी नक्कीच मदत करतात म्हणून ती इथं सविस्तर दिली आहेत. कुठलाही प्रश्न न विचारावा लागता आपल्याकडल्या अवाढव्य डेटामधून त्यांच्यातले संबंध किंवा असोसिएशन्स शोधून काढून त्यातून निष्कर्ष किंवा ज्ञान मिळवणं हेच डेटा मायनिंगचं वैशिष्ट्य आहे. मात्र, हे काम सोपं नसतं. याचं कारण यात असंख्य व्हेरीएबल्स असतात (उदा. शेकडो/हजारो प्रॉडक्टस्, ग्राहकांचं वयोगट, खरेदीची वेळ, त्यांचं उत्पन्न, कौटुंबिक पार्श्वभूमी...) आणि त्यातल्या कशाकशामध्ये कशा तऱ्हेचे संबंध आहेत हे शोधून काढणं हे खूप किचकट काम आहे.

असोसिएशन रुल्सची कल्पना तशी जुनीच असली, तरी १९९० च्या दशकात राकेश अग्रवाल, टॉमेझ इमिलिन्स्की (Tomase Imielinski) आणि अरुण स्वामी या कॉम्प्युटर सायंटिस्टसनी यातले संबंध किंवा असोसिएशन्स शोधण्यासाठी एक पद्धती (अल्गॉरिदम) शोधून काढला. यानंतर याचा वापर मोठ्या प्रमाणार सुरू झाला.
असोसिएशनचं एक सोपं उदाहरण द्यायचं झालं, तर अॅमेझॉनवरच्या खरेदीचं देता येईल. आपण अॅमेझॉनवर कुठलंही पुस्तक खरेदी केलं, की आपल्याला अॅमेझॉन लगेच आपली आवड ओळखून आणि लक्षात ठेवून त्याच विषयाची किंवा त्याच लेखकाची इतरही पुस्तकं लगेच आपल्यासमोर आणून दाखवतं आणि आपल्याला तीही खरेदी करण्यासाठी भुरळ पाडतं. नेटफ्लिक्सवर आपण एखादा सिनेमा बघितला आणि त्याला चांगलं रेटिंग दिलं आणि असं एक दोन वेळा केलं, की आपल्याला हॉरर सिनेमे आवडतात आणि अमुक अमुक हिरो आवडतो असं अनुमान काढून नेटफ्लिक्स त्याप्रमाणं आपल्याला त्यांच्या खजिन्यातले त्याच प्रकारचे किंवा त्याच हिरोचे सिनेमे ऑफर करतो. हे कसं होतं? याचं कारण आपल्या पूर्वीच्या खरेदीच्या डेटावरून निष्कर्ष काढून म्हणजेच शिकून ज्ञान मिळवून ते सॉफ्टवेअर पुढचे निर्णय घेतं. यामध्ये ‘मशीन लर्निंग’चा थोडासा भाग असतो.

डेटा मायनिंगचा वापर सर्व्हिस प्रोव्हायडर (आपले कुठल्या गटातले, कुठे राहणारे ग्राहक आपल्या कॉम्पिटिटरकडे पुढच्या तीन महिन्यांत जाण्याची शक्यता आहे?), जेनेटिक्स (डीएनए सीक्वेन्स आणि एखादा विकार होण्याची शक्यता), सुरक्षा (पुढचा गुन्हा कुठं आणि केव्हा घडण्याची शक्यता आहे आणि त्यामुळे पोलिस कुठं पाठवायला हवेत?), याचप्रमाणं बँक्स, इन्शुरन्स कंपन्या, सुपरमार्केटस्, सरकारं अशा अनेक क्षेत्रात प्रचंड मोठ्या प्रमाणात केला जातो. म्हणूनच हा बिझिनेस इंटेलिजन्सचा (BI) महत्त्वाचा भाग मानला जातो.

Read latest Marathi news, Watch Live Streaming on Esakal and Maharashtra News. Breaking news from India, Pune, Mumbai. Get the Politics, Entertainment, Sports, Lifestyle, Jobs, and Education updates. And Live taja batmya on Esakal Mobile App. Download the Esakal Marathi news Channel app for Android and IOS.

Related Stories

No stories found.
Marathi News Esakal
www.esakal.com