डेटा आणि डेटा मॅनेजमेंट सिस्टिम्स (अच्युत गोडबोले)

achyut godbole

आपल्या उद्योगात निर्माण होणारा डेटा आणि माहिती यांच्यावरून आपल्याला उद्योगासाठी उपयोगी असे काही निष्कर्ष काढता येतील का? त्यापासून शिकून आपण आपले निर्णय घेऊन विक्री आणि नफा वाढवू शकू का असं अनेक उद्योगांना वाटायला लागलं. या मर्यादित उद्देशानं ‘बिझिनेस इंटेलिजन्स’ ही एक शाखा सुरू झाली. त्यात मुख्यत्वेकरून ‘डेटा मायनिंग’ हे तंत्र वापरलं जातं; पण हे तंत्र वापरता यावं म्हणून डेटा आपल्याला एका विशिष्ट तऱ्हेनं रचावा (ऑर्गनाइझ करावा) लागतो. या रचनेला ‘डेटा वेअरहाऊसिंग’ असं म्हणतात. यापूर्वी डेटासाठी फक्त फाईल मॅनेजमेंट सिस्टिम वापरत असत. त्यानंतर डेटाबेस मॅनेजमेंट सिस्टिम्स वापरणं सुरू झालं आणि त्यानंतर डेटा वेअरहाउसिंग आलं. या सगळ्या प्रकाराला ‘डेटा मॅनेजमेंट सिस्टिम्स’ असं म्हणतात.

आज विदा (डेटा), माहिती (इन्फर्मेशन), ज्ञान (नॉलेज) आणि शहाणपण (विस्डम) हे शब्द अनेकदा समानार्थी तऱ्हेनं वापरले जातात; पण खरं म्हणजे त्यांच्यामध्ये खूपच फरक आहे. डेटा म्हणजे उंची, वजन, तापमान, लोकसंख्या अशा अनेक गोष्टींची आकडेवारी किंवा घडलेल्या घटना. थोडक्यात फॅक्टस् आणि फिगर्स. याच घटनांना आपण संदर्भ (कॉन्टेक्स्ट) दिला आणि त्यांची नोंद केली, की मग ती इन्फर्मेशन होते. मात्र, त्यातून आपण जेव्हा काहीतरी निष्कर्ष काढतो, तेव्हा ते ‘ज्ञान’ किंवा ‘नॉलेज’ होतं. या ज्ञानामुळं जेव्हा आपण शहाणे होतो, तेव्हा त्याला ‘शहाणपण’ किंवा ‘विस्डम’ असं म्हणतात. अशा या डेटा, इन्फर्मेशन, नॉलेज आणि विस्डम यांच्या पायऱ्या आहेत.

एका उदाहरणावरून हे स्पष्ट होईल. इन्फर्मेशन थिअरीप्रमाणं या अगदी काटेकोर व्याख्या नसल्या, तरी ढोबळपणानं त्यांच्यातला फरक कळावा म्हणून हे उदाहरण दिलेलं आहे. ‘आज थंडी पडली आहे’; ‘मी स्वेटरशिवाय बाहेर पडलोय’ आणि ‘मला ताप आलाय’ हे ‘डेटा’चे भाग झाले. ‘मी थंडीत स्वेटर न घालता बाहेर पडल्यामुळे मला ताप आला आहे,’ असं मी कोणाला सांगितलं किंवा लिहिलं, की मग ती इन्फर्मेशन झाली. याचं जनरलायझेशन करून मी जेव्हा ‘थंडीत स्वेटर न घालता बाहेर पडलं तर ताप येतो,’ असं म्हणतो तेव्हा मी ज्ञान मिळवलेलं असतं आणि ते अनेक निरीक्षणांवरून किंवा बऱ्याच माहितीच्या (इन्फर्मेशनच्या) जोरावर निष्कर्ष काढून मिळवलेलं असतं. यापुढे जेव्हा मी ‘थंडीत स्वेटर न घालता बाहेर पडू नये’ असं म्हणतो तेव्हा ते शहाणपण किंवा विस्डम झालेलं असतं.

आपण लहानपणापासून असंख्य निर्जीव आणि सजीव वस्तू, प्राणी, पक्षी, झाडं आणि माणसं वगैरे बघतो, त्यांच्याविषयी वाचतो आणि त्यातून शिकतो (उदाहरणार्थ, वाघ हरणाला खातो...) आणि आपल्या मेंदूत जगाचा एक नकाशा बनवतो. आपण जेव्हा कुठलीही नवी गोष्ट बघतो, किंवा वाचतो, तेव्हा त्या नकाशाचा वापर करून त्या गोष्टीचा अर्थ लावतो आणि त्यावर प्रतिक्रिया (रिअॅक्शन) देतो, विशिष्ट तऱ्हेनं वागतो आणि त्यापासून पुन्हा शिकतो आणि आमच्या मेंदूतल्या जगाचा नकाशा अपडेट करतो म्हणजे बदलतो. डेटा हा कच्चा असतो. उदाहरणार्थ, माझी उंची, आजचं तापमान किंवा आज अमुक अमुक गाडी उशिरा आली वगैरे. डिजिटल जगात या डेटाची अनेक रूपं असतात. आपण या डिजिटल डेटाचे मजकूर (टेक्स्ट), आवाज (ऑडिओ), छायाचित्र (फोटो) आणि चलत् चित्र (व्हिडिओ) असे (मल्टीमीडियाचे) प्रकार ० आणि १ च्या स्वरूपात साठवू शकतो. हे आपण पूर्वी पाहिलंच आहे.

आता या डेटापासून माहिती (इन्फर्मेशन) आणि शेवटी ज्ञान (नॉलेज) मिळवण्यासाठी कॉम्प्युटरच्या जगात खूप मोठ्या प्रमाणावर प्रयत्न चालू आहेत. माणूस जसा निरीक्षणातून, अनुभवातून आणि वाचन आणि शिक्षण यातून ज्ञान मिळवतो, तसंच कॉम्प्युटरला करता येईल का? कॉम्प्युटरला गोष्टी शिकता येतील का? मिळालेलं ज्ञान साठवून त्याचा उपयोग करून निर्णय घेता येतील का? आणि कॉम्प्युटरला माणसासारखंच बुद्धिमान होता येईल का?... यासाठीच तर ‘आर्टिफिशियल इंटेलिजन्स’ ही शाखा निर्माण झाली आणि त्यामध्ये आणि मशीन लर्निंगवर खूप मोठ्या प्रमाणावर प्रयत्न गेली काही दशकं चालू आहेत. आपण सगळ्यात शेवटी त्यावर बोलूच.

मात्र, अगदी यंत्रानं माणसासारखं वागणं आणि कृती करणं हे मोठं ध्येय थोडा वेळ जरी बाजूला ठेवलं आणि आपण आपलं उद्दिष्ट खूप मर्यादित ठेवलं, तर निदान आपल्या उद्योगात निर्माण होणारा डेटा आणि माहिती यांच्यावरून आपल्याला उद्योगासाठी उपयोगी असे काही निष्कर्ष काढता येतील का? त्यापासून शिकून आपण आपले निर्णय घेऊन विक्री आणि नफा वाढवू शकू का असं अनेक उद्योगांना वाटायला लागलं. या मर्यादित उद्देशानं ‘बिझिनेस इंटेलिजन्स (BI)’ ही एक शाखा सुरू झाली. त्यात मुख्यत्वेकरून ‘डेटा मायनिंग’ हे तंत्र वापरलं जातं; पण हे तंत्र वापरता यावं म्हणून डेटा आपल्याला एका विशिष्ट तऱ्हेनं रचावा (ऑर्गनाइझ करावा) लागतो. या रचनेला ‘डेटा वेअरहाऊसिंग’ असं म्हणतात. हे सगळं सन १९९० च्या दशकापासून वाढायला सुरवात झाली आणि सन २००० नंतर तर हे खूपच वेगानं वाढलं. मात्र, यापूर्वी डेटासाठी फक्त फाईल मॅनेजमेंट सिस्टिम (FMS) वापरत असत. त्यानंतर डेटाबेस मॅनेजमेंट सिस्टिम्स (DBMS) वापरणं सुरू झालं आणि त्यानंतर डेटा वेअरहाउसिंग आलं. या सगळ्या प्रकाराला ‘डेटा मॅनेजमेंट सिस्टिम्स’ असं म्हणतात. त्यातल्या फाइल मॅनेजमेंटविषयी आपण या लेखात बोलू आणि पुढच्या लेखात DBMS आणि डेटा वेअरहाउसिंग यांच्याविषयी बोलू.

ग्राहक टेबल-१
ग्राहक क्रमाक ग्राहकाचं नाव पत्ता शहर मोबाईल नंबर येणं (रु.)
CA००१ अनंत गोरे - मुंबई ९४२----१११ १०००
CA००२ पंकज पारेख - पुणे ९५२----२२२ ५०००
CA००३ शीला अय्यर - मुंबई ९८१----३३३ १००००
CA००४ दीपक भाटिया - पुणे ९८२----४४४ १२०००

FMS कशा काम करायच्या हे समजावून घेण्यासाठी एक उदाहरण घेऊ. समजा आपल्या कंपनीचे १००० ग्राहक (कस्टमर्स) आहेत. कॉम्प्युटरचा उदय होण्याअगोदर आपण या सगळ्यांचे तपशील एका बॉक्स फाइलमध्ये ठेवत असू. त्यामध्ये प्रत्येक ग्राहकाच्या माहितीसाठी त्या बॉक्स फाइलमधलं एक पान राखून ठेवलेलं असे. ते झालं ग्राहकाचं किंवा कस्टमरचं रेकॉर्ड. प्रत्येक पानाला किंवा कस्टमर रेकॉर्डला त्या पानाच्या कोपऱ्यात १, २, ३ असे सीरिअल नंबर्स दिलेले असत. हा झाला पान नंबर किंवा रेकॉर्ड नंबर. कुठल्याही ग्राहकाच्या पानावर त्या ग्राहकाचा नंबर (कस्टमर नंबर), त्याचं नाव, पत्ता, शहर, मोबाईल नंबर, त्याचं आपल्याकडे अजून किती येणं आहे (अकौंट रिसीव्हेबल), असे सगळे तपशील असतील. ग्राहकाचा नंबर, पत्ता अशा प्रत्येकाला ‘डेटा आयटेम’ किंवा ‘फिल्ड’ असं म्हणतात. असे सगळे ‘डेटा आयटेम्स’ मिळून एक रेकॉर्ड आणि अशी सगळी रेकॉर्डस् मिळून एक फाइल अशी ती उतरंड होती. ग्राहक टेबल-१मध्ये उदाहरणादाखल काही ग्राहकांचे तपशील दिले आहेत. फक्त यातल्या प्रत्येक ग्राहकासाठी आकृतीत जरी एक ओळ दाखवली असली, तरी बॉक्स फाईलमध्ये एका पानावर त्याचं रेकॉर्ड आहे आणि त्यावर त्याचे तपशील लिहिले आहेत असं समजावं. एवढंच.

आता जर कोणी आपल्याला प्रश्न विचारला : ‘‘पंकज पारेख या ग्राहकाचा मोबाईल नंबर काय?’’ तर आपल्याला त्या फाइलमधलं प्रत्येक पान (कस्टमर रेकॉर्ड) उघडून त्यातलं ग्राहकाचं नाव बघून ते पंकज पारेख आहे का ते तपासून, ते तसं नसेल तर पुढचं पान उलटणं आणि शेवटी ते नाव सापडल्यावर त्याचा मोबाईल नंबर लिहून घेणं हे करावं लागेल.

आपल्याकडे १००० ग्राहक असल्यामुळे या सगळ्याला खूप वेळ लागेल. मग यावर काही उपाय आहे का? मग लोकांनी ‘इंडेक्स’ची कल्पना काढली. आपल्या पुस्तकाच्या शेवटी एक इंडेक्स (अनुक्रमणिका) असतो तसाच. पुस्तकाच्या इंडेक्समध्ये अल्फाबेटिक ऑर्डरप्रमाणे (a पासून z पर्यंत) अनेक शब्द आणि ते पुस्तकात कुठल्या पानावर आहेत ते दिलेलं असतं. आता आपल्याला ठराविक शब्द पुस्तकात शोधायचा असेल, तर या इंडेक्सचा वापर करून आपल्याला पाहिजे तो शब्द इंडेक्समध्ये शोधायचा, आणि तो शब्द कुठल्या पानावर आहे त्याचा नंबर बघायचा आणि मग तो नंबर असलेल्या पानाकडे थेट जायचं असं आपण करतो. हा जसा पुस्तकाचा इंडेक्स असतो, तसाच आपल्या ग्राहकांच्या बॉक्स फाइलच्या बाबतीत ग्राहकाच्या नावाचा एक इंडेक्स निर्माण करायचा आणि तो त्या फोल्डरच्या सुरवातीला ठेवायचा. त्या इंडेक्समध्ये ग्राहकांची नावं अल्फाबेटिक ऑर्डरप्रमाणे (a पासून z अशी) सॉर्ट करून प्रत्येकापुढे त्या नावाच्या ग्राहकाचं त्या फाईलमधलं किती नंबरचं रेकॉर्ड आहे हे लिहून ठेवायचं. आता पंकज पारेखचं रेकॉर्ड वाचायचं असेल, तर त्या इंडेक्समध्ये P पासून सुरवात झालेली नावं तपासायची आणि त्यात पंकज पारेख हे नाव शोधायचं. ते मिळालं, की त्यासमोरचा रेकॉर्ड नंबर वाचायचा आणि मग थेट ते पान (रेकॉर्ड) उघडून त्यातून त्याचा मोबाईल नंबर टिपून घ्यायचा. तो या बाबतीत ९५----२२२२ मिळेल. हे पूर्वीपेक्षा नक्कीच सोपं आणि कमी वेळखाऊ होईल. कारण त्यात आपल्याला सगळी १००० रेकॉर्डस् तपासायची गरज राहणार नाही.

आता उद्या जर आपल्याला ग्राहक नंबर CA००३ असलेल्या ग्राहकाचा पत्ता हवा असेल, तर काय करायचं? पुन्हा १००० पानांमधून जावं लागेल आणि दर पान वाचून त्यावरचा ग्राहक नंबर CA००३ आहे का हे तपासावं लागेल आणि जिथं तो सापडेल त्या ग्राहकाचा पत्ता लिहून घ्यावा लागेल; पण यालाही खूप वेळ लागेल. मग यासाठी ग्राहक नंबरवर आणखी एक इंडेक्स ठेवावा लागेल; आणि त्या इंडेक्समध्ये अल्फाबेटिक ऑर्डरमध्ये ग्राहक नंबर आणि त्या ग्राहकाचा त्या बॉक्स फाइलमधला रेकॉर्ड नंबर असे तपशील ठेवावे लागतील. मग त्या इंडेक्सचा उपयोग करून CA००३चं रेकॉर्ड पटकन मिळेल. आणि मग ते रेकॉर्ड वाचून त्या ग्राहकाचा पत्ता आपल्याला मिळू शकेल. त्याचप्रमाणं जर आपल्याला ज्या ग्राहकांचं देणं १०००० रुपयांपेक्षा जास्त आहे अशा ग्राहकांची यादी पाहिजे असेल, आणि आपण जर कुठलाही इंडेक्स ठेवला नसेल तर आपल्याला संपूर्ण फाइलमधल्या प्रत्येक रेकॉर्डमधून जाण्याशिवाय पर्याय राहणार नाही. मात्र, जर आपण ग्राहकांचं येणं आणि रेकॉर्ड नंबर असा इंडेक्स ठेवला तर त्या इंडेक्सवरून आपल्याला १०००० रुपयांच्या वर येणं असेलेले ग्राहक आणि त्यांची रेकॉ‍र्डस‍ वाचता येतील. थोडक्यात आपल्या गरजेप्रमाणे आपण कुठल्याही डेटा आयटेमवर इंडेक्स निर्माण करू शकतो.

मात्र, हे इंडेक्स मेंन्टेन करणं किचकट काम असतं. कुठलाही नवीन ग्राहक या फाइलमध्ये समाविष्ट झाला, की त्याचं रेकॉर्ड तयार करून बॉक्स फाइलच्या शेवटी लावणं सोपं असतं; पण नंतर त्यातले जे जे डेटा आयटेम्स वापरून इंडेक्सेस तयार केलेले असतात (उदाहरणार्थ, नाव, ग्राहक नंबर, येणं...) त्या त्या इंडेक्समध्ये त्या डेटा आयटेमच्या क्रमाप्रमाणे (सीक्वेन्स) या नवीन रेकॉर्डसाठी या डेटा आयटेम्सची प्रत्येकी एक एन्ट्री योग्य जागी घालावी लागते.

कॉम्प्युटर सिस्टिममधल्या फाइल मॅनेजमेंट सिस्टिम्स (FMS) हेच करायच्या; पण एफएमएसमध्ये एक मोठा प्रश्न होता. तो म्हणजे डेटा कन्सिस्टन्सीचा किंवा डेटा इंटिग्रिटीचा. तो प्रत्यक्ष सोडवला डेटा बेस मॅनेजमेंट सिस्टिम्सनं (DBMS). याविषयी पुढच्या लेखात.

Read latest Marathi news, Watch Live Streaming on Esakal and Maharashtra News. Breaking news from India, Pune, Mumbai. Get the Politics, Entertainment, Sports, Lifestyle, Jobs, and Education updates. And Live taja batmya on Esakal Mobile App. Download the Esakal Marathi news Channel app for Android and IOS.

डेटा आणि डेटा मॅनेजमेंट सिस्टिम्स (अच्युत गोडबोले)

Related Stories