एज्युकेशन जॉब्स

माहिती वेचणी तंत्र 

डॉ. आशिष तेडुलकर

आपण मागील लेखामध्ये लिखित स्वरूपातील माहितीचे वर्गीकरण कसे करावे, याचा उहापोह केला. विविध भाषेतील लेखातून माहितीची वेचणी कशी करतात ते या लेखात पाहूया. या तंत्रांचा वापर करून आपल्याला हवी असलेली माहिती वेचून काढता येते. उदा. एखाद्या शेअर संदर्भातील लेखातून सदर आस्थापनांची माहिती म्हणजे एकूण नफा, विक्री, संचालक मंडळ आदी. सद्यःपरिस्थितीत आपण कोरोनाच्या रुग्णाबद्दलची माहितीही या तंत्राच्या साहाय्याने साचेबद्धरित्या एकत्र करू शकतो. 

माहिती वेचणी तंत्रामध्ये तीन मुख्य भाग असतात :  
१) व्यक्ती, वस्तू, जागा, संस्था, वेळ-काळ यांची वेचणी (Entity extraction) 
२) पहिल्या पायरीमध्ये शोधलेल्या भागांमधील संबंध वेचणी (Relationship extraction) 
३) वेचलेल्या भागांची आणि संबंधांची ज्ञात माहिती बरोबर जोडणी (Record linkage) 

यामधील प्रत्येक भाग कसा काम करतो ते आपण सोदाहरण समजून घेऊ. व्यक्ती, वस्तू, जागा, संस्था, वेळ-काळ यांची वेचणी करण्यासाठी मुख्यत्वे वाक्यसाच्यांचा किंवा सांख्यिकी आधारीत तंत्राचा वापर केला जातो. प्रथम प्रकारात आपल्याला उपलब्ध तालीम संचाच्या आधाराने विविध वाक्यसाचे तयार करावे लागतात. उदा. ‘----शहरात कोरोनाचे आज ----- कोरोनाग्रस्त रुग्ण आढळून आले.’ या साच्याचा वापर करून आपण शहराचे नाव आणि रुग्णांची संख्या सहजपणे प्राप्त करता येते. ‘पुणे शहरात आज ३ कोरोनाग्रस्त रुग्ण आढळून आले.’ या वाक्यामध्ये ‘पुणे’ शहराचा उल्लेख असून त्यामध्ये ‘३’ कोरोनाग्रस्त रुग्ण आढळल्याची नोंद असल्याचे समोर येते. संक्षिप्तरित्या हीच माहीत आपण (पुणे, ३) अशी मांडू. आता हीच माहिती काही ठिकाणी थोड्या वेगळ्या स्वरूपात मांडलेली असते. उदा. ‘आज दिवसभरात पुण्यात ३ कोरोनाग्रस्त रुग्ण आढळून आले.’ आता वरील नियम वापरून आपल्याला माहिती वाचणे शक्य नाही, कारण यावेळी थोड्या वेगळ्या स्वरूपाची वाक्य मांडणी समोर येते. मग इथे आपल्याला वेगळा साचा तयार करावा लागेल ः ‘आज दिवसभरात --- त --- कोरोनाग्रस्त रुग्ण आढळून आले.’ या साच्याच्या आधाराने पुढील वाक्यातून यशस्वीपणे इच्छित माहितीची वेचणी करता येईल - 

१) ‘आज दिवसभरात मुंबईत २० कोरोनाग्रस्त रुग्ण आढळून आले.’ इच्छित माहिती - (मुंबई, २०) 

२) ‘आज दिवसभरात ठाण्यात २ कोरोनाग्रस्त रुग्ण आढळून आले.’ इच्छित माहिती - (ठाणे, २) 

अशा नानाविध प्रकारच्या वाक्यरचनेमुळे आपल्याला मोठ्या प्रमाणावर वाक्य साच्यांची मांडणी करावी लागते. वाक्यसाचे तयार करण्यासाठी मोठ्या प्रमाणावर मनुष्यबळाचा वापर केला जातो. असे साचे तयार झाल्यावर संगणक त्यांचा वापर करून यथायोग्य माहितीची वेचणी करतो. लेखकाला एका ठराविक साच्यात लिहण्याचे बंधन नसल्याने माहिती वेगवेगळ्या स्वरूपात लिहिलेली आढळते. माहिती वेचणी संगणक प्रणालीने अशा विविधतेमध्ये काम करणे अपेक्षित असते. ही प्रणाली किती विविधता हाताळू शकते त्यावर तिचा दर्जा अवलंबून असतो. वाक्य साध्याधारीत व्यक्ती, वस्तू, जागा, संस्था, वेळ-काळ वेचणी तंत्र साच्यांची संख्या आणि विविधता यावर अवलंबून असते, असे साचे मुबलक प्रमाणात उपलब्ध नसल्यास आपल्याला या तंत्राद्वारे इच्छित माहितीची वेचणी शक्य होत नाही. अशा परिस्थितीत आपल्याला सांख्यिकी आधारित तंत्राचा वापर करावा लागतो. याबद्दल आपण पुढील लेखात पाहू. 

या लेखातून आपल्या लक्षात आले असेल की, वाक्य, व्यक्ती, वस्तू, जागा, संस्था, वेळ-काळ वेचणी साचे सामान्य वाचकही तयार करू शकतात. किंबहुना आपण स्वतः अशा साच्यांचा वापर करून माहिती गोळा करतो. मग करा वाक्यसाचे तयार करण्याचा श्रीगणेशा! 

Read latest Marathi news, Watch Live Streaming on Esakal and Maharashtra News. Breaking news from India, Pune, Mumbai. Get the Politics, Entertainment, Sports, Lifestyle, Jobs, and Education updates. And Live taja batmya on Esakal Mobile App. Download the Esakal Marathi news Channel app for Android and IOS.

Ajit Pawar : रोहित पवार झाले भावनिक, अजित पवारांनी केली नक्कल! म्हणाले, असली नौटंकी...

PCB T20 WC 2024 : टी 20 वर्ल्डकप जिंकला तर पाकिस्तानी खेळाडू होणार करोडपती; PCB ने दिलं मोठं आश्वासन

LinkedIn Job Search : नोकरीची चिंता आता सोडा.! लिंक्डइनवर जॉब शोधण्याची ‘ही’ आहे सोपी पद्धत

IPL 2024 PBKS vs CSK : जडेजाची अष्टपैलू कामगिरी, चेन्नईचा पंजाबवर विजय

Rohit Pawar Video : 'तुम्ही आमचा जीव, आत्मा आहात...' बारामतीमधील सभेत रोहित पवारांना अश्रू अनावर

SCROLL FOR NEXT