माहिती वेचणी तंत्र 

माहिती वेचणी तंत्र 

आपण मागील लेखामध्ये लिखित स्वरूपातील माहितीचे वर्गीकरण कसे करावे, याचा उहापोह केला. विविध भाषेतील लेखातून माहितीची वेचणी कशी करतात ते या लेखात पाहूया. या तंत्रांचा वापर करून आपल्याला हवी असलेली माहिती वेचून काढता येते. उदा. एखाद्या शेअर संदर्भातील लेखातून सदर आस्थापनांची माहिती म्हणजे एकूण नफा, विक्री, संचालक मंडळ आदी. सद्यःपरिस्थितीत आपण कोरोनाच्या रुग्णाबद्दलची माहितीही या तंत्राच्या साहाय्याने साचेबद्धरित्या एकत्र करू शकतो. 

माहिती वेचणी तंत्रामध्ये तीन मुख्य भाग असतात :  
१) व्यक्ती, वस्तू, जागा, संस्था, वेळ-काळ यांची वेचणी (Entity extraction) 
२) पहिल्या पायरीमध्ये शोधलेल्या भागांमधील संबंध वेचणी (Relationship extraction) 
३) वेचलेल्या भागांची आणि संबंधांची ज्ञात माहिती बरोबर जोडणी (Record linkage) 

यामधील प्रत्येक भाग कसा काम करतो ते आपण सोदाहरण समजून घेऊ. व्यक्ती, वस्तू, जागा, संस्था, वेळ-काळ यांची वेचणी करण्यासाठी मुख्यत्वे वाक्यसाच्यांचा किंवा सांख्यिकी आधारीत तंत्राचा वापर केला जातो. प्रथम प्रकारात आपल्याला उपलब्ध तालीम संचाच्या आधाराने विविध वाक्यसाचे तयार करावे लागतात. उदा. ‘----शहरात कोरोनाचे आज ----- कोरोनाग्रस्त रुग्ण आढळून आले.’ या साच्याचा वापर करून आपण शहराचे नाव आणि रुग्णांची संख्या सहजपणे प्राप्त करता येते. ‘पुणे शहरात आज ३ कोरोनाग्रस्त रुग्ण आढळून आले.’ या वाक्यामध्ये ‘पुणे’ शहराचा उल्लेख असून त्यामध्ये ‘३’ कोरोनाग्रस्त रुग्ण आढळल्याची नोंद असल्याचे समोर येते. संक्षिप्तरित्या हीच माहीत आपण (पुणे, ३) अशी मांडू. आता हीच माहिती काही ठिकाणी थोड्या वेगळ्या स्वरूपात मांडलेली असते. उदा. ‘आज दिवसभरात पुण्यात ३ कोरोनाग्रस्त रुग्ण आढळून आले.’ आता वरील नियम वापरून आपल्याला माहिती वाचणे शक्य नाही, कारण यावेळी थोड्या वेगळ्या स्वरूपाची वाक्य मांडणी समोर येते. मग इथे आपल्याला वेगळा साचा तयार करावा लागेल ः ‘आज दिवसभरात --- त --- कोरोनाग्रस्त रुग्ण आढळून आले.’ या साच्याच्या आधाराने पुढील वाक्यातून यशस्वीपणे इच्छित माहितीची वेचणी करता येईल - 

१) ‘आज दिवसभरात मुंबईत २० कोरोनाग्रस्त रुग्ण आढळून आले.’ इच्छित माहिती - (मुंबई, २०) 

२) ‘आज दिवसभरात ठाण्यात २ कोरोनाग्रस्त रुग्ण आढळून आले.’ इच्छित माहिती - (ठाणे, २) 

अशा नानाविध प्रकारच्या वाक्यरचनेमुळे आपल्याला मोठ्या प्रमाणावर वाक्य साच्यांची मांडणी करावी लागते. वाक्यसाचे तयार करण्यासाठी मोठ्या प्रमाणावर मनुष्यबळाचा वापर केला जातो. असे साचे तयार झाल्यावर संगणक त्यांचा वापर करून यथायोग्य माहितीची वेचणी करतो. लेखकाला एका ठराविक साच्यात लिहण्याचे बंधन नसल्याने माहिती वेगवेगळ्या स्वरूपात लिहिलेली आढळते. माहिती वेचणी संगणक प्रणालीने अशा विविधतेमध्ये काम करणे अपेक्षित असते. ही प्रणाली किती विविधता हाताळू शकते त्यावर तिचा दर्जा अवलंबून असतो. वाक्य साध्याधारीत व्यक्ती, वस्तू, जागा, संस्था, वेळ-काळ वेचणी तंत्र साच्यांची संख्या आणि विविधता यावर अवलंबून असते, असे साचे मुबलक प्रमाणात उपलब्ध नसल्यास आपल्याला या तंत्राद्वारे इच्छित माहितीची वेचणी शक्य होत नाही. अशा परिस्थितीत आपल्याला सांख्यिकी आधारित तंत्राचा वापर करावा लागतो. याबद्दल आपण पुढील लेखात पाहू. 

या लेखातून आपल्या लक्षात आले असेल की, वाक्य, व्यक्ती, वस्तू, जागा, संस्था, वेळ-काळ वेचणी साचे सामान्य वाचकही तयार करू शकतात. किंबहुना आपण स्वतः अशा साच्यांचा वापर करून माहिती गोळा करतो. मग करा वाक्यसाचे तयार करण्याचा श्रीगणेशा! 

Read latest Marathi news, Watch Live Streaming on Esakal and Maharashtra News. Breaking news from India, Pune, Mumbai. Get the Politics, Entertainment, Sports, Lifestyle, Jobs, and Education updates. And Live taja batmya on Esakal Mobile App. Download the Esakal Marathi news Channel app for Android and IOS.

Related Stories

No stories found.
Marathi News Esakal
www.esakal.com