माहिती वेचणी तंत्र 

डॉ. आशिष तेडुलकर 
Thursday, 16 April 2020

आपल्या लक्षात आले असेल की, वाक्य, व्यक्ती, वस्तू, जागा, संस्था, वेळ-काळ वेचणी साचे सामान्य वाचकही तयार करू शकतात. किंबहुना आपण स्वतः अशा साच्यांचा वापर करून माहिती गोळा करतो.

आपण मागील लेखामध्ये लिखित स्वरूपातील माहितीचे वर्गीकरण कसे करावे, याचा उहापोह केला. विविध भाषेतील लेखातून माहितीची वेचणी कशी करतात ते या लेखात पाहूया. या तंत्रांचा वापर करून आपल्याला हवी असलेली माहिती वेचून काढता येते. उदा. एखाद्या शेअर संदर्भातील लेखातून सदर आस्थापनांची माहिती म्हणजे एकूण नफा, विक्री, संचालक मंडळ आदी. सद्यःपरिस्थितीत आपण कोरोनाच्या रुग्णाबद्दलची माहितीही या तंत्राच्या साहाय्याने साचेबद्धरित्या एकत्र करू शकतो. 

बातम्या ऐकण्यासाठी डाऊनलोड करा ई-सकाळचे ऍप

माहिती वेचणी तंत्रामध्ये तीन मुख्य भाग असतात :  
१) व्यक्ती, वस्तू, जागा, संस्था, वेळ-काळ यांची वेचणी (Entity extraction) 
२) पहिल्या पायरीमध्ये शोधलेल्या भागांमधील संबंध वेचणी (Relationship extraction) 
३) वेचलेल्या भागांची आणि संबंधांची ज्ञात माहिती बरोबर जोडणी (Record linkage) 

यामधील प्रत्येक भाग कसा काम करतो ते आपण सोदाहरण समजून घेऊ. व्यक्ती, वस्तू, जागा, संस्था, वेळ-काळ यांची वेचणी करण्यासाठी मुख्यत्वे वाक्यसाच्यांचा किंवा सांख्यिकी आधारीत तंत्राचा वापर केला जातो. प्रथम प्रकारात आपल्याला उपलब्ध तालीम संचाच्या आधाराने विविध वाक्यसाचे तयार करावे लागतात. उदा. ‘----शहरात कोरोनाचे आज ----- कोरोनाग्रस्त रुग्ण आढळून आले.’ या साच्याचा वापर करून आपण शहराचे नाव आणि रुग्णांची संख्या सहजपणे प्राप्त करता येते. ‘पुणे शहरात आज ३ कोरोनाग्रस्त रुग्ण आढळून आले.’ या वाक्यामध्ये ‘पुणे’ शहराचा उल्लेख असून त्यामध्ये ‘३’ कोरोनाग्रस्त रुग्ण आढळल्याची नोंद असल्याचे समोर येते. संक्षिप्तरित्या हीच माहीत आपण (पुणे, ३) अशी मांडू. आता हीच माहिती काही ठिकाणी थोड्या वेगळ्या स्वरूपात मांडलेली असते. उदा. ‘आज दिवसभरात पुण्यात ३ कोरोनाग्रस्त रुग्ण आढळून आले.’ आता वरील नियम वापरून आपल्याला माहिती वाचणे शक्य नाही, कारण यावेळी थोड्या वेगळ्या स्वरूपाची वाक्य मांडणी समोर येते. मग इथे आपल्याला वेगळा साचा तयार करावा लागेल ः ‘आज दिवसभरात --- त --- कोरोनाग्रस्त रुग्ण आढळून आले.’ या साच्याच्या आधाराने पुढील वाक्यातून यशस्वीपणे इच्छित माहितीची वेचणी करता येईल - 

१) ‘आज दिवसभरात मुंबईत २० कोरोनाग्रस्त रुग्ण आढळून आले.’ इच्छित माहिती - (मुंबई, २०) 

२) ‘आज दिवसभरात ठाण्यात २ कोरोनाग्रस्त रुग्ण आढळून आले.’ इच्छित माहिती - (ठाणे, २) 

अशा नानाविध प्रकारच्या वाक्यरचनेमुळे आपल्याला मोठ्या प्रमाणावर वाक्य साच्यांची मांडणी करावी लागते. वाक्यसाचे तयार करण्यासाठी मोठ्या प्रमाणावर मनुष्यबळाचा वापर केला जातो. असे साचे तयार झाल्यावर संगणक त्यांचा वापर करून यथायोग्य माहितीची वेचणी करतो. लेखकाला एका ठराविक साच्यात लिहण्याचे बंधन नसल्याने माहिती वेगवेगळ्या स्वरूपात लिहिलेली आढळते. माहिती वेचणी संगणक प्रणालीने अशा विविधतेमध्ये काम करणे अपेक्षित असते. ही प्रणाली किती विविधता हाताळू शकते त्यावर तिचा दर्जा अवलंबून असतो. वाक्य साध्याधारीत व्यक्ती, वस्तू, जागा, संस्था, वेळ-काळ वेचणी तंत्र साच्यांची संख्या आणि विविधता यावर अवलंबून असते, असे साचे मुबलक प्रमाणात उपलब्ध नसल्यास आपल्याला या तंत्राद्वारे इच्छित माहितीची वेचणी शक्य होत नाही. अशा परिस्थितीत आपल्याला सांख्यिकी आधारित तंत्राचा वापर करावा लागतो. याबद्दल आपण पुढील लेखात पाहू. 

या लेखातून आपल्या लक्षात आले असेल की, वाक्य, व्यक्ती, वस्तू, जागा, संस्था, वेळ-काळ वेचणी साचे सामान्य वाचकही तयार करू शकतात. किंबहुना आपण स्वतः अशा साच्यांचा वापर करून माहिती गोळा करतो. मग करा वाक्यसाचे तयार करण्याचा श्रीगणेशा! 


स्पष्ट, नेमक्या आणि विश्वासार्ह बातम्या वाचण्यासाठी 'सकाळ'चे मोबाईल अॅप डाऊनलोड करा
Web Title: Article ashish tendulkar Information extraction techniques

Tags
टॉपिकस