मोबाईलवर गाणी ऐकताना? मग हेच आहे मल्टिमीडिया (अच्युत गोडबोले)

अच्युत गोडबोले
रविवार, 30 जून 2019

आपण सीडी किंवा पेन-ड्राईव्हवरचं गाणं ऐकतो, तेव्हा तेही 0 आणि 1 च्या रूपात साठवून ठेवलेलं असतं. त्याचप्रमाणं जेव्हा आपण आपल्या मोबाईलवरून किंवा डिजिटल कॅमेऱ्यातून फोटो काढतो तेव्हा तोही 0 आणि 1 च्या स्वरूपात साठवला जातो. आपण डीव्हीडी बघतो, तेव्हा ते चलत्‌चित्र किंवा व्हिडिओही 0 आणि 1 च्या स्वरूपात त्यावर साठवलेला असतो. थोडक्‍यात टेक्‍स्ट, आवाज, फोटो आणि चलत्‌चित्रं अशी चारही माध्यमं आपण 0 आणि 1 च्या रूपात साठवू आणि दुसरीकडे पाठवू शकायला लागलो. यालाच 'मल्टिमीडिया' म्हणतात.

आपण सीडी किंवा पेन-ड्राईव्हवरचं गाणं ऐकतो, तेव्हा तेही 0 आणि 1 च्या रूपात साठवून ठेवलेलं असतं. त्याचप्रमाणं जेव्हा आपण आपल्या मोबाईलवरून किंवा डिजिटल कॅमेऱ्यातून फोटो काढतो तेव्हा तोही 0 आणि 1 च्या स्वरूपात साठवला जातो. आपण डीव्हीडी बघतो, तेव्हा ते चलत्‌चित्र किंवा व्हिडिओही 0 आणि 1 च्या स्वरूपात त्यावर साठवलेला असतो. थोडक्‍यात टेक्‍स्ट, आवाज, फोटो आणि चलत्‌चित्रं अशी चारही माध्यमं आपण 0 आणि 1 च्या रूपात साठवू आणि दुसरीकडे पाठवू शकायला लागलो. यालाच 'मल्टिमीडिया' म्हणतात. 

माणूस आजपर्यंतच्या इतिहासात चार माध्यमांचा वापर करून संवाद साधत आलाय. अक्षरं किंवा टेक्‍स्ट, आवाज, चित्रं किंवा फोटो आणि चलत्‌चित्रं किंवा व्हिडिओज ही ती चार माध्यमं आहेत. आपण वर्ड प्रोसेसरमध्ये कुठलीही की दाबली, की त्याचं ऍस्की किंवा एब्सिडिक अशा त्या कॉम्प्युटरच्या संकेताप्रमाणं 0 आणि 1 च्या बिट्‌समध्ये रूपांतर होऊन ते मेमरीत किंवा हार्ड डिस्कवर साठवलं जातं. तसंच आपण सीडी किंवा पेन-ड्राईव्हवरचं गाणं ऐकतो, तेव्हा तेही 0 आणि 1 च्या रूपात साठवून ठेवलेलं असतं. त्याचप्रमाणं जेव्हा आपण आपल्या मोबाईलवरून किंवा डिजिटल कॅमेऱ्यातून फोटो काढतो तेव्हा तोही 0 आणि 1 च्या स्वरूपात साठवला जातो. आपण डीव्हीडी बघतो, तेव्हा ते चलत्‌चित्र किंवा व्हिडिओही 0 आणि 1 च्या स्वरूपात त्यावर साठवलेला असतो. थोडक्‍यात टेक्‍स्ट, आवाज, फोटो आणि चलत्‌चित्रं ही चारही माध्यमं आपण 0 आणि 1 च्या रूपात साठवू आणि दुसरीकडे पाठवू शकायला लागलो. यालाच 'मल्टिमीडिया' म्हणतात. आपण आता ही चारही माध्यमं 0 आणि 1 च्या रूपात कशी रूपांतरीत करता येतात हे पाहू. 

कॉम्प्युटरमध्ये जसं आकडे, अक्षर आणि खास चिन्हं 0 आणि 1 यांच्या ऍस्की किंवा एब्सिडिक अशा कोड-भाषेत बिट्‌समध्ये साठवून ठेवता येतात, तशीच चित्रं किंवा फोटोही येतात. एखाद्या कृष्णधवल चित्रावर आपण एक अतिसूक्ष्म अशी एक जाळी ठेवली तर काय होईल? ते सर्व चित्र अनेक कप्प्यांनी जोडून बनवलंय असं वाटेल. म्हणूनच या जाळीच्या प्रत्येक कप्प्याला इंग्रजीत 'पिक्‍चर एलिमेंट' किंवा 'पिक्‍सेल' असं म्हणतात. प्रत्येक पिक्‍सेलमध्ये एक ठिपका काळा तरी असतो किंवा पांढरा तरी असतो. आता आपण काळ्या ठिपक्‍याला 0 म्हटलं आणि पांढऱ्याला 1 की झालं चित्राचं बिट्‌समध्ये रूपांतर! जितकी जाळी अतिसूक्ष्म तितके कप्पे आणि ठिपके जास्त आणि तितकंच चित्र जास्त स्पष्ट. यालाच जास्त 'रेझोल्युशन' म्हणतात; पण हे जास्त रेझोल्युशनचं चित्र साठवायला लागणारे बिट्‌स आणि म्हणूनच डिस्क/मेमरी जास्त लागते; पण प्रत्यक्षात या चित्राचं बिट्‌समध्ये रूपांतर करायचं कसं? 

यासाठी 'स्कॅनर्स' मिळतात. हा स्कॅनर चित्रावरून फिरवला, की त्या चित्राचं बिट्‌समध्ये रूपांतर होऊन ते साठवले जातात. मग ते आपण पुन्हा संगणकाच्या मेमरीतून स्क्रीनवर केव्हाही आणलं, की ते चित्र आपल्याला स्क्रीनवर दिसतं. आपण ते चित्र छापूही शकतो. स्कॅनर कुठल्याही चित्राचं अनेक ओळी (रोज) आणि स्तंभ (कॉलम्स) यांच्यात विभाजन करून त्याची एक काल्पनिक जाळी निर्माण करतो. मग तो सर्वांत वरच्या ओळीतल्या सगळ्यात पहिल्या किंवा डाव्या कॉलमपासून सुरवात करतो आणि मग त्या ओळीतल्या प्रत्येक कप्प्यावर प्रकाश टाकून प्रकाशरूपी नजर टाकतो. त्या कप्प्यात काळा ठिपका असेल, तर त्यावर पडलेला प्रकाश तो कप्पा शोषून घेतो आणि तो कप्पा पांढरा असेल, तर त्या कप्प्यावर पडलेला प्रकाश परावर्तित होतो. आता तो प्रकाश किती परावर्तित होतो यावरून त्या स्कॅनरमधला वीजप्रवाह बदलतो, आणि मग तो स्कॅनर तो कप्पा काळा होता की पांढरा याचं अनुमान करतो आणि जर तो कप्पा काळा असेल, तर 0 आणि पांढरा असेल तर 1 अशा तऱ्हेनं सगळ्या कप्प्यांचं 0 आणि 1 च्या स्वरूपात रूपांतर करतो. पहिली ओळ संपल्यावर तो पुढच्या रांगेतल्या सगळ्यात डाव्या कप्प्यापासून सुरवात करतो; आणि असं करतकरत सगळं चित्र स्कॅन करून त्या सगळ्या कप्प्यांसाठी प्रत्येकी एक (0 = काळा, 1 = पांढरा) अशा बिट्‌समध्ये हे चित्र साठवून ठेवतो. 

मात्र, यात एक प्रश्न असतो. प्रत्यक्ष कृष्णधवल चित्रातही पूर्ण काळे किंवा पूर्ण पांढरे असेच ठिपके नसतात, तर काळ्या रंगाच्या वेगवेगळ्या पातळ्या किंवा छटा सापडतात. आता स्कॅनर प्रत्येक रांगेत डावीकडून उजवीकडे आणि मग ती रांग संपल्यावर खालच्या रांगेत असं कप्प्याकप्प्यावर प्रकाशाची 'नजर' टाकत जातो तेव्हा काळ्या रंगाच्या छटेप्रमाणे प्रत्येक कप्प्यातून प्रकाश कमी-जास्त प्रमाणात परावर्तित होतो. या कमी-जास्त प्रकाशाचा वापर करून तो काळेपणाची पातळी ठरवतो. समजा अशा काळेपणाच्या 8 पातळ्या असतील, तर त्यांना 0 ते 7 असे नंबर देतो. (बायनरी पद्धतीत तेच 000, 001, 010, 011, 100, 101, 110, 110 असे होतील. उदाहरणार्थ, 000 म्हणजे पूर्ण काळा, 001 म्हणजे थोडा कमी काळा... 010 म्हणजे आणखी थोडा कमी काळा, तर 111 म्हणजे पूर्ण पांढरा वगैरे.) आता प्रत्येक कप्प्यासाठी तो या काळेपणासाठीचे बिट्‌स 0 आणि 1 च्या कोड-भाषेत साठवून ठेवतो. असे प्रत्येक कप्प्याचे काळेपणाचे आकडे मग बायनरी बिट्‌समध्ये साठवता येतात. पुन्हा ते चित्र काढायचं असेल, तर कप्प्याकप्प्याचे हे तीन तीन बिट्‌स वाचून त्यानुसार बनणाऱ्या आकड्याप्रमाणं प्रत्येक कप्प्यासाठी पुन्हा तशीच 'काळी छटा' उमटवायची आणि मूळ चित्र उभं करायचं! फॅक्‍स मशीनही साधारणपणे याच तत्त्वावर चालतं. 

आता प्रश्न हा, की आपल्याला कॉम्प्युटरवर इतके शेकडो रंग दिसतात ते कसे? जवळपास कुठलाही रंग हा लाल (R), हिरवा (G) आणि निळा (B) या रंगांच्या वेगवेगळ्या तीव्रतेच्या (शेड्‌स) मिश्रणातून तयार होऊ शकतो हे आपल्याला माहीतच आहे. यामुळे कुठल्याही रंगीत फोटोचे काल्पनिक जाळी ठेवून अनेक कप्पे केले, तर त्यातल्या प्रत्येक कप्प्यासाठी लाल, हिरवा आणि निळा या प्रत्येक रंगांची किती तीव्रता आहे याचे तीन आकडे साठवून ठेवावे लागतील. आधीच्या कृष्णधवल उदाहरणात फक्त काळेपणाच्या शेडसाठी आपण 3 बिट्‌स (8 शेड्‌स) विचारात घेतले होते. प्रत्यक्षात ते जास्त असतात. अनेकदा ते 8 बिट्‌स (256 शेड्‌स) असतात. हेच आपण रंगीत चित्रासाठी वापरलं, तर रंगीत चित्रासाठी लाल, हिरवा आणि निळा या प्रत्येक रंगाच्या शेडसाठी 8 बिट्‌स असू शकतात. म्हणजे प्रत्येक कप्प्यासाठी 8 X 3 = 24 बिट्‌स! यामुळे रंगीत फोटोच्या स्कॅनरसाठी प्रत्येक कप्प्यासाठी खूपच बिट्‌स लागतात. त्या बिट्‌सवरून पुन्हा चित्र उभं करायचं म्हणजे पुन्हा प्रत्येक कप्प्यासाठी असलेले तीन रंगांच्या शेड्‌ससाठीचे तीन आकडे बघायचे, आणि त्या तीन रंगांचे त्या तीव्रतेचे ते ठिपके त्या एकाच जागी म्हणजे एकावर एक ओव्हरलॅप केलेले दाखवायचे. त्या मिश्रणातून मग पाहिजे तो रंग पुन्हा त्या जागी तयार होणार! 

पूर्वी आवाज हा एलपी रेकॉर्डवर किंवा कॅसेटवर 'ऍनेलॉग' पद्धतीनं साठवला जायचा. रेकॉर्ड करताना ध्वनिलहरीप्रमाणंच ज्या वर, खाली जाणाऱ्या सलग (ऍनेलॉग) विद्युतलहरी निर्माण होतील, त्या कॅसेटच्या चुंबकत्वाच्या गुणधर्माचा उपयोग करून त्यावर साठवायच्या म्हणजेच तो आवाज साठवायचा; आणि पुन्हा ती कॅसेट ऐकताना त्या चुंबकत्वाप्रमाणे पुन्हा विद्युतलहरी आणि त्यानंतर तशाच ध्वनीलहरी निर्माण करायच्या म्हणजे पुन्हा ते गाणं तसंच ऐकू यायचं. मात्र, यात एक प्रश्न नेहमी भेडसावायचा. पुन्हा कॅसेट लावली आणि त्यातली टेप बिघडली असेल, तर मात्र पूर्वीसारखा आवाज निघणं कठीणच व्हायचं. मग तंत्रज्ञांना वाटलं, की ऍनेलॉग पद्धतीपेक्षा डिजिटल पद्धत वापरून हा आवाज जर 0 आणि 1 बिट्‌सच्या कोड-भाषेत साठवून ठेवता आला तर? जर पुन्हा वाजवताना थोड्या बिघाडामुळे सिग्नल 0 ऐवजी 0.1 च्या पातळीचा आणि 1 च्या ऐवजी 0.9 च्या पातळीचा निर्माण झाला तरीही ते अनुक्रमे 0 आणि 1 असेच असले पाहिजेच, एवढी अक्कल नक्कीच त्या यंत्रात घालता येईल. त्यामुळे सिग्नलमध्ये थोडाफार जरी बदल झाला, तरी आवाज अगदी पूर्वीप्रमाणेच हुबेहूब निर्माण करता येईल. आज आपण सीडीमध्ये नेमकं हेच करतो. यामुळंच सीडी वाजवताना बऱ्याच महिन्यांनंतरही आवाज चांगला आणि मूळच्यासारखाच निघू शकतो. याच कारणानं जग ऍनेलॉगपासून डिजिटलकडे वळतंय! पण यासाठी आवाजासारख्या ऍनेलॉग सिग्नल्सचं डिजिटल सिग्नल्समध्ये रूपांतर करावं लागतं. हे साधण्यासाठी अनेक पद्धती वापरतात. 'पल्स कोड मॉड्युलेशन (पीसीएम)' ही त्यातलीच एक पद्धती. 

कुठल्याही ऍनेलॉग सिग्नलचा (A) डिजिटल सिग्नल (D) बनवण्यासाठी एक उपकरण (A-D) वापरतात. त्यात ऍनेलॉग सिग्नल थोड्या थोड्या वेळानं स्लाईस करतात; आणि त्याची ठराविक काळाच्या अंतरानं मोजमापं घेतात. यानंतर त्या मोजमापांच्या आकड्यांचं बायनरी आकड्यांमध्ये रूपांतर करून हे 0 आणि 1 च्या स्वरूपातले बिट्‌स साठवले जातात. पुन्हा जेव्हा तो आवाज ऐकण्यासाठी तो मूळचा ऍनेलॉग सिग्नल निर्माण करायचा असेल, तेव्हा या बिट्‌सवरून पुन्हा ते आकडे वाचून त्यावरून त्या स्ट्रेंग्थचा ऍनेलॉग सिग्नल त्या त्या ठिकाणी पुन्हा निर्माण करतात. आणि मग (जवळजवळ) पूर्वीसारखाच ऍनेलॉग सिग्नल मिळतो. या उलट्या पद्धतीला 'D-A' असं म्हणतात. हे शेजारच्या आकृतीत दाखवलंय. ही सोपी पद्धत झाली. (प्रत्यक्षात यापेक्षा जास्त गुंतागुंतीची पद्धत वापरतात). 

सिग्नल्स 
सॅंम्प्लिंग 
ऍनेलॉग टू डिजिटल (A-D) 

1 2 3 4 5 6 7 

वेळ 

या आकृतीत एक ऍनेलॉग सिग्नल दाखवलाय. या सिग्नलच्या ठराविक वेळानंतर जर स्लाइसेस पाडल्या, आणि त्या त्या ठिकाणच्या त्या सिग्नलच्या किंमती किंवा स्ट्रेंग्थ्स बघितल्या, तर आपल्याला 2, 3, 4, 5, 6, 6, 5 अशा किंमती मिळतील असं आकृतीत दाखवलंय. बिटस्‌च्या बायनरी भाषेत 2 म्हणजे 010, 3 म्हणजे 011, 4 म्हणजे 100, 5 म्हणजे 101, 6 म्हणजे 110 असं असल्यामुळे प्रत्येक आकड्याचं 3 बिटस्‌च्या बायनरी भाषेत रूपांतर करून ते बिटस्‌ एकापुढे एक असे ठेवले, तर आपल्याला या ऍनेलॉग सिग्नलचं बायनरी बिट्‌समधलं रुपांतरीत स्वरूप 010011100101110110101 ....असं मिळेल. 

हे बायनरी बिट्‌स मेमरीत किंवा डिस्कवर साठवले जातात. आता जेव्हा आपल्याला यापासून मूळ ऍनेलॉग सिग्नल मिळवायचा असेल, तेव्हा आता पुन्हा तीन तीन बिटस्‌ एकत्र करून आपल्याला दशमान पद्धतीतले 2, 3, 4, 5, 6, 6, 5..... असे आकडे मिळतात. आता हे आकडे म्हणजे ठराविक अंतरांवरच्या सिग्नलची शक्ती (स्ट्रेंग्थ) दाखवतात, असं धरून पुन्हा एक सिग्नल तयार केला आणि ते बिंदू जोडून आलेख काढला, की आपल्याला जवळजवळ पूर्वीसारखाच सिग्नल मिळतो. थोडक्‍यात D-A रूपांतर झालं! 

इथंही पुन्हा दर सेंकदाला जितक्‍या जास्त वेळा आपण सिग्नलचं रीडिंग घेऊ (या दराला 'सॅंपलिंग रेट' असं म्हणतात) तितका तो ऍनेलॉग सिग्नल पूर्वीसारखा रिप्रोड्युस होतो. मात्र, यासाठी जास्त बिट्‌स लागतात. म्हणजे पुन्हा जास्त मेमरी. थोडक्‍यात अचूकता आणि लागणारी मेमरी यातला तो ट्रेड ऑफ असतो. पीसीएममध्ये हा सॅंपलिंगचा दर सेंकदाला 8000 असतो, तर MP3 साठी तो दर सेंकदाला 44100 असतो ! 

मजकूर (टेक्‍स्ट), फोटो आणि आवाज यांचं डिजिटल स्वरूपात रूपांतर कसं करतात हे आपण पाहिलं; पण चलत्‌चित्रांचं (व्हिडिओचं) काय? ऍनिमेशनच्या तत्त्वाचा उपयोग कार्टून फिल्मसाठी करतात. कुठल्याही दृश्‍याची प्रतिमा आपल्या डोळ्यांच्या पडद्यावर 1/10 सेकंदच टिकते. म्हणूनच आपल्याला चित्रं दर सेंकदाला 10 पेक्षा जास्त दरानं दाखवतात. त्यामुळे आपल्या डोळ्यांच्या पडद्यावरची पहिली प्रतिमा पुसण्याच्या आतच जर दुसरं चित्र आपण पाहिलं तर आणि दुसरं पुसण्याच्या आतच आपण तिसरं बघितलं, आणि असं करत राहिलं, तर सगळ्या चित्रांमध्ये आपल्याला सलगता भासते. ही आपल्या डोळ्यांची फसवणूक असते. हेच तत्त्व वापरून डिजिटल कॅमेऱ्यानं काढलेले क्रिकेट मॅचचे फोटो आपल्या स्क्रीनवर दर सेंकदाला 10 पेक्षा जास्त (कित्येक वेळा 24) दरानं दाखवले, की आपल्याला सलग व्हीडिओ बघायला मिळतो. मोबाईलमध्येही आपण एखादा व्हिडिओ बघतो तेव्हाही हेच होतं. पण मग दर सेंकदाला एवढे डिजिटल फोटो दाखवायचे म्हणजे बिट्‌सही तेवढेच जास्त लागतात. म्हणूनच डीव्हीडीसाठी किंवा व्हिडिओसाठी गाण्याच्या सीडीपेक्षा जास्त मेमरी लागते. 

'सप्तरंग'मधील सर्व लेख वाचण्यासाठी क्लिक करा


स्पष्ट, नेमक्या आणि विश्वासार्ह बातम्या वाचण्यासाठी 'सकाळ'चे मोबाईल अॅप डाऊनलोड करा
Web Title: What Is Multimedia explains Achyut Godbole