प्रकरण ०१ डेटा - त्याचा स्रोत आणि संकलन

तुम्ही नक्कीच विविध प्रकारची डेटा पाहिली असतील आणि वापरली असतील. उदाहरणार्थ, दूरदर्शनवरील जवळजवळ प्रत्येक बातम्या बुलेटिनच्या शेवटी, त्या दिवशी मोठ्या शहरांमध्ये नोंदवलेल्या तापमानाची माहिती दाखवली जाते. त्याचप्रमाणे, भारताच्या भूगोलावरील पुस्तके लोकसंख्येची वाढ आणि वितरण, आणि विविध पिके, खनिजे आणि औद्योगिक उत्पादनांचे उत्पादन, वितरण आणि व्यापार यांच्याशी संबंधित डेटा सारणीच्या रूपात दाखवतात. तुम्ही कधी विचार केला आहे का की याचा अर्थ काय आहे? हा डेटा कोठून मिळतो? त्यातून अर्थपूर्ण माहिती काढण्यासाठी त्यांचे सारणीकरण आणि प्रक्रिया कशी केली जाते? या प्रकरणात, आपण डेटाच्या या पैलूंवर चर्चा करू आणि या अनेक प्रश्नांची उत्तरे देण्याचा प्रयत्न करू.

डेटा म्हणजे काय?

डेटा ही अशी संख्या म्हणून परिभाषित केली जाते जी वास्तविक जगातील मोजमापांचे प्रतिनिधित्व करतात. डेटम हे एक एकल मोजमाप असते. आपण बातम्या वाचतो की बारमेरमध्ये 20 सेंटीमीटर सतत पाऊस पडला किंवा 24 तासात बांसवाड्यात एकाच वेळी 35 सेंटीमीटर पाऊस पडला किंवा नवी दिल्ली - मुंबई हे अंतर कोटा वडोदरा मार्गे 1385 किलोमीटर आहे आणि इटारसी - मनमाड मार्गे रेल्वेने 1542 किलोमीटर आहे अशी माहिती. या संख्यात्मक माहितीला डेटा म्हणतात. हे सहज लक्षात येईल की आज जगभरात मोठ्या प्रमाणात डेटा उपलब्ध आहे. तथापि, कधीकधी, हा डेटा कच्च्या स्वरूपात असल्यास त्यातून तार्किक निष्कर्ष काढणे कठीण जाते. म्हणून, मोजलेली माहिती अल्गोरिदमिकरित्या मिळवली गेली आहे आणि/किंवा तार्किकरित्या काढली गेली आहे आणि/किंवा एकाधिक डेटामधून सांख्यिकीयरित्या गणना केली गेली आहे याची खात्री करणे महत्त्वाचे आहे. माहिती ही एकतर प्रश्नाचे अर्थपूर्ण उत्तर किंवा पुढील प्रश्नांमध्ये साखळीबद्ध होऊ शकणारा एक अर्थपूर्ण उत्तेजक म्हणून परिभाषित केली जाते.

डेटाची गरज

नकाशे हे भूगोलाचा अभ्यास करण्यासाठी महत्त्वाची साधने आहेत. त्याशिवाय, घटनांचे वितरण आणि वाढ हे देखील सारणीच्या रूपातील डेटाद्वारे स्पष्ट केले जाते. आपल्याला माहित आहे की पृथ्वीच्या पृष्ठभागावर अनेक घटनांमध्ये परस्परसंबंध अस्तित्वात आहे. या परस्परसंबंधांवर अनेक चलांचा प्रभाव पडतो ज्यांचे स्पष्टीकरण परिमाणात्मक संज्ञांमध्ये सर्वोत्तम दिले जाऊ शकते. त्या चलांचे सांख्यिकीय विश्लेषण आज एक आवश्यकता बनले आहे. उदाहरणार्थ, एखाद्या क्षेत्राची पीक पद्धत अभ्यासण्यासाठी, पिकाचे क्षेत्र, पीक उत्पादन आणि उत्पादन, सिंचनक्षेत्र, पावसाचे प्रमाण आणि खते, कीटकनाशके, कीटकनाशके इत्यादी वापर यासारख्या आदानांची सांख्यिकीय माहिती असणे आवश्यक आहे. त्याचप्रमाणे, शहराच्या वाढीचा अभ्यास करण्यासाठी एकूण लोकसंख्या, घनता, स्थलांतरितांची संख्या, लोकांचे व्यवसाय, त्यांचे पगार, उद्योग, वाहतूक आणि दळणवळणाची साधने यांच्याशी संबंधित डेटा आवश्यक आहे. अशाप्रकारे, डेटा भूगोलशास्त्रीय विश्लेषणात महत्त्वपूर्ण भूमिका बजावतो.

डेटाचे सादरीकरण

तुम्ही एका व्यक्तीची कथा ऐकली असेल जो त्याच्या पत्नी आणि पाच वर्षांच्या मुलासोबत प्रवास करत होता. त्याच्या मार्गात, त्याला एक नदी ओलांडावी लागली. सर्वप्रथम, त्याने नदीची खोली चार बिंदूंवर $0.6,0.8,0.9$ आणि 1.5 मीटर मोजली. त्याने सरासरी खोली 0.95 मीटर मोजली. त्याच्या मुलाची उंची 1 मीटर होती. म्हणून, त्याने त्यांना नदी ओलांडण्यासाठी नेले आणि त्याचे मूल नदीत बुडाले. दुसऱ्या काठावर, तो विचार करीत बसला: “लेखा जोखा थाहे, तो बच्चा डूबा काहे?” (सरासरी खोली प्रत्येकाच्या पोहोचीत असताना मूल का बुडाले?). याला सांख्यिकीय भ्रम म्हणतात, जे तुम्हाला वास्तविक परिस्थितीपासून दूर नेऊ शकते. म्हणून, तथ्ये आणि आकडे जाणून घेण्यासाठी डेटा गोळा करणे महत्त्वाचे आहे, परंतु डेटाचे सादरीकरण तितकेच महत्त्वाचे आहे. आज, डेटा वापरणाऱ्या भूगोलासह जवळजवळ सर्व विषयांमध्ये, विश्लेषण, सादरीकरण आणि निष्कर्ष काढण्यात सांख्यिकीय पद्धतींचा वापर महत्त्वपूर्ण भूमिका बजावतो. म्हणून, असे अनुमान काढले जाऊ शकते की लोकसंख्या, वन किंवा वाहतूक किंवा दळणवळणाचे जाळे यासारख्या घटनेची एकाग्रता केवळ जागा आणि काळानुसार बदलत नाही तर डेटा वापरून सोयीस्करपणे स्पष्ट केली जाऊ शकते. दुसऱ्या शब्दांत, तुम्ही असे म्हणू शकता की चलांमधील संबंध स्पष्ट करताना गुणात्मक वर्णनापासून परिमाणात्मक विश्लेषणाकडे बदल झाला आहे. म्हणून, अभ्यास अधिक तार्किक बनवण्यासाठी आणि अचूक निष्कर्ष काढण्यासाठी विश्लेषणात्मक साधने आणि तंत्रे आजकाल अधिक महत्त्वाची बनली आहेत. डेटा गोळा करणे आणि संकलित करण्यापासून ते त्याचे सारणीकरण, संघटना, क्रमवारी आणि विश्लेषण करण्यापर्यंत निष्कर्ष काढण्यापर्यंत अचूक परिमाणात्मक तंत्रे वापरली जातात.

डेटाची स्रोत

डेटा खालील मार्गांनी गोळा केला जातो. ते आहेत: 1. प्राथमिक स्रोत, आणि 2. दुय्यम स्रोत.

एखाद्या व्यक्ती किंवा व्यक्तींच्या गटाने, संस्था/संघटनांद्वारे प्रथमच गोळा केलेल्या डेटाला डेटाचे प्राथमिक स्रोत म्हणतात. दुसरीकडे, कोणत्याही प्रकाशित किंवा अप्रकाशित स्रोतांमधून गोळा केलेल्या डेटाला दुय्यम स्रोत म्हणतात. आकृती 1.1 डेटा संकलनाच्या विविध पद्धती दर्शवते.

प्राथमिक डेटाचे स्रोत

1. वैयक्तिक निरीक्षणे

याचा अर्थ क्षेत्रातील थेट निरीक्षणाद्वारे एखाद्या व्यक्ती किंवा व्यक्तींच्या गटाद्वारे माहितीचे संकलन होय. क्षेत्र सर्वेक्षणाद्वारे, भूप्रदेशाची वैशिष्ट्ये, ड्रेनेज पॅटर्न, मातीचे प्रकार आणि नैसर्गिक वनस्पती, तसेच लोकसंख्या रचना, लिंग गुणोत्तर, साक्षरता, वाहतूक आणि दळणवळणाची साधने, शहरी आणि ग्रामीण वस्ती इत्यादी माहिती गोळा केली जाते. तथापि,

आकृती 1.1 : डेटा संकलनाच्या पद्धती

वैयक्तिक निरीक्षणे करताना, संबंधित व्यक्ती(च्या)कडे विषयाचे सैद्धांतिक ज्ञान आणि पक्षपातरहित मूल्यांकनासाठी वैज्ञानिक दृष्टिकोन असणे आवश्यक आहे.

2. मुलाखत

या पद्धतीमध्ये, संशोधक प्रत्यक्ष संवाद आणि संभाषणाद्वारे उत्तरदात्याकडून थेट माहिती मिळवतो. तथापि, त्या क्षेत्रातील लोकांशी मुलाखत घेताना मुलाखतकाराने खालील खबरदारी घेतली पाहिजे:

(i) मुलाखत घेतलेल्या व्यक्तींकडून गोळा करायची माहिती यासंबंधी वस्तूंची एक अचूक यादी तयार करावी.

(ii) मुलाखत घेण्यात गुंतलेल्या व्यक्ती(च्या)ना सर्वेक्षणाचे उद्दिष्ट स्पष्ट असावे.

(iii) कोणताही संवेदनशील प्रश्न विचारण्यापूर्वी उत्तरदात्यांवर विश्वास ठेवला पाहिजे आणि त्याला/तिला गोपनीयता राखली जाईल याची खात्री दिली पाहिजे.

(iv) एक अनुकूल वातावरण निर्माण केले पाहिजे जेणेकरून उत्तरदाता कोणत्याही संकोचाशिवाय तथ्ये स्पष्ट करू शकेल.

(v) प्रश्नांची भाषा सोपी आणि सभ्य असावी जेणेकरून उत्तरदात्यांना प्रेरणा मिळेल आणि विचारलेली माहिती देण्यास ते सहमत होतील.

(vi) उत्तरदात्याच्या स्वाभिमानाला किंवा धार्मिक भावनांना दुखापत होईल असा कोणताही प्रश्न विचारणे टाळावे.

(vii) मुलाखतीच्या शेवटी, उत्तरदात्याला विचारा की त्याने/तिने आधीच दिलेल्या माहितीशिवाय त्याला/तिला कोणती अतिरिक्त माहिती देता येईल.

(viii) तुमच्यासाठी त्यांचा/तिचा मौल्यवान वेळ देण्याबद्दल आपले आभार आणि कृतज्ञता व्यक्त करा.

3. प्रश्नावली/अनुसूची

या पद्धतीमध्ये, साधे प्रश्न आणि त्यांची संभाव्य उत्तरे एका साध्या कागदावर लिहिली जातात आणि उत्तरदात्यांना दिलेल्या पर्यायांमधून संभाव्य उत्तरांवर टिक मार्क करावा लागतो. कधीकधी, संरचित प्रश्नांचा एक संच लिहिला जातो आणि प्रश्नावलीमध्ये पुरेसी जागा उपलब्ध करून दिली जाते जिथे उत्तरदाते त्यांचे मत लिहितात. सर्वेक्षणाची उद्दिष्टे प्रश्नावलीमध्ये स्पष्टपणे नमूद केली पाहिजेत. ही पद्धत मोठ्या क्षेत्राचे सर्वेक्षण करण्यासाठी उपयुक्त आहे. अगदी दूरच्या ठिकाणी प्रश्नावली पाठवता येऊ शकते. या पद्धतीची मर्यादा अशी आहे की केवळ साक्षर आणि शिक्षित लोकांकडे आवश्यक माहिती देण्यासाठी संपर्क साधला जाऊ शकतो. प्रश्नावलीप्रमाणेच तपासणीच्या विषयाशी संबंधित प्रश्न असलेली अनुसूची असते. प्रश्नावली आणि अनुसूची यातील फरक एवढाच आहे की उत्तरदाता स्वतः प्रश्नावली भरतो/भरते, तर एक योग्य प्रशिक्षित गणक स्वतः उत्तरदात्यांना संबोधित केलेले प्रश्न विचारून अनुसूची भरतो. प्रश्नावलीपेक्षा अनुसूचीचा मुख्य फायदा असा आहे की साक्षर आणि निरक्षर दोन्ही उत्तरदात्यांकडून माहिती गोळा करता येते.

4. इतर पद्धती

माती आणि पाण्याच्या गुणधर्मांबद्दलचा डेटा माती किट आणि पाणी गुणवत्ता किट वापरून त्यांची वैशिष्ट्ये मोजून थेट क्षेत्रात गोळा केला जातो. त्याचप्रमाणे, क्षेत्रातील शास्त्रज्ञ ट्रान्सड्यूसर (आकृती 1.2) वापरून पिके आणि वनस्पतींच्या आरोग्याबद्दल डेटा गोळा करतात.

दुय्यम डेटाचा स्रोत

दुय्यम डेटाच्या स्रोतांमध्ये प्रकाशित आणि अप्रकाशित अहवालांचा समावेश होतो ज्यात सरकारी प्रकाशने, दस्तऐवज आणि अहवाल समाविष्ट असतात.

प्रकाशित स्रोत

1. सरकारी प्रकाशने

भारत सरकार, राज्य सरकारे आणि जिल्हा बुलेटिनच्या विविध मंत्रालये आणि विभागांची प्रकाशने हे दुय्यम माहितीचे सर्वात महत्त्वाचे स्रोतांपैकी एक आहेत. यामध्ये भारताच्या रजिस्ट्रार जनरलच्या कार्यालयाद्वारे प्रकाशित भारताची जनगणना, राष्ट्रीय नमुना सर्वेक्षणाचे अहवाल, भारतीय हवामान विभागाचे हवामान अहवाल आणि राज्य सरकारांद्वारे प्रकाशित सांख्यिकीय सारांश आणि विविध आयोगांद्वारे प्रकाशित नियतकालिक अहवालांचा समावेश होतो. काही सरकारी प्रकाशने आकृती 1.3 मध्ये दाखवली आहेत.

आकृती 1.2 : पीक आरोग्याची मोजमापे घेणारे क्षेत्र शास्त्रज्ञ

आकृती 1.3 : काही सरकारी प्रकाशने

2. अर्ध/अर्ध-सरकारी प्रकाशने

विविध शहरे आणि कसब्यांच्या शहरी विकास प्राधिकरणे आणि महानगरपालिका, जिल्हा परिषद इत्यादींची प्रकाशने आणि अहवाल या श्रेणीत येतात.

3. आंतरराष्ट्रीय प्रकाशने

आंतरराष्ट्रीय प्रकाशनांमध्ये संयुक्त राष्ट्रांच्या विविध संस्थांद्वारे प्रकाशित वार्षिक पुस्तके, अहवाल आणि मोनोग्राफचा समावेश होतो, जसे की संयुक्त राष्ट्र शैक्षणिक, वैज्ञानिक आणि सांस्कृतिक संघटना (युनेस्को), संयुक्त राष्ट्र विकास कार्यक्रम (यूएनडीपी), जागतिक आरोग्य संघटना (डब्ल्यूएचओ), अन्न आणि कृषी संघटना (एफएओ) इ. संयुक्त राष्ट्रांची काही महत्त्वाची प्रकाशने जी नियतकालिकपणे प्रकाशित केली जातात ती आहेत डेमोग्राफिक इयर बुक, स्टॅटिस्टिकल इयर बुक आणि ह्यूमन डेव्हलपमेंट रिपोर्ट (आकृती 1.4).

आकृती 1.4 : संयुक्त राष्ट्रांची काही प्रकाशने

4. खाजगी प्रकाशने

वृत्तपत्रे आणि खाजगी संस्थांद्वारे प्रकाशित वार्षिक पुस्तके, सर्वेक्षणे, संशोधन अहवाल आणि मोनोग्राफ या श्रेणीत येतात.

5. वृत्तपत्रे आणि मासिके

दैनिक वृत्तपत्रे आणि साप्ताहिक, पाक्षिक आणि मासिक मासिके हे सहज उपलब्ध दुय्यम डेटाचे स्रोत म्हणून काम करतात.

6. इलेक्ट्रॉनिक मीडिया

इलेक्ट्रॉनिक मीडिया, विशेषतः इंटरनेट, अलीकडच्या काळात दुय्यम डेटाचा एक प्रमुख स्रोत म्हणून उदयास आला आहे.

अप्रकाशित स्रोत

1. सरकारी दस्तऐवज

अप्रकाशित अहवाल, मोनोग्राफ आणि दस्तऐवज हे दुय्यम डेटाचे आणखी एक स्रोत आहेत. हे दस्तऐवज शासनाच्या विविध स्तरांवर अप्रकाशित अहवाल म्हणून तयार केले जातात आणि राखले जातात. उदाहरणार्थ, संबंधित गावांच्या पाटवारांद्वारे राखलेले गाव पातळीचे महसूल अहवाल हे गाव पातळीच्या माहितीचा एक महत्त्वाचा स्रोत म्हणून काम करतात.

2. अर्ध-सरकारी अहवाल

विविध महानगरपालिका, जिल्हा परिषद आणि नागरी सेवा विभागांद्वारे तयार केलेले आणि राखलेले नियतकालिक अहवाल आणि विकास योजना यांचा अर्ध-सरकारी अहवालांमध्ये समावेश होतो.

3. खाजगी दस्तऐवज

यामध्ये कंपन्या, व्यापार संघटना, विविध राजकीय आणि अराजकीय संघटना आणि रहिवाशांच्या कल्याण संघटनांचे अप्रकाशित अहवाल आणि अहवालांचा समावेश होतो.

डेटाचे सारणीकरण आणि वर्गीकरण

प्राथमिक किंवा दुय्यम स्रोतांमधून गोळा केलेला डेटा सुरुवातीला कमीत कमी आकलनासह माहितीच्या मोठ्या गोंधळाच्या रूपात दिसतो. याला कच्चा डेटा म्हणतात. अर्थपूर्ण अनुमान काढण्यासाठी आणि त्यांना वापरण्यायोग्य बनवण्यासाठी कच्च्या डेटाला सारणीकरण आणि वर्गीकरण आवश्यक असते.

डेटाचा सारांश सादर करण्यासाठी आणि सादर करण्यासाठी सर्वात सोपी साधने पैकी एक म्हणजे सांख्यिकीय सारणी. ही स्तंभ आणि पंक्तींमध्ये डेटाची एक पद्धतशीर मांडणी आहे. सारणीचा उद्देश सादरीकरण सुलभ करणे आणि तुलना सुलभ करणे हा आहे. ही सारणी वाचकाला इच्छित माहिती पटकन शोधण्यास सक्षम करते. अशाप्रकारे, सारण्या विश्लेषकाला किमान जागेत सुव्यवस्थित पद्धतीने डेटाचा प्रचंड द्रव्यमान सादर करणे शक्य करतात.

डेटा संकलन आणि सादरीकरण

डेटा गोळा केला जातो, सारणीबद्ध केला जातो आणि सारणीच्या स्वरूपात निरपेक्ष संज्ञा, टक्केवारी किंवा निर्देशांकांमध्ये सादर केला जातो.

निरपेक्ष डेटा

जेव्हा डेटा त्याच्या मूळ स्वरूपात पूर्णांक म्हणून सादर केला जातो, तेव्हा त्याला निरपेक्ष डेटा किंवा कच्चा डेटा म्हणतात. उदाहरणार्थ, देशाची किंवा राज्याची एकूण लोकसंख्या, पीक किंवा उत्पादन उद्योगाचे एकूण उत्पादन इ. सारणी 1.1 भारत आणि काही निवडलेल्या राज्यांच्या लोकसंख्येचा निरपेक्ष डेटा दर्शवते.

$\hspace{1cm}$ सारणी 1.1 : भारत आणि निवडलेल्या राज्ये/केंद्रशासित प्रदेशांची लोकसंख्या, 2011

राज्य/
केंद्रशासित प्रदेश कोड
भारत/राज्य/
केंद्रशासित प्रदेश
एकूण लोकसंख्या
व्यक्ती पुरुष स्त्रिया
1 2 3 4 5
भारत $^{1}$ $1,21,05,69,573$ $62,31,21,843$ $58,74,47,730$
1. जम्मू आणि काश्मीर ${ }^{2}$ $1,25,41,302$ $66,40,662$ $59,00,640$
2. हिमाचल प्रदेश $68,64,602$ $34,81,873$ $33,82,729$
3. पंजाब $2,77,43,338$ $1,46,39,465$ $1,31,03,873$
4. चंदीगड $^{3}$ $10,55,450$ $5,80,663$ $4,74,787$
5. उत्तराखंड $1,00,86,292$ $51,37,773$ $49,48,519$
6. हरियाणा $2,53,51,462$ $1,34,94,734$ $1,18,56,728$
7. राष्ट्रीय राजधानी
क्षेत्र दिल्ली
$1,67,87,941$ $89,87,326$ $78,00,615$
8. राजस्थान $6,85,48,437$ $3,55,50,997$ $3,29,97,440$
9. उत्तर प्रदेश $19,98,12,341$ $10,44,80,510$ $9,53,31,831$
10 बिहार $10,40,99,452$ $5,42,78,157$ $4,98,21,295$

${ }^{1}$ भारताच्या सर्व प्रादेशिक सीमांचा समावेश
${ }^{2}$ पीओके वगळून
${ }^{3}$ केंद्रशासित प्रदेश
स्रोत : जनगणना, 2011

टक्केवारी/गुणोत्तर

काही वेळा डेटा गुणोत्तर किंवा टक्केवारीच्या स्वरूपात सारणीबद्ध केला जातो जो सामान्य पॅरामीटरवरून मोजला जातो, जसे की साक्षरता दर किंवा लोकसंख्येचा वाढीचा दर, कृषी उत्पादनांची किंवा औद्योगिक उत्पादनांची टक्केवारी इ. सारणी 1.2 सादर करते टक्केवारीच्या स्वरूपात दशकांमधील भारताचे साक्षरता दर. साक्षरता दर खालीलप्रमाणे मोजला जातो:

$$ \frac{\text { Total Literates }}{\text { Total Population }} \times 100 $$

सारणी 1.2 : साक्षरता दर : 1951 – 2011

वर्ष व्यक्ती पुरुष स्त्री
1951 18.33 27.16 8.86
1961 28.3 40.4 15.35
1971 34.45 45.96 21.97
1981 43.57 56.38 29.76
1991 52.21 64.13 39.29
2001 64.84 75.85 54.16
2011 73.0 80.9 64.6

स्रोत: जनगणना, 2011

निर्देशांक क्रमांक

निर्देशांक क्रमांक हे एक सांख्यिकीय माप आहे जे वेळ, भौगोलिक स्थान किंवा इतर वैशिष्ट्यांच्या संदर्भात चल किंवा संबंधित चलांच्या गटातील बदल दर्शविण्यासाठी डिझाइन केलेले आहे. हे लक्षात घेणे महत्त्वाचे आहे की निर्देशांक क्रमांक केवळ कालावधीत बदल मोजत नाहीत तर विविध स्थाने, उद्योग, शहरे किंवा देशांच्या आर्थिक परिस्थितीची तुलना देखील करतात. निर्देशांक क्रमांक अर्थशास्त्र आणि व्यवसायात मोठ्या प्रमाणावर वापरला जातो जेणेकरून किंमत आणि प्रमाणातील बदल पाहता येतील. निर्देशांक क्रमांकाची गणना करण्यासाठी विविध पद्धती आहेत. तथापि, साधी एकत्रित पद्धत सर्वात सामान्यपणे वापरली जाते. हे खालील सूत्र वापरून प्राप्त केले जाते:

$$ \frac{\sum q_{1}}{\sum q_{0}} \times 100 $$

$\sum q_{1}=$ चालू वर्षाच्या उत्पादनाची एकूण बेरीज

$\sum q_{0}=$ आधार वर्षाच्या उत्पादनाची एकूण बेरीज

साधारणपणे, आधार वर्षाची मूल्ये 100 म्हणून घेतली जातात आणि त्यावर निर्देशांक क्रमांक मोजला जातो. उदाहरणार्थ, सारणी 1.3 भारतात लोखंडाच्या खनिजाचे उत्पादन आणि 1970-71 ला आधार वर्ष म्हणून घेऊन 1970-71 ते 2000-01 पर्यंत निर्देशांक क्रमांकातील बदल दर्शवते.