अध्याय 03 डेटा का संगठन
1. भूमिका
पिछले अध्याय में आपने सीखा कि डेटा कैसे एकत्र किया जाता है। आपको यह भी पता चला कि जनगणना और नमूने में क्या अंतर होता है। इस अध्याय में आप जानेंगे कि आपके द्वारा एकत्र किया गया डेटा कैसे वर्गीकृत किया जाएगा। कच्चे डेटा को वर्गीकृत करने का उद्देश्य उनमें क्रम लाना होता है ताकि उन्हें आगे सांख्यिकीय विश्लेषण के लिए आसानी से प्रयोग किया जा सके।
क्या आपने कभी अपने स्थानीय कबाड़ी वाले या कबाड़ीवाले को देखा है जिसे आप पुराने अखबार, टूटे-फूटे घरेलू सामान, खाली कांच की बोतलें, प्लास्टिक आदि बेचते हैं? वह ये चीजें आपसे खरीदता है और उन्हें उन लोगों को बेचता है जो इनका पुनर्चक्रण करते हैं। लेकिन उसकी दुकान में इतना सारा कबाड़ होता है कि अगर उसने उन्हें ठीक से संगठित नहीं किया होता तो उसके लिए अपना व्यापार चलाना बहुत मुश्किल हो जाता। अपनी स्थिति को आसान बनाने के लिए वह विभिन्न कबाड़ को उपयुक्त रूप से समूहों में या “वर्गीकृत” करता है। वह पुराने अखबारों को एक साथ रखता है और उन्हें रस्सी से बांधता है। फिर सभी खाली कांच की बोतलों को एक बोरी में इकट्ठा करता है। वह धातुओं की वस्तुओं को अपनी दुकान के एक कोने में ढेर लगाकर रखता है और उन्हें “लोहा”, “तांबा”, “एल्युमिनियम”, “पीतल” आदि जैसे समूहों में बांटता है, और इसी तरह। इस प्रकार वह अपने कबाड़ को विभिन्न वर्गों में - “अखबार”, “प्लास्टिक”, “कांच”, “धातु” आदि - बांटता है और उनमें क्रम लाता है। एक बार जब उसका कबाड़ व्यवस्थित और वर्गीकृत हो जाता है, तो उसे कोई विशेष वस्तु खोजना आसान हो जाता है जिसकी कोई खरीदार मांग कर सकता है।
Likewise when you arrange your schoolbooks in a certain order, it becomes easier for you to handle them. You may classify them according to subjects where each subject becomes a group or a class. So, when you need a particular book on history, for instance, all you need to do is to search that book in the group “History”. Otherwise, you would have to search through your entire collection to find the particular book you are looking for.
While classification of objects or things saves our valuable time and effort, it is not done in an arbitrary manner. The kabadiwallah groups his junk according to the markets for reused goods. For example, under the group “Glass” he would put empty bottles, broken mirrors and windowpanes, etc. Similarly when you classify your history books under the group “History” you would not put a book of a different subject in that group. Otherwise the entire purpose of grouping would be lost. Classification, therefore, is arranging or organising things into groups or classes based on some criteria.
Activity
- Visit your local post-office to find out how letters are sorted. Do you know what the pin-code in a letter indicates? Ask your postman.
2. Raw Data
कबड़ीवाले के कबाड़ की तरह, अवर्गीकृत डेटा या कच्चा डेटा अत्यधिक असंगठित होता है। वे अक्सर बहुत बड़े और संभालने में कठिन होते हैं। इनसे सार्थक निष्कर्ष निकालना एक थकाऊ कार्य है क्योंकि ये आसानी से सांख्यिकीय विधियों के अधीन नहीं होते। इसलिए किसी भी व्यवस्थित सांख्यिकीय विश्लेषण से पहले ऐसे डेटा की उचित संगठना और प्रस्तुति आवश्यक है। इसलिए डेटा एकत्र करने के बाद अगला चरण उन्हें संगठित करना और वर्गीकृत रूप में प्रस्तुत करना है।
मान लीजिए आप विद्यार्थियों की गणित में प्रदर्शन जानना चाहते हैं और आपने अपने स्कूल के 100 विद्यार्थियों के गणित में अंकों का डेटा एकत्र किया है। यदि आप उन्हें एक सारणी के रूप में प्रस्तुत करें, तो वे कुछ इस तरह दिखाई दे सकते हैं जैसे तालिका 3.1।
तालिका 3.1 एक परीक्षा में 100 विद्यार्थियों द्वारा प्राप्त गणित में अंक
| 47 | 45 | 10 | 60 | 51 | 56 | 66 | 100 | 49 | 40 |
| 60 | 59 | 56 | 55 | 62 | 48 | 59 | 55 | 51 | 41 |
| 42 | 69 | 64 | 66 | 50 | 59 | 57 | 65 | 62 | 50 |
| 64 | 30 | 37 | 75 | 17 | 56 | 20 | 14 | 55 | 90 |
| 62 | 51 | 55 | 14 | 25 | 34 | 90 | 49 | 56 | 54 |
| 70 | 47 | 49 | 82 | 40 | 82 | 60 | 85 | 65 | 66 |
| 49 | 44 | 64 | 69 | 70 | 48 | 12 | 28 | 55 | 65 |
| 49 | 40 | 25 | 41 | 71 | 80 | 0 | 56 | 14 | 22 |
| 66 | 53 | 46 | 70 | 43 | 61 | 59 | 12 | 30 | 35 |
| 45 | 44 | 57 | 76 | 82 | 39 | 32 | 14 | 90 | 25 |
या आप अपने पड़ोस के 50 घरों पर भोजन पर मासिक खर्च का आंकड़ा एकत्र कर सकते थे ताकि उनका औसत भोजन खर्च जाना जा सके। उस स्थिति में एकत्र किया गया आंकड़ा, यदि आप उसे सारणी के रूप में प्रस्तुत करते, तो वह सारणी 3.2 जैसा दिखता। सारणी 3.1 और 3.2 दोनों ही कच्चे या अवर्गीकृत आंकड़े हैं। दोनों सारणियों में आप देखेंगे कि संख्याएँ किसी क्रम में नहीं रखी गई हैं। अब यदि आपसे सारणी 3.1 से गणित में अधिकतम अंक माँगे जाएँ तो आपको पहले 100 विद्यार्थियों के अंकों को या तो आरोही या अवरोही क्रम में व्यवस्थित करना होगा। यह एक थकाऊ कार्य है। यह और भी अधिक थकाऊ हो जाता है यदि 100 की जगह आपके पास 1,000 विद्यार्थियों के अंक हों। इसी प्रकार, सारणी 3.2 में आप देखेंगे कि 50 घरों का औसत मासिक खर्च ज्ञात करना आपके लिए कठिन है। और यह कठिनाई कई गुना बढ़ जाएगी यदि संख्या बड़ी हो—मान लीजिए, 5,000 घर। जैसे हमारे कबाड़ीवाले को अपना कबाड़ बड़ा और बेतरतीब हो जाने पर कोई विशेष वस्तु ढूँढ़ने में परेशानी होती है, वैसी ही स्थिति आपके साथ होगी जब आप बड़े कच्चे आंकड़ों से कोई सूचना निकालने की कोशिश करेंगे। एक शब्द में, इसलिए, बड़े अवर्गीकृत आंकड़ों से सूचना निकालना एक थकाऊ कार्य है।
सारणी 3.2 50 घरों का भोजन पर मासिक घरेलू व्यय (रुपयों में)
| — | — | — | — | — |
|---|---|---|---|---|
| 1904 | 1559 | 3473 | 1735 | 2760 |
| 2041 | 1612 | 1753 | 1855 | 4439 |
| 5090 | 1085 | 1823 | 2346 | 1523 |
| 1211 | 1360 | 1110 | 2152 | 1183 |
| 1218 | 1315 | 1105 | 2628 | 2712 |
| 4248 | 1812 | 1264 | 1183 | 1171 |
| 1007 | 1180 | 1953 | 1137 | 2048 |
| 2025 | 1583 | 1324 | 2621 | 3676 |
| 1397 | 1832 | 1962 | 2177 | 2575 |
| 1293 | 1365 | 1146 | 3222 | 1396 |
कच्चे आँकड़ों का सारांश तैयार किया जाता है और उन्हें वर्गीकरण द्वारा समझने योग्य बनाया जाता है। जब समान लक्षणों वाले तथ्यों को एक ही वर्ग में रखा जाता है, तो इससे उन्हें आसानी से खोजा जा सकता है, तुलना की जा सकती है और बिना किसी कठिनाई के निष्कर्ष निकाले जा सकते हैं। आपने अध्याय 2 में पढ़ा है कि भारत सरकार दस-दस वर्षों पर जनगणना करती है। वर्ष 2001 की जनगणना में लगभग 20 करोड़ व्यक्तियों से संपर्क किया गया था। जनगणना के कच्चे आँकड़े इतने विशाल और टुकड़ों में बँटे हुए होते हैं कि उनसे कोई सार्थक निष्कर्ष निकालना लगभग असंभव-सा प्रतीत होता है। परंतु जब उन्हीं आँकड़ों को लिंग, शिक्षा, वैवाहिक स्थिति, व्यवसाय आदि के अनुसार वर्गीकृत किया जाता है, तब भारत की जनसंख्या की संरचना और स्वरूप को आसानी से समझा जा सकता है।
कच्चे आंकड़े चरों पर प्रेक्षणों से बने होते हैं। तालिका 3.1 और 3.2 में दिए गए कच्चे आंकड़े किसी विशिष्ट चर या चरों के समूह पर प्रेक्षणों से बने हैं। उदाहरण के लिए तालिका 3.1 देखिए जिसमें 100 विद्यार्थियों द्वारा गणित में प्राप्त अंक हैं। हम इन अंकों का अर्थ कैसे समझ सकते हैं? इन अंकों को देखते हुए गणित की शिक्षिका सोच रही होगी—मेरे विद्यार्थियों ने कैसा प्रदर्शन किया है? कितने अनुत्तीर्ण हुए हैं? हम आंकड़ों को किस प्रकार वर्गीकृत करते हैं, यह इस उद्देश्य पर निर्भर करता है जो हमारे मन में है। इस स्थिति में शिक्षिका इन विद्यार्थियों के प्रदर्शन को कुछ गहराई से समझना चाहती है। वह सम्भवतः बारंबारता बंटन बनाने का विकल्प चुनेगी। इसकी चर्चा अगले खंड में की गई है।
गतिविधि
- एक वर्ष के लिए अपने परिवार के कुल साप्ताहिक व्यय के आंकड़े इकट्ठा कीजिए और उन्हें एक सारणी में व्यवस्थित कीजिए। देखिए आपके पास कितने प्रेक्षण हैं। आंकड़ों को मासिक क्रम में व्यवस्थित कीजिए और प्रेक्षणों की संख्या ज्ञात कीजिए।
3. आंकड़ों का वर्गीकरण
वर्गीकरण के समूह या वर्ग विभिन्न प्रकार से किए जाते हैं। अपनी पुस्तकों को विषयों के अनुसार—“इतिहास”, “भूगोल”, “गणित”, “विज्ञान” आदि—वर्गीकृत करने के बजाय आप उन्हें लेखक के नाम के अनुसार वर्णानुक्रम में भी वर्गीकृत कर सकते थे। या फिर आप उन्हें प्रकाशन वर्ष के अनुसार भी वर्गीकृत कर सकते थे। आप उन्हें जिस प्रकार वर्गीकृत करना चाहेंगे, वह आपकी आवश्यकता पर निर्भर करेगा।
इसी प्रकार, कच्चे आंकड़ों को विभिन्न प्रकार से उसके उद्देश्य के अनुसार वर्गीकृत किया जाता है। इन्हें समय के अनुसार समूहित किया जा सकता है। इस प्रकार की वर्गीकरण को कालानुक्रमिक वर्गीकरण (Chronological Classification) कहा जाता है। इस वर्गीकरण में, आंकड़ों को वर्ष, तिमाही, महीने, सप्ताह आदि के संदर्भ में आरोही या अवरोही क्रम में वर्गीकृत किया जाता है। निम्नलिखित उदाहरण भारत की जनसंख्या को वर्षों के संदर्भ में वर्गीकृत करता है। ‘जनसंख्या’ चर एक समय श्रृंखला (Time Series) है क्योंकि यह विभिन्न वर्षों के लिए मानों की एक श्रृंखला को दर्शाता है।
उदाहरण 1
भारत की जनसंख्या (करोड़ों में)
| वर्ष | जनसंख्या (करोड़ों में) |
|---|---|
| 1951 | 35.7 |
| 1961 | 43.8 |
| 1971 | 54.6 |
| 1981 | 68.4 |
| 1991 | 81.8 |
| 2001 | 102.7 |
| 2011 | 121.0 |
स्थानिक वर्गीकरण (Spatial Classification) में, आंकड़ों को देश, राज्य, शहर, जिला आदि भौगोलिक स्थानों के संदर्भ में वर्गीकृत किया जाता है।
उदाहरण 2 विभिन्न देशों में गेहूं की पैदावार को दर्शाता है।
उदाहरण 2
विभिन्न देशों में गेहूं की पैदावार (2013)
| देश | गेहूं की पैदावार (किग्रा/हेक्टेयर) |
|---|---|
| कनाडा | 3594 |
| चीन | 5055 |
| फ्रांस | 7254 |
| जर्मनी | 7998 |
| भारत | 3154 |
| पाकिस्तान | 2787 |
स्रोत: इंडियन एग्रीकल्चरल स्टैटिस्टिक्स एट अ ग्लांस, 2015
गतिविधियाँ
- उदाहरण 1 में, उन वर्षों का पता लगाएँ जब भारत की जनसंख्या न्यूनतम और अधिकतम थी,
- उदाहरण 2 में, उस देश का पता लगाएँ जिसकी गेहूँ की पैदावार भारत की तुलना में थोड़ी अधिक है। यह प्रतिशत के रूप में कितनी होगी?
- उदाहरण 2 के देशों को पैदावार के आरोही क्रम में व्यवस्थित करें। पैदावार के अवरोही क्रम के लिए भी यही अभ्यास करें।
कभी-कभी आप ऐसे लक्षणों से मिलते हैं जिन्हें मात्रात्मक रूप से व्यक्त नहीं किया जा सकता। ऐसे लक्षणों को गुण कहा जाता है। उदाहरण के लिए, राष्ट्रीयता, साक्षरता, धर्म, लिंग, वैवाहिक स्थिति आदि। इन्हें मापा नहीं जा सकता। फिर भी इन गुणों को किसी गुणात्मक लक्षण की उपस्थिति या अनुपस्थिति के आधार पर वर्गीकृत किया जा सकता है। गुणों पर आधारित ऐसे आंकड़ों की वर्गीकरण को गुणात्मक वर्गीकरण कहा जाता है। निम्नलिखित उदाहरण में, हम पाते हैं कि किसी देश की जनसंख्या को गुणात्मक चर “लिंग” के आधार पर समूहबद्ध किया गया है। एक प्रेक्षण या तो पुरुष हो सकता है या महिला। इन दो लक्षणों को वैवाहिक स्थिति के आधार पर आगे वर्गीकृत किया जा सकता है जैसा नीचे दिया गया है:
उदाहरण 3
पहले चरण का वर्गीकरण किसी गुण की उपस्थिति और अनुपस्थिति के आधार पर होता है, अर्थात् पुरुष या पुरुष नहीं (महिला)। दूसरे चरण में, प्रत्येक वर्ग – पुरुष और महिला – को एक अन्य गुण की उपस्थिति या अनुपस्थिति के आधार पर और उपविभाजित किया जाता है, अर्थात् विवाहित या अविवाहित। लक्षण, जैसे ऊँचाई, वज़न, आयु, आय, छात्रों के अंक आदि, प्रकृति में मात्रात्मक होते हैं। जब ऐसे लक्षणों के संग्रहित आँकड़ों को वर्गों में समूहबद्ध किया जाता है, तो यह मात्रात्मक वर्गीकरण बन जाता है।
गतिविधि
- आस-पास की वस्तुओं को जीवित या अजीवित के रूप में समूहबद्ध किया जा सकता है। क्या यह मात्रात्मक वर्गीकरण है?
उदाहरण 4
100 छात्रों के गणित में अंकों का बारंबारता बंटन
| अंक | बारंबारता |
|---|---|
| 0-10 | 1 |
| 10-20 | 8 |
| 20-30 | 6 |
| 30-40 | 7 |
| 40-50 | 21 |
| 50-60 | 23 |
| 60-70 | 19 |
| 70-80 | 6 |
| 80-90 | 5 |
| 90-100 | 4 |
| कुल | 100 |
उदाहरण 4 में तालिका 3.1 में दिए गए 100 छात्रों के गणित के अंकों का मात्रात्मक वर्गीकरण दिखाया गया है।
गतिविधि
- उदाहरण 4 की बारंबारता के मानों को कुल बारंबारता के अनुपात या प्रतिशत के रूप में व्यक्त करें। ध्यान दें कि इस प्रकार व्यक्त की गई बारंबारता को सापेक्ष बारंबारता कहा जाता है।
- उदाहरण 4 में, किस वर्ग में आँकड़ों की अधिकतम सांद्रता है? इसे कुल प्रेक्षणों के प्रतिशत के रूप में व्यक्त करें। किस वर्ग में आँकड़ों की न्यूनतम सांद्रता है?
4. चर: सतत और विविक्त
10 वां अध्याय
विचलनशीलता के प्रकार
पिछले अध्याय में आपने पढ़ा था कि विचलनशीलता क्या है। लेकिन यह परिभाषा आपको यह नहीं बताती कि विचलनशीलता कैसे भिन्न होती है। विचलनशीलता के प्रकार इसके विशेष लक्षणों पर आधारित होते हैं। इन्हें मुख्यतः दो प्रकारों में बांटा गया है:
(i) सतत विचलनशीलता
(ii) असतत विचलनशीलता
एक सतत चर के विपरीत, एक विचरित चर केवल निश्चित मान ही ले सकता है। इसका मान केवल परिमित “छलांगों” से ही बदलता है। यह एक मान से दूसरे मान पर “छलांग” लगाता है लेकिन इन दोनों के बीच का कोई मध्यवर्ती मान नहीं लेता। उदाहरण के लिए, एक चर जैसे “कक्षा में विद्यार्थियों की संख्या”, विभिन्न कक्षाओं के लिए, केवल पूर्ण संख्याओं के मान ही ग्रहण करेगा। यह कोई भी भिन्नात्मक मान जैसे 0.5 नहीं ले सकता क्योंकि “आधा विद्यार्थी” व्यर्थ है। इसलिए यह 25 और 26 के बीच 25.5 जैसा मान नहीं ले सकता। इसके बजाय इसका मान या तो 25 हो सकता था या 26। हम देखते हैं कि जैसे ही इसका मान 25 से 26 बदलता है, इनके बीच के मान — भिन्न — इसके द्वारा नहीं लिए जाते। लेकिन हमें यह धारणा नहीं होनी चाहिए कि एक विचरित चर कोई भिन्नात्मक मान नहीं ले सकता। मान लीजिए $X$ एक चर है जो $1/8, 1/16, 1/32, 1/64, \ldots$ जैसे मान लेता है। क्या यह एक विचरित चर है? हाँ, क्योंकि यद्यपि $\mathrm{X}$ भिन्नात्मक मान लेता है, यह दो निकटतम भिन्नात्मक मानों के बीच का कोई भी मान नहीं ले सकता। यह $1/8$ से $1/16$ और $1/16$ से $1/32$ पर “छलांग” लगाता है। लेकिन यह $1/8$ और $1/16$ या $1/16$ और $1/32$ के बीच का कोई मान नहीं ले सकता।
गतिविधि
- निम्नलिखित चरों को सतत और विचरित के रूप में भेद कीजिए: क्षेत्रफल, आयतन, तापमान, पासे पर आने वाली संख्या, फसल उत्पादन, जनसंख्या, वर्षा, सड़क पर कारों की संख्या और आयु।
उदाहरण 4 दिखाता है कि किस प्रकार 100 विद्यार्थियों के अंकों को वर्गों में समूहबद्ध किया गया है। आप सोच रहे होंगे कि हमने यह सब तालिका 3.1 के कच्चे आँकड़ों से कैसे प्राप्त किया। लेकिन इस प्रश्न का उत्तर देने से पहले आपको यह जानना होगा कि बारंबारता बंटन (frequency distribution) क्या होता है।
5. बारंबारता बंटन क्या है?
बारंबारता बंटन किसी मात्रात्मक चर के कच्चे आँकड़ों को वर्गीकृत करने का एक समग्र तरीका है। यह दर्शाता है कि चर के विभिन्न मान (यहाँ, गणित में प्राप्त अंक) विभिन्न वर्गों में किस प्रकार बँटे हैं और उनके संगत वर्ग बारंबारताएँ क्या हैं। इस स्थिति में हमारे पास अंकों के दस वर्ग हैं: $0-10,10-20, \ldots$, 90-100। वर्ग बारंबारता (Class Frequency) से तात्पर्य है किसी विशेष वर्ग में मानों की संख्या। उदाहरण के लिए, वर्ग 30-40 में तालिका 3.1 के कच्चे आँकड़ों से 7 अंक मिलते हैं। वे हैं $30,37,34,30,35,39,32$। इस प्रकार वर्ग 30-40 की बारंबारता 7 है। पर आप सोच रहे होंगे कि कच्चे आँकड़ों में दो बार आने वाला 40- वर्ग 30-40 में क्यों नहीं शामिल किया गया। यदि इसे शामिल किया जाता तो वर्ग 30-40 की बारंबारता 7 के स्थान पर 9 होती। यह पहेली आपके लिए स्पष्ट हो जाएगी यदि आप धैर्यपूर्वक इस अध्याय को ध्यान से पढ़ें। इसलिए आगे बढ़िए। उत्तर आप स्वयं ही खोज लेंगे।
प्रत्येक वर्ग एक आवृत्ति बंटन सारणी में वर्ग सीमाओं से घिरा होता है। वर्ग सीमाएँ एक वर्ग के दो छोर होती हैं। सबसे कम मान को निम्न वर्ग सीमा कहा जाता है और सबसे अधिक मान को उच्च वर्ग सीमा। उदाहरण के लिए, वर्ग: 60-70 के लिए वर्ग सीमाएँ 60 और 70 हैं। इसकी निम्न वर्ग सीमा 60 है और इसकी उच्च वर्ग सीमा 70 है। वर्ग अंतराल या वर्ग चौड़ाई उच्च वर्ग सीमा और निम्न वर्ग सीमा के बीच का अंतर होता है। वर्ग 60-70 के लिए, वर्ग अंतराल 10 है (उच्च वर्ग सीमा माइनस निम्न वर्ग सीमा)।
वर्ग मध्य-बिंदु या वर्ग चिह्न एक वर्ग का मध्य मान होता है। यह एक वर्ग की निम्न वर्ग सीमा और उच्च वर्ग सीमा के बीच आधे रास्ते पर स्थित होता है और निम्नलिखित तरीके से ज्ञात किया जा सकता है:
वर्ग मध्य-बिंदु या वर्ग चिह्न
$$ \text { = (उच्च वर्ग सीमा + निम्न वर्ग सीमा)/2 } $$
प्रत्येक वर्ग का वर्ग चिह्न या मध्य-मान वर्ग को दर्शाने के लिए प्रयोग किया जाता है। एक बार कच्चे आंकड़ों को वर्गों में समूहबद्ध कर दिया जाता है, तो व्यक्तिगत प्रेक्षण आगे की गणनाओं में प्रयोग नहीं किए जाते। इसके बजाय, वर्ग चिह्न का उपयोग किया जाता है।
TABLE 3.3 The Lower Class Limits, the Upper Class Limits and the Class Mark
| वर्ग | आवृत्ति | निम्न वर्ग सीमा | उच्च वर्ग सीमा | वर्ग चिह्न |
|---|---|---|---|---|
| 0-10 | 1 | 0 | 10 | 5 |
| 10-20 | 8 | 10 | 20 | 15 |
| 20-30 | 6 | 20 | 30 | 25 |
| 30-40 | 7 | 30 | 40 | 35 |
| 40-50 | 21 | 40 | 50 | 45 |
| 50-60 | 23 | 50 | 60 | 55 |
| 60-70 | 19 | 60 | 70 | 65 |
| 70-80 | 6 | 70 | 80 | 75 |
| 80-90 | 5 | 80 | 90 | 85 |
| 90-100 | 4 | 90 | 100 | 95 |
आवृत्ति वक्र एक आवृत्ति बंटन का ग्राफीय प्रतिनिधित्व होता है। चित्र 3.1 हमारे उपरोक्त उदाहरण के आंकड़ों के आवृत्ति बंटन की आरेखीय प्रस्तुति दिखाता है। आवृत्ति वक्र प्राप्त करने के लिए हम वर्ग चिह्नों को $\mathrm{X}$-अक्ष पर और आवृत्ति को $\mathrm{Y}$-अक्ष पर लेखांकित करते हैं।
चित्र 3.1: आंकड़ों के आवृत्ति बंटन की आरेखीय प्रस्तुति।
आवृत्ति बंटन कैसे बनाएं
एक आवृत्ति बंटन तैयार करते समय निम्नलिखित पाँच प्रश्नों को संबोधित करने की आवश्यकता होती है:
- क्या हमारे पास समान या असमान आकार की वर्ग अंतराल होने चाहिए?
- हमारे पास कितने वर्ग होने चाहिए?
- प्रत्येक वर्ग का आकार क्या होना चाहिए?
- वर्ग सीमाएँ हम कैसे निर्धारित करें?
- प्रत्येक वर्ग के लिए आवृत्ति हम कैसे प्राप्त करें?
क्या हमारे पास समान या असमान आकार की वर्ग अंतराल होने चाहिए?
दो ऐसी परिस्थितियाँ होती हैं जिनमें असमान आकार की अंतरालों का प्रयोग किया जाता है। पहली, जब हमारे पास आय और अन्य इसी प्रकार के चरों पर आँकड़े हों जिनकी सीमा बहुत अधिक हो। उदाहरण के लिए, प्रतिदिन आय लगभग शून्य से लेकर सैकड़ों करोड़ रुपये तक हो सकती है। ऐसी परिस्थिति में समान वर्ग अंतराल उपयुक्त नहीं होते क्योंकि (i) यदि वर्ग अंतराल मध्यम आकार के और समान हों तो वर्गों की संख्या बहुत अधिक हो जाएगी। (ii) यदि वर्ग अंतराल छोटे हों तो हम या तो बहुत कम स्तर की या बहुत अधिक स्तर की आय की सूचना को दबा देंगे।
दूसरी, यदि बड़ी संख्या में मान सीमा के एक छोटे भाग में केंद्रित हों तो समान वर्ग अंतरालों से कई मानों की सूचना की कमी हो जाएगी।
अन्य सभी परिस्थितियों में, बारंबारता बंटनों में समान आकार के वर्ग अंतरालों का प्रयोग किया जाता है।
हमारे पास कितने वर्ग होने चाहिए?
वर्गों की संख्या सामान्यतः छः से पंद्रह के बीच होती है। यदि हम समान आकार के वर्ग अंतरालों का प्रयोग कर रहे हों तो वर्गों की संख्या सीमा (चर के सबसे बड़े और सबसे छोटे मानों के बीच का अंतर) को वर्ग अंतराल के आकार से भाग देकर निकाली जा सकती है।
गतिविधियाँ
निम्नलिखित की सीमा ज्ञात कीजिए:
- उदाहरण 1 में भारत की जनसंख्या,
- उदाहरण 2 में गेहूँ की पैदावार।
प्रत्येक नमूने का आकार कितना होना चाहिए?
इस प्रश्न का उत्तर पिछले प्रश्न के उत्तर पर निर्भर करता है। चर की सीमा दी गई होने पर, एक बार जब हम वर्ग अंतराल तय कर लेते हैं तो हम वर्गों की संख्या निर्धारित कर सकते हैं। इस प्रकार, हम पाते हैं कि ये दोनों निर्णय आपस में जुड़े हुए हैं। हम एक का निर्णय बिना दूसरे के नहीं ले सकते।
उदाहरण 4 में, हमारे पास वर्गों की संख्या 10 है। सीमा का मान 100 दिया गया है, इसलिए वर्ग अंतराल स्वचालित रूप से 10 हो जाते हैं। ध्यान दें कि वर्तमान संदर्भ में हमने समान परिमाण के वर्ग अंतराल चुने हैं। हालांकि, हम ऐसे वर्ग अंतराल भी चुन सकते थे जो समान परिमाण के नहीं होते। उस स्थिति में, वर्ग असमान चौड़ाई के होते।
हमें वर्ग सीमाएँ कैसे निर्धारित करनी चाहिए?
वर्ग सीमाएँ निश्चित और स्पष्ट रूप से बताई जानी चाहिए। सामान्यतः, खुले वर्ग जैसे “70 और ऊपर” या “10 से कम” वांछनीय नहीं होते हैं।
निचली और ऊपरी वर्ग सीमाएँ इस प्रकार निर्धारित की जानी चाहिए कि प्रत्येक वर्ग की आवृत्तियाँ वितरण के मध्य में केंद्रित होने की प्रवृत्ति रखें।
वर्ग अंतराल दो प्रकार के होते हैं:
(i) समावेशी वर्ग अंतराल: इस स्थिति में, किसी वर्ग की निचली और ऊपरी सीमा के बराबर मान उसी वर्ग की आवृत्ति में शामिल किए जाते हैं।
(ii) अपवर्जनात्मक वर्ग अंतराल: इस स्थिति में, कोई वस्तु जो निचली या ऊपरी वर्ग सीमा के बराबर हो, उस वर्ग की आवृत्ति से बाहर रखी जाती है।
विचरित चरों के मामले में, केवल अपवर्जनात्मक वर्ग अंतराल ही प्रयोग किए जा सकते हैं।
संचरित चरों के मामले में विशिष्ट वर्ग अंतरालों का प्रयोग बहुत बार किया जाता है।
उदाहरण
मान लीजिए हमारे पास किसी परीक्षा में विद्यार्थियों द्वारा प्राप्त अंकों का आंकड़ा है और सभी अंक पूर्ण संख्याओं में हैं (भिन्नात्मक अंकों की अनुमति नहीं है)। मान लीजिए विद्यार्थियों द्वारा प्राप्त अंक 0 से 100 तक विचरण करते हैं।
यह विचरित चर का मामला है क्योंकि भिन्नात्मक अंकों की अनुमति नहीं है। इस स्थिति में, यदि हम समान आकार के वर्ग अंतरालों का प्रयोग कर रहे हैं और 10 वर्ग अंतराल रखने का निर्णय लेते हैं, तो वर्ग अंतराल निम्नलिखित में से किसी भी रूप में हो सकते हैं:
समावेशी रूप के वर्ग अंतराल:
$0-10$
$11-20$
$21-30$
$-$
$-$
$91-100$
विशिष्ट रूप के वर्ग अंतराल: 0–10
$10-20$
$20-30$
$-$
$-$
$90-100$
विशिष्ट वर्ग अंतरालों के मामले में हमें पहले से निर्णय लेना होता है कि यदि हमें कोई मान वर्ग सीमा के बराबर मिले तो उसका क्या किया जाए। उदाहरण के लिए हम निर्णय ले सकते हैं कि 10, 30 आदि मानों को क्रमशः “0 से 10” और “20 से 30” वर्ग अंतरालों में रखा जाए। इसे निम्न सीमा बहिष्कृत का मामला कहा जा सकता है।
अथवा हम 10, 30 आदि मानों को क्रमशः “10 से 20” और “30 से 40” वर्ग अंतरालों में रख सकते हैं। इसे निम्न सीमा बहिष्कृत का मामला कहा जा सकता है।
संचरित चर का उदाहरण
मान लीजिए हमारे पास किसी चर जैसे ऊंचाई (सेंटीमीटर) या वजन (किलोग्राम) का आंकड़ा है। यह आंकड़ा संचरित प्रकार का है। ऐसे मामलों में वर्ग अंतराल निम्नलिखित प्रकार से परिभाषित किए जा सकते हैं:
$30 \mathrm{Kg}-39.999 \ldots \mathrm{Kg}$
$40 \mathrm{Kg}-49.999 \ldots \mathrm{Kg}$
$50 \mathrm{Kg}-59.999 \ldots \mathrm{Kg}$ आदि।
इन वर्ग अंतरालों को निम्नलिखित तरीके से समझा जाता है:
$30 \mathrm{Kg}$ और उससे ऊपर तथा $40 \mathrm{Kg}$ से कम
$40 \mathrm{Kg}$ और उससे ऊपर तथा $50 \mathrm{Kg}$ से कम
$50 \mathrm{Kg}$ और उससे ऊपर तथा $60 \mathrm{Kg}$ से कम, आदि।
TABLE 3.4 एक कंपनी के 550 कर्मचारियों की आय की बारंबारता बंटन
| आय $(Rs)$ | कर्मचारियों की संख्या |
|---|---|
| 800-899 | 50 |
| 900-999 | 100 |
| 1000-1099 | 200 |
| 1100-1199 | 150 |
| 1200-1299 | 40 |
| 1300-1399 | 10 |
| कुल | 550 |
वर्ग अंतराल में समायोजन
Table 3.4 में समावेशी विधि का सावधानीपूर्वक निरीक्षण करने पर यह स्पष्ट होगा कि यद्यपि चर “आय” एक सतत चर है, फिर भी जब वर्ग बनाए जाते हैं तो ऐसी निरंतरता बनाए नहीं रखी जाती। हमें एक वर्ग की ऊपरी सीमा और अगले वर्ग की निचली सीमा के बीच “अंतराल” या असांतत्य दिखाई देता है। उदाहरण के लिए, पहले वर्ग की ऊपरी सीमा: 899 और दूसरे वर्ग की निचली सीमा: 900 के बीच हमें 1 का “अंतराल” मिलता है। तब हम वर्गीकृत डेटा के दौरान चर की निरंतरता कैसे सुनिश्चित करते हैं? यह वर्ग अंतराल में समायोजन करके प्राप्त किया जाता है। समायोजन निम्नलिखित तरीके से किया जाता है:
- दूसरी कक्षा की निचली सीमा और पहली कक्षा की ऊपरी सीमा के बीच का अंतर निकालें। उदाहरण के लिए, तालिका 3.4 में दूसरी कक्षा की निचली सीमा 900 है और पहली कक्षा की ऊपरी सीमा 899 है। इनके बीच का अंतर 1 है, अर्थात् $(900-899=1)$
- (1) में प्राप्त अंतर को दो से विभाजित करें, अर्थात् $(1 / 2 = 0.5)$
- (2) में प्राप्त मान को सभी कक्षाओं की निचली सीमाओं से घटाएँ (निचली कक्षा सीमा + 0.5)
- (2) में प्राप्त मान को सभी कक्षाओं की ऊपरी सीमाओं में जोड़ें (ऊपरी कक्षा सीमा + 0.5$)$।
आवृत्ति बंटन में डेटा की निरंतरता बहाल करने वाले समायोजन के बाद, तालिका 3.4 को तालिका 3.5 में संशोधित किया गया है
कक्षा सीमाओं में समायोजन के बाद, वह सूत्र (1) जो कक्षा-चिह्न के मान को निर्धारित करता है, निम्नलिखित रूप में संशोधित किया गया है:
समायोजित कक्षा चिह्न = (समायोजित ऊपरी कक्षा सीमा + समायोजित निचली कक्षा सीमा)/2।
तालिका 3.5 एक कंपनी के 550 कर्मचारियों की आय का आवृत्ति बंटन
| आय (रु) | कर्मचारियों की संख्या |
|---|---|
| 799.5-899.5 | 50 |
| 899.5-999.5 | 100 |
| 999.5-1099.5 | 200 |
| 1099.5-1199.5 | 150 |
| 1199.5-1299.5 | 40 |
| 1299.5-1399.5 | 10 |
| कुल | 550 |
प्रत्येक कक्षा के लिए आवृत्ति हमें कैसे प्राप्त करनी चाहिए?
सरल शब्दों में, एक प्रेक्षण की आवृत्ति का अर्थ है वह प्रेक्षण कच्चे आंकड़ों में कितनी बार आता है। हमारी सारणी 3.1 में हम देखते हैं कि मान 40 तीन बार आता है; 0 और 10 केवल एक-एक बार आते हैं; 49 पाँच बार आता है और इसी तरह। इस प्रकार 40 की आवृत्ति 3 है, 0 की 1 है, 10 की 1 है, 49 की 5 है और इसी तरह। परंतु जब आंकड़ों को वर्गों में समूहबद्ध किया जाता है जैसे उदाहरण 3 में, वर्ग आवृत्ति का अर्थ है एक विशेष वर्ग में मानों की संख्या। वर्ग आवृत्ति की गिनती संबंधित वर्ग के सामने टैली चिह्न लगाकर की जाती है।
टैली चिह्न लगाकर वर्ग आवृत्ति ज्ञात करना
एक टैली (/) उस वर्ग के सामने लगाया जाता है प्रत्येक विद्यार्थी के लिए जिसके अंक उस वर्ग में आते हैं। उदाहरण के लिए, यदि किसी विद्यार्थी को 57 अंक मिले हैं, तो हम वर्ग $50-60$ के सामने एक टैली (/) लगाते हैं। यदि अंक 71 हैं, तो टैली वर्ग $70-80$ के सामने लगता है। यदि किसी को 40 अंक मिले हैं, तो टैली वर्ग $40-50$ के सामने लगता है। सारणी 3.6 सारणी 3.1 से 100 विद्यार्थियों के गणित के अंकों की टैली गिनती दिखाती है।
सारणी 3.6 100 विद्यार्थियों के गणित स्कोर की टैली गिनती
गिनती को आसान बनाने के लिए चार टैलियों को //// इस प्रकार रखा जाता है और पाँचवीं टैली को उनके ऊपर | इस प्रकार लगाया जाता है। फिर टैलियों को पाँच-पाँच के समूहों में गिना जाता है। इसलिए यदि किसी वर्ग में 16 टैलियाँ हों, तो सुविधा के लिए हम उन्हें |||| | |||| | | इस प्रकार लिखते हैं। इस प्रकार किसी वर्ग की बारंबारता उस वर्ग के सामने बनी टैलियों की संख्या के बराबर होती है।
सूचना की हानि
आंकड़ों को बारंबारता बंटन के रूप में वर्गीकृत करने में एक अंतर्निहित कमी होती है। यद्यपि यह कच्चे आंकड़ों को संक्षिप्त और समझने योग्य बनाता है, पर इसमें वे विवरण नहीं दिखते जो कच्चे आंकड़ों में मौजूद होते हैं। कच्चे आंकड़ों को वर्गीकृत करने पर सूचना की हानि होती है, यद्यपि इसे वर्गीकृत आंकड़ों के रूप में संक्षेप में प्रस्तुत करके बहुत कुछ प्राप्त होता है। एक बार जब आंकड़ों को वर्गों में समूहीकृत कर दिया जाता है, तो कोई भी व्यक्तिगत प्रेक्षण आगे के सांख्यिकीय गणनाओं में कोई महत्व नहीं रखता। उदाहरण 4 में, वर्ग 20-30 में 6 प्रेक्षण हैं: $25,25,20,22,25$ और 28। इसलिए जब इन आंकड़ों को बारंबारता बंटन में वर्ग $20-30$ के रूप में समूहीकृत किया जाता है, तो यह केवल उस वर्ग में रिकॉर्डों की संख्या (अर्थात् बारंबारता = 6) देता है, पर उनके वास्तविक मान नहीं देता। इस वर्ग के सभी मानों को वर्ग अंतराल या वर्ग चिह्न के मध्य मान (अर्थात् 25) के बराबर माना जाता है। आगे की सांख्यिकीय गणनाएं केवल वर्ग चिह्न के मानों पर आधारित होती हैं, न कि उस वर्ग में प्रेक्षणों के मानों पर। यह बात अन्य वर्गों के लिए भी सत्य है। इस प्रकार सांख्यिकीय विधियों में प्रेक्षणों के वास्तविक मानों के स्थान पर वर्ग चिह्न के प्रयोग से पर्याप्त सूचना की हानि होती है। तथापि, कच्चे आंकड़ों को अधिक समझदारी से प्रस्तुत करने की क्षमता इस कमी से कहीं अधिक लाभ देती है।
असमान वर्गों के साथ बारंबारता बंटन
अब तक आप समान वर्ग अंतरालों की बारंबारता बंटन से परिचित हैं। आप जानते हैं कि इन्हें कच्चे आँकड़ों से कैसे बनाया जाता है। पर कुछ मामलों में असमान वर्ग अंतरालों वाली बारंबारता बंटन अधिक उपयुक्त होती है। यदि आप उदाहरण 4 की बारंबारता बंटन को तालिका 3.6 की तरह देखें, तो आप देखेंगे कि अधिकांश प्रेक्षण वर्गों 40-50, 50-60 और 60-70 में केंद्रित हैं। इनकी संगत बारंबारताएँ 21, 23 और 19 हैं। इसका अर्थ है कि 100 विद्यार्थियों में से 63 $(21+23+19)$ विद्यार्थी इन वर्गों में केंद्रित हैं। इस प्रकार, 63 प्रतिशत 40-70 की मध्यम सीमा में हैं। शेष 37 प्रतिशत आँकड़े वर्गों $0-10,10-20,20-30,30-40$, 70-80, 80-90 और 90-100 में हैं। ये वर्ग प्रेक्षणों से विरल आबादित हैं। आगे आप यह भी देखेंगे कि इन वर्गों में प्रेक्षण अपने-अपने वर्ग चिह्नों से अन्य वर्गों की तुलना में अधिक विचलित होते हैं। पर यदि वर्ग इस प्रकार बनाए जाएँ कि वर्ग चिह्न, जहाँ तक संभव हो, उस मान के आसपास हों जिसके चारों ओर वर्ग के प्रेक्षण केंद्रित होते हैं, तो असमान वर्ग अंतराल अधिक उपयुक्त है।
TABLE 3.7 Frequency Distribution of Unequal Classes
| वर्ग | प्रेक्षण | आवृत्ति | वर्ग चिह्न |
|---|---|---|---|
| 0-10 | 0 | 1 | 5 |
| 10-20 | 10,14,17,12,14,12,14,14 | 8 | 15 |
| 20-30 | 25,25,20,22,25,28 | 6 | 25 |
| 30-40 | 30,37,34,39,32,30,35 | 7 | 35 |
| 40-45 | 42,44,40,44,41,40,43,40,41 | 9 | 42.5 |
| 45-50 | 47,49,49,45,45,47,49,46,48,48,49,49 | 12 | 47.5 |
| 50-55 | 51,53,51,50,51,50,54 | 7 | 52.5 |
| 55-60 | 59,56,55,57,55,56,59,56,59,57,59,55,56,55,56,55 | 16 | 57.5 |
| 60-65 | 60,64,62,64,64,60,62,61,60,62 | 10 | 62.5 |
| 65-70 | 66,69,66,69,66,65,65,66,65 | 9 | 67.5 |
| 70-80 | 70,75,70,76,70,71 | 6 | 75 |
| 80-90 | 82,82,82,80,85 | 5 | 85 |
| 90-100 | 90,100,90,90 | 4 | 95 |
| कुल | 100 |
तालिका 3.7 तालिका 3.6 के समान आवृत्ति बंटन को असमान वर्गों के संदर्भ में दर्शाती है। 40-50, 50-60 और 60-70 के प्रत्येक वर्ग को दो भागों में विभाजित किया गया है। वर्ग 40-50 को 40-45 और 45-50 में विभाजित किया गया है। वर्ग 50-60 को 50-55 और 55-60 में विभाजित किया गया है। और वर्ग 60-70 को 60-65 और 65-70 में विभाजित किया गया है। नए वर्ग 40-45, 45-50, 50-55, 55-60, 60-65 और 65-70 का वर्ग अंतराल 5 है। अन्य वर्ग: 0-10, 10-20, 20-30, 30-40, 70-80, 80-90 और 90-100 अपना पुराना वर्ग अंतराल 10 बनाए रखते हैं। इस तालिका का अंतिम स्तंभ इन वर्गों के लिए वर्ग चिह्नों के नए मान दिखाता है। इनकी तुलना तालिका 3.6 में वर्ग चिह्नों के पुराने मानों से करें। ध्यान दें कि इन वर्गों में प्रेक्षण अपने पुराने वर्ग चिह्न मानों की तुलना में अपने नए वर्ग चिह्न मानों से अधिक विचलित होते हैं। इस प्रकार नए वर्ग चिह्न मान पुराने मानों की तुलना में इन वर्गों में आंकड़ों के अधिक प्रतिनिधि हैं।
आकृति 3.2 तालिका 3.7 के बंटन की आवृत्ति वक्र दिखाती है।
आकृति 3.2: आवृत्ति वक्र
तालिका के वर्ग चिह्न X-अक्ष पर आलेखित किए गए हैं और आवृत्तियां Y-अक्ष पर आलेखित की गई हैं।
गतिविधि
- यदि आप आकृति 3.2 की तुलना आकृति 3.1 से करें, तो आप क्या प्रेक्षित करते हैं? क्या आपको इनमें कोई अंतर दिखाई देता है? क्या आप अंतर की व्याख्या कर सकते हैं?
आवृत्ति सरणी
अब तक हमने एक सतत चर के आँकड़ों के वर्गीकरण की चर्चा गणित में 100 विद्यार्थियों के प्रतिशत अंकों के उदाहरण से की है। एक विचर चर (discrete variable) के आँकड़ों के वर्गीकरण को बारंबारता बंटन (Frequency Distribution) कहा जाता है। चूँकि विचर चर मान लेता है और दो पूर्णांकीय मानों के बीच की भिन्नात्मक मध्यवर्ती मान नहीं लेता, इसलिए प्रत्येक पूर्णांकीय मान के अनुरूप बारंबारताएँ होती हैं।
तालिका 3.8 में दिया गया उदाहरण एक बारंबारता अरे (Frequency Array) को दर्शाता है।
तालिका 3.8 परिवार के आकार की बारंबारता अरे
| परिवार का आकार | परिवारों की संख्या |
|---|---|
| 1 | 5 |
| 2 | 15 |
| 3 | 25 |
| 4 | 35 |
| 5 | 10 |
| 6 | 5 |
| 7 | 3 |
| 8 | 2 |
| योग | 100 |
चर “परिवार का आकार” एक विचर चर है जो केवल पूर्णांकीय मान ही लेता है जैसा कि तालिका में दिखाया गया है।
6. द्विचर बारंबारता बंटन
प्रायः जब हम किसी जनसंख्या से एक प्रतिदर्भ लेते हैं, तो प्रतिदर्भ के प्रत्येक तत्व से एक से अधिक प्रकार की सूचना एकत्र करते हैं। उदाहरण के लिए, मान लीजिए हमने किसी शहर में आधारित कंपनियों की सूची से 20 कंपनियों का प्रतिदर्भ लिया है। मान लीजिए हमने प्रत्येक कंपनी से बिक्री और विज्ञापन पर व्यय की सूचना एकत्र की है। इस स्थिति में हमारे पास द्विचर प्रतिदर्भ आँकड़े (bivariate sample data) हैं। ऐसे द्विचर आँकड़ों को द्विचर बारंबारता बंटन (Bivariate Frequency Distribution) द्वारा सारांशित किया जा सकता है।
द्विचर बारंबारता बंटन को दो चरों के बारंबारता बंटन के रूप में परिभाषित किया जा सकता है।
तालिका 3.9 में 20 कंपनियों की दो चरों—बिक्री और विज्ञापन व्यय (रु. लाख में)—की आवृत्ति बंटन दिखाया गया है। बिक्री के मान विभिन्न स्तंभों में वर्गीकृत हैं और विज्ञापन व्यय के मान विभिन्न पंक्तियों में वर्गीकृत हैं। प्रत्येक कोष्ठक संगत पंक्ति और स्तंभ मानों की आवृत्ति दिखाता है। उदाहरण के लिए, 3 ऐसी फर्में हैं जिनकी बिक्री रु 135 से रु 145 लाख के बीच है और उनका विज्ञापन व्यय रु 64 से रु 66 हजार के बीच है। द्विचर बंटन का उपयोग सहसंबंध पर अध्याय 8 में किया जाएगा।
7. निष्कर्ष
प्राथमिक और द्वितीय स्रोतों से एकत्र किए गए आंकड़े कच्चे या अवर्गीकृत होते हैं। एक बार आंकड़े एकत्र हो जाने पर, अगला कदम उन्हें आगे के सांख्यिकीय विश्लेषण के लिए वर्गीकृत करना होता है। वर्गीकरण आंकड़ों में क्रम लाता है। यह अध्याय आपको यह जानने में सक्षम बनाता है कि आंकड़ों को आवृत्ति बंटन के माध्यम से व्यापक रूप से कैसे वर्गीकृत किया जा सकता है। एक बार जब आप वर्गीकरण की तकनीकों को जान लेते हैं, तो आपके लिए सतत और विच्छिन्न चरों दोनों के लिए आवृत्ति बंटन बनाना आसान हो जाएगा।
तालिका 3.9 बिक्री (लाख रु में) और विज्ञापन व्यय (हजार रु में) का द्विचर आवृत्ति बंटन 20 फर्मों का
| 115–125 | 125–135 | 135–145 | 145–155 | 155–165 | 165–175 | कुल | |
|---|---|---|---|---|---|---|---|
| 62-64 | 2 | 1 | 3 | ||||
| 64-66 | 1 | 3 | 4 | ||||
| 66-68 | 1 | 1 | 2 | 1 | 5 | ||
| 68-70 | 2 | 2 | 4 | ||||
| 70-72 | 1 | 1 | 1 | 1 | 4 | ||
| कुल | 4 | 5 | 6 | 3 | 1 | 1 | 20 |
सारांश
- वर्गीकरण कच्चे डेटा में क्रम लाता है।
- एक बारंबारता बंटन यह दिखाता है कि किसी चर के विभिन्न मान किस प्रकार विभिन्न वर्गों में बंटे हुए हैं और उनके संगत वर्ग बारंबारताएँ क्या हैं।
- अनन्य विधि में या तो ऊपरी वर्ग सीमा या निचली वर्ग सीमा को बाहर रखा जाता है।
- समावेशी विधि में ऊपरी और निचली दोनों वर्ग सीमाओं को शामिल किया जाता है।
- एक बारंबारता बंटन में आगे की सांख्यिकीय गणनाएँ केवल वर्ग चिह्न मानों पर आधारित होती हैं, प्रेक्षणों के मानों पर नहीं।
- वर्गों को इस प्रकार बनाना चाहिए कि प्रत्येक वर्ग का वर्ग चिह्न उस मान के यथासंभव निकट आए, जिसके चारों ओर वर्ग में प्रेक्षण एकत्रित होते हैं।
अभ्यास
1. निम्नलिखित में से कौन-सा विकल्प सही है?
(i) वर्ग मध्य बिंदु बराबर होता है:
(a) ऊपरी वर्ग सीमा और निचली वर्ग सीमा का औसत।
(b) ऊपरी वर्ग सीमा और निचली वर्ग सीमा का गुणनफल।
(c) ऊपरी वर्ग सीमा और निचली वर्ग सीमा का अनुपात।
(d) उपर्युक्त में से कोई नहीं।
(ii) दो चरों का बारंबारता बंटन द्विचर बारंबारता बंटन कहलाता है
(a) एकचर बंटन
(b) द्विचर बंटन
(c) बहुचर बंटन
(d) उपर्युक्त में से कोई नहीं
(iii) वर्गीकृत आँकड़ों में सांख्यिकीय गणनाएँ सुरक्षित और मान्यताप्राप्त पद्धतियों पर आधारित होती हैं
(a) मापों के वास्तविक मानों पर
(b) उच्च वर्ग सीमा पर
(c) निम्न वर्ग सीमाओं पर
(d) वर्ग मध्य-बिंदुओं पर
(iv) परास विचरण की माप है
(a) सबसे बड़े और सबसे छोटे प्रेक्षणों के बीच का अंतर
(b) सबसे छोटे और सबसे बड़े प्रेक्षणों के बीच का अंतर
(c) सबसे बड़े और सबसे छोटे प्रेक्षणों का औसत
(d) सबसे बड़े को सबसे छोटे प्रेक्षण से अनुपात
2. क्या चीज़ों को वर्गीकृत करने का कोई लाभ हो सकता है? अपने दैनिक जीवन के उदाहरण से समझाइए।
3. चर क्या होता है? विवृत और संतत चर के बीच अंतर स्पष्ट कीजिए।
4. आँकड़ों के वर्गीकरण में प्रयुक्त ‘अपवर्जी’ और ‘समावेशी’ पद्धतियों की व्याख्या कीजिए।
5. सारणी 3.2 में दिए गए 50 परिवारों के भोजन पर मासिक घरेलू व्यय (रुपयों में) से संबंधित आँकड़ों का प्रयोग कीजिए और
(i) भोजन पर मासिक घरेलू व्यय की परास प्राप्त कीजिए।
(ii) परास को उपयुक्त संख्या में वर्ग अंतरालों में बाँटिए और व्यय का बारंबारता बंटन प्राप्त कीजिए।
(iii) उन परिवारों की संख्या ज्ञात कीजिए जिनका भोजन पर मासिक व्यय
(a) रु 2000 से कम है
(b) रु 3000 से अधिक है
(c) रु 1500 और रु 2500 के बीच है
6. एक शहर में 45 परिवारों से यह पूछा गया कि वे कितने सेल फोन उपयोग करते हैं। उनके नीचे दिए गए उत्तरों के आधार पर एक बारंबारता सरणी तैयार कीजिए।
| 1 | 3 | 2 | 2 | 2 | 2 | 1 | 2 | 1 | 2 | 2 | 3 | 3 | 3 | 3 |
| 3 | 3 | 2 | 3 | 2 | 2 | 6 | 1 | 6 | 2 | 1 | 5 | 1 | 5 | 3 |
| 2 | 4 | 2 | 7 | 4 | 2 | 4 | 3 | 4 | 2 | 0 | 3 | 1 | 4 | 3 |
7. वर्गीकृत आँकड़ों में ‘सूचना की हानि’ क्या होती है?
- क्या आप सहमत हैं कि वर्गीकृत आँकड़े कच्चे आँकड़ों की तुलना में अधिक सुरक्षित होते हैं? क्यों?
9. एक चर और द्विचर बारंबारता बंटन के बीच अंतर स्पष्ट कीजिए।
10. निम्नलिखित आँकड़ों से 7 की वर्ग अंतराल लेकर समावेशी विधि द्वारा एक बारंबारता बंटन तैयार कीजिए।
| 28 | 17 | 15 | 22 | 29 | 21 | 23 | 27 | 18 | 12 | 7 | 2 | 9 | 4 |
| 1 | 8 | 3 | 10 | 5 | 20 | 16 | 12 | 8 | 4 | 33 | 27 | 21 | 15 |
| 3 | 36 | 27 | 18 | 9 | 2 | 4 | 6 | 32 | 31 | 29 | 18 | 14 | 13 |
| 15 | 11 | 9 | 7 | 1 | 5 | 37 | 32 | 28 | 26 | 24 | 20 | 19 | 25 |
| 19 | 20 | 6 | 9 |
११. “The quick brown fox jumps over the lazy dog” उपरोक्त वाक्य को ध्यान से देखें और प्रत्येक शब्द में अक्षरों की संख्या को नोट करें। अक्षरों की संख्या को एक चर के रूप में मानते हुए, इस डेटा के लिए एक आवृत्ति सरणी तैयार करें।
सुझाया गया गतिविधि
- अपनी पुरानी अंकपत्रिकाओं से पिछली कक्षा की अर्धवार्षिक या वार्षिक परीक्षाओं में गणित विषय में प्राप्त अंक खोजें। उन्हें वर्षवार व्यवस्थित करें। जांचें कि क्या आपने इस विषय में प्राप्त किए गए अंक एक चर हैं या नहीं। यह भी देखें कि क्या वर्षों के साथ आपने गणित में सुधार किया है।