Վիճակագրության մեջ ծայրահեղ կամ «ծայրահեղ» -ը տվյալ է, որը շատ հեռու է ցանկացած այլ տվյալից `նմուշի կամ տվյալների հավաքածուի մեջ (տվյալների հավաքածուն կոչվում է տվյալներ): Հաճախ, տվյալների հավաքածուի ծայրահեղությունը կարող է նախազգուշացում լինել վիճակագրագետին կատարված չափումների աննորմալության կամ փորձարարական սխալի մասին, ինչը կարող է վիճակագրագետին հանել տվյալների հավաքածուից հեռացումը: Եթե վիճակագրագետը հեռացնում է արտաքին տվյալները տվյալների հավաքածուից, ապա ուսումնասիրությունից արված եզրակացությունները կարող են շատ տարբեր լինել: Հետևաբար, իմանալ, թե ինչպես հաշվարկել և վերլուծել ծայրահեղությունները, շատ կարևոր է վիճակագրական տվյալների հավաքածուի ճիշտ ընկալումն ապահովելու համար:
Քայլ
Քայլ 1. Իմացեք, թե ինչպես կարելի է որոշել պոտենցիալ արտակարգ տվյալներ:
Նախքան որոշում կայացնելը `հեռացնե՞լ տվյալների հավաքածուից, թե՞ ոչ, իհարկե, մենք պետք է որոշենք, թե որ տվյալներն ունեն ծայրահեղական դառնալու ներուժ: Ընդհանուր առմամբ, ծայրահեղությունը մի տվյալ է, որը շատ հեռու է մեկ այլ տվյալների տվյալների մի շարքից, այլ կերպ ասած `մեկ այլ տվյալների տվյալների« դուրս »է: Սովորաբար հեշտ է տվյալների աղյուսակում կամ (մասնավորապես) գրաֆիկում հայտնաբերել ծայրահեղություններ: Եթե տվյալների մեկ փաթեթը տեսողականորեն նկարագրվում է գրաֆիկով, ապա արտաքին տվյալները, ըստ երևույթին, «շատ հեռու» են մնացած տվյալներից: Եթե, օրինակ, տվյալների հավաքածուի տվյալների մեծամասնությունը կազմում են ուղիղ գիծ, ապա ծայրահեղական տվյալները ողջամտորեն չեն մեկնաբանվի որպես այդ տողի ձևավորում:
Եկեք նայենք տվյալների մի շարք, որոնք ներկայացնում են սենյակում 12 տարբեր առարկաների ջերմաստիճանը: Եթե 11 օբյեկտների ջերմաստիճանը մոտ 70 ֆարենհայտ է (21 աստիճան Celsius), բայց 12 -րդ օբյեկտը ՝ ջեռոցը, ունի 300 աստիճան տաքություն (150 աստիճան ցելսիուս), անմիջապես կարելի է տեսնել, որ վառարանի ջերմաստիճանը, ամենայն հավանականությամբ, կլինի ծայրահեղական
Քայլ 2. Տեղեկատվությունը դասավորեք ամենացածրից մինչև բարձրագույն տվյալների հավաքածուի մեջ:
Տվյալների հավաքածուում արտաքինը հաշվարկելու առաջին քայլը տվյալ տվյալների հավաքածուի միջինն է (միջին արժեքը): Այս խնդիրը դառնում է շատ պարզ, եթե տվյալների հավաքածուի տվյալների տվյալները դասավորված են ամենափոքրից մինչև ամենամեծը: Այսպիսով, նախքան շարունակելը, դասավորեք տվյալները մեկ այդպիսի հավաքածուի մեջ:
Շարունակենք վերը նշված օրինակը: Սա մեր տվյալների մի շարք է, որոնք ներկայացնում են սենյակում մի քանի օբյեկտների ջերմաստիճանը ՝ {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}: Եթե մենք դասավորում ենք տվյալները ամենացածրից մինչև ամենաբարձրը, տվյալների ամսաթիվը դառնում է ՝ {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}:
Քայլ 3. Հաշվիր տվյալների հավաքածուի միջինը:
Տվյալների հավաքածուի միջինը մի տվյալ է, որտեղ տվյալների մյուս կեսը գտնվում է այդ տվյալների վերևում, իսկ մնացած կեսը `ներքևում: Եթե տվյալների հավաքածուի տվյալների թիվը տարօրինակ է, ապա դա շատ հեշտ է գտնել. Միջինը այն տվյալն է, որն ունի նույն թիվը վերևից և ներքևից: Այնուամենայնիվ, եթե տվյալների տվյալների հավաքածուի թվաքանակը զույգ է, ապա, քանի որ ոչ մի տվյալ չի տեղավորվում մեջտեղում, միջինում գտնվող 2 տվյալները միջինացված են միջինը գտնելու համար: Պետք է նշել, որ հեռավորությունները հաշվարկելիս միջինը սովորաբար նշանակվում է Q2-ni փոփոխականով, քանի որ Q2- ն Q1- ի և Q3- ի միջև է `ստորին և վերին քառորդ, որը մենք կքննարկենք ավելի ուշ:
- Չշփոթել տվյալների հավաքածուի հետ, որտեղ տվյալների քանակը զույգ է. 2 միջին տվյալների միջին թիվը հաճախ կվերադարձնի այն թիվը, որն ինքնին տվյալների հավաքածուի մեջ չէ, դա նորմալ է: Այնուամենայնիվ, եթե 2 միջին տվյալները նույն թիվն են, միջինն, իհարկե, նույնպես նույն թիվը կլինի, ինչը նույնպես լավ է:
- Վերոնշյալ օրինակում մենք ունենք 12 տվյալներ: 2 միջին տվյալները 6-րդ և 7-րդ տվյալներն են `համապատասխանաբար 70 և 71: Այսպիսով, մեր տվյալների հավաքածուի միջինը այս երկու թվերի միջինն է. ((70 + 71) / 2), = 70.5.
Քայլ 4. Հաշվիր ստորին քառորդը:
Այս արժեքը, որը մենք տալիս ենք Q1 փոփոխականին, այն տվյալն է, որը ներկայացնում է տվյալների 25 տոկոսը (կամ քառորդը): Այլ կերպ ասած, տվյալ տվյալն է, որը կիսում է միջինից ներքև գտնվող տվյալները: Եթե միջինից ցածր տվյալների քանակը զույգ է, ապա Q1- ը գտնելու համար կրկին պետք է միջինը ընկած 2 տվյալների միջինը, ճիշտ ինչպես միջինը գտնելու համար:
Մեր օրինակում կան 6 տվյալներ, որոնք գտնվում են միջինից բարձր, և 6 տվյալներ, որոնք գտնվում են միջինից ցածր: Սա նշանակում է, որ ստորին քառորդը գտնելու համար մեզ անհրաժեշտ կլինի միջինը 2 տվյալների միջին միջինից ներքևում գտնվող 6 տվյալների միջին: Միջինից ցածր 6 տվյալների 3 -րդ և 4 -րդ տվյալները երկուսն էլ 70 -ն են: Այսպիսով, միջինն է ((70 + 70) / 2), = 70. 70 -ը դառնում է մեր Q1- ը:
Քայլ 5. Հաշվիր վերին քառյակը:
Այս արժեքը, որը մենք տալիս ենք Q3 փոփոխականը, այն տվյալն է, որի վրա տվյալների հավաքածուի տվյալների 25 տոկոսը կա: Q3- ի որոնումը գրեթե նույնն է, ինչ Q1- ը, բացառությամբ, որ այս դեպքում մենք նայում ենք միջինից վերը նշված տվյալների, այլ ոչ թե միջինից ներքև:
Շարունակելով մեր վերը բերված օրինակը ՝ միջինից վերևի 6 տվյալների միջնամասում գտնվող 2 տվյալները 71 և 72. Այս 2 տվյալների միջինն է ((71 + 72)/2), = 71, 5. 71, 5 -ը մեր Q3- ն է:
Քայլ 6. Գտեք միջքարտային հեռավորությունը:
Այժմ, երբ մենք գտել ենք Q1 և Q3, մենք պետք է հաշվարկենք այս երկու փոփոխականների միջև հեռավորությունը: Q1- ից Q3 հեռավորությունը հայտնաբերվում է Q1- ից Q3- ից հանելով: Այն արժեքները, որոնք դուք ստանում եք միջքարտային հեռավորությունների համար, շատ կարևոր են ձեր տվյալների հավաքածուի ոչ արտակարգ տվյալների տվյալների սահմանները որոշելու համար:
- Մեր օրինակում Q1 և Q3 մեր արժեքները 70 և 71 են, 1, 5.
- Պետք է նշել, որ դա նույնպես ճիշտ է նույնիսկ եթե Q1, Q3 կամ երկուսն էլ բացասական թվեր են: Օրինակ, եթե մեր Q1 արժեքը -70 լիներ, մեր ճիշտ միջկառույցային հեռավորությունը կլիներ 71.5 -(-70) = 141, 5:
Քայլ 7. Տվյալների հավաքածուում գտեք «ներքին ցանկապատը»:
Եզրագծերը հայտնաբերվում են `ստուգելով, թե արդյոք տվյալ տվյալները ընկնում են« ներքին ցանկապատ »և« արտաքին ցանկապատ »կոչվող թվերի սահմաններում: Տվյալների հավաքածուի ներքին պարիսպից դուրս ընկած տվյալները կոչվում են «աննշան ծայրահեղություններ», իսկ արտաքին պարիսպից դուրս ընկած տվյալները `« հիմնական ծայրահեղություններ »: Ձեր տվյալների հավաքածուի ներքին ցանկապատը գտնելու համար նախ բազմապատկեք միջքարտային հեռավորությունը 1, 5 -ով: Այնուհետև արդյունքը ավելացրեք Q3- ով և հանեք այն Q1- ից: Ստացված երկու արժեքները ձեր տվյալների հավաքածուի ներքին ցանկապատի սահմաններն են:
-
Մեր օրինակում միջկառույցային հեռավորությունը (71.5 - 70), կամ 1.5: Բազմապատկեք 1.5 -ով 1.5 -ով, ինչը հանգեցնում է 2.25 -ի: Այս թիվը ավելացնում ենք Q3- ին և Q1- ն հանում ենք այս թվով ՝ ներքին ցանկապատի սահմանները գտնելու համար հետևյալ կերպ.
- 71, 5 + 2, 25 = 73, 75
- 70 - 2, 25 = 67, 75
- Այսպիսով, մեր ներքին ցանկապատի սահմաններն են 67, 75 և 73, 75.
-
Մեր տվյալների հավաքածուի մեջ միայն ջեռոցի ջերմաստիճանը `300 Fahrenheit - այս սահմաններից դուրս է, և այս տվյալն աննշան ծայրահեղություն է: Այնուամենայնիվ, մենք դեռ չենք հաշվարկել, թե արդյոք այս ջերմաստիճանը հիմնական արտանետումն է, այնպես որ մի շտապեք եզրակացություններ անել, քանի դեռ չենք կատարել մեր հաշվարկները:
Քայլ 8. Տվյալների հավաքածուում գտեք «արտաքին ցանկապատը»:
Դա արվում է այնպես, ինչպես ներքին պարիսպը գտնելը, բացառությամբ, որ միջքարտային հեռավորությունը բազմապատկվում է 3 -ի փոխարեն 1.5 -ի փոխարեն: Արդյունքն այնուհետև ավելացվում է Q3- ին և հանվում Q1- ից `գտնելու արտաքին ցանկապատի վերին և ստորին սահմանները:
-
Մեր օրինակում միջկառույցային տարածությունը 3 -ով բազմապատկելը տալիս է (1, 5 x 3) կամ 4, 5. Մենք արտաքին ցանկապատի սահմանները գտնում ենք այնպես, ինչպես նախկինում.
- 71, 5 + 4, 5 = 76
- 70 - 4, 5 = 65, 5
- Արտաքին ցանկապատի սահմաններն են 65.5 և 76.
-
Արտաքին ցանկապատի սահմանից դուրս գտնվող տվյալները կոչվում են հիմնական ծայրահեղություններ: Այս օրինակում վառարանի ջերմաստիճանը ՝ 300 Fahrenheit, ակնհայտորեն արտաքին ցանկապատից դուրս է, ուստի այս տվյալները «հաստատապես» հիմնական ծայրահեղություն են:
Քայլ 9. Օգտագործեք որակական դատողություն `որոշելու համար, թե արդյոք« դուրս գցել »արտաքին տվյալները:
Օգտագործելով վերը նկարագրված մեթոդը, կարելի է որոշել ՝ տվյալ տվյալն աննշան տվյալ է՞, խոշոր տվյալների՞, թե՞ ընդհանրապես ծայրահեղություն չէ: Այնուամենայնիվ, սխալ թույլ մի տվեք. Տվյալը որպես ծայրահեղություն գտնելը միայն նշում է այդ տվյալները որպես տվյալների հավաքածուից հանվելու «թեկնածու», այլ ոչ թե որպես «որը» պետք է դեն նետել: «Պատճառը», որը պատճառ է դառնում, որ արտաքին տվյալները շեղվեն տվյալների հավաքածուի այլ տվյալներից, շատ կարևոր է այն մերժել -չվերացնելու որոշման մեջ: Ընդհանուր առմամբ, չափման, գրանցման կամ փորձարարական պլանավորման սխալի հետևանքով առաջացած ծայրահեղությունը, օրինակ, կարող է մերժվել: Մյուս կողմից, այն սխալները, որոնք չեն առաջացել սխալի հետևանքով, և որոնք ցույց են տալիս նոր տեղեկատվություն կամ միտումներ, որոնք նախկինում կանխատեսված չէին, սովորաբար «չեն նետվում»:
- Մեկ այլ չափանիշ, որը պետք է հաշվի առնել, այն է, թե արդյո՞ք արտանետվողը մեծ ազդեցություն ունի տվյալների հավաքածուի միջին արժեքի վրա, այսինքն ՝ արդյո՞ք արտաքինը այն շփոթում է, թե՞ սխալ է թվում: Սա շատ կարևոր է հաշվի առնել, եթե մտադիր եք եզրակացություններ անել ձեր տվյալների հավաքածուի միջինից:
-
Եկեք ուսումնասիրենք մեր օրինակը: Այս օրինակում, քանի որ «անչափ» անհավանական է թվում, որ վառարանը անկանխատեսելի բնական ուժերի միջոցով հասել է 300 աստիճանի Ֆարենհայտի, մենք կարող ենք գրեթե համոզված եզրակացնել, որ վառարանը պատահաբար միացել է, ինչը հանգեցրել է բարձր ջերմաստիճանի տվյալների աննորմալության: Բացի այդ, եթե չհեռացնենք ծայրահեղությունները, մեր տվյալների հավաքածուի միջին արժեքն է (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89,67 Ֆարենհայտ (32 աստիճան elsելսիուս)), մինչդեռ միջինը, եթե հեռացնենք ծայրամասերը (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70.55 Ֆարենհայտ (21 աստիճան elsելսիուս):
Քանի որ այս ծայրահեղությունները առաջացել են մարդկային սխալի պատճառով, և քանի որ սխալ կլինի ասել, որ սենյակի միջին ջերմաստիճանը հասնում է գրեթե 90 աստիճանի Ֆարենհեյթ (32 աստիճան elsելսիուս), մենք ավելի լավ է ընտրենք «դեն նետել» մեր ծայրամասերը:
Քայլ 10. Իմացեք ծայրահեղությունների պահպանման կարևորությունը (երբեմն):
Թեև որոշ ծայրահեղություններ պետք է հեռացվեն տվյալների հավաքածուից, քանի որ դրանք առաջացնում են սխալներ և/կամ արդյունքները դարձնում են ոչ ճշգրիտ կամ սխալ, որոշ ծայրահեղություններ պետք է պահպանվեն: Եթե, օրինակ, արտաքինը, ըստ երևույթին, ձեռք բերված է բնականաբար (այսինքն ՝ ոչ սխալի հետևանք) և/կամ ուսումնասիրության ենթակա երևույթի վերաբերյալ նոր հեռանկար է ստեղծում, ապա չպետք է հեռացնել տվյալ տվյալների հավաքածուից: Գիտական հետազոտությունները սովորաբար շատ զգայուն իրավիճակ են, երբ խոսքը գնում է ծայրահեղությունների մասին. Ծայրահեղությունների սխալ հեռացումը կարող է նշանակել այն տեղեկատվության հրաժարումը, որը ցույց է տալիս նոր միտում կամ հայտնագործություն: