Ինչպես հայտնաբերել ծայրահեղությունները. 10 քայլ (նկարներով)

Բովանդակություն:

Ինչպես հայտնաբերել ծայրահեղությունները. 10 քայլ (նկարներով)
Ինչպես հայտնաբերել ծայրահեղությունները. 10 քայլ (նկարներով)

Video: Ինչպես հայտնաբերել ծայրահեղությունները. 10 քայլ (նկարներով)

Video: Ինչպես հայտնաբերել ծայրահեղությունները. 10 քայլ (նկարներով)
Video: Հայկական կոշիկը գրավել է Ռուսաստանի սպառողների ուշադրությունը 2024, Մայիս
Anonim

Վիճակագրության մեջ ծայրահեղ կամ «ծայրահեղ» -ը տվյալ է, որը շատ հեռու է ցանկացած այլ տվյալից `նմուշի կամ տվյալների հավաքածուի մեջ (տվյալների հավաքածուն կոչվում է տվյալներ): Հաճախ, տվյալների հավաքածուի ծայրահեղությունը կարող է նախազգուշացում լինել վիճակագրագետին կատարված չափումների աննորմալության կամ փորձարարական սխալի մասին, ինչը կարող է վիճակագրագետին հանել տվյալների հավաքածուից հեռացումը: Եթե վիճակագրագետը հեռացնում է արտաքին տվյալները տվյալների հավաքածուից, ապա ուսումնասիրությունից արված եզրակացությունները կարող են շատ տարբեր լինել: Հետևաբար, իմանալ, թե ինչպես հաշվարկել և վերլուծել ծայրահեղությունները, շատ կարևոր է վիճակագրական տվյալների հավաքածուի ճիշտ ընկալումն ապահովելու համար:

Քայլ

Հաշվարկեք ծայրահեղությունները Քայլ 1
Հաշվարկեք ծայրահեղությունները Քայլ 1

Քայլ 1. Իմացեք, թե ինչպես կարելի է որոշել պոտենցիալ արտակարգ տվյալներ:

Նախքան որոշում կայացնելը `հեռացնե՞լ տվյալների հավաքածուից, թե՞ ոչ, իհարկե, մենք պետք է որոշենք, թե որ տվյալներն ունեն ծայրահեղական դառնալու ներուժ: Ընդհանուր առմամբ, ծայրահեղությունը մի տվյալ է, որը շատ հեռու է մեկ այլ տվյալների տվյալների մի շարքից, այլ կերպ ասած `մեկ այլ տվյալների տվյալների« դուրս »է: Սովորաբար հեշտ է տվյալների աղյուսակում կամ (մասնավորապես) գրաֆիկում հայտնաբերել ծայրահեղություններ: Եթե տվյալների մեկ փաթեթը տեսողականորեն նկարագրվում է գրաֆիկով, ապա արտաքին տվյալները, ըստ երևույթին, «շատ հեռու» են մնացած տվյալներից: Եթե, օրինակ, տվյալների հավաքածուի տվյալների մեծամասնությունը կազմում են ուղիղ գիծ, ապա ծայրահեղական տվյալները ողջամտորեն չեն մեկնաբանվի որպես այդ տողի ձևավորում:

Եկեք նայենք տվյալների մի շարք, որոնք ներկայացնում են սենյակում 12 տարբեր առարկաների ջերմաստիճանը: Եթե 11 օբյեկտների ջերմաստիճանը մոտ 70 ֆարենհայտ է (21 աստիճան Celsius), բայց 12 -րդ օբյեկտը ՝ ջեռոցը, ունի 300 աստիճան տաքություն (150 աստիճան ցելսիուս), անմիջապես կարելի է տեսնել, որ վառարանի ջերմաստիճանը, ամենայն հավանականությամբ, կլինի ծայրահեղական

Հաշվարկեք ծայրահեղությունները Քայլ 2
Հաշվարկեք ծայրահեղությունները Քայլ 2

Քայլ 2. Տեղեկատվությունը դասավորեք ամենացածրից մինչև բարձրագույն տվյալների հավաքածուի մեջ:

Տվյալների հավաքածուում արտաքինը հաշվարկելու առաջին քայլը տվյալ տվյալների հավաքածուի միջինն է (միջին արժեքը): Այս խնդիրը դառնում է շատ պարզ, եթե տվյալների հավաքածուի տվյալների տվյալները դասավորված են ամենափոքրից մինչև ամենամեծը: Այսպիսով, նախքան շարունակելը, դասավորեք տվյալները մեկ այդպիսի հավաքածուի մեջ:

Շարունակենք վերը նշված օրինակը: Սա մեր տվյալների մի շարք է, որոնք ներկայացնում են սենյակում մի քանի օբյեկտների ջերմաստիճանը ՝ {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}: Եթե մենք դասավորում ենք տվյալները ամենացածրից մինչև ամենաբարձրը, տվյալների ամսաթիվը դառնում է ՝ {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}:

Հաշվարկեք ծայրահեղությունները Քայլ 3
Հաշվարկեք ծայրահեղությունները Քայլ 3

Քայլ 3. Հաշվիր տվյալների հավաքածուի միջինը:

Տվյալների հավաքածուի միջինը մի տվյալ է, որտեղ տվյալների մյուս կեսը գտնվում է այդ տվյալների վերևում, իսկ մնացած կեսը `ներքևում: Եթե տվյալների հավաքածուի տվյալների թիվը տարօրինակ է, ապա դա շատ հեշտ է գտնել. Միջինը այն տվյալն է, որն ունի նույն թիվը վերևից և ներքևից: Այնուամենայնիվ, եթե տվյալների տվյալների հավաքածուի թվաքանակը զույգ է, ապա, քանի որ ոչ մի տվյալ չի տեղավորվում մեջտեղում, միջինում գտնվող 2 տվյալները միջինացված են միջինը գտնելու համար: Պետք է նշել, որ հեռավորությունները հաշվարկելիս միջինը սովորաբար նշանակվում է Q2-ni փոփոխականով, քանի որ Q2- ն Q1- ի և Q3- ի միջև է `ստորին և վերին քառորդ, որը մենք կքննարկենք ավելի ուշ:

  • Չշփոթել տվյալների հավաքածուի հետ, որտեղ տվյալների քանակը զույգ է. 2 միջին տվյալների միջին թիվը հաճախ կվերադարձնի այն թիվը, որն ինքնին տվյալների հավաքածուի մեջ չէ, դա նորմալ է: Այնուամենայնիվ, եթե 2 միջին տվյալները նույն թիվն են, միջինն, իհարկե, նույնպես նույն թիվը կլինի, ինչը նույնպես լավ է:
  • Վերոնշյալ օրինակում մենք ունենք 12 տվյալներ: 2 միջին տվյալները 6-րդ և 7-րդ տվյալներն են `համապատասխանաբար 70 և 71: Այսպիսով, մեր տվյալների հավաքածուի միջինը այս երկու թվերի միջինն է. ((70 + 71) / 2), = 70.5.
Հաշվարկեք ծայրահեղությունները Քայլ 4
Հաշվարկեք ծայրահեղությունները Քայլ 4

Քայլ 4. Հաշվիր ստորին քառորդը:

Այս արժեքը, որը մենք տալիս ենք Q1 փոփոխականին, այն տվյալն է, որը ներկայացնում է տվյալների 25 տոկոսը (կամ քառորդը): Այլ կերպ ասած, տվյալ տվյալն է, որը կիսում է միջինից ներքև գտնվող տվյալները: Եթե միջինից ցածր տվյալների քանակը զույգ է, ապա Q1- ը գտնելու համար կրկին պետք է միջինը ընկած 2 տվյալների միջինը, ճիշտ ինչպես միջինը գտնելու համար:

Մեր օրինակում կան 6 տվյալներ, որոնք գտնվում են միջինից բարձր, և 6 տվյալներ, որոնք գտնվում են միջինից ցածր: Սա նշանակում է, որ ստորին քառորդը գտնելու համար մեզ անհրաժեշտ կլինի միջինը 2 տվյալների միջին միջինից ներքևում գտնվող 6 տվյալների միջին: Միջինից ցածր 6 տվյալների 3 -րդ և 4 -րդ տվյալները երկուսն էլ 70 -ն են: Այսպիսով, միջինն է ((70 + 70) / 2), = 70. 70 -ը դառնում է մեր Q1- ը:

Հաշվարկեք ծայրահեղությունները Քայլ 5
Հաշվարկեք ծայրահեղությունները Քայլ 5

Քայլ 5. Հաշվիր վերին քառյակը:

Այս արժեքը, որը մենք տալիս ենք Q3 փոփոխականը, այն տվյալն է, որի վրա տվյալների հավաքածուի տվյալների 25 տոկոսը կա: Q3- ի որոնումը գրեթե նույնն է, ինչ Q1- ը, բացառությամբ, որ այս դեպքում մենք նայում ենք միջինից վերը նշված տվյալների, այլ ոչ թե միջինից ներքև:

Շարունակելով մեր վերը բերված օրինակը ՝ միջինից վերևի 6 տվյալների միջնամասում գտնվող 2 տվյալները 71 և 72. Այս 2 տվյալների միջինն է ((71 + 72)/2), = 71, 5. 71, 5 -ը մեր Q3- ն է:

Հաշվարկեք ծայրահեղությունները Քայլ 6
Հաշվարկեք ծայրահեղությունները Քայլ 6

Քայլ 6. Գտեք միջքարտային հեռավորությունը:

Այժմ, երբ մենք գտել ենք Q1 և Q3, մենք պետք է հաշվարկենք այս երկու փոփոխականների միջև հեռավորությունը: Q1- ից Q3 հեռավորությունը հայտնաբերվում է Q1- ից Q3- ից հանելով: Այն արժեքները, որոնք դուք ստանում եք միջքարտային հեռավորությունների համար, շատ կարևոր են ձեր տվյալների հավաքածուի ոչ արտակարգ տվյալների տվյալների սահմանները որոշելու համար:

  • Մեր օրինակում Q1 և Q3 մեր արժեքները 70 և 71 են, 1, 5.
  • Պետք է նշել, որ դա նույնպես ճիշտ է նույնիսկ եթե Q1, Q3 կամ երկուսն էլ բացասական թվեր են: Օրինակ, եթե մեր Q1 արժեքը -70 լիներ, մեր ճիշտ միջկառույցային հեռավորությունը կլիներ 71.5 -(-70) = 141, 5:
Հաշվարկեք ծայրահեղությունները Քայլ 7
Հաշվարկեք ծայրահեղությունները Քայլ 7

Քայլ 7. Տվյալների հավաքածուում գտեք «ներքին ցանկապատը»:

Եզրագծերը հայտնաբերվում են `ստուգելով, թե արդյոք տվյալ տվյալները ընկնում են« ներքին ցանկապատ »և« արտաքին ցանկապատ »կոչվող թվերի սահմաններում: Տվյալների հավաքածուի ներքին պարիսպից դուրս ընկած տվյալները կոչվում են «աննշան ծայրահեղություններ», իսկ արտաքին պարիսպից դուրս ընկած տվյալները `« հիմնական ծայրահեղություններ »: Ձեր տվյալների հավաքածուի ներքին ցանկապատը գտնելու համար նախ բազմապատկեք միջքարտային հեռավորությունը 1, 5 -ով: Այնուհետև արդյունքը ավելացրեք Q3- ով և հանեք այն Q1- ից: Ստացված երկու արժեքները ձեր տվյալների հավաքածուի ներքին ցանկապատի սահմաններն են:

  • Մեր օրինակում միջկառույցային հեռավորությունը (71.5 - 70), կամ 1.5: Բազմապատկեք 1.5 -ով 1.5 -ով, ինչը հանգեցնում է 2.25 -ի: Այս թիվը ավելացնում ենք Q3- ին և Q1- ն հանում ենք այս թվով ՝ ներքին ցանկապատի սահմանները գտնելու համար հետևյալ կերպ.

    • 71, 5 + 2, 25 = 73, 75
    • 70 - 2, 25 = 67, 75
    • Այսպիսով, մեր ներքին ցանկապատի սահմաններն են 67, 75 և 73, 75.
  • Մեր տվյալների հավաքածուի մեջ միայն ջեռոցի ջերմաստիճանը `300 Fahrenheit - այս սահմաններից դուրս է, և այս տվյալն աննշան ծայրահեղություն է: Այնուամենայնիվ, մենք դեռ չենք հաշվարկել, թե արդյոք այս ջերմաստիճանը հիմնական արտանետումն է, այնպես որ մի շտապեք եզրակացություններ անել, քանի դեռ չենք կատարել մեր հաշվարկները:

    Հաշվարկեք ծայրահեղությունները Քայլ 7Bullet2
    Հաշվարկեք ծայրահեղությունները Քայլ 7Bullet2
Հաշվարկեք ծայրահեղությունները Քայլ 8
Հաշվարկեք ծայրահեղությունները Քայլ 8

Քայլ 8. Տվյալների հավաքածուում գտեք «արտաքին ցանկապատը»:

Դա արվում է այնպես, ինչպես ներքին պարիսպը գտնելը, բացառությամբ, որ միջքարտային հեռավորությունը բազմապատկվում է 3 -ի փոխարեն 1.5 -ի փոխարեն: Արդյունքն այնուհետև ավելացվում է Q3- ին և հանվում Q1- ից `գտնելու արտաքին ցանկապատի վերին և ստորին սահմանները:

  • Մեր օրինակում միջկառույցային տարածությունը 3 -ով բազմապատկելը տալիս է (1, 5 x 3) կամ 4, 5. Մենք արտաքին ցանկապատի սահմանները գտնում ենք այնպես, ինչպես նախկինում.

    • 71, 5 + 4, 5 = 76
    • 70 - 4, 5 = 65, 5
    • Արտաքին ցանկապատի սահմաններն են 65.5 և 76.
  • Արտաքին ցանկապատի սահմանից դուրս գտնվող տվյալները կոչվում են հիմնական ծայրահեղություններ: Այս օրինակում վառարանի ջերմաստիճանը ՝ 300 Fahrenheit, ակնհայտորեն արտաքին ցանկապատից դուրս է, ուստի այս տվյալները «հաստատապես» հիմնական ծայրահեղություն են:

    Հաշվարկեք ծայրահեղությունները Քայլ 8Bullet2
    Հաշվարկեք ծայրահեղությունները Քայլ 8Bullet2
Հաշվարկեք ծայրահեղությունները Քայլ 9
Հաշվարկեք ծայրահեղությունները Քայլ 9

Քայլ 9. Օգտագործեք որակական դատողություն `որոշելու համար, թե արդյոք« դուրս գցել »արտաքին տվյալները:

Օգտագործելով վերը նկարագրված մեթոդը, կարելի է որոշել ՝ տվյալ տվյալն աննշան տվյալ է՞, խոշոր տվյալների՞, թե՞ ընդհանրապես ծայրահեղություն չէ: Այնուամենայնիվ, սխալ թույլ մի տվեք. Տվյալը որպես ծայրահեղություն գտնելը միայն նշում է այդ տվյալները որպես տվյալների հավաքածուից հանվելու «թեկնածու», այլ ոչ թե որպես «որը» պետք է դեն նետել: «Պատճառը», որը պատճառ է դառնում, որ արտաքին տվյալները շեղվեն տվյալների հավաքածուի այլ տվյալներից, շատ կարևոր է այն մերժել -չվերացնելու որոշման մեջ: Ընդհանուր առմամբ, չափման, գրանցման կամ փորձարարական պլանավորման սխալի հետևանքով առաջացած ծայրահեղությունը, օրինակ, կարող է մերժվել: Մյուս կողմից, այն սխալները, որոնք չեն առաջացել սխալի հետևանքով, և որոնք ցույց են տալիս նոր տեղեկատվություն կամ միտումներ, որոնք նախկինում կանխատեսված չէին, սովորաբար «չեն նետվում»:

  • Մեկ այլ չափանիշ, որը պետք է հաշվի առնել, այն է, թե արդյո՞ք արտանետվողը մեծ ազդեցություն ունի տվյալների հավաքածուի միջին արժեքի վրա, այսինքն ՝ արդյո՞ք արտաքինը այն շփոթում է, թե՞ սխալ է թվում: Սա շատ կարևոր է հաշվի առնել, եթե մտադիր եք եզրակացություններ անել ձեր տվյալների հավաքածուի միջինից:
  • Եկեք ուսումնասիրենք մեր օրինակը: Այս օրինակում, քանի որ «անչափ» անհավանական է թվում, որ վառարանը անկանխատեսելի բնական ուժերի միջոցով հասել է 300 աստիճանի Ֆարենհայտի, մենք կարող ենք գրեթե համոզված եզրակացնել, որ վառարանը պատահաբար միացել է, ինչը հանգեցրել է բարձր ջերմաստիճանի տվյալների աննորմալության: Բացի այդ, եթե չհեռացնենք ծայրահեղությունները, մեր տվյալների հավաքածուի միջին արժեքն է (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89,67 Ֆարենհայտ (32 աստիճան elsելսիուս)), մինչդեռ միջինը, եթե հեռացնենք ծայրամասերը (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70.55 Ֆարենհայտ (21 աստիճան elsելսիուս):

    Քանի որ այս ծայրահեղությունները առաջացել են մարդկային սխալի պատճառով, և քանի որ սխալ կլինի ասել, որ սենյակի միջին ջերմաստիճանը հասնում է գրեթե 90 աստիճանի Ֆարենհեյթ (32 աստիճան elsելսիուս), մենք ավելի լավ է ընտրենք «դեն նետել» մեր ծայրամասերը:

Հաշվարկեք ծայրահեղությունները Քայլ 10
Հաշվարկեք ծայրահեղությունները Քայլ 10

Քայլ 10. Իմացեք ծայրահեղությունների պահպանման կարևորությունը (երբեմն):

Թեև որոշ ծայրահեղություններ պետք է հեռացվեն տվյալների հավաքածուից, քանի որ դրանք առաջացնում են սխալներ և/կամ արդյունքները դարձնում են ոչ ճշգրիտ կամ սխալ, որոշ ծայրահեղություններ պետք է պահպանվեն: Եթե, օրինակ, արտաքինը, ըստ երևույթին, ձեռք բերված է բնականաբար (այսինքն ՝ ոչ սխալի հետևանք) և/կամ ուսումնասիրության ենթակա երևույթի վերաբերյալ նոր հեռանկար է ստեղծում, ապա չպետք է հեռացնել տվյալ տվյալների հավաքածուից: Գիտական հետազոտությունները սովորաբար շատ զգայուն իրավիճակ են, երբ խոսքը գնում է ծայրահեղությունների մասին. Ծայրահեղությունների սխալ հեռացումը կարող է նշանակել այն տեղեկատվության հրաժարումը, որը ցույց է տալիս նոր միտում կամ հայտնագործություն:

Օրինակ, ենթադրենք, մենք նախագծում ենք նոր դեղամիջոց ՝ ձկնաբուծարանում ձկների չափերը մեծացնելու համար: Մենք կօգտագործենք տվյալների հին հավաքածու ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), բացառությամբ, որ այս անգամ յուրաքանչյուր տվյալ կներկայացնի ձկան քաշը (գրամ) `ծննդից ի վեր այլ փորձարարական դեղամիջոց տալուց հետո: Այլ կերպ ասած, առաջին դեղամիջոցը պատճառ է դառնում, որ մեկ ձուկը կշռի 71 գրամ, երկրորդ դեղամիջոցը `մեկ այլ ձկան 70 գրամ եւ այլն: Այս դեպքում 300 -ը «դեռևս» մեծ ծայրահեղություն է, բայց մենք չպետք է հրաժարվենք այս տվյալից, քանի որ, ենթադրելով, որ այն ստացվել է առանց սխալի, դա հաջողություն է ներկայացնում ուսումնասիրության մեջ: Դեղամիջոցը, որի շնորհիվ ձուկը կարող է կշռել 300 գրամ, ավելի լավ է գործում, քան մյուս բոլոր դեղերը, ուստի այս տվյալները իրականում մեր տվյալների հավաքածուի «ամենակարևորն» են, ոչ թե «ամենակարևորը»:

Խորհուրդ ենք տալիս: