როგორ განვსაზღვროთ უკიდურესობა: 10 ნაბიჯი (სურათებით)

Სარჩევი:

როგორ განვსაზღვროთ უკიდურესობა: 10 ნაბიჯი (სურათებით)
როგორ განვსაზღვროთ უკიდურესობა: 10 ნაბიჯი (სურათებით)

ვიდეო: როგორ განვსაზღვროთ უკიდურესობა: 10 ნაბიჯი (სურათებით)

ვიდეო: როგორ განვსაზღვროთ უკიდურესობა: 10 ნაბიჯი (სურათებით)
ვიდეო: ნაყინი გიყვარᲗ?🤔 #georgia #foryou 2024, მაისი
Anonim

სტატისტიკაში, განცალკევებული ან „განუყოფელი“არის მონაცემები, რომლებიც ძალიან შორდება ნებისმიერი სხვა მონაცემისგან ნიმუშში ან მონაცემთა ნაკრებში (მონაცემთა ნაკრებებს ეწოდება მონაცემები). ხშირად, მონაცემების ნაკრებში გამორჩეული შეიძლება იყოს გაფრთხილება სტატისტიკოსისთვის მიღებული გაზომვების არანორმალურობის ან ექსპერიმენტული შეცდომის შესახებ, რამაც შეიძლება გამოიწვიოს სტატისტიკოსმა ამოიღოს გამორჩეული მონაცემების ნაკრებიდან. თუ სტატისტიკოსი ამოიღებს გარე მონაცემებს მონაცემთა ნაკრებიდან, კვლევის შედეგად მიღებული დასკვნები შეიძლება ძალიან განსხვავებული იყოს. აქედან გამომდინარე, ძალიან მნიშვნელოვანია ვიცოდეთ როგორ გამოვთვალოთ და გავაანალიზოთ უკიდურესად მნიშვნელოვანი სტატისტიკური მონაცემთა ნაკრების სწორი გაგება.

ნაბიჯი

გამოთვალეთ Outliers ნაბიჯი 1
გამოთვალეთ Outliers ნაბიჯი 1

ნაბიჯი 1. ისწავლეთ როგორ ამოიცნოთ პოტენციურად გამორჩეული მონაცემები

სანამ გადავწყვეტთ ამოვიღოთ თუ არა ცალკეული მონაცემები მონაცემთა ნაკრებიდან, თუ არა, რა თქმა უნდა, უნდა დავადგინოთ რომელი მონაცემების პოტენციალი გახდება უფრო მაღალი. ზოგადად, განცალკევება არის მონაცემები, რომლებიც ძალიან შორდება სხვა მონაცემებიდან ერთ მონაცემთა ნაკრებში - სხვა სიტყვებით რომ ვთქვათ, გამორჩეული სხვა მონაცემების „გარეთ“არის. როგორც წესი, ადვილია მონაცემების ცხრილში ან (კერძოდ) დიაგრამაში გამორჩეული მონაცემების გამოვლენა. თუ მონაცემების ერთი ნაკრები ვიზუალურად არის აღწერილი გრაფიკით, მაშინ გამოჩნდება, რომ მონაცემები ძალიან შორს არის სხვა მონაცემებისგან. თუ, მაგალითად, მონაცემთა ნაკრების უმეტესობა მონაცემთა სწორ ნაკრებში ქმნის სწორხაზოვან ხაზს, გარეთა მონაცემები არ იქნება გონივრულად განმარტებული, როგორც ამ ხაზის ფორმირება.

მოდით შევხედოთ მონაცემთა ნაკრებებს, რომლებიც ასახავს ოთახში 12 სხვადასხვა ობიექტის ტემპერატურას. თუ 11 ობიექტს აქვს ტემპერატურა დაახლოებით 70 ფარენჰეიტი (21 გრადუსი ცელსიუსი), მაგრამ მე -12 ობიექტს, ღუმელს, აქვს ტემპერატურა 300 ფარენჰეიტი (150 გრადუსი ცელსიუსი), მაშინვე ჩანს, რომ ღუმელის ტემპერატურა ძალიან სავარაუდოა უფრო მაღალი

გამოთვალეთ Outliers ნაბიჯი 2
გამოთვალეთ Outliers ნაბიჯი 2

ნაბიჯი 2. დაალაგეთ მონაცემები მონაცემთა ნაკრებში ყველაზე დაბალიდან უმაღლესიდან

პირველი ნაბიჯი მონაცემების ნაკრებში გარე მაჩვენებლების გამოსათვლელად არის ამ მონაცემთა ნაკრების მედიანის (საშუალო მნიშვნელობის) პოვნა. ეს ამოცანა ხდება ძალიან მარტივი, თუ მონაცემთა ნაკრები მონაცემთა ნაკრებშია მოწყობილი უმცირესიდან ყველაზე დიდამდე. ასე რომ, სანამ გააგრძელებთ, დაალაგეთ მონაცემები ერთ ასეთ მონაცემთა ნაკრებში.

გავაგრძელოთ ზემოთ მოყვანილი მაგალითი. ეს არის ჩვენი მონაცემების ნაკრები, რომელიც წარმოადგენს ოთახში რამდენიმე ობიექტის ტემპერატურას: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. თუ ჩვენ ვაწყობთ მონაცემებს ყველაზე დაბალიდან უმაღლესამდე, მონაცემთა რიცხვი ხდება: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}

გამოთვალეთ Outliers ნაბიჯი 3
გამოთვალეთ Outliers ნაბიჯი 3

ნაბიჯი 3. გამოთვალეთ მონაცემთა ნაკრების მედიანა

მონაცემთა ნაკრების მედიანა არის მონაცემები, როდესაც მონაცემების მეორე ნახევარი ამ მონაცემზე მაღლაა, ხოლო დანარჩენი ნახევარი ქვემოთ - ძირითადად, ეს არის ის მონაცემები, რომლებიც არის მონაცემთა ნაკრების "შუაში". თუ მონაცემთა ნაკრების რიცხვი უცნაურია, მისი პოვნა ძალიან ადვილია - მედიანა არის ის მონაცემები, რომელსაც აქვს იგივე რიცხვი ზემოთ და ქვემოთ. თუმცა, თუ მონაცემების ნაკრებებში მონაცემების რიცხვი არის თანაბარი, მაშინ, რადგანაც არავინ არ ჯდება შუაში, შუაში არსებული 2 მონაცემის საშუალო მაჩვენებელია მედიანის საპოვნელად. უნდა აღინიშნოს, რომ უკიდურესი მაჩვენებლების გამოთვლისას მედიანას ჩვეულებრივ ენიჭება ცვლადი Q2-ni, რადგან Q2 არის Q1 და Q3, ქვედა და ზედა კვარტილს შორის, რასაც მოგვიანებით განვიხილავთ.

  • არ უნდა აგვერიოს მონაცემთა ნაკრებში, სადაც მონაცემების რიცხვი თანაბარია-საშუალოდ 2 შუა მონაცემების რიცხვი ხშირად დააბრუნებს რიცხვს, რომელიც არ არის თავად მონაცემთა ნაკრებში-ეს ნორმალურია. თუმცა, თუ ორი შუა რიცხვი ერთი და იგივეა, საშუალო, რა თქმა უნდა, ასევე იქნება იგივე რიცხვი, რაც ასევე კარგია.
  • ზემოთ მოყვანილ მაგალითში ჩვენ გვაქვს 12 მონაცემები. 2 შუა მონაცემები არის მე -6 და მე -7 მონაცემები-70 და 71 შესაბამისად. ამრიგად, ჩვენი მონაცემთა ნაკრების მედიანა არის ამ ორი რიცხვის საშუალო: ((70 + 71) / 2), = 70.5.
გამოთვალეთ Outliers ნაბიჯი 4
გამოთვალეთ Outliers ნაბიჯი 4

ნაბიჯი 4. გამოთვალეთ ქვედა კვარტალი

ეს მნიშვნელობა, რომელსაც ჩვენ ვაძლევთ ცვლადს Q1, არის ის მონაცემები, რომელიც წარმოადგენს მონაცემების 25 პროცენტს (ან მეოთხედს). სხვა სიტყვებით რომ ვთქვათ, ეს არის ის მონაცემი, რომელიც ანაწილებს მონაცემებს მედიანის ქვემოთ. თუ მედიანას ქვემოთ მოცემული მონაცემების რიცხვი თანაბარია, თქვენ კვლავ უნდა გამოთვალოთ საშუალოდ 2 მონაცემთა შუალედში Q1- ის საპოვნელად, ისევე როგორც თქვენ თვითონ მედიანის მოსაძებნად.

ჩვენს მაგალითში არის 6 მონაცემები, რომლებიც მდებარეობს მედიანის ზემოთ და 6 მონაცემები, რომლებიც მდებარეობს მედიანის ქვემოთ. ეს ნიშნავს, რომ ქვედა კვარტილის საპოვნელად, ჩვენ დაგვჭირდება საშუალოდ 2 მონაცემთა შუალედი მედიანის ქვემოთ 6 მონაცემის შუაში. მედიანის ქვემოთ მოცემული 6 მონაცემის მე -3 და მე -4 მონაცემები ორივე 70 -ია. ასე რომ, საშუალო არის ((70 + 70) / 2), = 70 რა 70 ხდება ჩვენი Q1.

გამოთვალეთ Outliers ნაბიჯი 5
გამოთვალეთ Outliers ნაბიჯი 5

ნაბიჯი 5. გამოთვალეთ ზედა კვარტილი

ეს მნიშვნელობა, რომელსაც ჩვენ ვაძლევთ ცვლადს Q3, არის ის მონაცემები, რომელზედაც მონაცემთა ნაკრების 25 პროცენტია მონაცემთა ნაკრებში. Q3- ის პოვნა თითქმის იგივეა, რაც Q1- ის პოვნა, გარდა იმისა, რომ ამ შემთხვევაში ჩვენ ვუყურებთ მონაცემებს მედიანის ზემოთ და არა მედიანის ქვემოთ.

თუ გავაგრძელებთ ჩვენს მაგალითს ზემოთ, მედიანის ზემოთ 6 მონაცემის 2 შუაში არის 71 და 72. ამ 2 მონაცემის საშუალო არის ((71 + 72)/2), = 71, 5 რა 71, 5 არის ჩვენი Q3.

გამოთვალეთ Outliers ნაბიჯი 6
გამოთვალეთ Outliers ნაბიჯი 6

ნაბიჯი 6. იპოვეთ კვარტალთაშორის მანძილი

ახლა, როდესაც ჩვენ ვიპოვნეთ Q1 და Q3, ჩვენ უნდა გამოვთვალოთ მანძილი ამ ორ ცვლადს შორის. მანძილი Q1– დან Q3– მდე გვხვდება Q1– ის გამოკლებით Q3– დან. ღირებულებები, რომლებიც მიიღებთ კვარტალთაშორის დისტანციებზე, ძალიან მნიშვნელოვანია თქვენს მონაცემთა ნაკრებში არაგარემირებული მონაცემების საზღვრების განსაზღვრისათვის.

  • ჩვენს მაგალითში, ჩვენი მნიშვნელობები Q1 და Q3 არის 70 და 71, 5. ინტერკვარტილური მანძილის საპოვნელად ჩვენ გამოვაკლებთ Q3 - Q1 = 71.5 - 70 = 1, 5.
  • უნდა აღინიშნოს, რომ ეს ასევე მართალია იმ შემთხვევაშიც კი, თუ Q1, Q3, ან ორივე უარყოფითი რიცხვია. მაგალითად, თუ ჩვენი Q1 მნიშვნელობა იყო -70, ჩვენი სწორი კვარტალური მანძილი იქნება 71.5 -(-70) = 141, 5.
გამოთვალეთ უკიდურესობა ნაბიჯი 7
გამოთვალეთ უკიდურესობა ნაბიჯი 7

ნაბიჯი 7. იპოვეთ "შიდა ღობე" მონაცემთა ნაკრებში

გარეგანი მაჩვენებლები შემოწმებულია, შემოწმებულია თუ არა მონაცემთა რიცხვი იმ რიცხვის საზღვრებში, რომელსაც ეწოდება "შიდა ღობე" და "გარე ღობე". მონაცემთა ნაკრები, რომელიც გადმოდის მონაცემთა ნაკრების შიდა ღობის გარეთ, არის მოხსენიებული, როგორც "უმნიშვნელო განშორება", ხოლო ის, რაც გარე ღობის მიღმაა, მოხსენიებულია, როგორც "უმთავრესი გარჩევა". იმისათვის, რომ იპოვოთ შიდა ღობე თქვენს მონაცემთა ნაკრებში, ჯერ გაამრავლეთ კვარტალური მანძილი 1, 5. შემდეგ, დაამატეთ შედეგი Q3– ით და ასევე გამოაკელით მას Q1– დან. ორი მნიშვნელობა, რომელსაც თქვენ მიიღებთ, არის თქვენი მონაცემთა ნაკრების შიდა ღობის საზღვრები.

  • ჩვენს მაგალითში, კვარტალური მანძილი არის (71.5 - 70), ან 1.5. გავამრავლოთ 1.5 -ით 1.5, რაც იწვევს 2.25 -ს. ჩვენ ამ რიცხვს ვუმატებთ Q3- ს და ამ რიცხვით გამოვაკლებთ Q1- ს, რათა ვიპოვოთ შიდა ღობის საზღვრები შემდეგნაირად:

    • 71, 5 + 2, 25 = 73, 75
    • 70 - 2, 25 = 67, 75
    • ასე რომ, ჩვენი შიდა ღობის საზღვრებია 67, 75 და 73, 75.
  • ჩვენს მონაცემთა ნაკრებში, მხოლოდ ღუმელის ტემპერატურა, 300 ფარენჰაიტი - ამ საზღვრებს მიღმაა და, შესაბამისად, ეს მონაცემები უმნიშვნელოა. თუმცა, ჩვენ ჯერ კიდევ არ გვაქვს გამოთვლილი, არის თუ არა ეს ტემპერატურა მთავარი განმასხვავებელი, ასე რომ ნუ იჩქარებთ დასკვნების გამოტანამდე, სანამ გამოთვლებს არ გავაკეთებთ.

    გამოთვალეთ Outliers ნაბიჯი 7Bullet2
    გამოთვალეთ Outliers ნაბიჯი 7Bullet2
გამოთვალეთ Outliers ნაბიჯი 8
გამოთვალეთ Outliers ნაბიჯი 8

ნაბიჯი 8. იპოვეთ "გარე ღობე" მონაცემთა ნაკრებში

ეს კეთდება ისე, როგორც შიდა ღობის პოვნა, გარდა იმისა, რომ კვარტალთა მანძილი მრავლდება 3 – ით 1.5 – ის ნაცვლად.

  • ჩვენს მაგალითში, კვარტალური მანძილის გამრავლებით 3 იძლევა (1, 5 x 3), ან 4, 5. ჩვენ ვპოულობთ გარე ღობის საზღვრებს ისე, როგორც ადრე:

    • 71, 5 + 4, 5 = 76
    • 70 - 4, 5 = 65, 5
    • გარე ღობის საზღვრებია 65.5 და 76.
  • მონაცემები, რომლებიც გარეთა ღობის საზღვრის მიღმაა, მოხსენიებულია, როგორც მთავარი გარღვევები. ამ მაგალითში, ღუმელის ტემპერატურა, 300 ფარენჰეიტი, აშკარად გარე ღობის მიღმაა, ამიტომ ეს მონაცემი "ნამდვილად" მთავარი გამორჩეულია.

    გამოთვალეთ Outliers ნაბიჯი 8Bullet2
    გამოთვალეთ Outliers ნაბიჯი 8Bullet2
გამოთვალეთ უკიდურესობა ნაბიჯი 9
გამოთვალეთ უკიდურესობა ნაბიჯი 9

ნაბიჯი 9. გამოიყენეთ თვისობრივი განსჯა იმის დასადგენად, გადააგდოთ თუ არა უკიდურესი მონაცემები

ზემოთ აღწერილი მეთოდის გამოყენებით, შეიძლება განისაზღვროს არის თუ არა მონაცემები უმნიშვნელო, ძირითადი მონაცემები, თუ საერთოდ არ არის გარეგანი. თუმცა, არ დაუშვათ შეცდომა - მონაცემების პოვნა, როგორც განმსაზღვრელი, მხოლოდ აღნიშნავს ამ მონაცემს, როგორც "კანდიდატს", რომელიც უნდა მოიხსნას მონაცემთა ნაკრებიდან და არა როგორც მონაცემთა, რომელიც "უნდა" გაუქმდეს. "მიზეზი", რომელიც იწვევს მონაცემების ნაკრების სხვა მონაცემებიდან გადახრას, ძალზედ მნიშვნელოვანია მისი გაუქმების თუ არა. ზოგადად, მაგალითად, გაზომვის, ჩაწერის ან ექსპერიმენტული დაგეგმვის შეცდომით გამოწვეული უკიდურესობა შეიძლება განადგურდეს. მეორეს მხრივ, უკიდურესობებს, რომლებიც არ არის გამოწვეული შეცდომით და რომლებიც მიუთითებენ ახალ ინფორმაციაზე ან ტენდენციებზე, რომლებიც ადრე არ იყო პროგნოზირებული, ჩვეულებრივ "არ" იშლება.

  • კიდევ ერთი კრიტერიუმი გასათვალისწინებელია ის, აქვს თუ არა გადამწყვეტი გავლენა მონაცემების ნაკრების საშუალო მაჩვენებელს, ანუ აბნევს თუ არა ის გარეგნულად არასწორად. ეს ძალიან მნიშვნელოვანია იმის განსახილველად, თუ აპირებთ დასკვნების გამოტანას თქვენი მონაცემთა ნაკრების საშუალოდან.
  • მოდით შეისწავლოთ ჩვენი მაგალითი. ამ მაგალითში, ვინაიდან "უკიდურესად" ნაკლებად სავარაუდოა, რომ ღუმელმა მიაღწია 300 ფარენჰეიტს არაპროგნოზირებადი ბუნებრივი ძალების საშუალებით, ჩვენ შეგვიძლია თითქმის დარწმუნებით დავასკვნათ, რომ ღუმელი შემთხვევით იქნა ჩართული, რამაც გამოიწვია მაღალი ტემპერატურის მონაცემები. ასევე, თუ ჩვენ არ ამოვიღებთ გარედან, ჩვენი მონაცემების ნაკრები ნიშნავს (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89.67 ფარენჰეიტს (32 გრადუსი ცელსიუსი)), ხოლო საშუალო თუ ამოვიღებთ გარედან არის (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70.55 ფარენჰაიტი (21 გრადუსი ცელსიუსი).

    ვინაიდან ეს უკიდურესობა გამოწვეული იყო ადამიანური შეცდომით და რადგან არასწორი იქნებოდა იმის თქმა, რომ ოთახის საშუალო ტემპერატურა თითქმის 90 ფარენჰეიტს აღწევს (32 გრადუსი ცელსიუსი), ჩვენ ჯობია ვირჩევთ "გადააგდოთ" ჩვენი გარეთა ნაწილები

გამოთვალეთ Outliers ნაბიჯი 10
გამოთვალეთ Outliers ნაბიჯი 10

ნაბიჯი 10. იცოდეთ რა მნიშვნელობა აქვს ზოგჯერ

მიუხედავად იმისა, რომ ზოგიერთი უკიდურესი მაჩვენებელი უნდა მოიხსნას მონაცემთა ნაკრებიდან, რადგან ისინი იწვევენ შეცდომებს ან/და შედეგებს არაზუსტ ან შეცდომად აქცევს, ზოგიერთი უკიდურესობა უნდა შენარჩუნდეს. თუ, მაგალითად, გარეგანი მაჩვენებელი ბუნებრივად არის შეძენილი (ანუ არ არის შეცდომის შედეგი) და/ან იძლევა ახალ პერსპექტივას შესწავლილ ფენომენზე, ეს არ უნდა იყოს ამოღებული მონაცემთა ნაკრებიდან. სამეცნიერო კვლევა, როგორც წესი, ძალიან მგრძნობიარე სიტუაციაა, როდესაც საქმე ეხება ექსტრემისტებს - არასწორი მონაცემების ამოღება შეიძლება ნიშნავს ინფორმაციის გაუქმებას, რაც მიუთითებს ახალ ტენდენციაზე ან აღმოჩენაზე.

მაგალითად, ვთქვათ, ჩვენ ვქმნით ახალ წამალს თევზის აუზში თევზის ზომის გასაზრდელად. ჩვენ გამოვიყენებთ ჩვენს ძველ მონაცემებს ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), გარდა იმისა, რომ ამჯერად თითოეული მონაცემები წარმოადგენს თევზის წონას (გრამებში) დაბადების შემდეგ განსხვავებული ექსპერიმენტული პრეპარატის მიღების შემდეგ. სხვა სიტყვებით რომ ვთქვათ, პირველი პრეპარატი იწვევს ერთი თევზის წონას 71 გრამს, მეორე წამალი იწვევს მეორე თევზის წონას 70 გრამს და ასე შემდეგ. ამ შემთხვევაში, 300 არის "ჯერ კიდევ" დიდი სხვაობა, მაგრამ ჩვენ არ უნდა გადავაგდოთ ეს მონაცემი, რადგან თუ ვივარაუდებთ, რომ ის შეცდომის გარეშე იქნა მიღებული, ის წარმოადგენს წარმატებას კვლევაში. წამალი, რომელსაც შეუძლია თევზის წონა 300 გრამი უკეთესად იმოქმედოს ყველა სხვა წამალზე, ასე რომ ეს მონაცემები ნამდვილად არის "ყველაზე" მნიშვნელოვანი ჩვენს მონაცემთა ნაკრებში და არა "უმნიშვნელოვანესი"

გირჩევთ: