ข้อมูลแต่ละชุดที่เก็บรวบรวมมาได้ อาจมีลักษณะการแจกแจงความถี่แตกต่างกันไปดังได้กล่าวแล้วในข้อ 2 ในการวิเคราะห์ข้อมูล เราจำเป็นต้องศึกษาอย่างละเอียดละออว่าข้อมูลชุดนั้นๆ บอกอะไรแก่เราบ้าง เช่น สมมุติว่ามีข้อมูลเกี่ยวกับรายได้ต่อปีของคนจำนวนหนึ่งซึ่งเป็นตัวอย่างของประชากรทั้งประเทศ สิ่งต่างๆ ที่อาจต้องการทราบก็คือ ประชากรมีรายได้ต่อปีเฉลี่ยคนละเท่าไร รายได้ของคนมั่งมีและคนยากจนแตกต่างกันมากหรือไม่ และถ้าคนส่วนใหญ่ค่อนข้างยากจน คนเหล่านี้มีมากเพียงไร ค่าเหล่านี้คือค่าซึ่งบอกลักษณะต่างๆ ของข้อมูลซึ่งเป็นค่าสถิติอย่างหนึ่ง และสามารถคำนวณหาได้
อันที่จริงค่าต่างๆ เหล่านี้ พอจะทราบได้อย่างคร่าวๆ จากลักษณะการแจกแจงความถี่ของข้อมูล สมมุติว่ารูปที่ 8 ได้จากการแจกแจงความถี่ของรายได้ต่อปีของประชากรตามที่กล่าวข้างต้น สิ่งที่ทราบได้อย่างคร่าวๆ จากรูปดังกล่าวก็คือ ประชากรที่มีรายได้ปานกลางค่อนไปทางข้างต่ำมีจำนวนมาก ส่วนประชากรที่มีรายได้ต่ำมากหรือสูงมากมีจำนวนน้อย นอกจากนั้นช่องว่างระหว่างคนร่ำรวยและคนยากจนกว้างมาก ทั้งนี้เพราะปลายทั้งสองข้างของรูปโค้งห่างกันมาก อย่างไรก็ตามในทางสถิติ ข้อสรุปที่มิใช่ตัวเลขมีความหมายน้อยและไม่สามารถจะนำไปใช้ประโยชน์ในขั้นต่อไปได้ ดังนั้น ข้อสรุปทั้งหลายของข้อมูลจึงต้องแสดงออกเป็นตัวเลข
เนื่องจากการแจกแจงความถี่ของข้อมูลที่พบส่วนมาก มีลักษณะเป็นโค้งรูประฆัง กล่าวคือตรงกลางป่อง และโค้งจะลาดลงทั้งสองข้าง ดังนั้นการหาค่าที่บอกลักษณะสำคัญของข้อมูลที่มีการกระจายลักษณะนี้ ได้แก่การหาค่ากลางและการหาค่าการกระจายของข้อมูล ซึ่งจะได้กล่าวเป็นเรื่องๆ ต่อไป
1. การหาค่ากลางของข้อมูล
ค่ากลางของข้อมูลซึ่งมีที่ใช้มากได้แก่ มัชฌิมเลขคณิต (Arithmetic Mean) มัธยฐาน (Median) และฐานนิยม(Mode)
ก) มัชฌิมเลขคณิตของข้อมูลชุดใดๆ คือค่าเฉลี่ยของข้อมูลชุดนั้น ซึ่งอาจเขียนให้อยู่ในรูปสูตรได้ดังนี้
มัชฌิมเลขคณิต =
ผลบวกของทุกค่าของข้อมูล
จำนวนข้อมูล
ข) มัธยฐานของข้อมูลชุดใดๆ คือ คะแนนหรือค่า ณ ตำแหน่งกึ่งกลางของข้อมูลชุดนั้น ซึ่งข้อมูลทั้งชุดได้รับการเรียงลำดับแล้ว
ค) ฐานนิยมของข้อมูลชุดใดๆ คือ คะแนนหรือค่าที่มีความถี่สูงสุด หรือซ้ำกันมากที่สุดของข้อมูลชุดนั้น
ตัวอย่าง จงหามัชฌิมเลขคณิต มัธยฐาน และฐานนิยมของข้อมูลต่อไปนี้ 7 7 8 9 13 13 13
มัชฌิมเลขคณิต =
ผลบวกของทุกค่าของข้อมูล
จำนวนข้อมูล
=
(7 + 7 + 8 + 9 + 13 + 13 + 13)
7
= 10
มัธยฐาน = 9
ฐานนิยม = 13
2. การหาค่าการกระจายข้อมูล
การกระจายของข้อมูล หมายถึงการที่ข้อมูลชุดหนึ่งชุดใดมีลักษณะแผ่กว้างออกไปตามแนวนอนของแกนพิกัดฉากของกราฟ
สมมุติว่ามีคะแนนซึ่งได้จากการสอบคิดเลขในใจของเด็ก 20 คน ซึ่งแบ่งเป็น 2 กลุ่ม กลุ่มละ 10 คน ดังนี้
กลุ่มที่ 1 ได้คะแนน 4 8 5 6 7 10 2 7 6 8
กลุ่มที่ 2 ได้คะแนน 6 7 6 5 4 6 7 6 8 5
ถ้านำข้อมูลทั้งสองชุดนี้มาลงจุด จะเห็นว่าคะแนนของนักเรียนกลุ่มที่ 1 มีลักษณะแผ่กว้างออกไปหรือมีการกระจายมากกว่าคะแนนของนักเรียนกลุ่มที่ 2 ดังแสดงด้วยรูปที่ 9 และรูปที่ 10
วิธีที่ง่ายที่สุดที่จะเปรียบเทียบระหว่างข้อมูล 2 ชุดว่าข้อมูลชุดใดมีการกระจายมากกว่ากัน ได้แก่การตรวจดูค่าแตกต่างระหว่างคะแนนค่าสูงสุด และคะแนนค่าต่ำสุดของข้อมูลแต่ละชุด ค่าแตกต่างดังกล่าวนี้มีชื่อเรียกว่า
"พิสัย" (Range) ข้อมูลชุดใดมีค่าพิสัยสูงกว่า แสดงว่าข้อมูลนั้นน่าจะมีการกระจายมากกว่า
จากตัวอย่างข้อมูลที่ยกมาข้างต้นนี้จะเห็นว่า
ข้อมูลกลุ่มที่ 1 พิสัย = 10 - 2 = 8
ข้อมูลกลุ่มที่ 2 พิสัย = 8 - 4 = 4
เนื่องจากพิสัยเป็นสถิติที่ใช้วัดการกระจายได้อย่างคร่าวๆ เท่านั้น ดังนั้นจึงมักไม่เป็นที่นิยมใช้กัน
สถิติวัดการกระจายที่สำคัญ และใช้กันทั่วไป คือ ส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation) ซึ่งหาได้จากการเอาผลต่างระหว่างข้อมูลแต่ละค่า และมัชฌิมเลขคณิตของข้อมูลนั้นมายกกำลังสอง แล้วทำการถัวเฉลี่ยค่ากำลังสองเหล่านั้น จากนั้นจึงถอดกรณฑ์ที่สองของค่าเฉลี่ยที่ได้
จากข้อมูลกลุ่มที่ 2 หาค่าส่วนเบี่ยงเบนมาตรฐานได้ดังนี้
มัชฌิมเลขคณิต =
6 + 7 + 6 + 5 + 4 + 6 + 7 + 6 + 8 + 5
10
=
60
10
= 6
ส่วนเบี่ยงเบนมาตรฐาน =
6-6)2+(7-6)2+(6-6)2+(5-6)2+...+(5-6)2))/10
=
(0+1+0+1+4+0+1+0+4+1)/10
=
12/10
=
1.2
= 1.1
ค่าที่ได้จากการวัดการกระจายของข้อมูล เป็นสถิติสำคัญที่นำไปใช้ประโยชน์อย่างกว้างขวาง ค่าปานกลางเพียงอย่างเดียวไม่สามารถใช้บรรยายลักษณะสำคัญของข้อมูลทั้งกลุ่มได้เพียงพอ เช่นคนกลุ่มหนึ่งมีรายได้เฉลี่ยค่อนข้างสูง แต่มิได้หมายความว่าทุกคนในกลุ่มนั้นจะต้องมีรายได้สูงไปด้วย อาจจะมีบางคนซึ่งมีรายได้สูงมากและต่ำมากรวมอยู่ด้วย หรือทั้งกลุ่มอาจจะมีรายได้ไล่เลี่ยกันไม่แตกต่างกันมากนักก็เป็นได้ ลักษณะเช่นที่ว่านี้จะต้องดูจากการกระจายของข้อมูลซึ่งบางกลุ่มก็มีการกระจายมาก บางกลุ่มก็มีน้อย
นอกจากนี้ประโยชน์ที่ได้จากการกระจายของข้อมูล ก็คือการนำไปใช้ในการควบคุมคุณภาพของผลิตภัณฑ์บางอย่าง โดยพิจารณากำหนดว่า สิ่งของที่ผลิตได้ อาจจะเบี่ยงเบนไปจากคุณภาพมาตรฐานได้บ้าง แต่ต้องไม่เกินเท่าไร และทำนองเดียวกัน ในด้านของการพยากรณ์ก็จะสามารถใช้ค่าการกระจายเป็นตัวกำหนดได้ว่า การพยากรณ์นั้นๆ จะเชื่อถือได้มากน้อยเพียงไร และถ้าจะพยากรณ์คลาดเคลื่อนจากความจริงไปบ้างจะไม่มากหรือน้อยกว่าเท่าไร เป็นต้น
[กลับหัวข้อหลัก]