Thống kê mô tả (Descriptive Statistics) là các phương pháp sử dụng để tóm tắt hoặc mô tả một tập hợp dữ liệu, một mẫu nghiên cứu dưới dạng số hay biểu đồ trực quan. Các công cụ số dùng để mô tả thường dùng nhất là trung bình cộng và độ lệch chuẩn. Các công cụ trực quan thường dùng nhất là các biểu đồ.
Trong loạt bài “Thống kê mô tả trong nghiên cứu”, 4 nhóm đại lượng của thống kê mô tả sẽ lần lượt được giới thiệu một cách tổng quát và đưa ra những trường hợp sử dụng, bao gồm:
- Các đại lượng về trung tâm
- Các đại lượng về độ phân tán
- Các đại lượng về hình dáng phân phối
- Các đại lượng về sự tương quan
Trong Phần 1 – Các đại lượng về trung tâm, 3 thước đo được sử dụng rộng rãi nhằm biểu diễn một giá trị thể hiện vị trí/xu thế “trung tâm” của tập dữ liệu được giới thiệu: trung bình (mean – trung tâm về mặt giá trị), trung vị (median – trung tâm về mặt vị trí) và yếu vị (mode – trung tâm về mức độ tập trung dữ liệu).
Tổng quan về 3 đại lượng thể hiện vị trí/xu thế “trung tâm” của tập dữ liệu
Trung bình Pythagore (Pythagorean Means) Trung vị (Median) Yếu vị (Mode) Trung tâm về mặt giá trị Trung tâm về mặt vị trí Trung tâm về mức độ tập trung dữ liệu
ĐỊNH NGHĨA
Đại lượng trung bình Pythagore thể hiện trung tâm về mặt giá trị của tập dữ liệu, bao gồm:
Trung bình cộng (Arithmetic mean)
Là thước đo phổ biến nhất và dễ hiểu nhất về xu hướng trung tâm trong tập dữ liệu. Trung bình cộng bao gồm trung bình cộng đơn giản và trung bình cộng có trọng số.
Trung bình nhân (Geometric mean)
Còn được gọi là trung bình hình học, cho biết xu hướng trung tâm hoặc giá trị điển hình của một tập hợp số bằng cách sử dụng tích các giá trị của chúng. Giá trị trung bình nhân thường được sử dụng cho một tập hợp các số có giá trị được nhân với nhau hoặc có tính chất cấp số nhân, chẳng hạn như một tập hợp các số liệu tăng trưởng như: dân số hoặc lãi suất của một khoản đầu tư tài chính theo thời gian.
Trung bình điều hòa (Harmonic mean)
Thường được sử dụng để tìm giá trị trung bình của các quan sát được biểu diễn bởi tỉ số của hai giá trị có hai đơn vị đo khác nhau chẳng hạn như tốc độ di chuyển trung bình trong một khoảng thời gian.
Trung vị là một số tách giữa nửa lớn hơn và nửa bé hơn của một mẫu, một quần thể, hay một phân bố xác suất. Trung vị là giá trị giữa, có nghĩa ½ quan sát sẽ có các giá trị nhỏ hơn hay bằng số trung vị, và ½ quan sát sẽ có giá trị bằng hoặc lớn hơn số trung vị.
Yếu vị là giá trị xuất hiện nhiều lần nhất trong tập dữ liệu. Có tập dữ liệu có 1 mode, có tập dữ liệu có đến 2 hoặc 3 mode và cũng có thể có tập dữ liệu không có mode nào.
CÁCH TÍNH
Trung bình cộng (Arithmetic mean)
– Trung bình cộng đơn giản được tính theo công thức:
Trong đó: n là tổng số quan sát, xi là giá trị của các quan sát.
– Trung bình cộng có trọng số được tính theo công thức:
Trong đó: xi là giá trị của các quan sát, n là tổng số quan sát, wi là trọng số tương ứng của các quan sát.
Trung bình nhân (Geometric mean)
Số trung bình nhân của n giá trị xi có quan hệ tích số kiểu x1× x2 × x3 … × xn được tính theo công thức:
Trung bình điều hòa (Harmonic mean)
Công thức chung của trung bình điều hòa có dạng:
Hoặc đơn giản hơn là nghịch đảo của trung bình cộng của tập dữ liệu:
– Tập dữ liệu có số quan sát (n) là số lẻ: quan sát ở vị trí thứ [(n+1)/2] là số trung vị.
– Tập dữ liệu có số quan sát (n) là số chẵn: số trung vị là giá trị trung bình cộng của 2 quan sát nằm ở vị trí n/2 và [(n+2)/2])
Ví dụ đơn giản để tìm số trung vị:
Cho tập dữ liệu X={2,4,5,6,7,8,8,8,9,9}.
– Tập dữ liệu này có 10 giá trị. Giá trị trung vị là trung bình cộng của quan sát nằm ở vị trí thứ 5(7) và 6(8).
Số trung vị là (7+8)/2 = 7,5.
Đếm số lần xuất hiện của các giá trị, giá trị xuất hiện nhiều nhất chính là số mode.
Ví dụ đơn giản để tìm số mode:
Cho tập dữ liệu: X={2,4,5,6,7,8,8,8,9,9}.
Tập dữ liệu này có giá trị 8 xuất hiện nhiều nhất (3 lần).
Số mode là 8.
MÔ TẢ BẰNG ĐỒ THỊ
MỘT SỐ ỨNG DỤNG THƯỜNG GẶP VÀ VÍ DỤ MINH HỌA
Trung bình cộng (Arithmetic mean)
– Trung bình cộng đơn giản được sử dụng rất phổ biến để tính toán các tập dữ liệu mang tính liên tục trong các lĩnh vực: toán học, thống kê, kinh tế học, nhân chủng học, lịch sử,…
Ví dụ: Cho tập dữ liệu: X={2,4,5,6,7,8,9}. Giá trị trung bình cộng đơn giản được tính như sau:
– Trung bình cộng có trọng số thường được dùng để tính toán các chỉ số, tính điểm trung bình học tập, dữ liệu kết hợp bảng tần số, tính toán các giá trị hoặc lợi nhuận kỳ vọng của các khoản đầu tư,…
Ví dụ: Một sinh viên có điểm học kỳ I 4 môn học A, B, C, D lần lượt là 6,8,7,5, số tín chỉ lần lượt của 4 môn này là 2,3,3,3. Tính điểm trung bình học kỳ I của sinh viên này?
Điểm trung bình học kỳ I của sinh viên này được tính như sau:
Trung bình nhân (Geometric mean)
– Trung bình nhân thường được sử dụng để tính tỷ lệ tăng trưởng trung bình, còn gọi là tỷ lệ tăng trưởng kép hàng năm (CAGR).
– Trong tài chính, trung bình nhân được sử dụng để tính lợi tức hàng năm trong danh mục đầu tư chứng khoán; xây dựng các chỉ số chứng khoán.
Ví dụ: Nhà đầu tư có nguồn vốn ban đầu là 1 tỷ đồng, lãi suất đầu tư nhận được qua 5 năm lần lượt là: 2%, 5%, 7%, 8%, 10%. Nếu nhà đầu tư tiếp tục tái đầu tư hàng năm, tính số tiền nhà đầu tư thu về sau 5 năm?
– Vốn ban đầu: Vo=1.000.000.000đ- Tiền lãi nhà đầu tư nhận sau 5 năm được gọi là lãi kép, được tính bằng cách sử dụng trung bình nhân như sau:
Số tiền nhà đầu tư nhận được sau 5 năm:
– Dùng để tính toán trong các lĩnh vực thống kê xã hội chủ yếu nhờ vào khả năng tính toán từ nhiều nguồn dữ liệu khác thang đo mà không cần chuẩn hóa [2].
Ví dụ: Một công ty muốn xác định chất lượng học tập của hai nhân viên mới được cử đi tập huấn là A và B. Tuy nhiên, A và B được tập huấn ở 2 tổ chức lần lượt là U1 và U2 với 2 thang điểm đánh giá kết quả khác nhau:- Tổ chức U1 (thang điểm 5):rating(U1, A) = 4,5; rating(U1, B) = 3,5- Tổ chức U2 (thang điểm 100):rating(U2, A) = 70; rating(U2, B) = 80
Vậy chất lượng học tập trung bình của A hay B cao hơn?
Thông thường, nếu thực hiện chuẩn hóa về cùng 1 đơn vị, ta sẽ lấy điểm rating của từng nhân viên A và B chia cho thang điểm:
Tuy nhiên, sử dụng công thức của trung bình nhân trong trường hợp này không cần chuẩn hóa lại dữ liệu:
=>A tốt hơn B
Trung bình điều hòa (Harmonic mean)
– Trong vật lý, trung bình điều hòa được sử dụng để tính vận tốc trung bình, khối lượng riêng, điện trở, phương trình quang học.
Ví dụ: Một người đi từ nhà đến cơ quan với vận tốc 30km/h và từ cơ quan về nhà với vận tốc 10km/h, quãng đường đi dài 5km. Vận tốc trung bình trên cả 2 đoạn đường di chuyển của người này là bao nhiêu?
– Vận tốc trung bình nếu tính bằng trung bình cộng có trọng số: Đầu tiên, cần tính thời gian di chuyển 2 lượt đi do vận tốc di chuyển lượt đi và lượt về không giống nhau:
– Vận tốc trung bình nếu tính bằng công thức trung bình điều hòa:
– Trong tài chính: trung bình điều hòa có trọng số là phương pháp thích hợp hơn để tính trung bình các bội số, chẳng hạn như tỷ lệ giá – thu nhập (price-earnings – P/E)
– Trong lĩnh vực khoa học máy tính, đặc biệt là truy xuất thông tin và máy học, giá trị trung bình điều hòa của Precision và Recall (được gọi là F1-Score)[3] được sử dụng để đánh giá hiệu quả các thuật toán và mô hình máy học.
– Trung vị là thước đo trung tâm tốt hơn đối với các tập dữ liệu bất đối xứng hay tập dữ liệu bị tác động bởi giá trị ngoại lệ (Outliers [1]).
Ví dụ: Giả sử thu nhập hàng năm của 10 hộ dân trong một khu dân cư lần lượt là 1.000$ (5 hộ), 2.000$ (2 hộ), 3.000$ (1 hộ), 30.000$ (1 hộ) và 200.000$ (1 hộ). Thành phố cần rà soát các khu dân cư có thu nhập thấp (dưới 3.000$) để tiến hành các chính sách hỗ trợ.
– Ta thấy bình quân thu nhập của khu dân cư này nếu tính bằng trung bình cộng đơn giản sẽ là 24.200$. Tuy nhiên, nếu sử dụng giá trị trung bình để xác định khu dân cư này thuộc nhóm thu thập cao thì nó sẽ rất không phù hợp vì trong nhóm này có 1 hộ dân có mức thu nhập quá chênh lệch so với các hộ còn lại (200.000$) nên đã khiến giá trị trung bình bị đẩy lên cao.
Do đó, nên sử dụng giá trị trung vị (1.500$) thay giá trị trung bình để xác định bình quân thu nhập của khu dân cư này. Có thể chia thành 2 nhóm:
+ Những hộ dân dưới mức thu nhập 1.500$ thuộc diện thu nhập nhấp cần được hỗ trợ;
+ Những hộ dân trên mức 1.500$ thuộc nhóm thu nhập khá, nhưng những hộ dân có thu nhập dưới 3.000$ trong nhóm này sẽ tiếp tục được xem xét để nhận hỗ trợ của Thành phố.
– Yếu vị là đại lượng thống kê mô tả duy nhất có thể vận dụng cho dữ liệu định tính.
Ví dụ: Thu thập thông tin về giới tính của công nhân trong một nhà máy sản xuất, biến Giới tính là biến định danh với mã hóa 1 đại diện cho Nam, 2 đại diện cho Nữ. Nếu đếm được nhiều số 1 hơn số 2, tức giá trị của Mode trong tình huống này là 1, đồng nghĩa với công nhân nam nhiều hơn công nhân nữ.
MỘT SỐ LƯU Ý
– Trung bình cộng thường được sử dụng để biểu diễn xu hướng trung tâm, tuy nhiên giá trị của trung bình cộng dễ bị ảnh hưởng bởi các giá trị ngoại lệ và các phân phối bất đối xứng.
– Không sử dụng đại lượng trung bình cộng đối với dữ liệu định danh.
– Trung bình cộng hạn chế sử dụng với dữ liệu định lượng theo thang đo khoảng.
Mặc dù giá trị trung vị không chịu ảnh hưởng của các giá trị ngoại lệ và rất dễ tính toán. Tuy nhiên trung vị không thể dùng để dự đoán vì không chính xác bằng trung bình, trung vị thường được dùng để thay thế hoặc bổ sung nhằm điều chỉnh 1 số hạn chế khi sử dụng giá trị trung bình.
Yếu vị cũng không bị ảnh hưởng bởi các giá trị ngoại lệ. Tuy nhiên, yếu vị chỉ ổn định khi lượng giá trị nhiều và sẽ khó xác định rõ nếu dữ liệu chỉ có một số ít giá trị.
Do yếu vị chỉ đếm số lần xuất hiện nhiều nhất của giá trị trong tập dữ liệu nên có thể có một hoặc nhiều yếu vị hoặc không có yếu vị nào cả.
Duy Sang tổng hợp
Chú thích:[1] Dữ liệu ngoại lệ (Outliers) là một điểm dữ liệu có sự khác biệt đáng kể so với các quan sát khác. Dữ liệu ngoại lệ có thể xuất hiện do sự thay đổi thang đo hoặc do lỗi từ dữ liệu thu thập (thông thường dữ liệu ngoại lệ dạng này sẽ bị loại khỏi tập dữ liệu). Một giá trị ngoại lệ có thể gây ra vấn đề nghiêm trọng trong quá trình phân tích dữ liệu.[2] Từ năm 2010, Chỉ số Phát triển Con người (HDI) của Liên Hợp Quốc đã được chuyển sang phương thức tính toán bằng trung bình nhân do các nguồn dữ liệu được sử dụng để tính HDI có thể khác thang đo.[3] F1-Score là giá trị trung bình điều hòa của Precision và Recall, nhằm mục tiêu tối đa hóa Precision hoặc Recall để mô hình tốt hơn. Trong đó: Precision có nghĩa là tỉ lệ số điểm Positive mô hình dự đoán đúng trên tổng số điểm mô hình dự đoán là Positive (true positives per predicted positive). Recall là tỉ lệ số điểm Positive mô hình dự đoán đúng trên tổng số điểm thật sự là Positive hay tổng số điểm được gán nhãn là Positive ban đầu (true positives per real positive).
–
Tài liệu tham khảo:Hoàng Trọng, Chu Nguyễn Mộng Ngọc. (2011). Thống kê ứng dụng trong kinh tế – xã hội. Hà Nội: NXB Lao Động – Xã hội.Illowsky et al. (2013). Introductory Statistics. Houston: sentayho.com.vns, J. R. (2017). Business Analytics. PearsonWikipedia. (2021). Arithmetic mean. Retrieved from Wikipedia: sentayho.com.vn/wiki/Arithmetic_meanWikipedia. (2021). Geometric mean. Retrieved from Wikipedia: sentayho.com.vn/wiki/Geometric_meanWikipedia. (2021). Harmonic mean. Retrieved from Wikipedia: sentayho.com.vn/wiki/Harmonic_mean
–
Các bài viết liên quan:
Thống kê mô tả trong nghiên cứu – Các đại lượng về độ phân tán
Thống kê mô tả trong nghiên cứu – Các đại lượng về hình dáng phân phối
Thống kê mô tả trong nghiên cứu – Các đại lượng về sự tương quan
–
QUÝ ANH/CHỊ CẦN HỖ TRỢ XỬ LÝ, PHÂN TÍCH DỮ LIỆU VUI LÒNG GỬI THÔNG TIN QUA FORM DƯỚI ĐÂY
CHÚNG TÔI SẼ LIÊN HỆ VÀ PHÚC ĐÁP TRONG THỜI GIAN SỚM NHẤT
Đang tải…