Skip to main content

Quy luật Empirical và điểm dị biệt outliers trong thống kê

 

1. Quy luật Empirical

Quy luật Empirical, còn được gọi là quy luật ba sigma hay quy luật 68-95-99.7, quy định rằng đối với phân phối chuẩn, hầu hết tất cả dữ liệu nằm trong ba độ lệch chuẩn (σ – standard deviation) của giá trị trung bình (µ – mean). Theo quy luật này, 68% quan sát nằm trong độ lệch chuẩn đầu tiên (±1σ), 95% quan sát nằm trong hai độ lệch chuẩn đầu tiên (±2σ) và 99.7% nằm trong ba độ lệch chuẩn đầu tiên (±3σ). Trên cơ sở này, nếu tồn tại các điểm dữ liệu nằm ngoài vùng ba độ lệch chuẩn, các điểm dữ liệu đó sẽ được nhận diện là điểm dị biệt.

quy luat empirical

2. Điểm dị biệt outliers

Điểm dị biệt (điểm ngoại lai – outliers) là những quan sát không nằm trong xu hướng chung so với phần còn lại của dữ liệu. Nếu một bộ dữ liệu xuất hiện quá nhiều điểm dị biệt sẽ làm giảm tính chính xác của các ước lượng thống kê. Cơ chế nhận dạng điểm dị biệt chủ yếu dựa vào tính chuẩn hóa của dữ liệu, các giá trị khác biệt khiến cho dữ liệu giảm khả năng chuẩn hóa sẽ được xếp vào điểm dị biệt cần xem xét. Xét theo tính chất, điểm dị biệt có thể được chia làm hai dạng:

  • Loại 1: Điểm dị biệt có thể nhận diện được qua các thống kê tần số, bảng kết hợp do tính bất hợp lý về quy định giá trị hoặc sự logic thông tin. Ví dụ biến giới tính chỉ có hai giá trị được quy định là 1 – nam và 2 – nữ nhưng khi thống kê tần số, biến này lại xuất hiện giá trị ngoài 1, 2. Một ví dụ khác, độ tuổi 18 nhưng thâm niên làm việc là 20 năm, điều này vi phạm sự logic thông tin.
  • Loại 2: Điểm dị biệt khó nhận dạng do chúng hợp lý về quy định giá trị, thỏa mãn tính logic thông tin nhưng lệch khỏi xu hướng phân phối chuẩn dữ liệu. Các điểm dị biệt này làm ảnh hưởng đến một số kết quả thống kê định lượng, tùy số lượng điểm dị biệt cũng như mức độ dị biệt mà sự ảnh hưởng là nhiều hay ít.

Nếu xét theo tính kết hợp, thì điểm dị biệt được chia làm hai loại là univariate (dị biệt đơn lẻ) và multivariate outliers (dị biệt kết hợp):

  • Univariate outliers là những điểm dị biệt xuất hiện khi xét trong một biến đơn lẻ. Mỗi biến sẽ được phân tích điểm dị biệt một lần. Ví dụ, chúng ta có ba câu hỏi hỏi về giới tính, thâm niên làm việc, sự hài lòng trong công việc, thì ba câu này sẽ phân tích điểm dị biệt tách riêng nhau, không có sự liên quan nào giữa ba câu hỏi. Do đó, kết quả chúng ta sẽ có điểm dị biệt của biến giới tính, điểm dị biệt của biến thâm niên, điểm dị biệt của biến sự hài lòng.
  • Multivariate outliers là những điểm dị biệt xuất hiện khi kết hợp hai hay nhiều biến. Ví dụ, khi chúng ta xem xét mối quan hệ giữa thâm niên làm việc và sự hài lòng, sẽ có những điểm dị biệt xuất phát từ sự kết hợp giữa hai biến này với nhau. Điểm dị biệt này có thể trùng với điểm dị biệt đơn lẻ hoặc khác với điểm dị biệt đơn lẻ của mỗi biến.

Việc phát hiện và loại bỏ, điều chỉnh điểm dị biệt là cần thiết, tuy nhiên không được lạm dụng để cải thiện các chỉ số thống kê. Nếu điểm dị biệt mà giá trị của chúng nằm ngoài phạm vi thang đo, hoặc không hợp lý về tính logic thông tin, hoặc thực sự khác biệt quá lớn so với xu hướng chung của dữ liệu chúng ta mới cân nhắc loại bỏ.

Loại bỏ điểm dị biệt thiếu sự xem xét kỹ lưỡng sẽ làm cho cỡ mẫu giảm đi, đồng thời chúng ta cũng đang loại bỏ đi một phần tính thực tế của nghiên cứu. Tuy đó là điểm dị biệt nhưng chúng lại là câu trả lời thực tế của đáp viên, nếu chỉ vì để các chỉ số thống kê tốt hơn mà loại bỏ đi tính thực tế, điều này đã đi trái với mục đích nghiên cứu chúng ta đặt ra. Bên cạnh đó, không phải lúc nào xử lý điểm dị biệt cũng làm mô hình tốt hơn, thậm chí còn xảy ra tác dụng ngược như độ phù hợp mô hình giảm, biến độc lập có ý nghĩa lại trở thành không có ý nghĩa. Do vậy, kỹ thuật này cần thực hiện một cách cân nhắc, thử-sai liên tục để loại bỏ đúng các điểm dị biệt xấu nhằm có được kết quả cuối cùng tốt hơn chứ không phải thu về một kết quả tệ hơn.

Nguồn: https://hocnghiencuu.com/quy-luat-empirical-va-diem-di-biet-outliers-trong-thong-ke/

Popular posts from this blog

Thông báo về việc Xác nhận tham dự Lễ Tốt nghiệp UEH đợt 2 năm 2025

  Đại học Kinh tế Thành phố Hồ Chí Minh thông báo về việc xác nhận tham dự lễ Tốt nghiệp và cập nhật dữ liệu thông tin cá nhân (email và số điện thoại) như sau:   1. Đối tượng và thời gian xác nhận tham dự lễ Tốt nghiệp –  Đối tượng xác nhận: Người học bậc đại học xét tốt nghiệp đợt 1 (tháng 4), đợt 2 (tháng 6) năm 2025, và các khóa sau đại học xét tốt nghiệp đợt 3 (tháng 6, 7) năm 2025. – Thời gian xác nhận tham dự lễ Tốt nghiệp: + Người học tốt nghiệp Đại học:   Từ ngày 20/6/2025 đến hết ngày 08/7/2025. + Người học tốt nghiệp Thạc sĩ:   Từ ngày 20/7/2025 đến hết ngày 27/7/2025 – Người học xác nhận tham dự lễ Tốt nghiệp tại portal cá nhân ( https://student.ueh.edu.vn ), đăng nhập tài khoản và chọn mục “Đăng  ký tham dự lễ Tốt nghiệp”. – Nghiên cứu sinh xác nhận tham dự lễ Tốt nghiệp qua chuyên viên quản lý từ ngày  20/7/2025 đến hết ngày 03/8/2025  (đối với nghiên cứu sinh đã xét và công nhận tốt nghiệp đợt 3,4/2025). Lưu ý:  Người...

Lịch bảo vệ luận văn thạc sĩ từ 2.1.2025 đến 10.1.2025

  Địa chỉ cơ sở A: 59C Nguyễn Đình Chiểu, P.Võ Thị Sáu, Q.3, TP. Hồ Chí Minh. Nhập thông tin cần tìm: Ngày bảo vệ Phòng Giờ Mã học viên Họ tên học viên Ngành Hướng ngành Khóa học 02/01/2025 A106 13:30 522202120565 Trần Minh Tuấn Tài chính - Ngân hàng Hướng ứng dụng 02/01/2025 A106 14:00 522202120567 Trần Minh Uyên Tài chính - Ngân hàng Hướng ứng dụng 02/01/2025 A106 14:30 522202120571 Hoàng Thị Vy Tài chính - Ngân hàng Hướng ứng dụng 02/01/2025 A106 15:00 522202120572 Nguyễn Thị Yến Tài chính - Ngân hàng Hướng ứng dụng 02/01/2025 A202 13:30 522202200456 Nguyễn Thành Vũ Luật kinh tế Hướng ứng dụng 02/01/2025 A202 14:00 522202200340 Trần Hoàng Chương Luật kinh tế Hướng ứng dụng 02/01/2025 A202 14:30 522202200372 Tô Quốc Khá Luật kinh tế Hướng ứng dụng 02/01/2025 A202 15:00 522202200452 Nguyễn Hoàng Việt Luật kinh tế Hướng ứng dụng 02/01/2025 A202 15:30 522202200424 Nguyễn Vũ Thắng Luật kinh tế Hướng ứng dụng 03/01/2025 A106 08:00 522202120554 Đặng Thị Bích Sen Tài chính - Ngân hàng H...

Lịch bảo vệ luận văn thạc sĩ ngày 17 và 18.12.2024

  17/12/2024 A202 08:00 522202111117 Phạm Hoàng Chương Tài chính - Ngân hàng Hướng ứng dụng 17/12/2024 A202 08:30 522202111228 Nguyễn Thị Hà Phương Tài chính - Ngân hàng Hướng ứng dụng 17/12/2024 A202 09:00 522202111144 Đào Phương Duyên Tài chính - Ngân hàng Hướng ứng dụng 17/12/2024 A202 09:30 522202111162 Nguyễn Văn Hồng Tài chính - Ngân hàng Hướng ứng dụng 17/12/2024 A202 10:00 522202111294 Lại Thị Thanh Trúc Tài chính - Ngân hàng Hướng ứng dụng 18/12/2024 A202 08:00 522202251069 Trần Thị Thu Hà Quản trị nhân lực Hướng ứng dụng 18/12/2024 A202 08:30 522202251073 Nguyễn Thu Hương Quản trị nhân lực Hướng ứng dụng 18/12/2024 A202 09:00 522202251074 Nguyễn Thị Phương Linh Quản trị nhân lực Hướng ứng dụng 18/12/2024 A202 09:30 522202251075 Vũ Khánh Linh Quản trị nhân lực Hướng ứng dụng