Nhóm MBA Bách Khoa thảo luận về missing values, các bạn có cần thảo luận cứ comment bên dưới nhé.
Dữ liệu bị thiếu missing values là gì?
–
Nếu khảo sát bằng phiếu khảo sát giấy: thì những câu hỏi khảo sát mà
người được khảo sát họ không đánh vào bất cứ lựa chọn nào cả, thì đó là
missing values.
–
Nếu khảo sát online: do thiếu ràng buộc khi thiết kế bảng khảo sát,
người được khảo sát không cần chọn hết tất cả các câu hỏi vẫn bấm Submit
được.
Cả hai cách trên đều làm cho file dữ liệu sẽ xuất hiện những ô không có giá trị.
Hậu quả của missing values
Nếu
bạn có dữ liệu bị thiếu (missing values), điều này có thể gây ra một số
vấn đề. Vấn đề rõ ràng nhất là không có đủ dữ liệu để chạy phân tích.
Các phân tích EFA, CFA và mô hình đường dẫn SEM đòi hỏi một số lượng
nhất định các mẫu quan sát dữ liệu để tính các ước tính. Con số này tăng
cùng với sự phức tạp của mô hình của bạn. Nếu dữ liệu thiếu một số giá
trị, phân tích sẽ không chạy.
Một
số người có thể không trả lời được những câu hỏi cụ thể trong cuộc khảo
sát vì một số vấn đề phổ biến. Ví dụ: nếu bạn hỏi về giới tính, và phụ
nữ ít có khả năng báo cáo giới tính của họ hơn nam giới, thì bạn sẽ có
dữ liệu nam giới bị chệch . Có lẽ chỉ có 50% phụ nữ báo cáo về giới tính
của họ, nhưng 95% nam giới cho biết giới tính. Nếu bạn sử dụng giới
tính trong các mô hình nhân quả, thì bạn sẽ có kết quả bị chệnh đối với
nam giới, nghĩa là số lượng nam nhiều hơn nữ (bởi vì bạn sẽ không sử
dụng các phiếu phản hồi không có đầy đủ dữ liệu)
Hiển thị số lượng quan sát missing như thế nào?
Để tìm hiểu xem có bao nhiêu giá trị bị thiếu trong mỗi biến, trong SPSS chuyển đến Analyze -> Descriptive Statistics -> Frequencies.
Nhập các biến trong danh sách các biến. Sau đó nhấn OK. Bảng trong đầu
ra sẽ hiển thị số lượng các giá trị còn thiếu cho mỗi biến.
Ngưỡng
thiếu dữ liệu rất linh hoạt, nhưng nói chung, nếu bạn thiếu hơn 10%
phản hồi đối với một biến cụ thể hoặc từ một người trả lời cụ thể thì
biến đó hoặc người trả lời có thể là vấn đề. Có một số cách để đối phó
với các biến có vấn đề:
– Chỉ cần không sử dụng biến đó( ý là bỏ luôn biến đó không xài nữa)
–
Sử dụng luôn các giá trị còn thiếu, bằng cách chế số cho các giá trị
này. Điều này chỉ nên được thực hiện cho dữ liệu liên tục hoặc khoảng
thời gian (như Độ tuổi hoặc thang Likert) chứ không phải cho dữ liệu
phân loại (như Giới tính).
–
Nếu tập dữ liệu của bạn đủ lớn, chỉ cần không sử dụng câu trả lời có
các giá trị thiếu cho biến đó. Điều này có thể tạo ra một sự chệnh như
nói ở trên, tuy nhiên nếu số lượng phản hồi bị missing lớn hơn 10% thì
lúc đó mới có sự chệnh đáng kể.
Chế số cho missing values
Để
chế số giá trị trong SPSS cho các missing values, trong SPSS vào
Transform, Replace Missing Values; Sau đó chọn các biến mà cần điền dữ
liệu trống, và nhấn OK. Xem ảnh chụp màn hình bên dưới. Trong ảnh chụp
màn hình này, sử dụng phương pháp thay thế Trung bình. Có nghĩa là sẽ
tính giá trị trung bình cộng của cá giá trị không bị thiếu, và lấy giá
trị đó điền vào các ô bị thiếu.
Nếu một người trả lời không trả lời được phần lớn các câu hỏi, có thể
là vô ích khi thử nghiệm các mô hình nhân quả. Ví dụ, nếu họ trả lời các
câu hỏi về chế độ ăn kiêng, nhưng không trả lời các câu hỏi ở mục giảm
cân, đối với cá nhân này không thể kiểm tra mô hình nhân quả cho rằng
chế độ ăn uống có ảnh hưởng tích cực đến việc giảm cân. Chỉ đơn giản là
không có dữ liệu cho người đó. Khuyến nghị là xác định trước những biến
nào sẽ được sử dụng trong mô hình của bạn (thường chúng ta thu thập dữ
liệu về nhiều biến hơn chúng ta thực sự sử dụng trong mô hình của chúng
ta), sau đó xác định xem người trả lời có vấn đề không. Nếu vậy, hãy
loại bỏ người trả lời đó khỏi phân tích.
Trên đây là bài giới thiệu sơ lược về dữ liệu missing values. Các bạn liên hệ nhóm MBA ĐH Bách Khoa HCM tại http://phantichspss.com/lien-he-gioi-thieu để được hỗ trợ tư vấn/ khảo sát/ thu thập/xử lý số liệu nhé.
Không có nhận xét nào:
Đăng nhận xét