NGUYỄN NGỌC BÌNH PHƯƠNG

MÔ HÌNH HỒI QUY BINARY LOGISTIC

Có rất nhiều hiện tượng cần được dự đoán khả năng xảy ra, ví dụ sản phẩm mới có được chấp nhận hay không, người vay có trả được nợ hay không, doanh nghiệp có phá sản hay không, khách hàng có mua hay không, trời có mưa hay không, người bệnh có chết hay không… Những biến có hai biểu hiện như vậy sẽ được mã hóa thành hai giá trị 0 và 1 và ở dưới dạng này được gọi là biến nhị phân. Khi biến phụ thuộc ở dạng nhị phân thì không thể phân tích với dạng hồi quy thông thường vì nó sẽ vi phạm các giả định, rất dễ thấy là khi biến phụ thuộc chỉ có hai biểu hiện thì thật không phù hợp khi giả định rằng phần dư có phân phối chuẩn, mà thay vào đó nó sẽ có phân phối nhị thức, điều này sẽ làm mất hiệu lực thống kê của các kiểm định trong phép hồi quy thông thường. Một khó khăn khác khi dùng hồi quy tuyến tính thông thường là giá trị dự đoán được của biến phụ thuộc không thể được diễn dịch như xác suất (giá trị ước lượng của biến phụ thuộc phải rơi vào khoảng [0;1]).

GIỚI THIỆU HỒI QUY BINARY LOGISTIC

Mô hình hồi quy Binary Logistic sử dụng biến phụ thuộc dạng nhị phân để ước lượng xác suất một sự kiện sẽ xảy ra với những thông tin của biến độc lập. Thông tin cần thu thập về biến phụ thuộc là một sự kiện nào đó có xảy ra hay không (biến phụ thuộc Y lúc này có hai giá trị 0 và 1, với 0 là không xảy ra sự kiện và 1 là có xảy ra) và tất nhiên là cả thông tin về các biến độc lập X1, X2,…, Xk. Từ biến phụ thuộc nhị phân này, một thủ tục sẽ được dùng để dự đoán xác suất sự kiện xảy ra theo quy tắc nếu xác suất được dự đoán lớn hơn 0.5 (điểm cắt mặc định) thì kết quả dự đoán sẽ cho là “có” xảy ra sự kiện, ngược lại thì kết quả dự đoán sẽ cho là “không”.

Mô hình hồi quy Binary Logistic như sau:

P = Prob(Y = 1) = \frac{e^{B_{0}+B_{1}X_{1}+B_{2}X_{2}+...+B_{k}X_{k}}}{1+e^{B_{0}+B_{1}X_{1}+B_{2}X_{2}+...+B_{k}X_{k}}} = \frac{e^{Z}}{1+e^{Z}}

mo-hinh-hoi-quy-binary-logistic-01

Hình 1: Đồ thị hàm Logistic

Trong đó, P là xác suất để Y = 1 (là xác suất để sự kiện xảy ra) khi các biến độc lập nhận giá trị cụ thể. Theo đó, xác suất không xảy ra sự kiện là:

1 - P = Prob(Y = 0) = 1 - \frac{e^{Z}}{1+e^{Z}} = \frac{1}{1+e^{Z}}

Thực hiện phép so sánh giữa xác suất một sự kiện xảy ra với xác suất sự kiện đó không xảy ra, tỷ lệ chênh lệch này được thể hiện như sau:

\frac{P}{1 - P} = \frac{\frac{e^{Z}}{1+e^{Z}}}{\frac{1}{1+e^{Z}}} = e^{Z} \Rightarrow ln \frac{P}{1 - P} = Z = B_{0}+B_{1}X_{1}+B_{2}X_{2}+...+B_{k}X_{k}

Các hệ số hồi quy được ước lượng bằng phương pháp hợp lý tối đa (Maximum Likelihood). Bạn có thể sử dụng phần mềm IBM SPSS Statistics, XLMiner,…


CÁC PHƯƠNG PHÁP ĐƯA BIẾN ĐỘC LẬP VÀO MÔ HÌNH HỒI QUY

Có hai phương pháp chính để đưa biến độc lập vào mô hình hồi quy:

Phương pháp Enter: Các biến độc lập được đưa vào mô hình trong một bước. Phương pháp này phù hợp khi cần kiểm định lý thuyết.

Phương pháp Stepwise: Các biến được đưa dần vào hay loại ra dần (đưa vào dần phù hợp khi có nhiều biến độc lập, loại ra dần phù hợp khi có ít biến độc lập) căn cứ trên trị thống kê Likelihood-Ratio hay trị thống kê Wald (trị thống kê Likelihood-Ratio được cho là chính xác hơn trị thống kê Wald). Phương pháp Stepwise phù hợp cho các nghiên cứu khám phá. Trong SPSS, có thể chọn một trong các phương pháp Stepwise sau:

  • LR Forward Stepwise: Đưa vào dần, kiểm tra việc loại biến căn cứ trên xác suất của trị thống kê Likelihood-Ratio dựa trên ước lượng khả năng xảy ra tối đa.
  • Conditional Forward Stepwise: Đưa vào dần theo điều kiện, kiểm tra việc loại biến căn cứ trên xác suất của trị thống kê Likelihood-Ratio dựa trên ước lượng của những thông số có điều kiện.
  • Wald Forward Stepwise: Đưa vào dần, kiểm tra việc loại biến căn cứ trên xác suất của trị thống kê Wald.
  • LR Backward Stepwise: Loại ra dần, kiểm tra loại biến căn cứ trên xác suất của trị thống kê Likelihood-Ratio dựa trên những ước lượng khả năng xảy ra tối đa.
  • Conditional Backward Stepwise: Loại ra dần theo điều kiện, kiểm tra việc loại biến căn cứ trên xác suất của trị thống kê Likelihood-Ratio dựa trên ước lượng của những thông số có điều kiện.
  • Wald Backward Stepwise: Loại ra dần, kiểm tra loại biến căn cứ trên xác suất của trị thống kê Wald.

mo-hinh-hoi-quy-binary-logistic-02

Hình 2: Chạy hồi quy Binary Logistic bằng SPSS


DIỄN DỊCH CÁC HỆ SỐ HỒI QUY

Từ công thức ở trên, có thể hiểu hệ số ước lượng Bk cho biết khi Xk tăng 1 đơn vị thì logarít cơ số e của tỷ lệ P/(1 – P) tăng Bk đơn vị. Ta có:

\frac{\delta P}{\delta X_{k}} = \frac{\delta P}{\delta Z} \times \frac{\delta Z}{\delta X_{k}} = \frac{e^{Z}}{(1+e^{Z})^{2}} \times B_{k} = P(1 - P) \times B_{k}

Điều này được diễn dịch là tác động biên của Xk lên xác suất Y nhận giá trị bằng 1 phụ thuộc vào giá trị của Xk. Nếu quan tâm đến chiều hướng của tác động thì có thể thấy nếu hệ số Bk mang dấu dương thì tăng Xk sẽ làm tăng khả năng Y nhận giá trị 1 trong khi hệ số âm làm giảm khả năng này.

Để diễn dịch ý nghĩa của các hệ số hồi quy, có thể xây dựng kịch bản thay đổi xác suất cho từng mức tác động của Xk khi xác suất ban đầu là một giá trị nào đó.

Gọi P0 là xác suất ban đầu và P1 là xác suất thay đổi khi Xk tăng 1 đơn vị. Ta có:

\frac{P_{{0}}}{1 - P_{{0}}} = e^{B_{0}+B_{1}X_{1}+B_{2}X_{2}+...+B_{k}X_{k}}

\frac{P_{{1}}}{1 - P_{{1}}} = e^{B_{0}+B_{1}X_{1}+B_{2}X_{2}+...+B_{k}(X_{k}+1)}

Do đó:

\frac{P_{{1}}}{1 - P_{{1}}} = \frac{P_{{0}}}{1 - P_{{0}}} e^{B_{k}}

\Rightarrow P_{{1}} = \frac{P_{{0}} e^{B_{k}}}{1 - P_{{0}} (1 - e^{B_{k}})}


KIỂM ĐỊNH Ý NGHĨA THỐNG KÊ CỦA CÁC HỆ SỐ HỒI QUY

Nếu các hệ số hồi quy đều bằng 0 (kể cả hệ số tự do) thì tỷ lệ chênh lệch giữa các xác suất sẽ bằng 1, tức xác suất để sự kiện xảy ra hay không xảy ra như nhau, lúc đó mô hình hồi quy vô dụng trong việc dự báo.

Đại lượng Wald Chi-Square được sử dụng để kiểm định ý nghĩa thống kê của hệ số hồi quy tổng thể. Wald Chi-Square được tính bằng cách lấy ước lượng của hệ số hồi quy của biến độc lập trong mô hình (hệ số hồi quy mẫu) chia cho sai số chuẩn của hệ số hồi quy này, sau đó bình phương lên theo công thức sau:

Wald Chi-Square = \left ( \frac{ \wedge B_{{k}}}{ se(\wedge B_{{k}})} \right )^{2}

Cách thức sử dụng mức ý nghĩa (Sig) cho kiểm định Wald cũng theo quy tắc thông thường, tức nếu Sig nhỏ hơn 0.05 thì bác bỏ H0 (Bk = 0), tức hệ số có ý nghĩa thống kê.


ĐÁNH GIÁ ĐỘ PHÙ HỢP CỦA MÔ HÌNH HỒI QUY

Tổ hợp liên hệ tuyến tính của toàn bộ các hệ số trong mô hình (trừ hệ số tự do) cũng được kiểm định xem có thực sự có ý nghĩa trong việc giải thích cho biến phụ thuộc không. Kiểm định Chi-Square được sử dụng và căn cứ vào mức ý nghĩa (Sig) trong bảng kiểm định Omnibus (trong SPSS) để quyết định bác bỏ hay không bác bỏ giả thuyết H0 (các hệ số hồi quy đều bằng 0: B1 = B2 =…= Bk = 0). Nếu Sig nhỏ hơn 0.05 thì bác bỏ H0, tức mô hình có độ phù hợp tốt.

Độ phù hợp tổng quát cũng có thể được đánh giá dựa trên chỉ tiêu -2LL (viết tắt của -2 Log Likelihood), giá trị -2LL càng nhỏ càng thể hiện độ phù hợp cao. Giá trị nhỏ nhất của -2LL là 0 (tức là không có sai số) khi đó mô hình có một độ phù hợp hoàn hảo.

Ngoài ra, có thể đánh giá mô hình dự báo tốt đến đâu thông qua bảng phân loại dự báo (clasification table), bảng này sẽ so sánh giá trị thực và giá trị dự báo cho từng biểu hiện và tính tỷ lệ dự báo đúng sự kiện.

mo-hinh-hoi-quy-binary-logistic-03

Accuracy = (TP + TN)/(TP + TN + FP + FN)
Sensitivity = TP/(TP + FN)
Specificity = TN/(FP + TN)

GHI CHÚ:

Nếu bạn gặp khó khăn trong việc phân biệt sai lầm loại I và loại II, hình dưới đây sẽ giúp bạn!

mo-hinh-hoi-quy-binary-logistic-04

TÀI LIỆU THAM KHẢO
Hoàng Trọng và Chu Nguyễn Mộng Ngọc (2008), Phân tích dữ liệu nghiên cứu với SPSS, Tập 2, NXB Hồng Đức.

April 11, 2017
Nguyễn Ngọc Bình Phương 2018