Xem xét tập dữ liệu vỡ nợ Default, trong đó câu trả lời cho Default là một trong hai loại Yes hoặc No. Thay vì lập mô hình trực tiếp cho Y, mô hình hồi qui logistic sẽ tìm ra xác suất của Y thuộc về một loại cụ thể.
Hình 1. Phân loại dữ liệu vỡ nợ Default. Bên trái: ước tính xác suất vỡ nợ Default sử dụng hồi qui tuyến tính. Một vài xác suất là âm! Đánh dấu vàng chỉ ra các giá trị 0/1 của Default (nghĩa là No hoặc Yes). Bên phải: ước tính xác suất của Default sử dụng hồi qui logistic. Tất cả các xác suất nằm giữa 0 và 1.

Đối với dữ liệu Default , hồi qui logistic mô hình hóa xác suất vỡ nợ default. Ví dụ, xác suất của vỡ nợ default đối với số dư balance cho trước có thể được viết như sau:

Giá trị của Pr(default = Yes/balance), viết tắt là p(balance) sẽ nằm ở giữa 0 và 1. Do đó bất kỳ giá trị cho trước nào của số dư balance đều thể làm được dự đoán cho vỡ nợ default . Ví dụ, người ta có thể dự đoán default =Yes cho bất kỳ cá nhân nào mà p(balance)>0.5. Cách khác, nếu một công ty muốn thận trọng trong việc dự đoán những cá nhân có nguy cơ vỡ nợ default, họ có thể chọn sử dụng một ngưỡng thấp hơn, ví dụ như p(balance)>0.1.
1) Mô hình Logistic
Chúng ta nên làm thế nào để mô hình hóa mối quan hệ giữa p(X)=Pr(Y=1/X) và X? (Để thuận tiện sử dụng mã hóa chung 0/1 cho câu trả lời). Trong phần hồi qui tuyến tính sử dụng một mô hình hồi qui tuyến tính để thể hiện những xác suất này:
p(X)= β0 +β1X (1)
nếu chúng ta sử dụng cách tiếp cận này để dự đoán vỡ nợ default = Yes bằng cách sử dụng số dư balance, thì chúng ta thu được mô hình ở bên tay trái của hình 1. Ở đây chúng ta nhìn vấn đề với cách tiếp cận này: đối với số dư gần 0 chúng ta dự đoán một xác suất âm cho default; nếu chúng ta dự đoán cho những số dư lớn hơn, chúng ta sẽ có các giá trị lớn hơn 1. Những dự đoán này là không hợp lý, vì tất nhiên xác suất thực của default, bất kể số dư nào, phải rơi vào khoảng giữa 0 và 1. Vấn đề này không phải là duy nhất đối với dữ liệu default. Bất kỳ khi nào một đường thẳng phù hợp với một hệ nhị phân được mã hóa là 0 hoặc 1, về nguyên tắc chúng ta thường dự đoán p(X)<0 với một vài giá trị của X và p(X) >1 với những giá trị khác (trừ khi X bị giới hạn).
Để tránh vấn đề này, chúng ta phải mô hình hóa p(X) sử dụng 1 hàm mà cho đầu ra giữa 0 và 1 với tất cả các giá trị của X. Nhiều hàm có mô tả này. Trong hồi qui logistic, chúng ta sử dụng hàm logistic:

Để phù hợp với mô hình (2), chúng ta sử dụng một phương pháp được gọi là maximum likelihood. Vế phải của hình 1 minh họa sự phù hợp của mô hình hồi qui logistic đối với dữ liệu Default. Chú ý rằng, với số dư balance thấp chúng ta dự đoán xác suất của vỡ nợ default gần đến nhưng không bao giờ đến 0. Tương tự như vậy, đối với những số dư balance cao chúng ta dự đoán xác suất của default gần đến nhưng không bao giờ lớn hơn 1. Hàm logistic sẽ luôn sinh ra một đường cong dạng S, và vì vậy bất kể giá trị nào của X, chúng ta sẽ có một dự đoán hợp lý. Chúng ta cũng nhìn thấy rằng mô hình logistic có khả năng nắm bắt phạm vi xác suất tốt hơn mô hình hồi qui tuyến tính bên trái. Xác xuất phù hợp trung bình trong cả hai trường hợp là 0.0333 (tính trung bình trên dữ liệu), bằng với tỷ lệ tổng thể của những người vỡ nợ trong tập dữ liệu.
Sau một vài biến đổi (2) chúng ta có

Lượng p(X)/[1-p(X)] được gọi là tỷ lệ cược odds, và có thể nhận bất kỳ giá trị nào giữa 0 và ∞. Giá trị của odds gần đến 0 và ∞ chỉ ra những xác suất rất thấp và rất cao của vỡ nợ default tương ứng. Ví dụ, trung bình 1 trong 5 người có tỷ lệ cược odds là ¼ sẽ bị vỡ nợ, vì p(X) = 0.2 ngụ ý một tỷ lệ cược là
. Tương tự trung bình cứ 10 người thì có 9 người tỷ lệ cược vỡ nợ, vì p(X)=0.9 ngụ ý tỷ lệ cược là
Các tỷ lệ cược odds được sử dụng truyền thống thay vì xác suất trong cuộc đua ngựa, vì chúng có quan hệ tự nhiên hơn với chiến lược cá cược chính xác.
Logarit cả hai vế (3), chúng ta có:

Vế trái được gọi là log-odds hoặc logit. Chúng ta thấy rằng mô hình hồi qui logistic (2) có một logit tuyến tính với X .
Trong mô hình hồi qui tuyến tính, β1 cho thấy sự thay đổi trung bình của Y liên quan đến sự gia tăng một đơn vị trong X. Ngược lại, trong một mô hình hồi qui logistic, X tăng lên 1 đơn vị sẽ làm thay đổi log-odd β1 (4), hoặc tương đương
(3). Tuy nhiên, vì mối quan hệ giữa p(X) và X trong (2) không phải là một đường thẳng, β1 không tương ứng với sự thay đổi trong p(X) khi gia tăng một đơn vị trong X. Số lượng mà p(X) thay đổi do thay đổi 1 đơn vị trong X sẽ phụ thuộc vào giá trị hiện tại của X. Nhưng bất kể giá trị nào của X, nếu β1 dương thì X tăng lên sẽ liên quan đến p(X) tăng lên, và nếu β1 âm thì X tăng lên sẽ liên quan đến p(X) giảm xuống. Sự thật là không có mối quan hệ đường thẳng giữa p(X) và X, và sự thật là tỷ lệ thay đổi trong p(X) mỗi đơn vị thì sự thay đổi trong X phụ thuộc vào giá trị hiện tại của X, cũng có thể thấy bằng việc kiểm tra vế phải của hình 1.
2) Ước tính các hệ số hồi qui
Các hệ số β0 và β1 trong (2) là không biết, và phải ước tính dựa vào dữ liệu có thể có. Trong mô hình hồi qui tuyến tính, chúng ta đã dùng tiếp cận bình phương tối thiểu để ước tính các hệ số hồi qui chưa biết. Mặc dù, chúng ta có thể sử dụng bình phương tối thiểu (phi tuyến) cho phù hợp với mô hình (4), nhưng phương pháp chung maximum likehood thích hợp hơn vì nó có tính chất thống kê tốt hơn. Việc sử dụng maximum likehood để phù hợp với một mô hình hồi qui logistic thực chất như sau: chúng ta tìm kiếm các ước tính đối với β0 và β1 sao cho xác suất dự đoán vỡ nợ
với mỗi cá nhân, tương ứng càng chặt chẽ càng tốt với trạng thái vỡ nợ quan sát được của mỗi cá thể (sử dụng (2)). Nói cách khác, chúng ta cố gắng tìm
và
sao cho kết hợp các ước lượng này vào mô hình p(X), đã cho (2), đem đến một con số gần 1 đối với tất cả các cá nhân đã vỡ nợ, và một con số gần đến 0 đối với các cá nhân không vỡ nợ. Điều này có thể được công thức hóa sử dụng một phương trình toán học được gọi là hàm likelihood:

Tối đa hóa likelihood là một cách tiếp cận tổng quát được dùng phù hợp với nhiều mô hình phi tuyến. Trong tập hồi qui tuyến tính, tiếp cận bình phương tối thiểu trong thực tế là một trường hợp đặc biệt của tối đa hóa likelihood. Hồi qui logistic và các mô hình khác có thể dễ sử dụng và phù hợp đối với gói phần mềm thống kê như R.
Bảng 1. Đối với dữ liệu Default , các hệ số được ước tính của mô hình hồi qui logistic mà để dự đoán xác suất vỡ nợ default sử dụng số dư balance. Một đơn vị tăng lên trong balance được liên kết với một sự tăng lên trong log odds của vỡ nợ default bằng 0.0055 đơn vị.
|
Hệ số
|
Sai số chuẩn
|
Thống kê Z
|
P-value
|
Intercept
|
-10.6513
|
0.3612
|
-29.5
|
<0.0001
|
balance
|
0.0055
|
0.0002
|
24.9
|
<0.0001
|
Bảng 1 chỉ ra hệ số ước tính và thông tin liên quan từ một mô hình hồi qui logistic phù hợp đối với dữ liệu vỡ nợ Default để dự đoán xác suất của vỡ nợ default = Yes sử dụng số dư balance. Chúng ta thấy rằng
=0.0055, điều này chỉ ra rằng một sự tăng lên trong số dư balance được kết hợp với một sự tăng lên trong log odds của default bằng 0.0055 đơn vị.
Đầu ra hồi qui logistic đã chỉ ra ở bảng 1 là tương tự như đầu ra hồi qui tuyến tính. Ví dụ, chúng ta có thể đo sự chính xác của hệ số ước tính bằng sai số chuẩn của nó. Thống kê Z trong bảng 1 đóng vai trò giống như thống kê t trong hồi qui tuyến tính. Ví dụ,thống kê Z kết hợp với β1 là bằng với
/SE(
), và vì vậy một giá trị lớn (tuyệt đối) của thống kê Z chỉ ra bằng chứng chống lại giả thiết H0: β1=0. Giả thiết này chỉ ra rằng
nói cách khác, rằng xác suất của default không phụ thuộc balance. Vì P-value kết hợp với balance trong bảng 1 là nhỏ, chúng ta có thể từ chối H0. Nói cách khác, chúng ta thấy thật sự có một mối liên kết giữa số dư balance và xác suất của vỡ nợ default. Intercept ước tính trong bảng 1 thường không được quan tâm; mục đích chính của nó là để điều chỉnh xác suất phù hợp trung bình theo tỷ lệ của xác suất trong dữ liệu.
3) Làm dự đoán
Một khi các hệ số đã được ước tính, việc tính xác suất vỡ nợ default cho bất kỳ số dư balance thẻ tín dụng nhất định nào là vấn đề đơn giản. Ví dụ, sử dụng hệ số ước tính đã cho trong bảng 1, chúng ta dự đoán xác suất vỡ nợ default cho mỗi cá nhân với một số dư balance 1,000$ là

là dưới 1%. Trái lại, dự đoán đoán xác suất vỡ nợ default cho mỗi cá nhân với một số dư balance 2,000$ là nhiều hơn, và bằng 0.586 hay 58.6%.
Người ta có thể sử dụng mô hình hồi qui logistic sử dụng cách tiếp cận biến giả. Ví dụ, tập dữ liệu vỡ nợ Default chứa biến định tính student. Để phù hợp với mô hình chúng ta tạo ra đơn giản một biến giả mà nhận giá trị 1 cho các student và 0 cho non- student. Mô hình hồi qui logistic mà các kết quả từ xác suất dự đoán vỡ nợ default từ trạng thái student có thể được nhìn thấy ở bảng 2. Hệ số kết hợp với biến giả là dương và p-value được kết hợp là có ý nghĩa thống kê. Điều này chỉ ra rằng student có xu hướng có xác suất vỡ nợ cao hơn non- student:

Bảng 2. Đối với dữ liệu vỡ nợ Default, các hệ số được ước tính của mô hình hồi qui logistic mà dự đoán xác suất của vỡ nợ default sử dụng trạng thái student. Trạng thái student được mã hóa như một biến giả với giá trị 1 cho mỗi student và giá trị 0 cho non- student, và đại diện bởi biến student [Yes] trong bảng.

Nguồn: Gareth James, Daniela Witten, Treovor Hastie, Robert Tibshirani “An Introduction to Statistical Learning with Applications R”. – Springer