[ĐẾM] Hồi quy POISSON Biến giới hạn SPSS

Kiểm định Phân tích

[ĐẾM] Hồi quy POISSON Biến giới hạn; Trong thống kê , hồi quy Poisson là một dạng mô hình tuyến tính tổng quát của phân tích hồi quy được sử dụng để lập mô hình dữ liệu đếm và bảng dự phòng . Hồi quy Poisson giả định biến phản hồi Y có phân phối Poisson và giả sử lôgarit của giá trị kỳ vọng của nó có thể được mô hình hóa bằng sự kết hợp tuyến tính của các tham số chưa biết . Mô hình hồi quy Poisson đôi khi được gọi là mô hình tuyến tính log , đặc biệt khi được sử dụng để lập mô hình các bảng dự phòng.

Hồi quy Poisson

Hồi quy Poisson là gì ?

Hồi quy nhị thức phủ định là một cách tổng quát hóa phổ biến của hồi quy Poisson vì nó nới lỏng giả định có tính hạn chế cao rằng phương sai bằng với giá trị trung bình được tạo ra bởi mô hình Poisson. Mô hình hồi quy nhị thức âm truyền thống dựa trên phân phối hỗn hợp Poisson-gamma. Mô hình này phổ biến vì nó mô hình hóa tính không đồng nhất Poisson với phân bố gamma.

Mô hình hồi quy Poisson là mô hình tuyến tính tổng quát với logarit là hàm liên kết (chính tắc) và hàm phân phối Poisson là phân phối xác suất giả định của phản hồi.

Bảng dự phòng là gì ?

Trong thống kê , bảng dự phòng (contingency table – cross tabulation – crosstab) là một loại bảng ở định dạng ma trận hiển thị phân bố tần suất (đa biến) của các biến. Chúng được sử dụng nhiều trong nghiên cứu khảo sát, kinh doanh thông minh, kỹ thuật và nghiên cứu khoa học. Chúng cung cấp một bức tranh cơ bản về mối tương quan giữa hai biến số và có thể giúp tìm ra mối tương tác giữa chúng. Thuật ngữ bảng dự phòng lần đầu tiên được sử dụng bởi Karl Pearson trong “Về lý thuyết dự phòng và mối liên hệ của nó với mối liên kết và mối tương quan thông thường”, một phần của loại sinh trắc học hồi ức nghiên cứu công ty của Drapers ‘ I xuất bản năm 1904.

Một vấn đề quan trọng của thống kê đa biến là tìm ra cấu trúc phụ thuộc (trực tiếp-) làm cơ sở cho các biến có trong bảng dự phòng chiều cao. Nếu một số tính chất độc lập có điều kiện được tiết lộ, thì ngay cả việc lưu trữ dữ liệu cũng có thể được thực hiện theo cách thông minh hơn (xem Lauritzen (2002)). Để làm được điều này, người ta có thể sử dụng các khái niệm lý thuyết thông tin , những khái niệm này chỉ thu được thông tin từ phân phối xác suất, có thể được biểu diễn dễ dàng từ bảng dự phòng bằng các tần số tương đối.

Ví dụ ứng dụng hồi quy Poisson

Hồi quy Poisson được sử dụng để dự đoán một biến phụ thuộc bao gồm “dữ liệu đếm” cho trước một hoặc nhiều biến độc lập. Biến mà chúng ta muốn dự đoán được gọi là biến phụ thuộc (hoặc đôi khi là biến phản ứng, kết quả, mục tiêu hoặc tiêu chí). Các biến chúng ta đang sử dụng để dự đoán giá trị của biến phụ thuộc được gọi là các biến độc lập (hoặc đôi khi là biến dự báo, giải thích hoặc biến hồi quy). Một số ví dụ có thể sử dụng hồi quy Poisson được mô tả dưới đây:

  • Ví dụ số 1: Bạn có thể sử dụng hồi quy Poisson để kiểm tra số lượng học sinh bị các trường học ở Washington ở Hoa Kỳ đình chỉ dựa trên các yếu tố dự đoán như giới tính (trẻ em gái và trẻ em trai), chủng tộc (Da trắng, Da đen, Tây Ban Nha, Người Châu Á / Thái Bình Dương và người Mỹ Thổ dân da đỏ / Alaska), ngôn ngữ (tiếng Anh là ngôn ngữ đầu tiên của họ, tiếng Anh không phải là ngôn ngữ đầu tiên của họ) và tình trạng khuyết tật (khuyết tật và không khuyết tật). Ở đây, “số lần đình chỉ” là biến phụ thuộc, trong khi “giới tính”, “chủng tộc”, “ngôn ngữ” và “tình trạng khuyết tật” đều là các biến độc lập danh nghĩa.
  • Ví dụ # 2: Bạn có thể sử dụng hồi quy Poisson để kiểm tra số lần mọi người ở Úc không trả được nợ bằng thẻ tín dụng của họ trong khoảng thời gian 5 năm dựa trên các yếu tố dự đoán như tình trạng công việc (có việc làm, thất nghiệp), lương hàng năm (bằng đô la Úc), tuổi (tính bằng năm), giới tính (nam và nữ) và mức độ thất nghiệp của cả nước (% thất nghiệp). Ở đây, “số lần trả nợ thẻ tín dụng” là biến phụ thuộc, trong khi “tình trạng công việc” và “giới tính” là các biến độc lập danh nghĩa, và “lương hàng năm”, “tuổi” và “mức thất nghiệp trong nước” là độc lập liên tục. biến.
  • Ví dụ # 3: Bạn có thể sử dụng hồi quy Poisson để kiểm tra số người phía trước bạn trong hàng đợi tại khoa Tai nạn & Cấp cứu (A&E) của một bệnh viện dựa trên các yếu tố dự đoán phương thức đến A&E (xe cấp cứu hoặc tự đăng ký) , mức độ nghiêm trọng được đánh giá của chấn thương trong quá trình phân loại (nhẹ, trung bình, nặng), thời gian trong ngày và ngày trong tuần. Ở đây, “số người phía trước bạn trong hàng đợi” là biến phụ thuộc, trong khi “phương thức đến” là biến độc lập danh nghĩa, “mức độ thương tích được đánh giá” là biến độc lập theo thứ tự và “thời gian trong ngày” và ” ngày trong tuần ”là các biến độc lập liên tục.
  • Ví dụ # 4: Bạn có thể sử dụng hồi quy Poisson để kiểm tra số lượng sinh viên được trao điểm hạng nhất trong chương trình MBA dựa trên các yếu tố dự đoán, chẳng hạn như loại khóa học tùy chọn mà họ đã chọn (chủ yếu là số, chủ yếu là định tính, hỗn hợp số và định tính) và điểm trung bình của họ khi tham gia chương trình. Ở đây, “số sinh viên lớp 1” là biến phụ thuộc, trong khi “các khóa học tùy chọn” là biến độc lập danh nghĩa và “GPA” là biến độc lập liên tục.
Đọc thêm:   hồi quy tuyến tính ols với 10 khuyết tật

Sau khi thực hiện hồi quy Poisson, bạn sẽ có thể xác định biến độc lập nào của mình (nếu có) có ảnh hưởng có ý nghĩa thống kê đến biến phụ thuộc của bạn. Đối với các biến độc lập phân loại, bạn sẽ có thể xác định tỷ lệ phần trăm tăng hoặc giảm số lượng của một nhóm (ví dụ: tử vong giữa “trẻ em” đi tàu lượn) so với nhóm khác (ví dụ: tử vong giữa “người lớn” đi trên tàu lượn). Đối với các biến độc lập liên tục, bạn sẽ có thể diễn giải cách một đơn vị tăng hoặc giảm trong biến đó được liên kết với tỷ lệ phần trăm tăng hoặc giảm số lượng của biến phụ thuộc của bạn (ví dụ: giảm 1.000 đô la tiền lương – biến độc lập – trên tỷ lệ phần trăm thay đổi về số lần mọi người ở Úc không trả được nợ bằng thẻ tín dụng của họ – biến phụ thuộc).

Giả định

Khi bạn chọn phân tích dữ liệu của mình bằng cách sử dụng hồi quy Poisson, một phần của quy trình bao gồm việc kiểm tra để đảm bảo rằng dữ liệu bạn muốn phân tích thực sự có thể được phân tích bằng cách sử dụng hồi quy Poisson. Bạn cần phải làm điều này vì nó chỉ thích hợp để sử dụng hồi quy Poisson nếu dữ liệu của bạn “vượt qua” năm giả định được yêu cầu cho hồi quy Poisson để cung cấp cho bạn một kết quả hợp lệ. Trên thực tế, việc kiểm tra năm giả định này sẽ chiếm phần lớn thời gian của bạn khi thực hiện hồi quy Poisson. Tuy nhiên, điều cần thiết là bạn phải làm điều này vì không hiếm trường hợp dữ liệu bị vi phạm (tức là không đáp ứng) một hoặc nhiều giả định này. Tuy nhiên, ngay cả khi dữ liệu của bạn không đạt được một số giả định này, thường có một giải pháp để khắc phục điều này. Trước tiên, chúng ta hãy xem xét năm giả định sau:

Hồi quy Poisson trên SPSS
Hồi quy Poisson trên SPSS
  • Giả định số 1: Biến phụ thuộc của bạn bao gồm dữ liệu đếm . Dữ liệu đếm khác với dữ liệu được đo trong các loại hồi quy nổi tiếng khác (ví dụ: hồi quy tuyến tính và hồi quy bội yêu cầu các biến phụ thuộc được đo trên thang đo “liên tục”, hồi quy logistic nhị thức yêu cầu một biến phụ thuộc được đo trên “lưỡng phân” quy mô, hồi quy thứ tự yêu cầu một biến phụ thuộc được đo trên thang “thứ tự” và hồi quy logistic đa thức yêu cầu một biến phụ thuộc được đo trên thang “danh nghĩa”). Ngược lại, các biến đếmyêu cầu dữ liệu số nguyên phải bằng 0 hoặc lớn hơn. Nói một cách dễ hiểu, hãy nghĩ về một “số nguyên” là một số “nguyên” (ví dụ: 0, 1, 5, 8, 354, 888, 23400, v.v.). Ngoài ra, vì dữ liệu đếm phải là “dương” (tức là bao gồm các giá trị nguyên “không âm”), nên nó không thể chứa các giá trị “trừ” (ví dụ: các giá trị như -1, -5, -8, -354, -888 và -23400 sẽ không được coi là dữ liệu đếm). Hơn nữa, đôi khi người ta cho rằng hồi quy Poisson chỉ được thực hiện khi số trung bình  là một giá trị nhỏ (ví dụ: nhỏ hơn 10). Khi có số lượng lớn các số đếm, một loại hồi quy khác có thể thích hợp hơn (ví dụ: hồi quy bội, hồi quy gamma, v.v.).

    Ví dụ về biến đếm bao gồm số lượng các chuyến bay bị hoãn hơn ba giờ tại các sân bay châu Âu, số lượng học sinh bị các trường học ở Washington của Hoa Kỳ đình chỉ học, số lần người dân ở Úc không trả được nợ bằng thẻ tín dụng của họ trong khoảng thời gian 5 năm, số những người xếp trước bạn trong hàng đợi tại khoa Tai nạn & Cấp cứu (A&E) của một bệnh viện, số sinh viên được trao điểm hạng 1 (thường ít hơn 5) trong chương trình MBA và số người thiệt mạng trong tai nạn tàu lượn ở Hoa Kỳ.

  • Giả định số 2: Bạn có một hoặc nhiều biến độc lập , có thể được đo lường trên thang đo liên tục , thứ tự hoặc danh nghĩa / phân đôi . Các biến thông thường và danh nghĩa / phân đôi có thể được phân loại rộng rãi như các biến phân loại  .

    Ví dụ về các biến liên tục bao gồm thời gian ôn tập (đo bằng giờ), trí thông minh (đo bằng điểm IQ), thành tích thi (đo từ 0 đến 100) và cân nặng (đo bằng kg). Ví dụ về biến thứ tựbao gồm các mục Likert (ví dụ: thang điểm 7 từ “rất đồng ý” đến “hoàn toàn không đồng ý”), trong số các cách xếp hạng danh mục khác (ví dụ: thang điểm 3 giải thích mức độ mà khách hàng thích một sản phẩm, từ ” Không nhiều lắm “thành” Có, rất nhiều “). Ví dụ về các biến danh nghĩa bao gồm giới tính (ví dụ: hai nhóm – nam và nữ – còn được gọi là biến phân đôi ), dân tộc (ví dụ: ba nhóm: Người da trắng, người Mỹ gốc Phi và người Tây Ban Nha) và nghề nghiệp (ví dụ: năm nhóm: bác sĩ phẫu thuật, bác sĩ , y tá, nha sĩ, nhà trị liệu). Hãy nhớ rằng các biến thứ tự và danh nghĩa / phân đôi có thể được phân loại rộng rãi thành các biến phân loại . Bạn có thể tìm hiểu thêm về các biến trong bài viết của chúng tôi: Các loại biến .

  • Giả định số 3: Bạn nên có sự độc lập với các quan sát . Điều này có nghĩa là mỗi quan sát độc lập với các quan sát khác; nghĩa là, một quan sát không thể cung cấp bất kỳ thông tin nào về quan sát khác. Đây là một giả định rất quan trọng. Việc thiếu các quan sát độc lập chủ yếu là một vấn đề thiết kế nghiên cứu. Một phương pháp để kiểm tra khả năng độc lập của các quan sát là so sánh các lỗi dựa trên mô hình chuẩn với các lỗi mạnh để xác định xem có sự khác biệt lớn hay không.
  • Giả thiết # 4: Phân phối số đếm (có điều kiện trên mô hình) tuân theo phân phối Poisson . Một hệ quả của điều này là số lượng quan sát được và số lượng dự kiến ​​phải bằng nhau (trong thực tế, rất giống nhau). Về cơ bản, điều này nói lên rằng mô hình dự đoán tốt các số đếm được quan sát. Điều này có thể được kiểm tra theo một số cách, nhưng một phương pháp là tính toán các số đếm dự kiến ​​và vẽ biểu đồ này với các số đếm quan sát được để xem chúng có giống nhau hay không.
  • Giả định số 5: Giá trị trung bình và phương sai của mô hình giống hệt nhau . Đây là hệ quả của Giả định # 4; rằng có một phân phối Poisson. Đối với phân phối Poisson, phương sai có cùng giá trị với giá trị trung bình. Nếu bạn thỏa mãn giả định này, bạn có sự phân tán đều . Tuy nhiên, điều này thường không xảy ra và dữ liệu của bạn bị phân tán thiếu hoặc phân tán quá mức là vấn đề phổ biến hơn. Có nhiều phương pháp mà bạn có thể sử dụng để đánh giá sự phân tán quá mức. Một phương pháp là đánh giá thống kê độ phân tán Pearson.

Bạn có thể kiểm tra các giả định # 3, # 4 và # 5 bằng cách sử dụng phần mềm SPSS. Các giả định # 1 và # 2 nên được kiểm tra trước, trước khi chuyển sang các giả định # 3, # 4 và # 5. Chỉ cần nhớ rằng nếu bạn không chạy thử nghiệm thống kê trên các giả định này một cách chính xác, kết quả bạn nhận được khi chạy hồi quy Poisson có thể không hợp lệ.

Đọc thêm:   Cách sử dụng thang đo Likert

Ngoài ra, nếu dữ liệu của bạn vi phạm Giả định số 5, điều này cực kỳ phổ biến khi thực hiện hồi quy Poisson, trước tiên bạn cần kiểm tra xem bạn có “phân tán quá mức Poisson rõ ràng” hay không. Phân tán Poisson rõ ràng là nơi bạn đã không chỉ định mô hình một cách chính xác để dữ liệu xuất hiện bị phân tán quá mức. Do đó, nếu ban đầu mô hình Poisson của bạn vi phạm giả định về phân tán đều, trước tiên bạn nên thực hiện một số điều chỉnh đối với mô hình Poisson của mình để kiểm tra xem nó có thực sự bị phân tán quá mức hay không. Điều này yêu cầu bạn thực hiện sáu lần kiểm tra mô hình / dữ liệu của mình:

  • (a) Mô hình Poisson của bạn có bao gồm tất cả các yếu tố dự đoán quan trọng không ?; 
  • (b) Dữ liệu của bạn có bao gồm các ngoại lệ không ?; 
  • (c) Hồi quy Poisson của bạn có bao gồm tất cả các thuật ngữ tương tác có liên quan không ?; 
  • (d) Có cần biến đổi bất kỳ yếu tố dự đoán nào không ?;
  •  (e) Mô hình Poisson của bạn có yêu cầu nhiều dữ liệu hơn và / hoặc dữ liệu của bạn quá thưa thớt ?; và
  • (f) Bạn có thiếu các giá trị không bị thiếu ngẫu nhiên (MAR) không?

Thực hành hồi quy Poisson trên SPSS

Kích hoạt hồ quy như hình trên theo đường dẫn

Đọc thêm:   Ước lượng GMM cực dễ trên EVIEWS

Analyze > Generalized Linear Models > Generalized Linear Models… 

Và cấu hình như trong hình dưới

Cấu hình hồi quy Poisson
Cấu hình hồi quy Poisson

Trong tab Response đưa biến phụ thuộc vào ô Dependent Variables

Trong tab Predict đưa toàn bộ biến độc lập liên tục vào ô Covarables

Trong tab Model đưa toàn bộ biến độc lập vào mục model

Trong tab Statistic chọn như hình dưới, còn lại để mặc định

Câu hình output mô hình Poisson
Câu hình output mô hình Poisson

Diễn giải output

Sự phân tán quá mức

Sự phân tán quá mức
Sự phân tán quá mức trong quan sát hồi quy Poisson

Giá trị 1 cho biết phân tán đều trong khi giá trị lớn hơn 1 cho biết phân tán quá mức và các giá trị dưới 1 cho biết phân tán kém. Loại vi phạm phổ biến nhất của giả định phân tán đều là phân tán quá mức.Với giá trị < 1 như trên thì lượng sự phân tán của lượng quan sát như thế là ổn.

Sự phù hợp của biến độc lập

Omnibus Test                                                          

Likelihood Ratio Chi-Square df  Sig.  
250.207       .000  

Ta có P-value < 0.05 => Các biến độc lập trong mô hình là phù hợp.

Kiểm tra hiệu ứng của mô hình

Hiệu ứng của mô hình Poisson
Hiệu ứng của mô hình Poisson

Ta có Pvalue <0.05 => Biến có hiệu ứng 

Kết quả hồi quy

Kết quả hồi quy Poisson
Kết quả hồi quy Poisson

Ta quan tâm đến 2 cột như sau:

  • B: là hệ số hồi quy
  • Sig: là cột ý nghĩa thống kê ( Sig < 0.05 => Biến có ý nghĩa thống kê)