[HD] Phân tích thành phần chính PCA trên SPSS

Chia sẽ Mẹo vặt

[HD] Phân tích thành phần chính PCA trên SPSS, đây là thủ thuật được sử dụng nhiều nhằm mục đích là để rút gọn dữ liệu lại, phân tích PCA trong SPSS thì nó giống vớiphân tích nhân tố khám phá EFA, chỉ có điều là không cần xoay ma trận nhân tố. PCA được viết tắt từ Principal Component Analysis.

Phân tích thành phần chính

Phân tích thành phần chính là gì ?

Phân tích các thành phần chính (viết tắt là PCA) là một kỹ thuật giảm biến có nhiều điểm tương đồng với phân tích nhân tố khám phá. Mục đích của nó là giảm một tập hợp các biến lớn hơn thành một tập hợp các biến ‘nhân tạo’ nhỏ hơn, được gọi là ‘các thành phần chính’, chiếm phần lớn phương sai trong các biến ban đầu.

Ứng dụng của PCA

Có một số cách sử dụng phổ biến đối với PCA:

(a) bạn đã đo lường nhiều biến (ví dụ: 7-8 biến, được biểu thị dưới dạng 7-8 câu hỏi / câu hỏi trong bảng câu hỏi) và bạn tin rằng một số biến đang đo lường giống nhau cấu trúc cơ bản (ví dụ: trầm cảm). Nếu các biến này có mối tương quan cao, bạn có thể chỉ muốn đưa những biến đó vào thang đo lường của mình (ví dụ: bảng câu hỏi của bạn) mà bạn cảm thấy đại diện chặt chẽ nhất cho cấu trúc, loại bỏ những biến khác; 

(b) bạn muốn tạo một thang đo mới (ví dụ: bảng câu hỏi), nhưng không chắc liệu tất cả các biến mà bạn đã đưa vào có đo lường cấu trúc mà bạn quan tâm hay không (ví dụ: trầm cảm). Do đó, bạn kiểm tra xem cấu trúc mà bạn đang đo lường có ‘tải’ lên tất cả (hoặc chỉ một số) biến của bạn hay không. Điều này giúp bạn hiểu liệu một số biến số bạn đã chọn không đại diện đầy đủ cho cấu trúc mà bạn quan tâm và có nên bị loại bỏ khỏi thang đo lường mới của bạn hay không; 

(c) bạn muốn kiểm tra xem liệu một thang đo lường hiện có (ví dụ: bảng câu hỏi) có thể được rút ngắn để bao gồm ít mục hơn (ví dụ: câu hỏi / câu lệnh), có lẽ vì những mục đó có thể thừa (ví dụ, nhiều hơn một mục có thể được đo lường cùng một cấu trúc) và / hoặc có thể có mong muốn tạo ra một thang đo lường có nhiều khả năng được hoàn thành hơn (nghĩa là tỷ lệ phản hồi có xu hướng cao hơn trong các bảng câu hỏi ngắn hơn). Đây chỉ là một số công dụng phổ biến của PCA. Cũng cần lưu ý rằng mặc dù PCA khác về mặt khái niệm với phân tích nhân tố, nhưng trong thực tế, nó thường được sử dụng thay thế cho phân tích nhân tố,

Đọc thêm:   Lợi thế nghiên cứu luận văn định lượng P1

Phân tích PCA ở đâu

Trong hướng dẫn “bắt đầu nhanh” này, chúng tôi chỉ cho bạn cách thực hiện PCA bằng cách sử dụng Thống kê SPSS, cũng như các bước bạn sẽ cần thực hiện để giải thích kết quả từ thử nghiệm này. Tuy nhiên, trước khi chúng tôi giới thiệu cho bạn quy trình này, bạn cần hiểu các giả định khác nhau mà dữ liệu của bạn phải đáp ứng để PCA cung cấp cho bạn kết quả hợp lệ. Chúng ta sẽ thảo luận về những giả định này tiếp theo.

Để thực hiện PCA trên SPSS thì đơn giản, và nhiều bạn cũng đã quen với sử dụng SPSS, chúng ta có thể phan tích trên NCSS, MiniTab, R, Stata

Các giả định khi sử dụng PCA

Khi bạn chọn phân tích dữ liệu của mình bằng PCA, một phần của quy trình bao gồm việc kiểm tra để đảm bảo rằng dữ liệu bạn muốn phân tích thực sự có thể được phân tích bằng PCA. Bạn cần phải làm điều này vì chỉ thích hợp sử dụng PCA nếu dữ liệu của bạn “vượt qua” bốn giả định được yêu cầu để PCA cung cấp cho bạn một kết quả hợp lệ. Trên thực tế, việc kiểm tra các giả định này đòi hỏi bạn phải sử dụng SPSS Statistics để thực hiện thêm một số bài kiểm tra, cũng như suy nghĩ thêm một chút về dữ liệu của bạn, nhưng nó không phải là một nhiệm vụ khó khăn.

Trước khi chúng tôi giới thiệu cho bạn bốn giả định này, đừng ngạc nhiên nếu khi phân tích dữ liệu của riêng bạn bằng Thống kê SPSS, một hoặc nhiều giả định này bị vi phạm (tức là không được đáp ứng). Điều này không có gì lạ khi làm việc với dữ liệu trong thế giới thực hơn là các ví dụ trong sách giáo khoa. Tuy nhiên, ngay cả khi dữ liệu của bạn không đạt được các giả định nhất định, thường có một giải pháp để thử và khắc phục điều này. Đầu tiên, chúng ta hãy xem xét bốn giả định sau:

Giả định số # 1: Bạn có nhiều biến số cần được đo lường ở mức liên tục (mặc dù các biến số thứ tự rất thường xuyên được sử dụng). Ví dụ về các biến liên tục (tức là các biến tỷ lệ hoặc khoảng thời gian ) bao gồm thời gian ôn tập (đo bằng giờ), trí thông minh (đo bằng điểm IQ), thành tích thi (đo từ 0 đến 100), cân nặng (đo bằng kg), v.v. Ví dụ về biến thứ tựthường được sử dụng trong PCA bao gồm một loạt các thang đo Likert (ví dụ: thang điểm 7 từ ‘rất đồng ý’ đến ‘rất không đồng ý’; thang điểm 5 từ ‘không bao giờ’ đến ‘luôn luôn’; thang điểm 7 điểm từ ‘không hoàn toàn’ đến ‘rất nhiều’; thang điểm 5 từ ‘không quan trọng’ đến ‘cực kỳ quan trọng’).

Giả định số # 2: Cần có mối quan hệ tuyến tính giữa tất cả các biến. Lý do cho giả định này là PCA dựa trên hệ số tương quan Pearson, và như vậy, cần phải có mối quan hệ tuyến tính giữa các biến. Trong thực tế, giả định này hơi thoải mái (ngay cả khi không nên) với việc sử dụng dữ liệu thứ tự cho các biến. Mặc dù có thể kiểm tra độ tuyến tính bằng cách sử dụng biểu đồ phân tán ma trận, điều này thường được coi là quá mức cần thiết vì biểu đồ phân tán đôi khi có thể có hơn 500 mối quan hệ tuyến tính.

Đọc thêm:   Dịch vụ chạy thống kê chuyên nghiệp STATA, SPSS, EVIEW, R ...

Do đó, bạn nên chọn ngẫu nhiên chỉ một vài mối quan hệ có thể có giữa các biến và kiểm tra chúng. Bạn có thể kiểm tra độ tuyến tính trong Thống kê SPSS bằng cách sử dụng biểu đồ phân tán và nếu có các mối quan hệ phi tuyến tính, hãy thử và “biến đổi” chúng. Nếu bạn chọn nâng cấp lên nội dung nâng cao của chúng tôi, chúng tôi có hướng dẫn Thống kê SPSS chỉ cho bạn cách kiểm tra độ tuyến tính bằng Thống kê SPSS, cũng như cách thực hiện các phép biến đổi khi giả định này bị vi phạm. Bạn có thể tìm hiểu thêm về nội dung nâng cao của chúng tôi trênTính năng: Trang tổng quan .

Giả định # 3: Bạn phải có đủ mẫu lấy mẫu , điều này đơn giản có nghĩa là để PCA tạo ra kết quả đáng tin cậy, cần có kích thước mẫu đủ lớn. Nhiều quy tắc ngón tay cái khác nhau đã được đề xuất. Những điều này chủ yếu khác nhau tùy thuộc vào việc một kích thước mẫu tuyệt đối được đề xuất hay nếu một bội số các biến trong mẫu của bạn được sử dụng. Nói chung, tối thiểu 150 trường hợp, hoặc 5 đến 10 trường hợp cho mỗi biến, được khuyến nghị làm cỡ mẫu tối thiểu. Có một số phương pháp để phát hiện mức độ thích hợp của việc lấy mẫu:

  • (1) Phép đo mức độ thích hợp của việc lấy mẫu của Kaiser-Meyer-Olkin (KMO) cho tập dữ liệu tổng thể; và
  • (2) thước đo KMO cho từng biến riêng lẻ.

Trong thủ tục Thống kê SPSSở phần sau của hướng dẫn này, chúng tôi sẽ chỉ cho bạn các tùy chọn cần chọn trong Thống kê SPSS để kiểm tra tính thích hợp của việc lấy mẫu. Nếu bạn không chắc chắn về cách giải thích kết quả từ các thử nghiệm này, chúng tôi sẽ hiển thị cho bạn trong hướng dẫn PCA nâng cao, là một phần của nội dung nâng cao của chúng tôi (một lần nữa, bạn có thể tìm hiểu thêm về nội dung nâng cao của chúng tôi trên các Tính năng: trang Tổng quan ).

Giả định # 4: Dữ liệu của bạn phải phù hợp để giảm dữ liệu . Một cách hiệu quả, bạn cần có mối tương quan đầy đủ giữa các biến để các biến được giảm xuống một số thành phần nhỏ hơn. Phương pháp được SPSS Statistics sử dụng để phát hiện điều này là phép thử của Bartlett về độ cầu. Phần diễn giải về bài kiểm tra này được cung cấp như một phần của hướng dẫn PCA nâng cao của chúng tôi.

Đọc thêm:   cách tính abnormal return lợi nhuận bất thường AR

Giả định số # 5: Không có ngoại lệ đáng kể nào . Các yếu tố ngoại lai rất quan trọng vì những yếu tố này có thể có ảnh hưởng không cân đối đến kết quả của bạn. SPSS Statistics khuyến nghị xác định các giá trị ngoại lệ khi điểm thành phần lớn hơn 3 độ lệch chuẩn so với giá trị trung bình. Một lần nữa, trong quy trình Thống kê SPSS ở phần sau của hướng dẫn này, chúng tôi sẽ chỉ cho bạn các tùy chọn cần chọn trong Thống kê SPSS để kiểm tra các giá trị ngoại lệ.

Nếu bạn không chắc chắn về cách diễn giải kết quả Thống kê SPSS mà bạn cần kiểm tra để kiểm tra các ngoại lệ, chúng tôi sẽ chỉ cho bạn trong hướng dẫn PCA nâng cao của chúng tôi.

Bạn có thể kiểm tra các giả định # 2, # 3, # 4 và # 5 bằng cách sử dụng phân tích trên phần mềm SPSS. Chỉ cần nhớ rằng nếu bạn không chạy các kiểm tra thống kê trên các giả định này một cách chính xác, kết quả bạn nhận được khi chạy PCA có thể không hợp lệ. Đây là lý do tại sao chúng tôi dành số lượng bài viết trong hướng dẫn nâng cao của mình để giúp bạn thực hiện đúng điều này. Bạn có thể tìm hiểu về toàn bộ nội dung nâng cao của chúng tôi.

Thực hành trên SPSS

Đường dẫn để kích hoạt phân tích PCA:

 Analyze > Dimension Reduction > Factor…

Bước 1:

Đưa toàn bộ biến cần  phân tích PCA  vào mục Variables

Phân tích thành phần chính PCA
Phân tích thành phần chính PCA

Bước 2

Mục Descriptives, Extraction & Rotation chọn như hình dưới

PRINCIPAL COMPONENTS (PCA)
PRINCIPAL COMPONENTS (PCA)

Mục này quan trọng nhất là phép quay Varimax, những thành phần khác thiếu cũng không sao.

Bước 3

 

Còn mục Score và Option thì chọn như sau:

Phân tích thành phần
Phân tích thành phần chọn hệ số tải

Mục này hệ số tải nhân tố ( Absolute value below) là quan trọng nhất, các bạn muốn tìm hiểu nhiều hơn thì xem lại phân tích nhân tố khám phá EFA sẽ có thông tin về nó.

Phân tích thành phần chính PCA

Kết quả phân tích PCA
Kết quả phân tích PCA

Trong phân tích PCA thì chúng ta dùng nhiều chỉ tiêu tuỳ theo ý tưởng phân tích mà chúng ta lựa chọn để phân tích, trong ví dụ này chúng tôi chỉ muốn biết rằng dữ liệu đầu vào như thế thì chúng ta có thể gom lại dữ liệu hay không ? câu trả lời là được, chúng ta có thể dùng 7 biến thành phần thành lại 1 biến.

Với việc phân tích PCA trên SPSS rất đơn giản, nhưng các bạn vẫn khó khăn trọng việc ứng dụng vào nghiên cứu các bạn đừng ngần ngại hãy liên hệ ngay với chúng tôi để được tư vấn và sử dụng hơp lý nhất.

 

 

 

 

Summary
recipe image
Review Date
Reviewed Item
Hướng dẫn PCA trên SPSS
Author Rating
51star1star1star1star1star
Recipe Name
Phân tích thành phần chính PCA