Kiểm định T bằng phần mềm thống kê R

Kiểm định

kiểm định T bằng phần mềm thống kê R, chúng ta xem xét cho 2 trường hợp  kiểm định t một mẫu và kiểm định t 2 mẫu.

KIỂM ĐỊNH T BẰNG PHẦN MỀM THỐNG KÊ R

A, Kiểm định t một mẫu

 

Ví dụ 1. Qua phân tích trên, chúng ta thấy tuổi trung bình của 100 đối tượng trong nghiên cứu này là 19.17 tuổi. Chẳng hạn như trong quần thể này, trước đây chúng ta biết rằng tuổi trung bình là 30 tuổi. Vấn đề đặt ra là có phải mẫu mà chúng ta có được có đại diện cho quần thể hay không.  Nói cách khác, chúng ta muốn biết giá trị trung bình 19.17 có thật sự khác với giá trị trung bình 30 hay không.

Để trả lời câu hỏi này, chúng ta sử dụng kiểm định t. Theo lí thuyết thống kê, kiểm định t được định nghĩa bằng công thức sau đây:

 

t =  (SQRT(n).(x m))/S

 

 Trong đó,  là giá trị trung bình của mẫu, m là trung bình theo giả thiết (trong trường  hợp này, 30), s là độ lệch chuẩn, và n là số lượng mẫu (100). Nếu giá trị t cao hơn giá trị  lí thuyết theo phân phối t ở một tiêu chuẩn có ý nghĩa như 5% chẳng hạn thì chúng ta có  lí do để phát biểu khác biệt có ý nghĩa thống kê. Giá trị này cho mẫu 100 có thể tính toán bằng hàm qt của R như sau:

 

> qt(0.95, 100)

[1] 1.660234

Đọc thêm:   Lý thuyết hành vi người tiêu dùng của Philip Kotler

 

Nhưng có một cách tính toán nhanh gọn hơn để trả lời câu hỏi trên, bằng cách dùng  hàm

t.test như sau:

 

> t.test(age, mu=30)

 

One Sample t-test

 

 

data: age

t = -27.6563, df = 99, p-value < 2.2e-16

alternative hypothesis: true mean is not equal to 30

95 percent confidence interval: 18.39300 19.94700

sample estimates: mean of x

19.17

 

Trong lệnh trên age là biến số chúng ta cần kiểm định, và mu=30 là giá trị giả thiết. R trình bày trị số t = -27.66, với 99 bậc tự do, và trị số p < 2.2e-16 (tức rất thấp). R cũng cho biết độ tin cậy 95% của age là từ 18.4 tuổi đến 19.9 tuổi (30 tuổi nằm quá ngoài khoảng tin cậy này). Nói cách khác, chúng ta có lí do để phát biểu rằng độ tuổi trung  bình trong mẫu này thật sự thấp hơn độ tuổi trung bình của quần thể.

 

B Kiểm định t hai mẫu

 

Ví dụ 2. Qua phân tích mô tả trên (phầm summary) chúng ta thấy phụ nữ có độ hormone igfi cao hơn nam giới (167.97 và 160.29). Câu hỏi đặt ra là có phải thật sự đó là một khác biệt có hệ thống hay do các yếu tố ngẫu nhiên gây nên. Trả lời câu hỏi này, chúng ta cần xem xét mức độ khác biệt trung bình giữa hai nhóm và độ lệch chuẩn của độ khác biệt.

 

 

 

 

Trong đó

 

x1    và

 

t x2  – x1

SED

x2          là số trung bình của hai nhóm nam và nữ, và SED là độ lệch chuẩn

Đọc thêm:   Nhận xử lý số liệu trong SPSS, EVIEW, STATA

 

của ( x1   –  x2 ) .  Thực ra, SED có thể ước tính bằng công thức:

 

SE 2 + SE 2
1
2

SED =

 

 

Trong đó

SE1   và

SE2

là sai số chuẩn (standard error) của hai nhóm nam và nữ.  Theo   lí

 

thuyết xác suất, t tuân theo luật phân phối t với bậc tự do n1 + n2  – 2 , trong đó n1 n2 là số mẫu của hai nhóm. Chúng ta có thể dùng R để trả lời câu hỏi trên bằng hàm t.test như sau:

 

> t.test(igfi~ sex)

Welch Two Sample t-test data:    igfi by sex

t = 0.8412, df = 88.329, p-value = 0.4025

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-10.46855  25.83627

sample estimates:

mean in group Female   mean in group Male 167.9741              160.2903

 

 

 

 

R trình bày các giá trị quan trọng trước hết:

 

t = 0.8412, df = 88.329, p-value = 0.4025

 

df là bậc tự do. Trị số p = 0.4025 cho thấy mức độ khác biệt giữa hai nhóm nam và nữ không có ý nghĩa thống kê (vì cao hơn 0.05 hay 5%).

 

95 percent confidence interval:

-10.46855  25.83627

 

là khoảng tin cậy 95% về độ khác biệt giữa hai nhóm. Kết quả tính toán trên cho biết độ igf ở nữ giới có thể thấp hơn nam giới 10.5 ng/L hoặc cao hơn nam giới khoảng 25.8 ng/L.  Vì độ khác biệt quá lớn và đó là thêm bằng chứng cho thấy không có khác biệt có  ý nghĩa thống kê giữa hai nhóm.

Đọc thêm:   Hiệu chỉnh data PLS-SEM Chỉnh sửa số liệu SmartPLS

 

Kiểm định trên dựa vào giả thiết hai nhóm nam và nữ có khác phương sai. Nếu chúng ta có lí do đề cho rằng hai nhóm có cùng phương sai, chúng ta chỉ thay đổi một thông số trong hàm t với var.equal=TRUE như sau:

 

> t.test(igfi~ sex, var.equal=TRUE)

Two Sample t-test data:    igfi by sex

t = 0.7071, df = 98, p-value = 0.4812

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-13.88137  29.24909

sample estimates:

mean in group Female   mean in group Male 167.9741              160.2903

 

 

Về mặc số, kết quả phân tích trên có khác chút ít so với kết quả phân tích dựa vào giả định hai phương sai khác nhau, nhưng trị số p cũng đi đến một kết luận rằng độ khác biệt giữa hai nhóm không có ý nghĩa thống kê.

Summary
recipe image
Review Date
Reviewed Item
phân tích rất dễ hiểu
Author Rating
51star1star1star1star1star
Recipe Name
Kiểm định T bằng phần mềm thống kê R