Kiểm định T bằng phần mềm thống kê R

Post Views:6.927

kiểm định T bằng phần mềm thống kê R, chúng ta xem xét cho 2 trường hợp kiểm định t một mẫu và kiểm định t 2 mẫu.

A, Kiểm định t một mẫu

Ví dụ 1. Qua phân tích trên, chúng ta thấy tuổi trung bình của 100 đối tượng trong nghiên cứu này là 19.17 tuổi. Chẳng hạn như trong quần thể này, trước đây chúng ta biết rằng tuổi trung bình là 30 tuổi. Vấn đề đặt ra là có phải mẫu mà chúng ta có được có đại diện cho quần thể hay không. Nói cách khác, chúng ta muốn biết giá trị trung bình 19.17 có thật sự khác với giá trị trung bình 30 hay không.

Để trả lời câu hỏi này, chúng ta sử dụng kiểm định t. Theo lí thuyết thống kê, kiểm định t được định nghĩa bằng công thức sau đây:

t = (SQRT(n).(x – m))/S

Trong đó, x là giá trị trung bình của mẫu, m là trung bình theo giả thiết (trong trường hợp này, 30), s là độ lệch chuẩn, và n là số lượng mẫu (100). Nếu giá trị t cao hơn giá trị lí thuyết theo phân phối t ở một tiêu chuẩn có ý nghĩa như 5% chẳng hạn thì chúng ta có lí do để phát biểu khác biệt có ý nghĩa thống kê. Giá trị này cho mẫu 100 có thể tính toán bằng hàm qt của R như sau:

> qt(0.95, 100)

[1] 1.660234

Đọc thêm: Ước lượng GMM cực dễ trên EVIEWS

Nhưng có một cách tính toán nhanh gọn hơn để trả lời câu hỏi trên, bằng cách dùng hàm

t.test như sau:

> t.test(age, mu=30)

One Sample t-test

data: age

t = -27.6563, df = 99, p-value < 2.2e-16

alternative hypothesis: true mean is not equal to 30

95 percent confidence interval: 18.39300 19.94700

sample estimates: mean of x

19.17

Trong lệnh trên age là biến số chúng ta cần kiểm định, và mu=30 là giá trị giả thiết. R trình bày trị số t = -27.66, với 99 bậc tự do, và trị số p < 2.2e-16 (tức rất thấp). R cũng cho biết độ tin cậy 95% của age là từ 18.4 tuổi đến 19.9 tuổi (30 tuổi nằm quá ngoài khoảng tin cậy này). Nói cách khác, chúng ta có lí do để phát biểu rằng độ tuổi trung bình trong mẫu này thật sự thấp hơn độ tuổi trung bình của quần thể.

B Kiểm định t hai mẫu

Ví dụ 2. Qua phân tích mô tả trên (phầm summary) chúng ta thấy phụ nữ có độ hormone igfi cao hơn nam giới (167.97 và 160.29). Câu hỏi đặt ra là có phải thật sự đó là một khác biệt có hệ thống hay do các yếu tố ngẫu nhiên gây nên. Trả lời câu hỏi này, chúng ta cần xem xét mức độ khác biệt trung bình giữa hai nhóm và độ lệch chuẩn của độ khác biệt.

Trong đó

x1 và

t = x2 – x1

SED

x2 là số trung bình của hai nhóm nam và nữ, và SED là độ lệch chuẩn

Đọc thêm: xác định chuỗi dữ liệu không dừng & cách khắc phục

của ( x1 – x2 ) . Thực ra, SED có thể ước tính bằng công thức:

SE 2 + SE 2

SED =

Trong đó

SE1 và

SE2

là sai số chuẩn (standard error) của hai nhóm nam và nữ. Theo lí

thuyết xác suất, t tuân theo luật phân phối t với bậc tự do n1 + n2 – 2 , trong đó n1 và n2 là số mẫu của hai nhóm. Chúng ta có thể dùng R để trả lời câu hỏi trên bằng hàm t.test như sau:

> t.test(igfi~ sex)

Welch Two Sample t-test data: igfi by sex

t = 0.8412, df = 88.329, p-value = 0.4025

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-10.46855 25.83627

sample estimates:

mean in group Female mean in group Male 167.9741 160.2903

R trình bày các giá trị quan trọng trước hết:

t = 0.8412, df = 88.329, p-value = 0.4025

df là bậc tự do. Trị số p = 0.4025 cho thấy mức độ khác biệt giữa hai nhóm nam và nữ không có ý nghĩa thống kê (vì cao hơn 0.05 hay 5%).

95 percent confidence interval:

-10.46855 25.83627

là khoảng tin cậy 95% về độ khác biệt giữa hai nhóm. Kết quả tính toán trên cho biết độ igf ở nữ giới có thể thấp hơn nam giới 10.5 ng/L hoặc cao hơn nam giới khoảng 25.8 ng/L. Vì độ khác biệt quá lớn và đó là thêm bằng chứng cho thấy không có khác biệt có ý nghĩa thống kê giữa hai nhóm.

Đọc thêm: Thống kê ứng dụng trong nghiên cứu thú y

Kiểm định trên dựa vào giả thiết hai nhóm nam và nữ có khác phương sai. Nếu chúng ta có lí do đề cho rằng hai nhóm có cùng phương sai, chúng ta chỉ thay đổi một thông số trong hàm t với var.equal=TRUE như sau:

> t.test(igfi~ sex, var.equal=TRUE)

Two Sample t-test data: igfi by sex

t = 0.7071, df = 98, p-value = 0.4812

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-13.88137 29.24909

sample estimates:

mean in group Female mean in group Male 167.9741 160.2903

Về mặc số, kết quả phân tích trên có khác chút ít so với kết quả phân tích dựa vào giả định hai phương sai khác nhau, nhưng trị số p cũng đi đến một kết luận rằng độ khác biệt giữa hai nhóm không có ý nghĩa thống kê.

Summary

Reviewer

Lê Văn Tài

Review Date

2018-09-01

Reviewed Item

phân tích rất dễ hiểu

Author Rating

Recipe Name

Kiểm định T bằng phần mềm thống kê R

Kiểm định T bằng phần mềm thống kê R