Vấn đề quan sát – chọn mẫu ngẫu nhiên – OBS. Trong một nghiên cứu định lượng thì chọn mẫu ngẫu nhiên là việc rất quan trọng, nó còn quan trọng hơn cả số lượng mẫu quan sát nữa, bởi vậy trong bài viết này chúng tôi đang cố gắng truyền đạt lại với các bạn những thống tin quan trọng về chọn mẫu ngẫu nhiên.
Nổi dung nổi bậc
CHỌN MẪU NGẪU NHIÊN
Chọn mẫu ngẫu nhiên là gì ?
Phân bổ một chương trình hay can thiệp ngẫu nhiên trên một mẫu quan sát là một giải pháp tránh tình trạng sai số lựa chọn, với điều kiện các tác động của chương trình được khảo sát ở mức độ ngẫu nhiên. Việc lựa chọn kỹ lưỡng khu vực đối chứng (hay tình huống phản thực) cũng là yếu tố quan trọng bảo đảm khả năng so sánh được với các khu vực tham gia chương trình và cuối cùng là tính toán tác động can thiệp (hay sai biệt trong kết quả) giữa hai nhóm.
Hiệu quả can thiệp có thể được phân biệt thành hiệu quả can thiệp bình quân (ATE) giữa các đơn vị tham gia và đối chứng, hay hiệu quả can thiệp trên đối tượng được can thiệp (TOT), là một chỉ số hẹp hơn cho phép so
sánh giữa các đơn vị tham gia và đối chứng, với điều kiện đối tượng tham gia ở khu vực có can thiệp.
Có thể thực hiện chọn mẫu ngẫu nhiên một cách hoàn toàn ngẫu nhiên (khi các đơn vị can thiệp và đối chứng có cùng kết quả dự kiến trong trường hợp không có chương trình); phương pháp này đòi hỏi phải bảo đảm tính xác thực ngoại tại và nội tại của thiết kế chọn đối tượng.
Tuy nhiên, trên thực tế, người nghiên cứu thường làm việc trong điều kiện bán ngẫu nhiên khi các mẫu can thiệp và đối chứng được chọn ngẫu nhiên, tùy thuộc vào một số đặc điểm được quan sát (chẳng hạn như sở hữu đất hay thu nhập). Nếu những chương trình này được chọn địa điểm một cách ngoại sinh, tùy thuộc vào những đặc điểm được quan sát thì sẽ có thể thực hiện ước tính chương
trình khách quan.
Tuy phương thức chọn ngẫu nhiên đã khá rõ ràng nhưng trong thực tế vẫn cần xử lý một số yếu tố, như những vấn đề đạo đức khi loại trừ những khu vực có đặc điểm tương tự như mẫu được chọn, tính đến hiệu ứng lan tỏa ở những khu vực không được chọn cũng như các trường hợp bỏ dở chương trình, bảo đảm tính không đồng nhất của đối tượng tham gia và các kết quả cuối cùng, kể cả khi chương trình áp dụng chọn ngẫu nghiên.
Thực trạng vấn đề quan sát
Tuy nhiên, trong thực tế có thể sẽ rất khó bảo đảm được rằng nhóm đối chứng sẽ rất giống với các khu vực dự án, rằng hiệu quả can thiệp trong mẫu mang tính phổ biến và rằng bản thân các tác động chính là một chức năng của riêng chương trình mà thôi. Các nhà thống kê đã đề xuất một phương thức chọn mẫu ngẫu nhiên có tính đến những ưu tiên này. Trong giai đoạn đầu sẽ chọn ra một mẫu đối tượng ngẫu nhiên từ quần thể phù hợp.
Mẫu này phải đại diện cho quần thể trong phạm vi sai số chọn mẫu nhất định. Giai đoạn này sẽ bảo đảm tính hợp lệ bên ngoài của thực nghiệm. Ở giai đoạn hai, các cá nhân trong mẫu được phân bổ ngẫu nhiên vào nhóm can thiệp và đối chiếu, trong đó bảo đảm tính hợp lý nội tại để những thay đổi sau này trong các kết quả định lượng được đểu xuất phát từ chương trình chứ không phải các yếu tố khác. Các điều kiện để bảo đảm tính hợp lý ngoại tại và nội tại của thiết kế chọn mẫu ngẫu nhiên sẽ được thảo luận chi tiết ở phần sau.
Tác động của can thiệp mẫu
Nhờ chọn mẫu ngẫu nhiên mà điều chỉnh được mức sai số lựa chọn B, như đã thảo luận trong chương 2, bằng cách gán ngẫu nhiên cá nhân hay nhóm vào các nhóm can thiệp và đối chứng. Trở lại nội dung chương 2, ta cùng xem xét vấn đề quen thuộc là định lượng hiệu quả can thiệp (xem Imbens và Angrist 1994): cho can thiệp Yi bằng 1 nếu đối tượng i được can thiệp và bằng 0 nếu không có can thiệp. Cho Yi (1) là kết quả nếu có can thiệp và Yi (0) nếu không có can thiệp.
Nhằm thống nhất lý thuyết về hiệu quả can thiệp, Heckman và Vytlacil (2005) cũng mô tả một tham số gọi là hiệu quả can thiệp cận biên (MTE), từ đó có thể trích xuất ATE và TOT. Được Björklund và Moffitt (1987) đưa vào lý thuyết đánh giá, MTE là mức thay đổi bình quân trong kết quả Yi đối với các cá nhân nằm ở ngoại biên ranh giới tham gia chương trình, với các đặc trưng được quan sát Xi và phụ thuộc vào một số đặc trưng không được quan sát Ui trong đẳng thức biểu thị tình trạng tham gia: MTE = E(Yi(1) – Yi(0)|Xi = x , Ui = u). Có nghĩa là MTE là hiệu quả bình quân của chương trình đối với những cá nhân ở trạng thái trung lập giữa tham gia và không tham gia.
Hiệu quả can thiệp chọn mẫu ngẫu nhiên
Chọn mẫu ngẫu nhiên có thể được thực hiện theo hai cách: ngẫu nhiên thuần túy và ngẫu nhiên bán phần. Nếu can thiệp được thực hiện ngẫu nhiên thuần túy theo quy trình Chọn mẫu ngẫu nhiên trình hai giai đoạn như nêu ở trên thì các hộ gia đình được can thiệp và không được can thiệp sẽ có cùng một kết quả dự tính khi không có chương trình.
Khi đó, E[Yi(0)|Ti = 1] is equal to E[Yi(0)|Ti = 0]. Do can thiệp là ngẫu nhiên chứ không phải một hàm số của các đặc trưng không được quan sát (như cá tính hay các thị hiếu khác) ở cá nhân, nên kết quả dự kiến sẽ có khác biệt giữa hai nhóm nếu không có can thiệp. Vì vậy, sai số lựa chọn sẽ bằng 0 trong trường hợp lựa chọn ngẫu nhiên.
Tác động can thiệp chọn mẫu ngẫu nhiên bán phần
Tuy vậy, chọn mẫu ngẫu nhiên thuần túy rất hiếm khi được thực hiện. Thay vào đó, người ta sử dụng ngẫu nhiên bán phần, trong đó các ví dụ can thiệp và đối chứng được chọn ngẫu nhiên, dựa trên một số đặc trưng được quan sát X (chẳng hạn, sở hữu đất đai hay thu nhập). Nếu có thể đưa ra giả định gọi là ngoại sinh có điều kiện trong chọn địa điểm chương trình thì ta có thể tính toán khách quan hiệu quả của chương trình.
Các phương pháp chọn mẫu ngẫu nhiên
Nếu có thể chọn ngẫu nhiên thì cần phải quyết định chọn loại chọn mẫu ngẫu nhiên nào (chọn vượt mức, ngẫu nhiên từng bước, ngẫu nhiên trong nội bộ nhóm hay thiết kế khuyến khích). Những phương thức này được trình bày chi tiết trong Duflo, Glennerster và Kremer (2008), và được thảo luận lần lượt dưới đây:
- Chọn vượt mức: Nếu chương trình chỉ có nguồn lực hạn chế thì có thể phân bổ ngẫu nhiên hoạt động triển khai cho một phân nhóm đối tượng đạt tiêu chuẩn, còn số đối tượng đạt tiêu chuẩn còn lại không được tiếp nhận chương trình có thể được coi là nhóm đối chứng. Cần thực hiện một số khảo sát về ngân sách, xem xét có thể khảo sát bao nhiêu đối tượng so với số lượng được chọn thực tế, để có được một nhóm đối chứng đủ lớn so với mẫu thụ hưởng.
- Ngẫu nhiên từng bước: phương thức này tham gia dần dần vào chương trình trên một loạt các khu vực đạt tiêu chuẩn, trong khi các nhóm đối chứng đại diện cho các khu vực đạt tiêu chuẩn vẫn chờ tiếp nhận chương trình. Phương pháp này sẽ giảm thiểu được các vấn đề về bình đẳng và tăng khả năng các khu vực tham gia chương trình và đối chứng có sự tương đồng về các đặc trưng cần quan sát.
- Ngẫu nhiên trong nội bộ nhóm: Tuy vậy, trong phương thức ngẫu nhiên từng bước, nếu độ trễ từ lúc bắt đầu chương trình đến khi thực sự nhận được các lợi ích lớn thì có thể nảy sinh nhiều tranh luận hơn về việc khu vực nào cần được tiếp nhận chương trình trước. Trong trường hợp này, vẫn có thể sử dụng yếu tố ngẫu nhiên bằng cách triển khai chương trình ở một số nhóm nhỏ trong từng khu vực được chọn. Như vậy, phương thức này cũng giống với ngẫu nhiên từng bước trên quy mô nhỏ. Một vấn đề ở đây là hiệu ứng lan tỏa sẽ có khả năng xuất hiện nhiều hơn trong trường hợp này. Chọn mẫu ngẫu nhiên
- Thiết kế khuyến khích: Thay vì chọn ngẫu nhiên can thiệp, các nhà nghiên cứu gán ngẫu nhiên đối tượng với một tuyên bố hay sáng kiến để được tham gia chương trình. Một số thông báo về chương trình sẽ được cung cấp trước (trong thời gian điều tra ban đầu để tiết kiệm chi phí hay thời điểm nào đó trước khi triển khai chương trình) cho một nhóm nhỏ ngẫu nhiên đối tượng thụ hưởng đủ tiêu chuẩn. Thông báo này được sử dụng như một công cụ để tham gia chương trình. Hiệu ứng lan tỏa cũng có thể được tính toán dễ dàng trong trường hợp này nếu có thu thập dữ liệu về các mạng lưới xã hội của hộ gia đình nhận được thông báo, để biết được tỉ lệ tham gia có khác biệt gì giữa các hộ có liên hệ hay không có liên hệ. Tuy nhiên, thực nghiệm kiểu này sẽ đòi hỏi nhiều công sức thu thập dữ liệu hơn.
Tác động của việc chọn mẫu ngẫu nhiên
Phương pháp chọn mẫu ngẫu nhiên ngày càng phổ biến ở một số nơi trên thế giới, một phần vì nếu được triển khai tốt thì chọn mẫu ngẫu nhiên có thể là một chỉ báo đáng tin cậy về tác động của chương trình. Đồng thời, sau khi khảo sát đã được lên thiết kế và dữ liệu đã được thu thập thì những kỹ thuật dựa trên kinh nghiệm nhằm xác định tác động của các thực nghiệm ngẫu nhiên thường khá trực tiếp. Đặc biệt, thực nghiệm ngẫu nhiên là phương án dễ giải trình hay khởi xướng nhất khi bắt đầu chương trình, trong giai đoạn thí điểm.
Giai đoạn này thường cho phép chọn mẫu ngẫu nhiên trước khi nhân rộng chương trình. Đây là dịp để các đối tác triển khai chương trình đánh giá nghiêm túc hiệu quả của chương trình và cũng là cơ hội để hoàn thiện thiết kế chương trình. Ta cũng có thể đưa yếu tố ngẫu nhiên vào các chương trình hiện có theo nhiều cách với những xáo trộn tối thiểu. Sau khi các phần trước trong chương đã trình bày về lý thuyết những vấn đề trong chọn mẫu ngẫu nhiên, những phần tiếp theo sẽ thảo luận những vấn đề thực tiễn và các nghiên cứu điểm trong triển khai nghiên cứu ngẫu nhiên.