Tìm hiểu về lý thuyết ứng đáp câu hỏi ((Item Response Theory – IRT) và ứng dụng lý thuyết này trong việc xây dựng đề thi trắc nghiệm chuẩn hóa.
Lý thuyết ứng đáp câu hỏi, theo cách định nghĩa của Hambleton & Jones (1993), là một lý thuyết thống kê tổng quát về kết quả làm bài của một cá nhân ở cấp độ bài thi và cấp độ câu hỏi, và mối liên hệ giữa kết quả làm bài với các nét năng lực đang được đo lường của người dự thi. Nói cách khác, Lý thuyết ứng đáp câu hỏi đã mô hình hóa mối quan hệ giữa một biến ta không thể quan sát là năng lực của người dự thi và xác suất mà tại đó thí sinh trả lời đúng một câu hỏi (Harris, 1989). Đơn giản hơn, như được đề cập trong Wu & Adams (2007), nội dung chính của Lý thuyết ứng đáp câu hỏi là sử dụng mô hình toán học để dự đoán xác suất trả lời đúng một câu hỏi, dựa trên chỉ số về năng lực của người trả lời và độ khó của câu hỏi. Xác suất trả lời đúng một câu hỏi của các đối tượng trả lời khác nhau được biểu diễn dưới một đường cong gọi là đường cong đặc tính câu hỏi (Item Characteristic Curve – ICC).
Hình 1. Đường cong đặc tính câu hỏi (ICC)
Có ba mô hình Lý thuyết ứng đáp câu hỏi đang được sử dụng phổ biến: Mô hình 1 thông số, mô hình 2 thông số, và mô hình 3 thông số. Cả ba mô hình là các hàm số cho phép tính toán xác suất P để một thí sinh có năng lực β trả lời đúng một câu hỏi có độ khó δ. Với mô hình 2 thông số, xác suất P(β) có thêm sự can thiệp của chỉ số về độ phân biệt của câu hỏi. Thông số thứ ba trong mô hình 3 thông số, có ảnh hưởng đến xác suất trả lời đúng P(β) là một chỉ số cho phép những thí sinh thậm chí với năng lực thấp vẫn có cơ hội trả lời đúng những câu hỏi có độ khó trung bình trở lên (chẳng hạn, câu hỏi có dấu hiệu gợi ý hoặc khuyến khích đoán mò).
Đề thi chuẩn hóa (đánh giá kết quả học tập) là các các đề thi được xây dựng bởi các chuyên gia khảo thí, có sự tham gia trợ giúp của các chuyên gia về chương trình/lĩnh vực chuyên môn, giáo viên và các nhà quản lý giáo dục, nhằm đo lường cấp độ năng lực của người học, tham chiếu năng lực của những học sinh khác cùng lứa tuổi, cùng khối lớp, hoặc tham chiếu những tiêu chuẩn, tiêu chí nhất định về năng lực (Kubiszyn & Borich, 2003). Những đề thi như trên thường mất cả năm để xây dựng, chuẩn hóa không những về nội dung, các yêu cầu về thông số kỹ thuật của từng câu hỏi và tổng thể đề thi mà còn chuẩn hóa cả về cách thức tổ chức thi, tổ chức chấm điểm, sao cho các quy trình tổ chức thi và tổ chức chấm điểm cụ thể và đồng nhất ở tất cả các điểm thi. Nhờ sự chuẩn hóa và nhất quán như trên, sai số đo lường do khâu tổ chức thi và chấm điểm sẽ giảm đáng kể.
Hambleton & Jones (1993) đưa ra một quy trình xây dựng đề thi chuẩn hóa điển hình với các giai đoạn chính sau:
Các mô hình của Lý thuyết hồi đáp làm thay đổi về cơ bản kỹ thuật thực hiện các bước 3, 5 và 9: liên quan trực tiếp đến việc đưa ra một đề thi có chất lượng: đảm bảo độ giá trị về nội dung, độ khó, và độ phân biệt...; và sử dụng kết quả đánh giá: định chuẩn, giải nghĩa năng lực của học sinh, so sánh giữa các nhóm xã hội...
Trong bước thử nghiệm câu hỏi, mô hình Rasch được ứng dụng trong hai phân tích cơ bản: một là xác định những đặc tính/thông số kỹ thuật của từng câu, và hai là sử dụng đặc điểm về sự phù hợp mô hình để loại bỏ những câu hỏi không phù hợp (không thuộc cấu trúc cần đánh giá). Sở dĩ có ứng dụng thứ nhất là nhờ ưu thế không phụ thuộc mẫu của mô hình Rasch. Tuy nhiên, cũng cần lưu ý mẫu thử nghiệm phải đủ lớn và tương đối đồng nhất để đảm bảo mang lại những thông số kỹ thuật tin cậy về từng câu hỏi.
Bước lựa chọn câu hỏi, thiết lập đề thi là một quy trình đòi hỏi những phép thống kê phức tạp, khai thác các thông số mô tả đặc tính của từng câu hỏi để từng bước tạo nên một đề thi – một tập hợp các câu hỏi có chức năng thông tin phù hợp với thông tin mục tiêu đánh giá đã đặt ra. Lord (1977) đã đưa ra một quy trình 4 bước để lựa chọn câu hỏi, thiết lập đề thi:
Chính trong quy trình lựa 4 bước lựa chọn câu hỏi trên đây, câu hỏi liên tục được xem xét, đánh giá (dựa trên cả các thông tin định tính – bản thân câu hỏi và phân tích dữ liệu thử nghiệm) để đảm bảo giá trị nội dung và giá trị cấu trúc của đề thi.
Trắc nghiệm chuẩn hóa là một công cụ cần thiết, không thể thiếu nếu ta muốn so sánh kết quả đánh giá tại các thời điểm khác nhau, các không gian đánh giá khác nhau, và các nhóm đối tượng được đánh giá khác nhau. Nếu quy trình đánh giá được chuẩn hóa, ta sẽ có khả năng đọc kết quả đánh giá chính xác hơn, và chứa đựng nhiều thông tin hơn về năng lực người học. Chất lượng của bất cứ một quy trình đánh giá nào đều cần được thể hiện thông qua sử dụng dữ liệu thực nghiệm để ghi nhận tính xác thực và hiệu quả của hoạt động đánh giá. Những dữ liệu thực nghiệm này mang lại những thông tin cực kỳ có ý nghĩa, không chỉ với các nhà phát triển công cụ đánh giá (thiết kế bài thi) mà cả các nhà quản lý giáo dục, các cá nhân/đơn vị cần sử dụng kết quả đánh giá để đưa ra các quyết định quan trọng liên quan đến người học, chương trình dạy học – giáo dục. Dữ liệu thực nghiệm là cơ cơ sở để lựa chọn câu hỏi và hiệu chỉnh nhằm mang lại công cụ đánh giá ngày càng được đảm bảo về chất lượng, xác lập giá trị và tính tin cậy của bài trắc nghiệm, thiết lập thang đo chuẩn để đo lường sự phát triển, so bằng điểm số giữa các nhóm thí sinh. Trong tất cả những thao tác kĩ thuật trên đây, cho đến thời điểm hiện nay, Lý thuyết ứng đáp câu hỏi vẫn được sử dụng trong quy trình xây dựng hầu hết các trắc nghiệm chuẩn hóa phổ biến và được công nhận rộng rãi trên thế giới.
Tài liệu tham khảo
Hambleton, R. K., & Jones, R. W. (1993). An NCME instructional module on: Comparison of classical test theory and item response theory and their applications to test development. Educational measurement: issues and practice, 12(3), 38-47.
Harris, D. (1989). Comparison of 1-, 2-, and 3-paramater ITR models. A module in NCME Series of Instructional Topics in Educational Measurement. NCME Journal of Educational Measurement: Issues and Practices. p.35-41.
Wu, M. & Adams, R. (2007). Applying the Rasch Model to Psycho-social Measurement: A Practical Approach. Tài liệu tập huấn Thiết kế công cụ đánh giá do Ngân hàng thế giới phối hợp với ACER tổ chức năm 2007-2008 tại Việt Nam.
Borich, G., & Kubiszyn, T. (2003). Educational testing and measurement. New York: Jhon Wiley & Son.
Lord, F.M. (1977). Practical Applications of Item Characteristic Curve Theory. Journal of Educational Measurement, 14, p117-138.
ThS. Lê Thị Hoàng Hà