PHÂN
TÍCH CÂU HỎI KIỂM TRA BẰNG LÝ THUYẾT KHẢO THÍ HIỆN ĐẠI
Việc phân tích câu hỏi kiểm
tra bằng lý thuyết khảo thí cổ điển cũng có thể đưa ra những thông tin thống kê
để phân tích, đánh giá câu hỏi kiểm tra. Tuy nhiên, phân tích câu hỏi kiểm tra
bằng lý thuyết khảo thí hiện đại (sử dụng phần mêm QUEST và các phần mềm chuyên
dụng khác) còn có thể giúp chúng ta có được những thông tin đầy đủ hơn về đề kiểm
tra và các câu hỏi kiểm tra.
I. Tổng quan về dữ liệu phân tích
1. Dữ liệu đề kiểm tra
Bộ dữ liệu về kết quả kiểm tra chuẩn đầu ra môn
Tiếng Anh đối với sinh viên hệ Cao đẳng sư phạm không chuyên, được cung cấp bởi
Phòng Khảo thí và ĐBCLGD. Dữ liệu gồm 750 thí sinh có ID từ 0001 đến 0750 với kết
quả trả lời 40 câu hỏi trắc nghiệm nhiều lựa chọn.
File dữ liệu có 43 biến gồm: ID, namsinh, Truong,
cau1, cau2, cau3, cau4, cau5, cau6, cau7, cau8, cau9, cau10, cau11, cau12, cau13,
cau14, cau15, cau16, cau17, cau18, cau19, cau20, cau21, cau22, cau23, cau24, cau25,
cau26, cau27, cau28, cau29, cau30, cau31, cau32, cau33, cau34, cau35, cau36, cau37,
cau38, cau39, cau40. Trong đó ID là mã số thí sinh, Truong là mã số trường và cau1
đến cau40 là kết quả trả lời của 40 câu hỏi trắc nghiệm.
2. Mục đích, yêu cầu
Vận dụng lý thuyết khảo thí hiện đại vào việc
phân tích, đánh giá câu hỏi kiểm tra. Qua kết quả đánh giá để có thể trả lời
các câu hỏi nghiên cứu sau;
- Đề kiểm tra có phù hợp với năng lực của nhóm
thí sinh dự kiểm tra hay không? Nếu chưa
phù hợp thì cần điều chỉnh như thế nào?
- Có câu hỏi nào trong đề kiểm tra không phù hợp
và cần chỉnh sửa hay loại bỏ không?
Kết quả phân tích này là cơ sở để lựa chọn các câu
hỏi đạt chất lượng nhằm xây dựng ngân hàng câu hỏi thi kiểm tra cho đơn vị. Đồng
thời đưa ra những khuyến cáo cần thiết đối với các tổ bộ môn, giảng viên trong công
tác xây dựng câu hỏi thi kiểm tra với hình thức trắc nghiệm.
II. Vận dụng lý thuyêt khảo thí hiện đại
trong phân tích câu hỏi kiểm tra
1. Sự phù hợp của câu hỏi kiểm tra
1.1. Mức độ phù hợp với mô hình:
Khi dữ liệu phù hợp với
mô hình Rasch thì trị số kỳ vọng của các bình phương trung bình (mean square) xấp xỉ bằng
1 và trị số kỳ vọng t xấp xỉ bằng 0. Từ các số liệu về giá trị trung bình Mean và độ lệch chuẩn
SD có được từ file thu.map
khi xử lý dữ liệu bằng phần mềm QUEST, ta thấy dữ liệu dùng để phân
tích là phù hợp với
mô hình Rasch.
Trích file thu.map:
Summary of
item Estimates
=========================
Mean .00
SD .72
SD
(adjusted) .71
Reliability
of estimate .98
Fit Statistics
===============
Infit Mean Square Outfit Mean Square
Mean
.99 Mean 1.01
SD
.11 SD .22
Infit t Outfit t
Mean
-.12 Mean .05
SD
2.47 SD 2.15
0 items with zero scores
0 items with perfect scores
===================================================================
1.2. Mức độ phù hợp của các câu hỏi
với nhau
Trong biểu đồ Item Fit
sau đây, mỗi câu trắc nghiệm biểu thị bằng dấu *. Những câu trắc nghiệm nằm trong hai đường
chấm thẳng đứng có giá trị trung bình bình phương độ phù hợp INFIT MNSQ nằm trong
khoảng (0.77;1.30) sẽ phù hợp với mô hình Rasch. Nếu câu trắc nghiệm nào không phù hợp
thì loại bỏ.
Trong biểu đồ dưới ta thấy câu 6 có chỉ số phù hợp
(INFIT MNSQ) nằm ngoài vùng cho phép và cần loại bỏ.
--------------------------------------------------------------------------------------------------------------------------
INFIT
MNSQ .63
.67 .71 .77
.83 .91 1.00
1.10 1.20 1.30
1.40 1.50 1.60
----------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+-
1 item 1 . | * .
2 item 2 . * | .
3 item 3 . * | .
4 item 4 . * |
.
5 item 5 . | * .
6 item 6 . | . *
7 item 7 . * | .
8 item 8 . * | .
9 item 9 . | * .
10 item 10 . | * .
11 item 11 . * | .
12 item 12 . *| .
13 item 13 . * | .
14 item 14 . *
| .
15 item 15 . * | .
16 item 16 . * | .
17 item 17 . | * .
18 item 18 . | * .
19 item 19 . *
| .
20 item 20 . * | .
21 item 21 . * | .
22 item 22 . | * .
23 item 23 . * | .
24 item 24 . |
* .
25 item 25 . *| .
26 item 26 . * | .
27 item 27 . | * .
28 item 28 . | * .
29 item 29 . * | .
30 item 30 . | * .
31 item 31 . * | .
32 item 32 . * | .
33 item 33 . * | .
34 item 34 . * | .
35 item 35 . * | .
36 item 36 . | * .
37 item 37 . | * .
38 item 38 . *| .
39 item 39 . | * .
40 item 40 . * .
========================================================================================================================
Sau khi loại bỏ câu 6 đã xuất hiện câu 39 có chỉ số phù hợp
(INFIT MNSQ) nằm ngoài vùng cho phép của mô hình Rasch và cần loại bỏ (hoặc có thể giữ lại để điều
chỉnh vì không vượt quá xa ).
------------------------------------------------------------------------------------------------------------------
INFIT
MNSQ
.63 .67 .71
.77 .83 .91
1.00 1.10 1.20
1.30 1.40 1.50
1.60
----------+---------+---------+---------+---------+---------+---------+---------+---------+---------+-------------
1 item 1 . | * .
2 item 2 . * | .
3 item 3 . * | .
4 item 4 . * | .
5 item 5 . | * .
7 item 7 . * | .
8 item 8 . * | .
9 item 9 . | * .
10 item 10 . | * .
11 item 11 . *| .
12 item 12 . |* .
13 item 13 . * | .
14 item 14 . * | .
15 item 15 . * | .
16 item 16 . * | .
17 item 17
. | * .
18 item 18 . | * .
19 item 19 . * | .
20 item 20 . * | .
21 item 21 . * | .
22 item 22 . | * .
23 item 23 . * | .
24 item 24 . | * .
25 item 25 . |* .
26 item 26 . * | .
27 item 27 . | * .
28 item 28 . | * .
29 item 29 . *
| .
30 item 30 . | * .
31 item 31 . * | .
32 item 32 . * | .
33 item 33 . * | .
34 item 34 . *| .
35 item 35 . * | .
36 item 36 . | * .
37 item 37 . | * .
38 item 38 . |* .
39 item 39
. | . *
40 item 40 . | * .
Loại bỏ câu 39 có
chỉ số phù hợp (INFIT MNSQ) nằm ngoài vùng cho phép của mô hình Rasch ta có biểu đồ phân bố chỉ số phù hợp như
sau:
-----------------------------------------------------------------------------------------------------------------------
INFIT
MNSQ
.63 .67 .71
.77 .83 .91
1.00 1.10 1.20
1.30 1.40 1.50
----------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------
1 item 1 . | * .
2 item 2 . * | .
3 item 3 .
* | .
4 item 4 . * | .
5 item 5 . | * .
7 item 7 . * | .
8 item 8
.
* | .
9 item 9 . | * .
10 item 10 . | * .
11 item 11 . * .
12 item 12 . | * .
13 item 13 . * | .
14 item 14 . * | .
15 item 15 . * | .
16 item 16 . * | .
17 item 17 . | * .
18 item 18 . | * .
19 item 19 . * | .
20 item 20 . * | .
21 item 21 . * | .
22 item 22 . | * .
23 item 23 . * | .
24 item 24 . | * .
25 item 25 . | * .
26 item 26 . *| .
27 item 27 . | * .
28 item 28 . | * .
29 item 29 . * | .
30 item 30 . | * .
31 item 31 . * | .
32 item 32 . * | .
33 item 33 . * | .
34 item 34 . *| .
35 item 35 . * | .
36 item 36 . | * .
37 item 37 . | * .
38 item 38 . |
* .
40 item 40 . | * .
=========================================================================================================================
Chỉ số phù hợp được tính toán bằng phần mềm Quest và thống kê ở bảng
sau:
Bảng 6.Thống
kê chỉ số Infit MNSQ
Câu
|
INFIT
MNSQ
|
Câu
|
INFIT
MNSQ
|
Câu
|
INFIT
MNSQ
|
Câu
|
INFIT
MNSQ
|
1
|
1.18
|
11
|
0.99
|
21
|
0.92
|
31
|
0. 96
|
2
|
0.96
|
12
|
1.01
|
22
|
1.08
|
32
|
0.92
|
3
|
0.83
|
13
|
0.93
|
23
|
0. 98
|
33
|
0.91
|
4
|
0.90
|
14
|
0.94
|
24
|
1.07
|
34
|
0.99
|
5
|
1.07
|
15
|
0.86
|
25
|
1.01
|
35
|
0.81
|
6
|
Bỏ
|
16
|
0.87
|
26
|
0.98
|
36
|
1.20
|
7
|
0.97
|
17
|
1.06
|
27
|
1.06
|
37
|
1.07
|
8
|
0.83
|
18
|
1.08
|
28
|
1.06
|
38
|
1.01
|
9
|
1.13
|
19
|
0.89
|
29
|
0.88
|
39
|
Bỏ
|
10
|
1.08
|
20
|
0.91
|
30
|
1.03
|
40
|
1.02
|
2. Phân bố độ khó câu hỏi kiểm
tra và năng lực thí sinh
Bản đồ phân bố độ khó câu hỏi kiểm tra và năng lực thí sinh cho thấy mức độ phù hợp của đề kiểm tra đối với
thí sinh dự kiểm tra. Kết quả xử lý bằng phần mềm QUEST cho một bản đồ
phân bố năng lực sinh viên và độ khó câu hỏi kiểm tra.
Các thông tin về kết quả tính toán từ bảng Summary of case Estimates cho thấy năng lực trung bình của
mẫu thí sinh (case) tham gia bài kiểm tra (1.15) lớn hơn khá nhiều so với độ khó chung của bài kiểm tra
(0.00).Như vậy, nhìn chung
đề kiểm tra là quá dễ so với năng lực của nhóm thí sinh tham gia bài kiểm
tra.
Sử
dụng lý thuyết khảo thí hiện đại để so sánh năng lực của sinh viên với độ khó của
câu hỏi bằng thang logistic. Theo sơ đồ phân bổ năng lực thí sinh và độ khó câu hỏi kiểm tra
dưới đây, các câu hỏi có độ khó chỉ đòi hỏi mức năng lực của thí sinh từ - 1.37
đến 1.51 (thang logistic) là đã có thể hoàn thành bài kiểm tra. Trong khi đó,
năng lực thực của thí sinh phân bố từ -1.5 đến 3.88 với trung bình cộng là 1.15
và độ lệch chuẩn 1.23. Điều này chứng tỏ các câu hỏi có độ khó nằm trong vùng
năng lực của thí sinh tham gia bài kiểm tra. Theo số liệu thống kê và sơ đồ phân bổ năng lực thí sinh có đến 267 thí sinh có năng lực cao hơn mức năng lực
yêu cầu tương ứng với độ khó tối đa của câu hỏi kiểm tra (câu7) .
Ngoài ra, bản đồ phân bố còn cho thấy đề kiểm tra còn có những khoảng trống
cần bổ sung một số câu hỏi để phân biệt được năng lực của các thí sinh ở nhóm
năng lực cao hơn mức 1.51.
Bảng số liệu tính toán trên
thí sinh tham gia:
Summary of case Estimates
=========================
Mean 1.15 (càng cao chứng tỏ đề càng dễ)
SD 1.23
SD (adjusted) 1.14
Reliability of estimate .85 (độ tin cậy càng cao càng tốt)
Fit Statistics
===============
Infit Mean Square Outfit Mean Square
Mean
1.00 Mean 1.01
SD
.11 SD .29
Infit t Outfit t
Mean
.05 Mean .09
SD
.71 SD .66
0 cases with zero scores
14 cases with perfect scores
Sơ đồ phân bổ năng lực thí
sinh và độ khó câu hỏi kiểm tra:
----------------------------------------------------------------------------------
Item Estimates (Thresholds)
all on thu (N = 750 L = 38 Probability
Level= .50)
----------------------------------------------------------------------------------
NĂNG LỰC CAO CÂU HỎI KHÓ
4.0 |
XXXXXXXXXXXXXXXXX |
|
|
|
|
|
XXXXXXXXXXXXXXXXXX |
3.0 |
|
|
XXXXXXXXXXXXXXXXXXXXXX |
|
|
XXXXXXXXXXXXXXXXXXXXXX |
|
|
2.0 XXXXXXXXXXXXXXXXXXXXXX |
|
XXXXXXXXXXXXXXXXXXXXXXX |
|
XXXXXXXXXXXXXXXXX |
XXXXXXXXXXXXXXXXXXXX | 7
|
XXXXXXXXXXXXXXX |
9
XXXXXXXXXXXXXXXXXXX |
40
1.0
| 10
XXXXXXXXXXXXXXXX |
XXXXXXXXXXXXXX |
32
XXXXXXXXXXXXX |
3 13 20
38
XXXXXXXXXXXXXXX |
28
XXXXXXXXXXXXXXXX |
11 23 26
XXXXXXXXXXX |
18
|
XXXXXXXXX |
29
XXXXXXXXX |
4 34
.0 XXXXXXXX |
30
XXXXXXXXX |
1 21
XXXXXXXXXX |
22 33
XXXXXXXX |
25 37
XXXXX |
5 8 15
16 36
XXXXXX |
12 24 27
XXXXXXX |
2
| 31
XXXXX |
17
-1.0 XXXX |
35
XXXXXXXX |
19
XX |
XXX |
14
X |
|
X
|
|
|
-2.0 |
NĂNG LỰC THẤP CÂU HỎI DỄ
----------------------------------------------------------------------------------
Each X represents 2 students
==================================================================================
Lưu ý: Biểu đồ
không có câu 6 và 39 vì đã loại bỏ vì là hai câu hỏi ngoại lai.
Nhận xét:
Đề kiểm
tra quá dễ so với năng lực của nhóm thí sinh tham gia bài kiểm tra này, cần bổ
sung những câu khó để đánh giá những thí sinh có năng lự cao . Những thí sinh
có mức năng lực (thresholds) từ 1.51 trở lên chưa có câu hỏi đủ khó để đánh giá
đúng năng lực.
Tuy nhiên, đây chỉ là một bài kiểm tra chuẩn đầu
ra môn Tiếng Anh với đối tượng là sinh
viên hệ cao đẳng sư phạm không chuyên. Nên việc đề thi tập trung vào đánh giá
kiến thức, kỹ năng tiếng Anh của thí sinh ở một mức độ cơ bản nhất, phù hợp với
chuẩn đầu ra mà không nhằm vào việc phân loại năng lực cao thấp của thí sinh là
điều dễ hiểu và chấp nhận được.
3. P-value
P-value: là giá trị thống
kê cho biết hệ số tương quan (Point Biserial) tính toán được là có ý nghĩa thống
kê ở mức nào, thông thường phải nhỏ hơn hoặc bằng 0.05 (có ý nghĩa thống kê ở mức
α = 0.05).
Trong số 40 câu
hỏi được phân tích trên, ngoại trừ hai câu 6, 39 không có ý nghĩa thống kê còn
38 câu hỏi còn lại có P-value đạt yêu cầu, thậm chí có ý nghĩa thống kê rất cao
ở mức p-value = 0.00. Điều này cho thấy hệ số tương quan tính được giữa câu hỏi
kiểm tra với điểm kiểm tra của toàn bài có ý nghĩa thống kê và có các chỉ số
phù hợp với mô hình Rash.
4. Mean ability
Mean ability: Thang đo năng lực của thí
sinh với việc đưa ra sự lựa chọn của mình. Phương án trả lời
đúng phải có chỉ số Mean ability cao hơn các phương án trả lời sai. Với kết quả xử lí dữ liệu
bằng phần mềm Quest, sau khi đã loại bỏ hai câu 6 và 39 thì chỉ số Mean ability
của các câu hỏi đều đạt được yêu cầu.
5. Thresholds
Thresholds: Là ngưỡng năng lực
yêu cầu cần có (theo thang logistic) để thí
sinh có thể trả lời đúng các câu hỏi đang phân tích. Với 38 câu hỏi này (ngoại
trừ 2 câu hỏi ngoại lai) ta thấy các chỉ số thresholds rải từ
- 1.37 đến 1.51 trong khi đó năng lực của thí sinh phân bố từ -1.5 đến 3.88.
Qua kết quả thống kê cho thấy đề kiểm tra này không có những câu hỏi đủ khó để
đánh giá thí sinh có năng lực từ trên 1.51 đến 3.88.
6. Error
Error: là sai số tính toán,
thông số này cho thấy độ tin cậy của số liệu tính toán được cho từng câu hỏi và
thông thường phải nhỏ hơn 0.2. Như vậy yêu cầu này đều đạt được ở tất cả các
câu hỏi.
Dưới đây là trích kết quả
phân tích có được từ phần mềm Quest (file thu.ita). Câu 6 và 39 là câu ngoại
lai, riêng câu 6 đề nghị chỉnh lại key ở phần đánh giá bằng lý thuyết cổ điển.
Câu 7 là câu có độ khó (thresholds) cao nhất và câu 14 là câu có độ khó thấp nhất
trên thang logistic.
Câu 6 và câu 39 chỉ số có Infit MNSQ nằm ngoài khoảng (0.77;1.30) nên không phù hợp với mô hình Rasch à ngoại lai
Item
6: item 6
Infit MNSQ = 1.59
Disc = -.29
Categories - A B* C D
missing
Count 7 109 95
450 89 0
Percent (%) .9
14.5 12.7 60.0
11.9
Pt-Biserial -.03
-.10 -.29 .39
-.17
p-value .209 .003
.000 .000 .000
Mean Ability .64
.78 .20 1.47
.52 NA
Step Labels 1
Thresholds 3.44
Error .12
Item 39: item 39 Infit MNSQ = 1.32
Disc = .24
Categories - A B C D*
missing
Count 6 23
160 111 450 0
Percent
(%) .8 3.1
21.3 14.8 60.0
Pt-Biserial -.15
-.11 -.05 -.18
.24
p-value .000 .001
.079 .000 .000
Mean
Ability -.59 .47
1.02 .62 1.39 NA
Step
Labels 1
Thresholds .63
Error .09
Câu 7
là câu có độ khó Thresholds cao nhất trong thang logistic, năng lực của những
thí sinh làm được câu hỏi này là 1.51
Item 7: item 7 Infit MNSQ = .97
Disc = .50
Categories - A* B
C D
missing
Count 5 325
126 176 118 0
Percent
(%) .7 43.3
16.8 23.5 15.7
Pt-Biserial -.08 .50
-.20 -.24 -.17
p-value .020 .000
.000 .000 .000
Mean
Ability .08 1.86
.60 .63 .65 NA
Step
Labels 1
Thresholds 1.51
Error .09
Câu 4 là câu có độ khó Thresholds thấp nhất trong thang logistic, năng lực
của những thí sinh làm được câu này là -1.37
Item 14:
item 14 Infit
MNSQ = .94
Disc = .39
Categories
- A B C D*
missing
Count
0 27 30 27
666 0
Percent (%)
.0 3.6 4.0
3.6 88.8
Pt-Biserial
NA -.21 -.22
-.23 .39
p-value
NA .000 .000
.000 .000
Mean Ability
NA -.02 -.06
-.17 1.31 NA
Step Labels 1
Thresholds -1.37
Error .12
III. Kết luận chung
Bộ dữ liệu phù hợp với mô hình Rasch.
Các câu hỏi trong đề có độ phù hợp tương đối cao, trong 40 câu có 2 câu
(câu 6 và 39) là câu ngoại lai cần phải loại bỏ.
Theo phân bổ độ khó của câu hỏi kiểm tra và ngưỡng năng lực cần để vượt
qua trên thang Logistic thì đề kiểm tra này quá dễ. Đặc biệt đề kiểm tra thiếu nhiều câu hỏi khó để đánh giá những sinh viên
có năng lực cao (từ 1.51 đến 3.88).
Ngoại trừ các trường hợp câu hỏi ngoại
lai, các chỉ số thống kê khác như P-value, Mean ability, Thresholds, Error của
từng câu hỏi trong đề đều có giá trị phù hợp.
Đây là một đề thi chuẩn kiến thức, kỹ năng đầu ra nên việc lựa chọn và sử
dụng nhiều câu hỏi dễ phù hợp với mức chuẩn kiến thức đầu ra là hoàn toàn có thể
chấp nhận được. Tuy nhiên nếu là một kỳ thi có mục đích phân hạng cao thấp về
năng lực của thí sinh thì đây là đề thi quá dễ và không phân biệt được các nhóm
thí sinh khá, giỏi.