Thứ Năm, 28 tháng 5, 2015

PHÂN TÍCH ĐỀ KIỂM TRA BẰNG LÝ THUYẾT KHẢO THÍ HIỆN ĐẠI

PHÂN TÍCH CÂU HỎI KIỂM TRA BẰNG LÝ THUYẾT KHẢO THÍ HIỆN ĐẠI
Việc phân tích câu hỏi kiểm tra bằng lý thuyết khảo thí cổ điển cũng có thể đưa ra những thông tin thống kê để phân tích, đánh giá câu hỏi kiểm tra. Tuy nhiên, phân tích câu hỏi kiểm tra bằng lý thuyết khảo thí hiện đại (sử dụng phần mêm QUEST và các phần mềm chuyên dụng khác) còn có thể giúp chúng ta có được những thông tin đầy đủ hơn về đề kiểm tra và các câu hỏi kiểm tra.

I. Tổng quan về dữ liệu phân tích

1. Dữ liệu đề kiểm tra

Bộ dữ liệu về kết quả kiểm tra chuẩn đầu ra môn Tiếng Anh đối với sinh viên hệ Cao đẳng sư phạm không chuyên, được cung cấp bởi Phòng Khảo thí và ĐBCLGD. Dữ liệu gồm 750 thí sinh có ID từ 0001 đến 0750 với kết quả trả lời 40 câu hỏi trắc nghiệm nhiều lựa chọn.
File dữ liệu có 43 biến gồm: ID, namsinh, Truong, cau1, cau2, cau3, cau4, cau5, cau6, cau7, cau8, cau9, cau10, cau11, cau12, cau13, cau14, cau15, cau16, cau17, cau18, cau19, cau20, cau21, cau22, cau23, cau24, cau25, cau26, cau27, cau28, cau29, cau30, cau31, cau32, cau33, cau34, cau35, cau36, cau37, cau38, cau39, cau40. Trong đó ID là mã số thí sinh, Truong là mã số trường và cau1 đến cau40 là kết quả trả lời của 40 câu hỏi trắc nghiệm.

2. Mục đích, yêu cầu

Vận dụng lý thuyết khảo thí hiện đại vào việc phân tích, đánh giá câu hỏi kiểm tra. Qua kết quả đánh giá để có thể trả lời các câu hỏi nghiên cứu sau;
- Đề kiểm tra có phù hợp với năng lực của nhóm thí sinh dự kiểm tra  hay không? Nếu chưa phù hợp thì cần điều chỉnh như thế nào?
- Có câu hỏi nào trong đề kiểm tra không phù hợp và cần chỉnh sửa hay loại bỏ không?
Kết quả phân tích này là cơ sở để lựa chọn các câu hỏi đạt chất lượng nhằm xây dựng ngân hàng câu hỏi thi kiểm tra cho đơn vị. Đồng thời đưa ra những khuyến cáo cần thiết đối với các tổ bộ môn, giảng viên trong công tác xây dựng câu hỏi thi kiểm tra với hình thức trắc nghiệm.

II. Vận dụng lý thuyêt khảo thí hiện đại trong phân tích câu hỏi kiểm tra

1. Sự phù hợp của câu hỏi kiểm tra

1.1. Mức độ phù hợp với mô hình:

Khi dữ liệu phù hợp với mô hình Rasch thì trị số kỳ vọng của các bình phương trung bình (mean square) xấp xỉ bằng 1 và trị số kỳ vọng t xấp xỉ bằng 0. Từ các số liệu v giá trị trung bình Mean và độ lệch chuẩn SD có được từ file thu.map khi xử lý dữ liệu bằng phần mềm QUEST, ta thấy dữ liệu dùng để phân tích là phù hợp với mô hình Rasch.
Trích file thu.map:
Summary of item Estimates
=========================

Mean                           .00
SD                             .72
SD (adjusted)                  .71
Reliability of estimate        .98


 Fit Statistics
===============

 Infit Mean Square         Outfit Mean Square

    Mean     .99             Mean    1.01
    SD       .11             SD       .22


      Infit t                  Outfit t

    Mean    -.12             Mean     .05
    SD      2.47             SD      2.15

   0 items with zero scores
   0 items with perfect scores
===================================================================

 

1.2. Mức độ phù hợp của các câu hỏi với nhau

Trong biểu đồ Item Fit sau đây, mỗi câu trắc nghiệm biểu thị bằng dấu *. Những câu trắc nghiệm nằm trong hai đường chấm thẳng đứng có giá trị trung bình bình phương độ phù hợp INFIT MNSQ nằm trong khoảng (0.77;1.30) sẽ phù hợp với mô hình Rasch. Nếu câu trắc nghiệm nào không phù hợp thì loại bỏ.
Trong biểu đồ dưới ta thấy câu 6 có chỉ số phù hợp (INFIT MNSQ) nằm ngoài vùng cho phép và cần loại bỏ.
--------------------------------------------------------------------------------------------------------------------------
INFIT                                                                                                                              
 MNSQ    .63       .67       .71       .77       .83       .91      1.00      1.10      1.20      1.30      1.40      1.50      1.60
----------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+-
  1 item 1                              .                             |               *             .
  2 item 2                              .                        *    |                             .
  3 item 3                              .      *                      |                             .
  4 item 4                              .                  *          |                             .
  5 item 5                              .                             |    *                        .
  6 item 6                              .                             |                             .               *
  7 item 7                              .                        *    |                             .
  8 item 8                              .        *                    |                             .
  9 item 9                              .                             |         *                   .
 10 item 10                             .                             |     *                       .
 11 item 11                             .                           * |                             .
 12 item 12                             .                            *|                             .
 13 item 13                             .                    *        |                             .
 14 item 14                             .                     *       |                             .
 15 item 15                             .            *                |                             .
 16 item 16                             .              *              |                             .
 17 item 17                             .                             |    *                        .
 18 item 18                             .                             |     *                       .
 19 item 19                             .                 *           |                             .
 20 item 20                             .                 *           |                             .
 21 item 21                             .                    *        |                             .
 22 item 22                             .                             |      *                      .
 23 item 23                             .                         *   |                             .
 24 item 24                             .                             |    *                        .
 25 item 25                             .                            *|                             .
 26 item 26                             .                          *  |                             .
 27 item 27                             .                             |    *                        .
 28 item 28                             .                             |   *                         .
 29 item 29                             .              *              |                             .
 30 item 30                             .                             | *                           .
 31 item 31                             .                        *    |                             .
 32 item 32                             .                  *          |                             .
 33 item 33                             .                   *         |                             .
 34 item 34                             .                          *  |                             .
 35 item 35                             .    *                        |                             .
 36 item 36                             .                             |                 *           .
 37 item 37                             .                             |     *                       .
 38 item 38                             .                            *|                             .
 39 item 39                             .                             |                           * .
 40 item 40                             .                             *                             .
========================================================================================================================

Sau khi loại bỏ câu 6 đã xuất hiện câu 39 có chỉ số phù hợp (INFIT MNSQ) nằm ngoài vùng cho phép của mô hình Rasch và cần loại bỏ (hoặc có thể giữ lại để điều chỉnh vì không vượt quá xa ).
------------------------------------------------------------------------------------------------------------------
INFIT                                                                                                                              
 MNSQ    .63       .67       .71       .77       .83       .91      1.00      1.10      1.20      1.30      1.40      1.50      1.60
----------+---------+---------+---------+---------+---------+---------+---------+---------+---------+-------------
  1 item 1                              .                             |                 *           .
  2 item 2                              .                        *    |                             .
  3 item 3                              .        *                    |                             .
  4 item 4                              .                  *          |                             .
  5 item 5                              .                             |      *                      .
  7 item 7                              .                          *  |                             .
  8 item 8                              .         *                   |                             .
  9 item 9                              .                             |            *                .
 10 item 10                             .                             |       *                     .
 11 item 11                             .                            *|                             .
 12 item 12                             .                             |*                            .
 13 item 13                             .                      *      |                             .
 14 item 14                             .                      *      |                             .
 15 item 15                             .             *               |                             .
 16 item 16                             .              *              |                             .
 17 item 17                             .                             |     *                       .
 18 item 18                             .                             |       *                     .
 19 item 19                             .                 *           |                             .
 20 item 20                             .                   *         |                             .
 21 item 21                             .                     *       |                             .
 22 item 22                             .                             |       *                     .
 23 item 23                             .                          *  |                             .
 24 item 24                             .                             |      *                      .
 25 item 25                             .                             |*                            .
 26 item 26                             .                           * |                             .
 27 item 27                             .                             |     *                       .
 28 item 28                             .                             |     *                       .
 29 item 29                             .               *             |                             .
 30 item 30                             .                             |  *                          .
 31 item 31                             .                         *   |                             .
 32 item 32                             .                    *        |                             .
 33 item 33                             .                   *         |                             .
 34 item 34                             .                            *|                             .
 35 item 35                             .     *                       |                             .
 36 item 36                             .                             |                   *         .
 37 item 37                             .                             |      *                      .
 38 item 38                             .                             |*                            .
 39 item 39                             .                             |                             . *
 40 item 40                             .                             | *                           .



Loại bỏ câu 39 có chỉ số phù hợp (INFIT MNSQ) nằm ngoài vùng cho phép của mô hình Rasch ta có biểu đồ phân bố chỉ số phù hợp như sau:
-----------------------------------------------------------------------------------------------------------------------
INFIT
MNSQ    .63       .67       .71       .77       .83       .91      1.00      1.10      1.20      1.30      1.40      1.50
----------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------
1 item 1                               .                             |                  *          .
2 item 2                               .                         *   |                             .
3 item 3                               .         *                   |                             .
4 item 4                               .                   *         |                             .
5 item 5                               .                             |       *                     .
7 item 7                               .                          *  |                             .
8 item 8                               .         *                   |                             .
9 item 9                               .                             |              *              .
10 item 10                             .                             |        *                    .
11 item 11                             .                             *                             .
12 item 12                             .                             | *                           .
13 item 13                             .                       *     |                             .
14 item 14                             .                      *      |                             .
15 item 15                             .             *               |                             .
16 item 16                             .               *             |                             .
17 item 17                             .                             |      *                      .
18 item 18                             .                             |         *                   .
19 item 19                             .                  *          |                             .
20 item 20                             .                    *        |                             .
21 item 21                             .                      *      |                             .
22 item 22                             .                             |        *                    .
23 item 23                             .                           * |                             .
24 item 24                             .                             |       *                     .
25 item 25                             .                             | *                           .
26 item 26                             .                            *|                             .
27 item 27                             .                             |     *                       .
28 item 28                             .                             |       *                     .
29 item 29                             .                *            |                             .
30 item 30                             .                             |   *                         .
31 item 31                             .                         *   |                             .
32 item 32                             .                     *       |                             .
33 item 33                             .                    *        |                             .
34 item 34                             .                            *|                             .
35 item 35                             .      *                      |                             .
36 item 36                             .                             |                    *        .
37 item 37                             .                             |       *                     .
38 item 38                             .                             |  *                          .
40 item 40                             .                             | *                           .
=========================================================================================================================

Chỉ số phù hợp được tính toán bằng phần mềm Quest và thống kê ở bảng sau:
Bảng 6.Thống kê chỉ số Infit MNSQ
Câu
INFIT
MNSQ
Câu
INFIT
MNSQ
Câu
INFIT
MNSQ
Câu
INFIT
MNSQ
1
1.18
11
0.99
21
0.92
31
0. 96
2
0.96
12
1.01
22
1.08
32
0.92
3
0.83
13
0.93
23
0. 98
33
0.91
4
0.90
14
0.94
24
1.07
34
0.99
5
1.07
15
0.86
25
1.01
35
0.81
6
Bỏ
16
0.87
26
0.98
36
1.20
7
0.97
17
1.06
27
1.06
37
1.07
8
0.83
18
1.08
28
1.06
38
1.01
9
1.13
19
0.89
29
0.88
39
Bỏ
10
1.08
20
0.91
30
1.03
40
1.02

 

2. Phân bố độ khó câu hỏi kiểm tra và năng lực thí sinh

Bản đồ phân bố độ khó câu hỏi kiểm tra và năng lực thí sinh cho thấy mức độ phù hợp của đề kiểm tra đối với thí sinh dự kiểm tra. Kết quả xử lý bằng phần mềm QUEST cho một bản đồ phân bố năng lực sinh viên và độ khó câu hỏi kiểm tra.
Các thông tin v kết quả tính toán từ bảng Summary of case Estimates cho thấy năng lực trung bình của mẫu thí sinh (case) tham gia bài kiểm tra (1.15) lớn hơn khá nhiu so với độ khó chung của bài kiểm tra (0.00).Như vậy, nhìn chung  đề kiểm tra là quá dễ so với năng lực của nhóm thí sinh tham gia bài kiểm tra.
Sử dụng lý thuyết khảo thí hiện đại để so sánh năng lực của sinh viên với độ khó của câu hỏi bằng thang logistic. Theo sơ đồ phân bổ năng lực thí sinh và độ khó câu hỏi kiểm tra dưới đây, các câu hỏi có độ khó chỉ đòi hỏi mức năng lực của thí sinh từ - 1.37 đến 1.51 (thang logistic) là đã có thể hoàn thành bài kiểm tra. Trong khi đó, năng lực thực của thí sinh phân bố từ -1.5 đến 3.88 với trung bình cộng là 1.15 và độ lệch chuẩn 1.23. Điều này chứng tỏ các câu hỏi có độ khó nằm trong vùng năng lực của thí sinh tham gia bài kiểm tra. Theo số liệu thống kê và sơ đồ phân bổ năng lực thí sinh có đến 267 thí sinh có năng lực cao hơn mức năng lực yêu cầu tương ứng với độ khó tối đa của câu hỏi kiểm tra (câu7) .
Ngoài ra, bản đồ phân bố còn cho thấy đề kiểm tra còn có những khoảng trống cần bổ sung một số câu hỏi để phân biệt được năng lực của các thí sinh ở nhóm năng lực cao hơn mức 1.51.
Bảng số liệu tính toán trên thí sinh tham gia:

Summary of case Estimates
=========================
Mean                          1.15 (càng cao chứng tỏ đề càng dễ)
SD                            1.23
SD (adjusted)                 1.14
Reliability of estimate        .85 (độ tin cậy càng cao càng tốt)

  Fit Statistics
===============
 Infit Mean Square         Outfit Mean Square

    Mean    1.00             Mean    1.01
    SD       .11             SD       .29

       Infit t                  Outfit t

    Mean     .05             Mean     .09
    SD       .71             SD       .66

   0 cases with zero scores
  14 cases with perfect scores


Sơ đồ phân bổ năng lực thí sinh và độ khó câu hỏi kiểm tra:

----------------------------------------------------------------------------------
Item Estimates (Thresholds)                                                        
all on thu (N = 750 L = 38 Probability Level= .50)                                                                       
----------------------------------------------------------------------------------
NĂNG LỰC CAO                             CÂU HỎI KHÓ
  4.0                            |
             XXXXXXXXXXXXXXXXX   |
                                 |
                                 |                                
                                 |
                                 |
                                 |
            XXXXXXXXXXXXXXXXXX   |
  3.0                            |
                                 |
                                 |
        XXXXXXXXXXXXXXXXXXXXXX   |
                                 |
                                 |
        XXXXXXXXXXXXXXXXXXXXXX   |
                                 |
                                 |
  2.0   XXXXXXXXXXXXXXXXXXXXXX   |
                                 |
       XXXXXXXXXXXXXXXXXXXXXXX   |
                                 |
             XXXXXXXXXXXXXXXXX   |
          XXXXXXXXXXXXXXXXXXXX   |       7
                                 |
               XXXXXXXXXXXXXXX   |       9
           XXXXXXXXXXXXXXXXXXX   |      40
  1.0                            |      10
              XXXXXXXXXXXXXXXX   |
                XXXXXXXXXXXXXX   |      32
                 XXXXXXXXXXXXX   |       3     13     20     38
               XXXXXXXXXXXXXXX   |      28
              XXXXXXXXXXXXXXXX   |      11     23     26
                   XXXXXXXXXXX   |      18
                                 |
                     XXXXXXXXX   |      29
                     XXXXXXXXX   |       4     34
   .0                 XXXXXXXX   |      30
                     XXXXXXXXX   |       1     21
                    XXXXXXXXXX   |      22     33
                      XXXXXXXX   |      25     37
                         XXXXX   |       5      8     15     16     36
                        XXXXXX   |      12     24     27
                       XXXXXXX   |       2
                                 |      31
                         XXXXX   |      17
 -1.0                     XXXX   |      35
                      XXXXXXXX   |      19
                            XX   |
                           XXX   |      14
                             X   |
                                 |
                             X   |
                                 |
                                 |
 -2.0                            |
NĂNG LỰC THẤP                            CÂU HỎI DỄ
----------------------------------------------------------------------------------
  Each X represents    2 students
==================================================================================
Lưu ý: Biểu đồ không có câu 6 và 39 vì đã loại bỏ vì là hai câu hỏi ngoại lai.

Nhận xét:
 Đề kiểm tra quá dễ so với năng lực của nhóm thí sinh tham gia bài kiểm tra này, cần bổ sung những câu khó để đánh giá những thí sinh có năng lự cao . Những thí sinh có mức năng lực (thresholds) từ 1.51 trở lên chưa có câu hỏi đủ khó để đánh giá đúng năng lực.
Tuy nhiên, đây chỉ là một bài kiểm tra chuẩn đầu ra môn Tiếng Anh  với đối tượng là sinh viên hệ cao đẳng sư phạm không chuyên. Nên việc đề thi tập trung vào đánh giá kiến thức, kỹ năng tiếng Anh của thí sinh ở một mức độ cơ bản nhất, phù hợp với chuẩn đầu ra mà không nhằm vào việc phân loại năng lực cao thấp của thí sinh là điều dễ hiểu và chấp nhận được.
3. P-value
P-value: là giá trị thống kê cho biết hệ số tương quan (Point Biserial) tính toán được là có ý nghĩa thống kê ở mức nào, thông thường phải nhỏ hơn hoặc bằng 0.05 (có ý nghĩa thống kê ở mức α = 0.05).
Trong số 40 câu hỏi được phân tích trên, ngoại trừ hai câu 6, 39 không có ý nghĩa thống kê còn 38 câu hỏi còn lại có P-value đạt yêu cầu, thậm chí có ý nghĩa thống kê rất cao ở mức p-value = 0.00. Điều này cho thấy hệ số tương quan tính được giữa câu hỏi kiểm tra với điểm kiểm tra của toàn bài có ý nghĩa thống kê và có các chỉ số phù hợp với mô hình Rash.
4. Mean ability
Mean ability: Thang đo năng lực của thí sinh với việc đưa ra sự lựa chọn của mình. Phương án trả lời đúng phải có chỉ số Mean ability cao hơn các phương án trả lời sai. Với kết quả xử lí dữ liệu bằng phần mềm Quest, sau khi đã loại bỏ hai câu 6 và 39 thì chỉ số Mean ability của các câu hỏi đều đạt được yêu cầu.
5. Thresholds
Thresholds: Là ngưỡng năng lực yêu cầu cần có (theo thang logistic) để thí sinh có thể trả lời đúng các câu hỏi đang phân tích. Với 38 câu hỏi này (ngoại trừ 2 câu hỏi ngoại lai) ta thấy các chỉ số thresholds rải từ - 1.37 đến 1.51 trong khi đó năng lực của thí sinh phân bố từ -1.5 đến 3.88. Qua kết quả thống kê cho thấy đề kiểm tra này không có những câu hỏi đủ khó để đánh giá thí sinh có năng lực từ trên 1.51 đến 3.88.
6. Error
Error: là sai số tính toán, thông số này cho thấy độ tin cậy của số liệu tính toán được cho từng câu hỏi và thông thường phải nhỏ hơn 0.2. Như vậy yêu cầu này đều đạt được ở tất cả các câu hỏi.
Dưới đây là trích kết quả phân tích có được từ phần mềm Quest (file thu.ita). Câu 6 và 39 là câu ngoại lai, riêng câu 6 đề nghị chỉnh lại key ở phần đánh giá bằng lý thuyết cổ điển. Câu 7 là câu có độ khó (thresholds) cao nhất và câu 14 là câu có độ khó thấp nhất trên thang logistic.
Câu 6 và câu 39 chỉ số có Infit MNSQ nằm ngoài khoảng (0.77;1.30) nên không phù hợp với mô hình Rasch à ngoại lai

Item    6: item 6                             Infit MNSQ = 1.59
                                                     Disc = -.29

Categories          -         A         B*        C         D      missing

Count                7       109        95       450        89         0
Percent (%)         .9      14.5      12.7      60.0      11.9
Pt-Biserial       -.03      -.10      -.29       .39      -.17
p-value           .209      .003      .000      .000      .000
Mean Ability       .64       .78       .20      1.47       .52        NA

Step Labels                   1

Thresholds                  3.44
Error                        .12



Item   39: item 39                            Infit MNSQ = 1.32
                                                     Disc =  .24

Categories          -         A         B         C         D*     missing

Count                6        23       160       111       450         0
Percent (%)         .8       3.1      21.3      14.8      60.0
Pt-Biserial       -.15      -.11      -.05      -.18       .24
p-value           .000      .001      .079      .000      .000
Mean Ability      -.59       .47      1.02       .62      1.39        NA

Step Labels                   1

Thresholds                   .63
Error                        .09

Câu 7 là câu có độ khó Thresholds cao nhất trong thang logistic, năng lực của những thí sinh làm được câu hỏi  này là 1.51

Item    7: item 7                              Infit MNSQ =  .97
                                                     Disc =  .50

Categories          -         A*        B         C         D      missing

Count                5       325       126       176       118         0
Percent (%)         .7      43.3      16.8      23.5      15.7
Pt-Biserial       -.08       .50      -.20      -.24      -.17
p-value           .020      .000      .000      .000      .000
Mean Ability       .08      1.86       .60       .63       .65        NA

Step Labels                   1

Thresholds                  1.51
Error                        .09
Câu 4 là câu có độ khó Thresholds thấp nhất trong thang logistic, năng lực của những thí sinh làm được câu này là -1.37

Item   14: item 14                             Infit MNSQ =  .94
                                                     Disc =  .39

Categories          -         A         B         C         D*     missing

Count                0        27        30        27       666         0
Percent (%)         .0       3.6       4.0       3.6      88.8
Pt-Biserial         NA      -.21      -.22      -.23       .39
p-value             NA      .000      .000      .000      .000
Mean Ability        NA      -.02      -.06      -.17      1.31        NA

Step Labels                   1

Thresholds                 -1.37
Error                        .12

III. Kết luận chung

Bộ dữ liệu phù hợp với mô hình Rasch.
Các câu hỏi trong đề có độ phù hợp tương đối cao, trong 40 câu có 2 câu (câu 6 và 39) là câu ngoại lai cần phải loại bỏ.
Theo phân bổ độ khó của câu hỏi kiểm tra và ngưỡng năng lực cần để vượt qua trên thang Logistic thì đề kiểm tra này quá dễ. Đặc biệt đề kiểm tra thiếu  nhiều câu hỏi khó để đánh giá những sinh viên có năng lực cao (từ 1.51 đến 3.88).
Ngoại trừ các trường hợp câu hỏi ngoại lai, các chỉ số thống kê khác như P-value, Mean ability, Thresholds, Error của từng câu hỏi trong đề đều có giá trị phù hợp.
Đây là một đề thi chuẩn kiến thức, kỹ năng đầu ra nên việc lựa chọn và sử dụng nhiều câu hỏi dễ phù hợp với mức chuẩn kiến thức đầu ra là hoàn toàn có thể chấp nhận được. Tuy nhiên nếu là một kỳ thi có mục đích phân hạng cao thấp về năng lực của thí sinh thì đây là đề thi quá dễ và không phân biệt được các nhóm thí sinh khá, giỏi.