9 Chương 9 Phân tích dữ liệu từ điểm thi thử nghiệm

9.1.Tổng quan

Sử dụng các dữ liệu mẫu PILOT1 thiết lập để thực hiện bài tập này. Các Key cho bài kiểm tra này là trong bảng tính EXCEL, ItemDataAllTests trong bảng tên PILOT1.

Chúng ta hãy xem xét thiết kế sau đây. Một nhóm nghiên cứu đánh giá quốc gia và các chuyên gia chương trình giảng dạy đã tạo ra một tập hợp các câu hỏi nhiều lựa chọn mới để đánh giá các kỹ năng toán học lớp 10. Những bài kiểm tra mới được xem là đủ để đại diện cho các chương trình quốc gia. Các câu hỏi đã được tạo ra để phản ánh các loại nội dung chính được xác định bởi Ban chỉ đạo quốc gia (số lượng tri thức, hình thức và nội dung, quan hệ, giải quyết vấn đề, và không chắc chắn). Phiên bản cuối cùng của thử nghiệm có nghĩa là để đo lường về tất cả các năng lực của các học sinh lớp 10 và thiết kế chứa 50 câu hỏi.

Như là một bước đầu tiên, nhóm nghiên cứu đánh giá quốc gia quản lý một bài kiểm tra 80 loại item với tổng số 262 học sinh, lấy mẫu từ 7 trường trong 3 miền, với tập tài liệu thử nghiệm trong 2 ngôn ngữ. Đây là một số lượng lớn các câu hỏi hơn sẽ được đưa vào thử nghiệm cuối cùng, nhưng có rất nhiều câu hỏi thường sẽ không tốt cho một bài kiểm tra với một loạt các lý do (ví dụ, câu hỏi quá dễ hoặc quá khó, câu hướng dẫn khó hiểu). Một quá trình phát triển thử nghiệm có thể tạo ra hai hoặc ba lần và nhiều câu hỏi không tốt vẫn sẽ được sử dụng trong các thử nghiệm cuối cùng. Hầu hết các câu hỏi này sẽ bị từ chối bởi sự xem xét lại trước khi nhà nước kiểm tra. Tuy nhiên, một nhóm đánh giá quốc gia vẫn nên kiểm tra trước ít nhất hơn 50% số câu hỏi được yêu cầu cho kiểm tra cuối cùng. Thử nghiệm thí điểm này được thiết kế để kiểm tra các cách thức hoạt động cho các cuộc khảo sát cũng như để xác định các thành phần của các câu hỏi trong bài kiểm tra cuối cùng sẽ được dùng cho đánh giá quốc gia (cho một mẫu học sinh khác nhau). Các tập tin dữ liệu hồi đáp có câu trả lời của mỗi học sinh cho 80 câu hỏi nhiều lựa chọn cũng như một số biến cấp trường (xác định khu vực, xác định trường, loại trường và kích thước trường) và một số thông tin học sinh hay về mức độ năng lực - (quan hệ tình dục và ngôn ngữ).

Từ menu chính, bấm vào tùy chọn trình đơn đầu tiên “Response data analysis", nhập vào công cụ phân tích, như thể hiện trong hình 9.1. Nếu ở giai đoạn nào trong quy trình làm việc, bạn nhận được một lỗi hoặc nhận được kết quả là khác hơn so với dự kiến, trở lại bước trước hoặc bắt đầu phân tích một lần nữa từ menu chính.

Hình 9.1 Chọn "dữ liệu hồi đáp phân tích" quy trình làm việc

Figure 9.1 Select the “Response data analysis” workflow

9.2. Bước 1. TẢI DỮ LIỆU HỒI ĐÁP

Bất kể việc lựa chọn hướng phân tích, bạn phải chỉ đạo IATA để tải dữ liệu thu thập được trước đó (ví dụ, đánh giá quốc gia dữ liệu thử nghiệm thí điểm, hoặc một tập tin dữ liệu item). IATA linh hoạt và có thủ tục đơn giản với các nút để thực hiện tải dữ liệu hồi đáp, dữ liệu câu hỏi, hoặc cả hai. Bất kể hướng phân tích hoặc loại dữ liệu, bạn phải khai báo với IATA về tập tin dữ liệu để nhập vào trong file dữ liệu để sử dụng. IATA có thể nhập dữ liệu trong SPSS (*.sav), EXCEL (*.xls / *. Xlsx), nhãn (tab)-giới hạn (*.txt), và comma- hỗ trợ (*.csv) định dạng. Bởi vì các tập tin dữ liệu EXCEL có thể chứa nhiều bảng riêng biệt, bạn phải chỉ định bảng được nhập vào để phân tích.

Màn hình đầu tiên trong hướng phân tích này đòi hỏi bạn phải nhập một tập tin dữ liệu trả lời vào IATA. Giao diện dữ liệu tải được thể hiện trong hình 9.2. Các hướng dẫn bắt đầu với dòng chữ " DỮ LIỆU HỒI ĐÁP CỦA THÍ SINH..." để chỉ ra rằng bạn đang tải dữ liệu có chứa câu trả lời đến các item và giải thích nội dung chung dự kiến sẽ được các tập tin dữ liệu. Hướng dẫn dưới đây gồm hai khung: một bản tóm tắt đường dẫn tập tin, và một trình đơn thả xuống để chọn bảng dữ liệu trong các tập tin được chọn. Bên phải các khung là nút có nhãn "Open File". Bảng ở dưới cùng của giao diện hiển thị dữ liệu cho nguồn dữ liệu đã chọn. Nếu có hơn 500 dòng dữ liệu, chỉ dòng đầu tiên trong 500 dòng sẽ được hiển thị. Nếu bạn đã chọn một định dạng dữ liệu nhiều bảng, chẳng hạn như Excel hoặc Access, sau đó là tên của bảng đầu tiên trong các tập tin dữ liệu sẽ xuất hiện trong hộp thả xuống. Nếu không, tên của file sẽ xuất hiện trong hộp thả xuống. Đối với tập tin dữ liệu đa bảng, các dữ liệu mong muốn có thể không có trong bảng đầu tiên. Bạn nên xác minh rằng các dữ liệu thích hợp được lựa chọn bằng cách xem xét các nội dung của bảng dữ liệu sẽ xuất hiện trong phạm vi rộng lớn ở dưới cùng của giao diện. Nếu bảng hoạt động không chứa các dữ liệu mong muốn, bạn có thể chọn một bảng khác nhau bằng cách nhấn vào trình đơn thả xuống.

Hình 9.2 trả lờigiao diện dữ liệu tải

Figure 9.2 Response data loading interface

Trong ví dụ này, bạn phải tải các tập tin PILOT1.xls:

1. Nhấp vào Open File để chọn một tập tin dữ liệu. Trong trình duyệt tập tin, điều hướng đến thư mục trên máy tính của bạn có chứa các dữ liệu mẫu IATA.

2. Chọn định dạng tập tin Excel (*.xls). Nếu bạn thấy (*.xlsx) trong hộp bên phải trường tên tập tin, sử dụng mũi tên thả xuống và bấm vào (*.xls).

3. Chọn (hoặc gõ) PILOT1.xls.

4. Nhấp vào Open hoặc bấm phím Enter.

Khi các tập tin mở ra, một hộp thoại bung ra (pop-up) sẽ nhắc nhở bạn xác nhận rằng các dữ liệu bạn đã chọn chứa dữ liệu item trả lời chính xác hay chưa. Nhấn OK để tiếp tục. Xác nhận rằng các dữ liệu mẫu thí điểm được nạp một cách chính xác; giao diện của bạn sẽ trông giống như hình 9.2.

Các dữ liệu trong hình 11.2 cho thấy các hồ sơ cho mỗi học sinh đã kiểm tra thí điểm. Bảy biến đầu tiên từ bên trái mô tả sinh động thông tin về mẫu học sinh:

• PILOT1STDID - mã nhận dạng học sinh duy nhất;

• SCHOOLID - mã nhận dạng trường học duy nhất;

• Sex - giới tính của học sinh (1 = nam, 2 = nữ);

• SchoolSize - tổng số học sinh trong trường học;

• nông thôn - vị trí của trường (0 = đô thị, 1 = nông thôn);

• Khu vực - một số định danh cho các khu vực địa lý;

• Ngôn ngữ - một số định danh cho các ngôn ngữ chính thống thử nghiệm.

Các item kiểm tra toán học đầu tiên xuất hiện trong cột 8 và được dán nhãn là MATHC1019. Di chuyển lên trên để thấy rằng các tập tin có chứa dữ liệu trên 80 câu hỏi; các mục trong cột cuối cùng được dán nhãn MATHC1041. Tên các câu hỏi là tùy ý và không phản ánh vị trí của item trong bài thi. Hầu hết các ô có giá trị A, B, C hoặc D cho thấy sự lựa chọn của học sinh. Ô có giá trị bằng 9 chỉ ra rằng một học sinh không trả lời các câu hỏi.

Giống như với hầu hết các mẫu thí điểm, các học sinh đại diện cho một mẫu thuận tiện, chứ không phải đại diện mang tính khoa học cho dân số. Trọng lượng mẫu câu hỏi chỉ có giá trị khi chúng được tạo ra như tạo một mẫu thiết kế khoa học. Do đó, không có trọng lượng mẫu trong các tập tin dữ liệu hồi đáp PILOT1.

Sau khi xác minh rằng bạn đã tải chính xác các tập tin dữ liệu hồi đáp, nhấp vào "Next >>" nút.

9.3. Bước 2: LOADING ĐÁP ÁN

Bạn cũng phải nạp Key mục câu trả lời để IATA có thể thực hiện việc phân tích một cách chính xác. Như với dữ liệu trả lời, các mục dữ liệu nằm trong định dạng Excel trong thư mục dữ liệu IATA trên máy tính để bàn của bạn.

2. Chọn định dạng tập tin Excel (*.xls).

3. Chọn (hoặc gõ) ItemDataAllTests.xls.

4. Nhấp vào Open hoặc bấm phím Enter.

Khi các tập tin mở ra, một hộp thoại xuất hiện (pop-up) sẽ nhắc nhở bạn rằng IATA sẽ ước tính bất kỳ số mục không xuất hiện. Nhấn OK để tiếp tục. Các tập tin dữ liệu đã chọn chứa các bảng cho tất cả các ví dụ khác nhau trong cuốn sách này. Đảm bảo rằng bạn đã chọn đúng bảng có tên là "PILOT1" trong trình đơn thả xuống. Xác nhận rằng item các dữ liệu được nạp một cách chính xác; giao diện của bạn sẽ trông giống như hình 9.3. Nếu bạn muốn tìm thông tin về một item cụ thể một cách dễ dàng, bạn có thể sắp xếp các item bằng cách nhấp vào tiêu đề ở cột Name.

Hình 9.3 mục dữ liệu cho dữ liệu hồi đáp PILOT1

Figure 9.3 Item data for the PILOT1 response data

Khi bạn đã xác nhận rằng mục dữ liệu đã được nạp chính xác, nhấp vào "Next >>" để tiếp tục.

9.4. Bước 3: KỸ THUẬT PHÂN TÍCH

Mỗi công cụ có sử dụng dữ liệu hồi đáp đòi hỏi bạn phải cung cấp thông số kỹ thuật nhất định sẽ ảnh hưởng đến kết quả của tất cả các phân tích tiếp theo. Những đặc điểm này bao gồm Key và biến đổi mục dữ liệu, biến nhận dạng đơn, trọng số mẫu thiết kế, và xử lý mã dữ liệu thiếu. Giao diện cho phép cung cấp những thông số kỹ thuật được thể hiện trong hình 9.4. Bảng lớn bên trái có chứa một bảng của các bài kiểm tra trong các tập tin dữ liệu hồi đáp với các cột tiêu đề "Tên", "Key", "Level" và "nội dung". Nếu một tập tin dữ liệu đã được tải, bảng sẽ chỉ chứa các biến đã được xác định là các bài kiểm tra; nếu không bảng sẽ chứa tất cả các biến. Nếu bạn đã bỏ qua việc tải các tập tin mục dữ liệu, bạn sẽ cần phải nhập thủ công các Key trả lời cho mỗi item trong bảng này (xem phần 8.3.2.119).

Trong phần chính giữa của giao diện, một nút có nhãn "Cập nhật danh sách giá trị hồi đáp". Bạn sẽ cần phải nhấp vào nút này nếu bạn thay đổi các thông tin Key trả lời, hoặc bằng cách nhập thủ công câu trả lời hoặc xóa các câu trả lời hiện có. Khi bạn nhấp vào nút này, IATA sẽ thả xuống hai trình đơn với danh sách của các biến trong dữ liệu hồi đáp chưa được gán một Key và liệt kê tất cả các giá trị Key trả lời hiện nay cho các biến được xác định là các bài kiểm tra. Nếu bạn đã tải một tập tin item dữ liệu, các menu sẽ được đưa đến với các giá trị.

Bên dưới nút "Cập nhật danh sách giá trị hồi đáp", có một số điều khiển để cung cấp chi tiết kỹ thuật tùy chọn: một trình đơn thả xuống để xác định việc xác định biến (ID), một trình đơn thả xuống để lựa chọn các biến trọng lượng, và một bảng để xác định mã số giá trị xử lý thiếu. Xác định một biến ID có thể cần thiết để hợp nhất các kết quả thử nghiệm câu hỏi của IATA với các nguồn dữ liệu khác. Biến ID duy nhất cần xác định mỗi học sinh; nếu bạn không chỉ định một biến ID, IATA sẽ tạo ra một biến có tên "UniqueIdentifier" để phục vụ mục đích này. Biến trọng lượng được sử dụng để đảm bảo rằng các số liệu thống kê tạo ra trong phân tích là phù hợp cho việc thiết kế mẫu của các đánh giá quốc gia. Nếu không có biến trọng lượng được cung cấp, IATA sẽ giả định rằng tất cả học sinh trong các dữ liệu nhận được cùng một trọng lượng, tương đương với 1.

Hình 9.4 Phân tích chi tiết kỹ thuật cho các dữ liệu PILOT1

Figure 9.4 Analysis specifications for the PILOT1 data

Bạn có thể thông báo cho IATA rằng một giá trị hồi đáp là một mã trả lời thiếu bằng cách nhấn vào một trong các hộp kiểm bên cạnh các giá trị trong bảng "Chỉ định Xử lý không xuất hiện". Theo mặc định, IATA giả định rằng tất cả các giá trị trả lời đại diện cho học sinh trả lời thực tế. Nếu trong các cột "sai" được chọn, sau đó IATA sẽ xử lý giá trị đó là một trả lời không hợp lệ sẽ được ghi là không chính xác. Nếu các ô trong cột được kiểm tra "Không có điểm", IATA sẽ tính toán giá trị đó là bỏ qua và giá trị sẽ không ảnh hưởng đến kết quả thi của học sinh. Theo mặc định, nếu có bất kỳ ô nào không được điền đầy đủ, hoặc dữ liệu hồi đáp trống, IATA sẽ xác định chúng là không chính xác, trừ khi bạn đã tự quy định "Không có Score" trong xử lý.

Đối với hướng dẫn này, các dữ liệu quan trọng và Key trả lời đều đã được nhập vào, do đó danh sách các khoản trình bày trong hình 9.4 chỉ chứa các biến với các Key trong các item dữ liệu. Đó là một ý tưởng tốt để xem xét các bảng Key trả lời xác nhận rằng các Key và các dữ liệu khác về mỗi mục là chính xác và đầy đủ, bởi vì bất kỳ sai sót ở giai đoạn này sẽ tạo ra nhiều hơn các sai sót trong công việc tiếp theo trong quy trình làm việc. Ở giữa màn hình, bạn sẽ cần phải xác định các chi tiết phân tích thêm. Sử dụng các thông số kỹ thuật sau đây:

1. Sử dụng trình đơn thả đầu tiên xuống để chọn biến PILOT1STDID là biến ID.

2. Các dữ liệu này không có một trọng lượng mẫu, vì vậy bạn có thể để trống trình đơn thả xuống thứ hai.

3. Giá trị bằng 9 sẽ được xử lý và quy ước là không chính xác, vì vậy hãy kiểm vào ô thích hợp trong bảng giá trị trong phần "Chỉ định Xử lý không xuất hiện". Mặc dù không có item trống trong dữ liệu PILOT1, bạn có thể để lại các đặc điểm kỹ thuật Xử lý mặc định của item trống là không chính xác.

Khi các thông số kỹ thuật đã được nhập vào, giao diện phải trông giống như hình 9.4.

Xác nhận rằng kỹ thuật của bạn là chính xác và nhấp vào nút "Next" để tiếp tục. Các dữ liệu sẽ bắt đầu xử lý tự động. Các giai đoạn xử lý là: Thiết lập dữ liệu, chấm điểm, Ước tính các thông số, scaling IRT, Tính Điểm True, và phân tích nhân tố. Khi xử lý tiếp tục, giao diện sẽ hiển thị các giai đoạn hiện tại của quá trình xử lý. Tùy thuộc vào tốc độ của máy tính và kích thước của dữ liệu của bạn, phân tích này có thể xử lý mất vài giây đến vài phút để hoàn thành. Khi IATA kết thúc xử lý, nó sẽ hiển thị các kết quả trong các giao diện mục phân tích

9.5. Bước 4. PHÂN TÍCH

Khi xử lý dữ liệu đã hoàn tất, giao diện mục phân tích sẽ được cập nhật với kết quả được thể hiện trong hình 9.5. Sử dụng giao diện phân tích, bạn có thể truy cập vào các kết quả cũng như xem và lưu thông tin chẩn đoán về mỗi câu hỏi kiểm tra.

Có bốn loại kết quả hiển thị trong giao diện này:

1. Thống kê và các thông số thống kê mô tả từng câu hỏi (bên trái);

2. Một minh họa bằng đồ thị các mối quan hệ giữa trình độ học sinh và xác suất trả lời chính xác một câu hỏi, cũng được biết đến như là một chức năng hồi đáp hoặc IRF (ở trên cùng bên phải);

3. Một bảng tiếp mô tả tỷ lệ học sinh đạt điểm cao, trung bình, và điểm thi thấp, những câu lựa chọn Key trả lời khác nhau, cũng được biết đến như là một phân tích hỗ trợ (ở giữa bên phải);

4. Một bản tóm tắt bằng ngôn ngữ các kết quả phân tích câu hỏi (ở dưới cùng bên phải)

Figure 9.5 Item analysis results for the PILOT1 data, item MATHC1019

Hình 9.5 item kết quả phân tích cho các dữ liệu PILOT1, item MATHC1019

Các bảng ở phía bên trái của giao diện mục phân tích trình bày thông tin thống kê cũng như một biểu tượng mô tả sự phù hợp tổng thể của mỗi câu hỏi (xem trang 23). Tên của mỗi mục ở cột bên phải của biểu tượng tóm tắt. Bạn có thể kiểm tra các kết quả chi tiết cho một câu hỏi riêng lẻ bằng cách sử dụng các phím mũi tên hoặc chuột để làm nổi lên các dòng có các item xuất hiện trong đó. Bạn có thể sử dụng các hộp kiểm trong "Sử dụng" bao gồm cột cho mỗi hàng hoặc loại trừ các câu hỏi từ các phân tích. Bỏ chọn một trong các hộp câu hỏi để loại bỏ các câu hỏi từ các phân tích. Sau đó bạn có thể nhấp vào "Phân tích" để chạy lại phân tích với bộ câu hỏi đã được điều chỉnh sau khi loại bỏ các câu hỏi không đạt. Trả lại tất cả các câu hỏi về trang thái ban đầu bằng cách nhấn vào nút "Đặt lại Items". Lưu ý rằng cách nhấn vào "Thiết lập lại Items" sẽ thiết lập lại tất cả các câu hỏi, vì vậy nếu bạn muốn loại bỏ vĩnh viễn một câu hỏi từ các phân tích, bạn nên xóa câu trả lời chính của nó trong giao diện thông số kỹ thuật phân tích. Nút "Scale" không ước tính lại bất kỳ thông số item; nó chỉ đơn giản là tính điểm theo thang đo IRT cho các dữ liệu hồi đáp bằng cách sử dụng các tham số ở câu hỏi đã được ước tính hoặc nạp vào IATA từ một tập tin dữ liệu bên ngoài.

9.5.1. Mục thống kê

Ba cột bên phải của mục thống kê chứa các số liệu thống kê cổ điển gồm: các chỉ số phân biệt item ("Discr"), các hệ số tương quan_ biserial(PBis), và độ khó dễ câu hỏi ("PVal") mà có đôi khi được gọi là mục các trở ngại mặc dù giá trị PVal lớn hơn thì diễn đạt cho một câu hỏi kiểm tra dễ dàng hơn. Ba cột cuối cùng có thể được ẩn đi, đòi hỏi bạn phải di chuyển trong bảng, đó là ước tính của mục tham số lý thuyết hồi đáp (IRT): tham số độ dốc ("a"), các tham số vị trí ("b") và tham số đoán mò ("c"). Các thảo luận sâu về các số liệu thống kê, các thông số và cách chúng có liên quan với nhau được thể hiện trong Chương 15 (trang 149).

Nhìn chung, số liệu thống kê cổ điển có thể được giải thích trực tiếp. Độ khó câu hỏi dễ (PVal) dao động giữa 0 và 1 và mô tả độ dễ một câu hỏi dành cho các mẫu đưa ra: giá trị 0 chỉ ra rằng không có học sinh nào trả lời một cách chính xác, và giá trị 1 cho thấy rằng tất cả các học sinh đã trả lời một cách chính xác. Các chỉ số phân biệt và hệ số tương quan (point-biserial) cung cấp sự luân phiên trong đo lường các mối quan hệ giống nhau, đó là cách trả lời mạnh mẽ về mối liên quan của mỗi câu hỏi kiểm tra đến toàn bộ số điểm. Đối với cả hai số liệu thống kê, giá trị phải lớn hơn 0,2. Những hướng dẫn này không nên được coi là tuyệt đối, vì các chỉ số này cũng bị ảnh hưởng bởi các yếu tố khác hơn là độ phân biệt của các câu hỏi, bao gồm cả tính chính xác của các bài kiểm tra tổng thể. Ví dụ, các câu hỏi dễ có xu hướng hạn chế các giá trị tuyệt đối của cả hai chỉ số phân biệt và chỉ số tương quan (point –biserial). Nếu độ khó các câu hỏi khác 0,5 (ví dụ, nỏ hơn 0,2 hoặc lớn hơn 0,8), các chỉ số phân biệt và (point-biserial) hệ số tương quan sẽ đánh giá thấp mối quan hệ giữa trình độ và hiệu suất trả lời của các học sinh trong một câu hỏi kiểm tra.

Mặc dù câu hỏi cực kỳ dễ hay rất khó có xu hướng làm giảm các mối quan hệ trong quan sát đánh giá trình độ, cũng có thể bao gồm các nội dung chương trình giảng dạy quan trọng cần được đưa vào thử nghiệm hoặc họ có thể (ví dụ trong trường hợp của các câu hỏi dễ dàng) được yêu cầu để duy trì động lực cho học sinh trong thử nghiệm. Đối với các lý do khác, thường là mong muốn bao gồm một số lượng tương đối nhỏ các câu hỏi rất dễ hay rất khó.

Ngược lại, các thông số IRT không nên được hiểu trong sự cô lập; mặc dù mỗi mô tả một hành vi cụ thể trong từng câu hỏi thử nghiệm, các mối quan hệ giữa khả năng trả lời các câu hỏi và tổng thể trình độ là kết quả của sự hỗ trợ giữa tất cả ba thông số cũng như năng lực của từng học sinh.

Các câu hỏi trong phân tích xuất hiện một vòng tròn màu xanh lá cây thì sẽ chỉ ra rằng chúng không có vấn đề lớn và là tương đối khả quan. Di chuyển xuống phía dưới danh sách câu hỏi bên trái, bạn sẽ thấy 13 câu hỏi có biểu tượng cảnh báo hình kim cương (MATHC1047, MATHC1013, MATHC1002, MATHC1070, MATHC1034, MATHC1035, MATHC1032, MATHC1010, MATHC1068, MATHC1046, MATHC1024, MATHC1058, và MATHC1030). Item (MATHC1075) có biểu tượng cảnh báo hình tam giác được coi là câu hỏi tiềm ẩn nhiều vấn đề. Cách tốt nhất để kiểm tra các kết quả cho tất cả các câu hỏi và không phụ thuộc vào biểu tượng được IATA tóm tắt, đối với phần giới thiệu này, chúng tôi sẽ tập trung vào một vài ví dụ.

Theo mặc định, các kết quả cho các câu hỏi đầu tiên được hiển thị trong đồ thị và bảng bên phải. IATA đã ấn định MATHC1019, một đường tròn màu xanh_circle[1]. Mỗi kết quả trong số kết quả IATA tạo ra cho câu hỏi này được giải thích trong phần sau.

9.5.2. Mục chức năng hồi đáp (IRF)

Trong cửa sổ đồ họa ở phía bên phải của giao diện mục phân tích, IATA sẽ hiển thị các chức năng mục Response (IRF) cho một câu hỏi thử nghiệm được lựa chọn. Rà soát các IRF là thường trực quan hơn kiểm tra các thông số IRT hoặc mục thống kê để xác định tính hữu ích tương đối của các bài kiểm tra khác nhau. Một câu hỏi hữu ích sẽ có một mối quan hệ mạnh mẽ với khả năng phân tích, chỉ bằng một IRF có một hình chữ S mạnh mẽ, với một khu vực hẹp trong đó các đường cong gần như thẳng đứng. Độ dốc của IRF cho MATHC1019 là luôn tích cực, nhưng mối quan hệ là yếu và không có bất kỳ vùng có độ dốc nào đáng chú ý. Độ dốc ít sẽ chứng thực cho các chỉ số phân biệt thấp (Discr = 0,36) và hệ số tương quan thấp (PBis = 0,35).

Như với bất kỳ mô hình cách thức thống kê, IRT chỉ hữu ích nếu các dữ liệu phù hợp với các mô hình lý thuyết. Đối với mỗi câu hỏi hoặc giá trị điểm, IATA tạo ra một hình ảnh của lý thuyết IRF bằng cách sử dụng các thông số ước tính cũng như các thực nghiệm IRF ước tính trực tiếp từ tỷ lệ trả lời đúng ở mỗi cấp độ. Các đồ họa có thể được sử dụng để đánh giá sự phù hợp của việc sử dụng IRT để mô tả mỗi câu hỏi. Nếu mô hình IRT là thích hợp, các dòng gạch màu đỏ sẽ xuất hiện là rất tương tự như các dòng đen liền nét, nơi mà độ lệch nhỏ hơn 0,05, đặc biệt là ở khu vực giữa -1 và 1, nơi có nhiều học sinh. Đối câu hỏi MATHC1019 của lý thuyết IRF và thực nghiệm là gần như giống hệt nhau sẽ chỉ ra rằng mặc dù các item đó có thể có một mối quan hệ có trình độ yếu, tính chất thống kê của nó được mô tả một cách chính xác bởi các IRF.

9.5.3. Phân tích phương án gây nhiễu (Distractor Analysis)

Ở góc dưới bên của giao diện mục phân tích, IATA thực hiện thống kê cho mỗi giá trị trả lời (bao gồm cả mã giá trị không xuất hiện và mã giá trị trả lời không chính xác) và một bản tóm tắt văn bản của phân tích. Các số liệu thống kê ước tính riêng cho các nhóm học sinh thực hiện ở mức thấp, trung bình và học sinh thực hiện cao dựa trên kiểm tra điểm phần trăm độ chính xác của họ, cũng như toàn bộ mẫu. Bảng này trình bày chi tiết trong hình 9.6, cũng được gọi là một phân tích phương án gây nhiễu.

Figure 9.6 Distractor analysis for item MATHC109, PILOT1 data

Hình 9.6 Phân tích hỗ trợ cho mục dữ liệu MATHC109, PILOT1

Có nhiều lý do tại sao một câu hỏi có thể có quan hệ ở mức thấp hoặc thậm chí là một mối quan hệ rất tiêu cực với mức độ thông thạo. Chúng bao gồm: từ ngữ diễn đạt nghèo nàn, hướng dẫn gây nhầm lẫn, sai sót lấy mẫu, và nhầm đáp án hoặc không có đáp án (miskeying hoặc miscoding). Phân tích phương án gây nhiễu có thể được sử dụng để phát hiện và khắc phục một số lỗi thường gặp bằng cách nhìn vào các mẫu trong mục trả lời. Một câu hỏi tốt nên có những đặc điểm sau đây:

1. Các tùy chọn cột chính xác biểu hiện bằng các dấu hoa thị (*), cần phải có một tỷ lệ phần trăm chọn cao cho các có năng lực cao, và tỷ lệ phần trăm lựa chọn thấp hơn cho các nhóm có năng lực trung bình và thấp. Câu MATCHC1019 thỏa mãn điều kiện này với các giá trị là 47.9, 19.9 và 11.4 cho các nhóm cao, trung bình và thấp.

2. Đối với nhóm có năng lực thấp, tỷ lệ lựa chọn chính xác các tùy chọn đúng nên thấp hơn so với tỷ lệ lựa chọn bất kỳ một trong các tùy chọn khác. Tất cả các tùy chọn không đúng (A, B và C) cho MATHC1019 thể hiện mô hình này.

3. Mỗi cột tương ứng với giá trị trả lời không chính xác nên có tỷ lệ xấp xỉ bằng nhau trong mỗi cấp độ năng lực và tương tự với các giá trị trả lời không chính xác trong các cột khác. MATHC1019 vi phạm điều này, vì tùy chọn B được lựa chọn gần như gấp đôi các lựa chọn không chính xác hoặc là A hoặc C.

4. Đối với nhóm có năng lực cao, tỷ lệ lựa chọn các tùy chọn chính xác nên có kết quả cao hơn so với tỷ lệ lựa chọn bất kỳ một trong các tùy chọn khác. MATHC1019 thỏa mãn mô hình này: 47.9 lớn hơn các giá trị tùy chọn A (14.1), B (23,9) và C (14.1).

5. Đối với tất cả các nhóm, các tỷ lệ phần trăm của mã giá trị thiếu (ký hiệu là X) nên gần bằng 0. Một tỷ lệ đáng kể các học sinh đã không có câu trả lời (mã 9), nhưng sự xuất hiện nhiều hơn ở câu hỏi đòi hỏi năng lực thấp, cho thấy rằng các quyết định Xử lý các mã trả lời không chính xác (chứ không loại bỏ) là hợp lý.

6. Thiếu mã trả lời được xử lý bỏ qua (ký hiệu là bỏ qua) nên có tỷ lệ bằng nhau của học sinh ở mỗi cấp độ kỹ năng. Mã này đã không được sử dụng cho các dữ liệu này.

IATA cung cấp một bản tóm tắt văn bản về mục thực hiện, trong đó có cảnh báo nếu phân biệt là quá thấp sẽ cho thấy những gì có thể được thực hiện để cải thiện nó. Ví dụ, IATA sẽ xác định phương án gây nhiễu không hiệu quả mà không căn cứ từ câu trả lời (hoặc có hồ sơ thống kê tương tự để sửa câu trả lời)[2]. Nếu IATA không phát hiện bất kỳ vấn đề phổ biến trong các dữ liệu, một bản tóm tắt bằng lời về các kết quả được hiển thị trong hộp văn bản bên dưới bảng phân tích phương án gây nhiễu.

Kiểm tra các kết quả cho MATHC1019, tóm tắt văn bản trên dưới cùng bên phải khuyến cáo kiểm tra việc mã hóa các tùy chọn trả lời như "A". Nhìn vào bảng phân tích hỗ trợ, chúng ta có thể thấy rằng trả lời"A" được xác nhận với một khoảng cùng một tỷ lệ giữa học sinh có thành tích cao và học sinh kém, chỉ ra rằng nó hoạt động không tốt như một phương án hỗ trợ.

Các phân tích hỗ trợ của dữ liệu đánh giá quốc gia cũng có thể có ích cho các nhà cung cấp các khóa học giáo dục tại chức cho giáo viên và cơ sở cho các chương trình giảng dạy. Các kết quả có thể giúp xác định những quan niệm sai lầm phổ biến và sai sót của học sinh. Quản lý chương trình giảng dạy cũng có thể sử dụng các dữ liệu để đánh giá sự phù hợp của câu hỏi cụ thể cho một mức độ điếm số cụ thể.

9.5.4. So sánh các câu hỏi khác nhau

Chuyển đến câu hỏi thứ hai trong bài thi, MATHC1027 được thể hiện trong hình 9.7, chúng ta thấy rằng, so với các câu hỏi trước đó, điểm số của nó có một mối quan hệ mạnh mẽ với trình độ, được chỉ định bởi các IRF có độ dốc lớn và phân biệt lớn hơn (0,65) và hệ số tương quan -biserial (0,53). Các lý thuyết và thực nghiệm IRFs là gần như giống hệt nhau, chỉ ra rằng các mô hình thống kê hồi đáp phù hợp với dữ liệu hồi đáp. Bảng phân tích phương án nhiễu cho thấy có 73,2% học sinh trong nhóm "High" chọn đúng (C) so với 19,9% trong nhóm trung và 8,6% trong nhóm thấp. Tất cả các dữ liệu cho giá trị trả lời không chính xác (A, B và D), cũng như các mã trả lời không xuất hiện (9), có nhiều khả năng được lựa chọn bởi các học sinh có năng lực thấp hơn so với các học sinh có năng lực cao hơn.

Figure 9.7 Item analysis results for PILOT1 data, item MATHC1027

Hình 9.7 item kết quả phân tích dữ liệu cho PILOT1, item MATHC1027

Ngược lại với hai câu hỏi chúng tôi đã kiểm tra, câu hỏi với các biểu tượng hình tam giác thường cảnh báo câu hỏi kém và khi đưa vào thử nghiệm có thể tạo ra kết quả sai lệch hoặc không có ích trong đo lường kết quả học tập. Số lượng các câu hỏi kém xuất hiện trong một hướng dẫn thử nghiệm như thế này có thể được giảm thiểu bằng cách làm theo các hướng dẫn mục sáng tạo mô tả trong tập 2 của loạt bài này (Anderson và Morgan 2008). Chỉ một câu hỏi với một biểu tượng cảnh báo trong những dữ liệu này là MATHC1075, thể hiện trong hình 9.8. Bằng cách nhấp vào các câu hỏi sẽ cho bạn thấy thấy kết quả gần như không tồn tại một mối quan hệ giữa những câu trả lời đúng hay sai với mức độ thông thạo. Mặc dù một mã trả lời không xuất hiện vẫn quan đến năng lực, các mô hình thử nghiệm là không rõ ràng. Học sinh thuộc nhóm thấp nhất không có nhiều khả năng để lựa chọn một trong ba tùy chọn không chính xác, và cũng không có học sinh trong nhóm cao nhất có khả năng làm như vậy (câu hỏi này đặc biệt có độ phân biệt thấp giữa nhóm học sinh trung bình và nhóm học sinh trình độ thấp). Các chỉ số phân biệt là thấp (0.14) cũng như sự tương quan kém (0.16). Câu hỏi này có thể liên quan đến mức độ thành thạo, nhưng vì có quá ít học sinh đã trả lời một cách chính xác (PVal = 0,12), do đó không thể ước tính các mối quan hệ. Sự trả lời cho câu hỏi này rõ ràng là không phụ thuộc vào trình độ, câu hỏi này trong thử nghiệm sẽ có xu hướng gia tăng ảnh hưởng của các yếu tố ngẫu nhiên trong các điểm thi. Bao gồm cả câu hỏi này (và các câu hỏi có vấn đề khác) trong phân tích cũng có thể làm giảm độ chính xác của các ước tính thống kê cho các bài kiểm tra khác, vì các mục thống kê và các thông số được phân tích bằng cách sử dụng điểm thi.

Figure 9.8 Item analysis results for PILOT1 data, item MATHC1075

Hình 9.8 item kết quả phân tích dữ liệu cho PILOT1, item MATHC1075

Câu hỏi này có thể được gỡ bỏ từ các phân tích bằng cách nhấn vào hộp kiểm bên trái của tên mỗi câu hỏi. Sau khi loại bỏ một câu hỏi, kết quả sẽ được tính toán lại bằng cách nhấp vào nút "Phân tích" trước khi gỡ bỏ các câu hỏi khác. Việc loại bỏ một câu hỏi duy nhất sẽ ảnh hưởng đến kết quả của tất cả các câu hỏi khác. Nếu có nhiều câu hỏi có vấn đề, bạn nên loại bỏ chỉ một câu hỏi trong một lần, bởi vì một số câu hỏi có gắn cờ là có vấn đề chỉ có thể xuất hiện vì những ảnh hưởng của các câu hỏi tồi tệ hơn vào kết quả phân tích. Nếu bạn vô tình xóa quá nhiều câu hỏi, bạn có thể kiểm tra lại từng câu hỏi hoặc bằng cách nhấn vào nút "Đặt lại item" trên danh mục câu hỏi để thiết lập lại toàn bộ danh sách câu hỏi. Đối với ví dụ này, chúng tôi sẽ loại bỏ MATHC1075 và chạy lại các phân tích, tạo ra các kết quả trong hình 9.9, trong đó kết quả cho MATHC1075 được nhấn mạnh sau khi loại bỏ. Lưu ý rằng các dữ liệu Discr và Pbis cho câu hỏi này đã được thay thế bởi NaN (có nghĩa là "không phải là một con số") hoặc ngoài phạm vi giá trị; chúng sẽ không ảnh hưởng đến tính toán sau này. Để loại bỏ các item, các bảng phân tích hỗ trợ bên phải không xuất hiện, và có một tin nhắn trong phần tóm tắt văn bản để hỗ trợ phân tích các dữ liệu thử nghiệm.

Bởi vì chúng tôi chỉ loại bỏ một câu hỏi duy nhất, số liệu thống kê cho các item còn lại là tương đối như cũ.

Figure 9.9 Item analysis results for PILOT1 data, item MATHC1061

Hình 9.9 item kết quả phân tích dữ liệu cho PILOT1, item MATHC1061

Bạn có thể tiếp tục xem xét tất cả các item bằng cách nhấp chuột vào từng hàng trong danh sách item hoặc bằng cách điều hướng với các phím mũi tên lên và xuống. Lưu ý rằng các bản tóm tắt bằng lời được cung cấp bởi IATA chỉ dựa trên bằng chứng thống kê và không được thông báo bởi các nội dung của các câu hỏi. Một câu hỏi chi tiết được đưa ra một đánh giá chi tiết bằng IATA có thể không có một câu hỏi đại diện; một đánh giá chi tiết chỉ ra rằng các câu hỏi có thể không cung cấp thông tin hữu ích khi các thử nghiệm hiện đang được sử dụng với tất cả các câu hỏi.

Nói chung, những kiến nghị IATA cung cấp để chỉnh sửa hoặc loại bỏ các câu hỏi cần được xem xét trong bối cảnh mục đích của thử nghiệm và lý do ban đầu bao gồm các câu hỏi cụ thể. Ví dụ, một số câu hỏi nên được giữ lại bất kể tính chất thống kê của chúng do (a) hỗ trợ cho kích thích động cơ tích cực về động lực học của học sinh (chẳng hạn như câu hỏi đầu tiên dễ dàng) hoặc (b) sự cần thiết để có đầy đủ tính đại diện về các khía cạnh quan trọng của các chương trình giảng dạy. Tuy nhiên, tất cả các câu hỏi có chỉ số phân biệt thấp cần được loại bỏ hoặc chỉnh sửa về đáp án (nếu nhập Key là không chính xác) trước khi tiến hành các phân tích khác. Các loại câu hỏi cho thấy độ nhiễu hoặc các thay đổi không mong muốn vào mục dữ liệu hồi đáp và làm giảm độ chính xác của các ước tính cho các câu hỏi khác. Loại bỏ một số câu hỏi có các phương án nhiễu yếu trong phân tích các dữ liệu thí điểm sẽ giúp tăng độ chính xác của các kết quả thống kê. Tuy nhiên, việc lựa chọn các thiết lập cuối cùng của các câu hỏi sau các đánh giá thử nghiệm hoặc thử nghiệm được thực hiện bởi các chuyên gia chuyên sâu và cùng phối hợp làm việc với các nhóm biên soạn câu hỏi cụ thể và chịu trách nhiệm về chất lượng tổng thể của các bài kiểm tra đánh giá quốc gia...

Khi bạn đã hoàn thành việc rà soát tất cả các mục, nhấp vào "Next >>" để tiếp tục.

9.6. Bước 5: Định cỡ TEST

Một trong những giả thuyết thống kê của IRT, cũng như một yêu cầu cho việc giải thích giá trị của kết quả kiểm tra, đó là hiệu suất trên các bài kiểm tra đại diện cho một cấu trúc có thể giải thích về kết cấu hay định cỡ cho bài kiểm tra. Lý tưởng nhất là một bài kiểm tra thành tích quốc gia như toán học hay khoa học nên đo cấu trúc đơn hoặc đa chiều mà nó được thiết kế để đo lường và không nên đo cấu trúc hoặc các kích thước khác như khả năng đọc. Mục đích của mục kiểm tra đa chiều là để phát hiện bất kỳ hành vi vi phạm các giả định rằng: 1) chỉ có một chiều hướng duy nhất ảnh hưởng đến hiệu suất thực hiện bài kiểm tra, và 2) các mối quan hệ giữa hiệu suất trên các cặp hoặc nhóm câu hỏi có thể được giải thích bởi nhiều nội dung. Trong hầu hết các trường hợp, các giả thiết thứ hai tiến hành trước, nhưng với test với nhiều câu hỏi (ví dụ, với hơn 50 câu hỏi), các nhóm nhỏ của câu hỏi có được giải thích bởi một khía cạnh nổi trội mà không có một ảnh hưởng đáng kể đối với toàn bộ các khía cạnh của kiểm tra.

Việc phân tích kiểm tra đa chiều xác định mức độ mà các biện pháp kiểm tra các nội dung khác nhau về trình độ mà mỗi một câu hỏi liên quan đến một nội dung. Số ít các nội dung đó có ảnh hưởng mạnh mẽ đến các bài kiểm tra, những cách giải thích nào là có giá trị hơn các điểm kiểm tra. Mặc dù, bằng chứng này là không đủ để xác nhận tính hợp lệ của một thử nghiệm, nó có thể cung cấp thông tin quan trọng về nội dung của các câu hỏi cụ thể. Khía cạnh khác có giá trị, chẳng hạn như giá trị nội dung (là rất quan trọng trong bối cảnh của một đánh giá quốc gia) thường được coi là quan trọng hơn so với số liệu thống kê khi xác định tính hợp lệ của một bài kiểm tra hoặc một câu hỏi (xem Anderson và Morgan, 2008 về một mô tả các thủ tục được thiết kế để đảm bảo rằng một thử nghiệm có giá trị nội dung đầy đủ).

Từ một quan điểm thống kê, ước tính các thông số IRT và số điểm phụ thuộc vào các khái niệm về khả năng trả lời chính xác, trong đó giả định rằng xác suất của một trả lời (ví dụ, một trả lời chính xác) là điều kiện về một khả năng duy nhất đại diện cho trình độ. Nếu câu hỏi khác nhau có các điều kiện và kích thước khác nhau, thì các thông số ước tính và điểm số sẽ không chính xác.

Khi giao diện này xuất hiện, các đồ thị bên trái minh họa cả biểu đồ “Scree” cho các bài kiểm tra tổng thể cũng như các yếu tố tải nhân tố cho các item đầu tiên, MATHC1019 thể hiện trong hình 9.10. Ở phía bên tay trái của giao diện là một bảng tương tự như trong các giao diện mục phân tích. Ký hiệu Summary (giải thích ở trang 23) trong cột có nhãn "F" bên cạnh mục cột "Name" mô tả sự thích hợp tổng thể của một câu hỏi về mối quan hệ đa chiều của nó với hầu hết các câu hỏi khác trong bài thi. Bên phải của cột "Tên", các câu hỏi dễ ("PVal") trong phân tích cổ điển sẽ được hiển thị, cùng với việc loading các nhân tố vào giới hạn ban đầu ("Loading"). Việc xếp hệ số nhân tố trong khoảng từ -1 đến 1 là thể hiện mức độ của sự tương quan giữa hiệu suất trên mỗi câu hỏi và tất cả câu hỏi thử nghiệm chính. Ví dụ, giá trị 0,34 cho MATHC1019 chỉ ra rằng kết quả trả lời câu hỏi này có một mối tương quan 0,34 với số tổng điểm kiểm tra bài kiểm tra (phần trăm-chính xác). Không có giá trị "lý tưởng" value7[3], nhưng biểu hiện tương quan tốt hơn được chỉ ra bởi hệ số tải nhân tố gần bằng 1.

Figure 9.10 Test and item dimensionality for PILOT1 data, item MATHC1019

Hình 9.10 Kiểm tra và item chiều cho dữ liệu PILOT1, item MATHC1019

Các kết quả trong bảng nên được giải thích cùng với các kết quả đồ họa hiển thị ở phía bên tay phải của giao diện. Các kết quả chính được hiển thị trong cửa sổ đồ họa là biểu đồ gấp khúc rời rạc, trong đó mô tả tỷ lệ phương sai được giải thích bởi đặc trưng riêng (eigen value=giá trị riêng). Các đường màu đỏ kết nối các dấu hiệu hình tròn được sắp xếp từ trái sang phải để minh hoạ những ảnh hưởng tương đối của đặc trưng riêng (eigenvalue[4]) đến toàn bộ kết quả kiểm tra, và các dòng màu xanh liền nét kết nối các dấu hiệu hình hộp mô tả các ảnh hưởng tương đối của mỗi dấu hiệu đặc trưng lên các câu hỏi của bài kiểm tra (hệ số nhân tố trung bình). Tầm quan trọng của các giá trị riêng là ít quan trọng hơn so với các mô hình của các biểu đồ hình gấp khúc rời rạc. Biểu đồ hình gấp khúc rời rạc (Scree) biểu diễn cho toàn bộ bài kiểm tra nên có một điểm duy nhất về phía trên bên trái của biểu đồ (khoảng 0,30 trong hình 9.10) kết nối với một đường thẳng gần như nằm ngang ở dưới cùng của biểu đồ và kéo dài về phía bên phải của đồ thị. "L" hình chữ L với hai đoạn đường thẳng riêng biệt thể hiện trong hình 9.10, cho thấy có duy nhất một điểm chung là chịu trách nhiệm về kết quả kiểm tra PILOT1. Số lượng lớn hơn các đoạn đường thẳng riêng biệt cần thiết để kết nối các điểm trên cùng bên trái vào dòng gần như ngang ở phía dưới, kích thước lớn hơn có thể sẽ thực hiện thử nghiệm cơ bản.

Lựa chọn từng câu hỏi trong danh sách bên trái sẽ hiển thị các biểu đồ gấp khúc cho câu hỏi cụ thể tương ứng phía bên phải. Lý tưởng nhất, biểu đồ gấp khúc biểu diễn cho mỗi một câu phải tương tự như biểu đồ của bài kiểm tra tổng thể - giá trị cao nhất trong các câu hỏi cụ thể nên được thể hiện bên trái (tương ứng với các chiều hướng chủ yếu của các bài kiểm tra). Tuy nhiên, đặc điểm câu hỏi cụ thể có thể giới thiệu các mô hình khác nhau, và những mô hình cụ thể không nhất thiết phải giống nhau. Ví dụ, câu hỏi MATHC1019 trong hình 9.10 là không tường minh theo một chiều hướng nào; mặc dù có một hệ số hệ số tải nhân tố khác không theo chiều hướng khác, tập trung mạnh nhất là vào các khía cạnh chính. Nhìn chung, mục kết quả cụ thể chỉ cần để được tư vấn nếu có rõ ràng là nhiều hơn một khía cạnh hiệu suất thử nghiệm cơ bản (tức là, có hơn hai dòng riêng biệt phân khúc tạo nên những đường màu đỏ). Trong trường hợp đó, bạn nên xác định và kiểm tra các câu hỏi cụ thể mà những câu hỏi có hệ số nhân tố trung bình có giá trị tương ứng với các chiều hướng tương tự như các giá trị riêng không tuồng minh.

Một điều lưu ý trong việc giải thích các biểu đồ hình gấp khúc rời rạc là hỗ trợ của mục cơ sở. Trong các thử nghiệm, hầu hết các câu hỏi có mực cơ sở tương tự, các câu hỏi với các cơ sở lớn hơn hoặc thấp hơn so với các câu hỏi khác có xu hướng tạo ra yếu tố nhân tạo "các yếu tố khó khăn", đặc biệt là với các phân bố không bình thường của điểm phần trăm trả lời chính xác bài kiểm tra. Các câu hỏi có độ khó cao có thể xuất hiện để xác định hệ số nhân tố rời rạc, chỉ đơn giản bởi vì những học sinh chăm chỉ (ví dụ, khả năng cao hoặc thấp) sẽ tạo ra các mẫu của trả lời xuất hiện một cách rất bất thường, liên quan mạnh mẽ so với các mối quan hệ giữa các bài kiểm tra khác nhau. Tuy nhiên, những "yếu tố khó khăn" không hẳn đã có vấn đề. Xem xét các mục trọng số nhân tố có thể giúp xác định xem yếu tố thứ cấp là có vấn đề giả tạo hoặc là thực thực tế. Để xác định một yếu tố phụ là một yếu tố khó khăn, kiểm tra hệ số tải nhân tố các câu hỏi với mức thấp (<0.2) hoặc cao (> 0,8) mục đội khó (PVal). Nếu hệ số tải nhân tố của các câu hỏi này có một đỉnh tương ứng với vị trí của các yếu tố phụ, nó rất có thể là một yếu tố khó khăn và có thể được bỏ qua.

9.6.1. Trọng số nhân tố

Các mô hình giả định IRT "khu vực độc lập" giữa các câu hỏi, có nghĩa là khả năng trả lời một câu hỏi này không phụ thuộc vào các câu hỏi khác. Lý tưởng nhất, dưới IRT, một bài kiểm tra nên có những câu hỏi độc lập về mọi mặt ngoại trừ bài kiểm tra thử nghiệm chính. Sự quan trọng từ các ảnh hưởng cục bộ của câu hỏi có thể dẫn đến ước lượng không chính xác các mục thông số thống kê thử nghiệm và trình độ học sinh. Ví dụ, một bài kiểm tra toán học bao gồm một câu hỏi giải quyết vấn đề phức tạp có thể chỉ định một tập hợp các điểm số khác nhau cho mỗi câu trong số các bước hợp lý cần thiết để tính toán câu trả lời cuối cùng. Nếu thử nghiệm trả lời đoán mò ở bước 1 không đúng, nó ảnh hưởng đến khả năng trả lời chính xác trên mỗi bước tiếp theo. Điều này đặt các loại câu hỏi kiểm tra phụ thuộc sẽ không phù hợp cho mô hình- IRT trong trường hợp này, câu hỏi cần được xem như chính xác là một câu hỏi đánh giá thái độ duy nhất.

Ảnh hưởng cục bộ thường là vấn đề duy nhất trong các câu hỏi đang liên quan đến các khía cạnh chính, do đó cách hiệu quả nhất để sử dụng giao diện này là sắp xếp các câu hỏi theo cột "Loading" bằng cách nhấp vào tiêu đề cột once[5] (xem Hình 9.11), và so sánh hệ số nhân tố các câu hỏi thấp để xác định đỉnh chung trong đồ thị mục hệ số nhân tố của chúng. Nếu nhiều câu hỏi có hệ số nhân tố kém sẽ có đỉnh ở những vùng tương ứng với các chiều hướng tương tự, chúng có thể có một số ảnh hưởng cục bộ. Các thống kê này có xu hướng nhạy cảm về lỗi lấy mẫu, vì vậy bất kỳ kết quả từ tổng thể thống kê này nên được sử dụng để khuyến khích xem xét nội dung câu hỏi chi tiết hơn chứ không phải đưa ra quyết định dứt khoát.

Sau khi phân loại các câu hỏi, các câu hỏi được chọn là MATHC1075; vì câu hỏi này đã được gỡ bỏ từ các phân tích trong bước phân tích trước đó, hệ số nhân tố cho câu hỏi này là NaN, và không có kết quả hiển thị cho các câu hỏi (đồ thị chỉ hiển thị các biểu đồ hình gấp khúc rời rạc cho toàn bộ bài kiểm tra). IATA gán một biểu tượng cảnh báo tam giác với bất kỳ item nào mà biểu hiện có thể có vấn đề về ảnh hưởng đến việc ước lượng số liệu thống kê khác. Lưu ý rằng IATA chỉ gắn cờ một câu hỏi khác với các biểu tượng cảnh báo hình tam giác. Hình 9.11 hiển thị các kết quả cho câu hỏi MATHC1035. Câu hỏi MATHC1035 là có hệ số tương quan tương đối yếu với các khía cạnh chính và có một mối quan hệ rất đáng chú ý đến khía cạnh thứ hai, trong đó cho thấy nó có thể được đo một khía cạnh khác biệt so với phần lớn các câu hỏi khác. Tuy nhiên, những kết quả đo được từ các thử nghiệm không phải là bằng chứng thuyết phục để đảm bảo loại bỏ câu hỏi này. Chuyên gia chương trình giảng dạy và giáo viên có kinh nghiệm nên xem xét lại vấn đề nào trong mục thống kê để xác định nếu có một vấn đề liên quan đến nội dung mà có thể đảm bảo loại bỏ hoặc sửa đổi nó.

Figure 9.11 Comparison of item dimensionality results for PILOT1 data, items MATHC1035 and MATHC1034

Hình 9.11 So sánh các kết quả item cho dữ liệu đa chiều PILOT1, các item MATHC1035 và MATHC1034

IATA gán một biểu tượng cảnh báo hình kim cương cho bất kỳ câu hỏi nào nếu đang có một hệ số tải nhân tố mạnh hơn vào các khía cạnh kiểm tra ban đầu, nhưng nếu kết quả có thể sẽ không có vấn đề đối với bất kỳ tính toán tiếp theo. Một ví dụ điển hình được thể hiện trong hình 9.12, cho câu hỏi MATHC1002. Câu hỏi này có liên quan đến một số phương diện, nhưng vì các câu hỏi kiểm tra có ảnh hưởng thấp đên toàn bộ kết quả kiểm tra, được chỉ ra bởi các giá trị riêng tương đối nhỏ (đường đứt nét màu đỏ) tương ứng với các đỉnh của hệ số tải nhân tố lớn (liền nét đường màu xanh), xác định dù số ảnh hưởng của câu hỏi là có thể chấp nhận hoặc không phải là một khía cạnh của nội dung kiểm tra chứ không phải là một trong số liệu thống kê.

Figure 9.12 item dimensionality results for PILOT1 data, items MATHC1002

Hình 9.12 item kết quả chiều cho dữ liệu PILOT1, các item MATHC1002

Tất cả các bài kiểm tra là bao quát trong một mức độ nào đó, bởi vì nó không thể kiểm tra chính xác cùng một vấn đề về những điều tương tự mà không cùng một mục đích . Vì vậy, nếu diện tích biểu đồ hình gấp khúc của tổng thể không chỉ ra bất kỳ vấn đề có khả năng ảnh hưởng của bất kỳ chiều hướng bào hoặc mức độ phụ thuộc là không đáng kể. Đối với ví dụ này, tất cả các câu hỏi sẽ được giữ lại để phân tích tiếp theo bởi vì biểu đồ hình gấp khúc của tổng thể không chỉ ra bất kỳ vấn đề.

Khi bạn đã hoàn thành việc rà soát các mục, nhấp vào "Next >>" để tiếp tục phân tích các giao diện mục độ phân biệt.

9.7. Bước 6: MỤC CHỨC NĂNG PHÂN BIỆT CỦA CÂU HỎI

Các nguyên tắc và lý do cho việc phân tích chức năng phân biệt (DIF) sẽ được thảo luận chi tiết trong Chương 15 (trang 192). Tóm lại, phân tích DIF để kiểm tra mức độ mà các IRF của một câu hỏi là ổn định giữa các nhóm học sinh khác nhau. Nếu IRF là khác nhau cho hai nhóm khác nhau, sau đó điểm số được ước tính bằng cách sử dụng IRF có thể thiên vị hoặc trong phạm vi trình độ của học sinh. Các phân tích DIF kiểm soát những khác biệt về trung bình mức độ thông thạo trong các nhóm học sinh khác nhau, có nghĩa là những lợi thế và bất lợi thể hiện tương đối qua kết quả DIF độc lập với sự khác biệt về trình độ trung bình trong các nhóm khác nhau.

Các giao diện phân tích DIF được thể hiện trong hình 9.13. Ở phía bên tay trái là tập hợp của bốn điều khiển được sử dụng để xác định các phân tích. Các trình đơn thả xuống ở phía trên cho phép bạn chọn một biến từ danh sách các biến trong các dữ liệu hồi đáp mà không kiểm tra các câu hỏi. Khi bạn chọn một biến, IATA sẽ liệt kê các giá trị duy nhất của biến này trong các bảng "giá trị có thể", cùng với tỷ lệ % không có trọng lượng của những học sinh có mỗi một giá trị. Để chọn nhóm so sánh, trước hết vào giá trị mà bạn muốn là nhóm tập trung, và sau đó nhấp vào giá trị đại diện cho các nhóm tham khảo. Các đặc điểm kỹ thuật tập trung và nhóm tham khảo xác định làm thế nào thống kê tóm tắt được các tính toán; các ước tính sử dụng trọng số phân phối mẫu về trình độ của các nhóm tập trung để tính thiên vị và tính ổn định trung bình thống kê. Để thay đổi các nhóm tập trung và nhóm tham khảo, bấm vào giá trị khác nhau trong các bảng "giá trị khả năng"; các giá trị được gán cho nhóm chính và các nhóm tham chiếu sẽ được cập nhật trong các hộp văn bản ở phía dưới bên trái. Các số liệu thống kê là nhạy cảm nhất với các nhóm tập trung, do đó, thông thường các thực hành là để đảm bảo rằng các nhóm tập trung là một nhóm thiểu số hay nhóm có nhiều thiệt thòi.

Figure 9.13 DIF analysis results for PILOT1 data by sex, item MATHC1046

Hình 9.13 DIF kết quả phân tích dữ liệu cho PILOT1 theo giới tính, item MATHC1046

Đối với ví dụ này, chúng ta sẽ thực hiện một phân tích DIF sử dụng biến "sex". Chúng tôi muốn xem nữ sinh có bị hạn chế so với nam giới. Để chỉ định phân tích và xem xét các kết quả, cần thực hiện chương sau đây:

1. Từ menu thả xuống bên trái, chọn biến "sex". Khi bạn làm như vậy, bảng bên dưới sẽ được khu trú với các giá trị "1.00" và "2.00", với các giá trị của 50% cho mỗi giá trị, có nghĩa là mẫu có số lượng của nam và nữ bằng nhau.

2. Trong bảng giá trị, bấm vào giá trị "1.00" - điều này sẽ làm cho giá trị là 1,00 (đại diện cho phái nữ) để nhập như các nhóm tập trung trong hộp văn bản bên dưới.

3. Trong bảng giá trị, bấm vào giá trị "2.00" - điều này sẽ làm cho giá trị là 2,00 (đại diện cho nam giới) để nhập như các nhóm tham khảo trong hộp văn bản bên dưới.

4. Nhấp vào nút "Calculate" và chờ để cho các tính toán hoàn thành.

5. Khi tính toán hoàn tất, trong danh sách các mục, nhấp vào tiêu đề của "S-DIF" để sắp xếp tất cả các câu hỏi bằng giá trị của các số liệu thống kê S-DIF.

Khi bạn đã hoàn thành những bước này, giao diện sẽ xuất hiện như minh họa trong hình 9.13. Có 15 câu hỏi trong ví dụ minh họa này với IATA hoặc là một cờ hoặc biểu tượng cảnh báo. Đối với mỗi câu hỏi, hai số liệu thống kê được tính toán, S-DIF và U-DIF. S-DIF mô tả sự khác biệt ước lượng trung bình giữa các nhóm (tham chiếu trừ nhóm tập trung), và U-DIF mô tả sự khác biệt trung bình tuyệt đối giữa các nhóm. Các giá trị thống kê U-DIF là luôn luôn tích cực và lớn hơn giá trị tuyệt đối so với S-DIF. Ngay cả khi không có lợi thế có tính hệ thống cho một nhóm (S-DIF gần 0), một câu hỏi có thể có một mối quan hệ mạnh mẽ hơn với trình độ thông thạo trong một nhóm, mà sẽ tạo ra một mối liên hệ lớn hơn U-DIF thống kê.

Một ví dụ về một câu hỏi phù hợp với DIF, nơi các giá trị tuyệt đối của S-DIF và U-DIF giống hệt nhau là MATHC1035, được minh họa trong hình 9.14. Đối với câu hỏi này, lợi thế rõ ràng là trên toàn bộ phạm vi thống kê thì phụ nữ thành thạo. Sự khác biệt phù hợp cho thấy rằng phụ nữ có nhiều khả năng để thực hiện tốt hơn các câu hỏi này so với nam giới, thậm chí nếu họ có mức độ chính xác hơn trong cùng một trình độ. Các số liệu thống kê S-DIF chỉ ra rằng, trung bình xác suất trả lời chính xác của nữ là cao hơn 23% điểm số so với nam giới về trình độ tương đương.

Figure 9.14 DIF analysis results for PILOT1 data by sex, item MATHC1035

Hình 9.14 DIF kết quả phân tích dữ liệu cho PILOT1 theo giới tính, item MATHC1035

Với phân tích DIF, các thống kê và con số có xu hướng rất nhạy cảm với lỗi lấy mẫu, có thể dẫn đến xuất hiện các câu hỏi có sự khác biệt có thể không xuất hiện trong một mẫu lớn hơn. IATA gán một biểu tượng cảnh báo khi hệ số lấy mẫu variation[6] cho các số liệu thống kê S-DIF là nhỏ hơn 0,2, chỉ ra rằng sự khác biệt quan sát có được không phải là khả năng do lỗi lấy mẫu, hoặc có một sự khác biệt rất lớn hoặc trong S-DIF hay U-DIF cần phải kiểm tra ngay cả trong các mẫu nhỏ.

Bởi vì lỗi nhạy cảm trong lấy mẫu, đôi khi các kết quả đồ họa có thể gây hiểu nhầm. Ở hai đầu trên và dưới của thang thành thạo, có xu hướng ít học sinh trả lời, đặc biệt với các mẫu nhỏ như ví dụ hiện tại. Thông thường, các trả lời của một hoặc hai câu hỏi có thể sai khiến sự xuất hiện của đồ thị tại hai thái cực này. Khi trọng lượng thống kê tóm tắt các tính toán số lượng học sinh nhóm tập trung tại mỗi năng lực, họ không bị ảnh hưởng nhiều bởi sai số ngẫu nhiên như trong các đồ thị. Đồ thị cho các kết quả cho MATHC1042 trong hình 9.15 cung cấp một ví dụ về cách đồ họa kết quả đánh lừa trong một số trường hợp. Mặc dù đồ thị cho thấy một bất lợi rất lớn đối với nữ (độ nghiêng khu vực nhỏ), S-DIF thống kê thực tế (-2,01) chỉ ra một bất lợi tương đối yếu.

Figure 9.15 DIF analysis results for PILOT1 data by sex, item MATHC1042

Hình 9.15 DIF kết quả phân tích dữ liệu cho PILOT1 theo giới tính, item MATHC1042

Bằng chứng quan sát của DIF cũng có thể được tìm thấy khi nội dung câu hỏi cụ thể rất không phù hợp với kích thước kiểm tra chính cũng như các kiểm tra khác. Ví dụ, trong toán học, mục tiêu học tập phổ biến cho học sinh trẻ là nhận ra các công cụ đo lường khác nhau cho các đơn vị khác nhau (chẳng hạn như cm, kg, độ C). Học sinh ở vùng sâu vùng xa thường có hoàn cảnh khó khăn, ngay cả khi họ rất giỏi trong toán học, có thể không có sự tiếp xúc cùng với những công cụ như học sinh trong khu vực đô thị. Kết quả là, họ có thể gặp khó khăn với công cụ trên các bài kiểm tra đòi hỏi phải có kiến thức cụ thể này. Tuy nhiên, nhược điểm này không phải là một điểm số của các bài kiểm tra; nó là một hệ quả của một bất lợi cụ thể về mức độ thông thạo. Trước khi có được bất kỳ kết luận nào về sự thiên vị đối với học sinh cụ thể, các chuyên gia về nội dung chương trình giảng dạy là những người rất nhạy cảm với vấn đề dân tộc, sự khác biệt về địa lý, giới tính nên họ có thể kiểm tra các loại câu hỏi kiểm tra để xác nhận rằng nó có bằng chứng về sự thiên vị về khía cạnh nội dung mà có sự chấp nhận các bằng chứng thống kê.

Phân tích DIF nên được thực hiện cho tất cả các đặc điểm nhân khẩu học và các nhóm đó sẽ được so sánh trong kết quả của phân tích chính; sự hiện diện của DIF trên sự lưu ý với một đặc trưng điển hình không có liên quan đến sự hiện diện hay vắng mặt của DIF đối với đặc trưng khác. Thông thường, các biến số quan trọng nhất để xem xét cho DIF là những biến số lấy mẫu phân tầng (như Region), hoặc có thể tạo lại biến từ bảng câu hỏi cơ sở. Các dữ liệu PILOT1 có ba biến nhân khẩu học: Sex, Ngôn ngữ và Vùng. Như một bài tập độc lập, bạn có thể thực hiện tương tự như phân tích DIF cho ngôn ngữ, và khu vực bằng cách hoàn thành chương tương tự như đối với các phân tích DIF quan hệ tình dục, chắc chắn để chọn các nhóm thiểu số như nhóm chính và nhấn “Tính để cập nhật kết quả”.

Hình 9.16 minh họa một kết quả DIF phổ biến trong các tình huống chuyển đổi, sai sót trong chuyển đổi làm cho một câu hỏi thử nghiệm tốt lại gây khó hiểu cho học sinh trong các phiên bản chuyển đổi. Kết quả là từ một phân tích DIF cho các biến ngôn ngữ cho item MATHC1064. Item này là một ví dụ điển hình nhất của DIF trong đó trả lời chính xác liên quan chặt chẽ đến năng lực trong một dân số (trong trường hợp này, language = 2) và có một mối quan hệ yếu hoặc không tồn tại khác (language = 1).

Figure 9.16 DIF analysis results for PILOT1 data by language, item MATHC1064

Hình 9.16 DIF kết quả phân tích dữ liệu cho PILOT1 bởi ngôn ngữ, item MATHC1064

Các phân tích DIF trong IATA có thể phục vụ như một công cụ nghiên cứu để xác định xem nhóm học sinh cụ thể có vấn đề với lĩnh vực cụ thể. Phân tích DIF cũng có thể tạo điều kiện cho một sự hiểu biết về sự khác biệt mà có thể được giới thiệu trong phiên bản các ngôn ngữ khác nhau của một bài kiểm tra đã được chuyển đổi. Bằng chứng thống kê của DIF có thể được sử dụng để hỗ trợ việc sửa lỗi trình bày chỉnh sửa trong thời gian thí điểm hay thử nghiệm. Nó cũng có thể được sử dụng để thực hiện các nghiên cứu thăm dò vào sự khác biệt hiệu suất thực tế mà có thể tồn tại trong học sinh.

Mục đích chính của phân tích DIF là để thảo luận và đánh giá các câu hỏi hướng dẫn thử nghiệm và hướng dẫn giải thích kết quả. Đối với mỗi phân tích DIF được thực hiện, IATA lưu kết quả ở một table[7] dữ liệu. Những kết quả này, và bất kỳ đồ thị đặc biệt thú vị, nên được copied[8], lưu và chia sẻ với các chuyên gia về nội dung chương đào tạo để xác định có thể giải thích cho mô hình của sự khác biệt giữa các nhóm tập trung và nhóm tham khảo. Nếu có thỏa thuận rõ ràng rằng một câu hỏi được thiên vị, nó cần được loại bỏ từ các thông số kỹ thuật phân tích trên trang 2 của IATA và phân tích của IATA trước đó nên được lặp đi lặp lại. Cuối cùng, nó là giá trị lặp đi lặp lại rằng, khi các kết quả phân tích DIF không đáng tin cậy là dễ từ lỗi lấy mẫu, bất kỳ quyết định về việc có hay không việc lựa chọn một câu hỏi thử nghiệm cụ thể trong phiên bản cuối cùng của thử nghiệm dựa trên những nghi ngờ về sự thiên vị nên có một chương trình giảng dạy tốt hay nội dung rõ ràng. Chúng tôi sẽ tiến hành trong hướng dẫn này mà không loại bỏ bất kỳ câu hỏi của các bài kiểm tra.

Khi bạn đã hoàn thành việc thực hiện phân tích DIF và đánh giá kết quả, nhấp vào "Next >>" nút.

9.8 Bước 7: THANG ĐÁNH GIÁ

Các kỹ thuật phát triển một số số liệu để phân tích các hoạt động thử nghiệm được gọi là mở rộng quy mô. IATA báo cáo kết quả kiểm tra bằng cách sử dụng các điểm theo thang đo sau: PercentScore, Trăm, RawZScore, ZScore, IRTscore và TrueScore. Những mẫu được giải thích sẽ có chi tiết trong trong Bảng 8.1. Hiệu suất trên các mẫu mặc định hoặc là tóm tắt trên thang điểm từ 0 đến 100 hoặc trên mẫu tiêu chuẩn, trong đó có một trung bình là 0 và độ lệch chuẩn là 1. Bạn nên sử dụng các mẫu đó là hữu ích nhất đối với các mục đích của xử lý kết quả - các bên liên quan khác nhau có thể thích các loại khác nhau của quy mô. Nói chung, các IRTscore là số điểm hữu ích nhất trên phạm vi rộng nhất của các mục đích, nhưng nó đang có những bất lợi phổ biến vì có khoảng một nửa học sinh có số điểm ít hơn 0. Nhiều câu có lợi ích liên quan không biết làm thế nào để giải thích mức độ tiêu cực về điểm, vì vậy nó thích hợp hơn để tạo ra một mẫu mới để không có học sinh đạt giá trị điểm nhỏ hơn 0.

Giao diện xem xét các điểm theo thang đo và tạo điểm theo thang đo bổ sung được thể hiện trong hình 9.17. Ở phía bên tay trái, có một trình đơn thả xuống và một cửa sổ đồ thị. Bạn có thể chọn bất kỳ loại điểm theo thang điểm từ trình đơn thả xuống, sẽ vẽ đồ thị phân phối được thang điểm được lựa chọn. Hình 10.10 trình bày đồ thị cho số tỷ lệ điểm chọn (PercentScore). Bên phải là một bảng điều khiển trình bày thống kê tóm tắt cho các điểm được lựa chọn. Ở góc dưới bên phải là một bộ điều khiển cho các thay đổi tỷ lệ IRTscore bằng cách áp dụng một độ lệch tiêu chuẩn mới có ý nghĩa. Các thủ tục rescaleing chỉ áp dụng cho các IRTscore, mà là đầu ra số điểm chính của IATA.

Chức năng Paste từ menu chuột phải.

Figure 9.17 The scale review and scale setting interface

Hình 9.17 Việc xem xét mẫuvà thiết lập mẫugiao diện

9.8.1. Phân phối điểm thử nghiệm và kiểm tra thông tin

IATA hiển thị phân phối điểm như biểu đồ, nơi mà mỗi thanh đại diện cho một loạt các điểm, và chiều cao của mỗi thanh đại diện cho tỷ lệ học sinh có điểm số trong phạm vi đó. Đối với các loại điểm được thể hiện trên mẫu với các độ trung bình khoảng 0 và độ lệch chuẩn khoảng 1 (StandardizedZscore, RawZScore, và IRTscore), IATA cũng hiển các chức năng kiểm tra thông tin là một đường liền nét. Các chức năng kiểm tra thông tin mô tả cách chính xác các thử nghiệm ở trình độ khác nhau về tiêu chuẩn mẫu mà các câu hỏi được thu nhỏ (để biết thêm thông tin, hãy tham khảo Chương 15, trang 185). Các chức năng thông tin kiểm tra tỷ lệ nghịch với sai số chuẩn đo lường; nếu các thông tin kiểm tra là cao, sai số chuẩn đo lường sẽ thấp. Các chức năng thông tin kiểm tra nên được diễn giải liên quan đến các nhu cầu kiểm tra cụ thể hoặc mục đích của thử nghiệm.

Ví dụ, nếu mục đích của thử nghiệm là để xác định mức độ học sinh năng lực thấp, một bài kiểm tra đó là không phù hợp và chính xác nhất cho kiểm tra học sinh có trình độ cao sẽ và sẽ không được sử dụng như là một biện pháp thích hợp để xác định các học sinh năng lực thấp. Nói chung, các lỗi đo trung bình cho tất cả học sinh sẽ được giảm thiểu nếu các chức năng thông tin cho một bài kiểm tra là hơi rộng, nhưng về cấu trúc và vị trí, như sự phân bố về trình độ cho các học sinh đang được thử nghiệm. So sánh các chức năng kiểm tra thông tin với sự phân bố của các điểm kiểm tra có thể được làm sáng tỏ cho dù các thiết kế thử nghiệm sẽ được hưởng lợi từ sửa đổi sự cân bằng của các câu hỏi với độ chính xác lớn hơn cho khả năng năng lực cao hay thấp.

9.8.2. Tóm tắt thống kê

IATA tạo ra số liệu thống kê tóm tắt sau đây cho mỗi điểm số kiểm tra:

1. Trung bình (Mean)

2. Độ lệch chuẩn (Standard deviation)

3. Độ xiên (Skewness)

4. Khuynh hướng tập trung (Kurtosis)

5. Khoảng tứ phân vị (Interquartile range)

6. Phân vị thứ 25 (2 5th percentile)

7. Trung vị (Median)

8. Phân vị thứ 25 (75th percentile)

9. Tỷ lệ hồi đáp (Response rate)

10. Độ tin cậy (Reliability)

11. Tổng số câu được hỏi (Total number of respondents)

12. Số lượng các câu hỏi trong các bài kiểm tra (Number of items in the test)

13. Số lượng các câu hỏi đưa vào phân tích. (Number of items included in the analysis.)

Hỗ trợ thống kê đầu tiên mô tả sự phân bố các điểm ước tính. Sử dụng thanh cuộn bên phải của bảng để xem ba hàng cuối cùng.

Các thống kê này giúp xác định sự phù hợp của các điểm theo thang đo cho các mục đích khác nhau (ví dụ, phân tích thống kê trung bình hoặc báo cáo bằng điểm tứ vị phân). Thống kê trước đó mô tả các điều kiện theo đó các phân tích được tiến hành và cung cấp một đánh giá toàn diện về bài kiểm tra, mà phải được kiểm tra để xác nhận rằng các phân tích được tiến hành trên các dữ liệu phù hợp theo thông số kỹ thuật chính xác. Những thống kê này được mô tả trong phần 1 của bộ sách này. Tỷ lệ hồi đáp mô tả các số trung bình của các giá trị (không tính bỏ sót) trả lời trên mỗi item. Độ tin cậy là một biện pháp tóm tắt tổng thể chính xác trung bình của một thử nghiệm cho các mẫu học sinh. Cả hai tỷ lệ hồi đáp độ tin cậy và phạm vi 0-1 cần phải càng cao càng tốt. Tổng số câu hỏi đưa vào phân tích phản ánh thực tế là một số câu hỏi có thể được giảm từ các phân tích khi chúng được coi là không phù hợp do cách diễn đạt kém, gây nhầm lẫn cho học sinh hoặc bất cập kỹ thuật khác. Đối với các phân tích hiện nay, số câu trả lời là 262, số lượng các câu hỏi là 80, và số lượng các câu hỏi "Ok" là 79, vì câu hỏi MATHC1075 đã được gỡ bỏ từ các phân tích.

Giao diện rộng là hữu ích hơn trong tổ chức đánh giá tổng hợp cuối cùng chứ không phải là thử nghiệm thí điểm. Các mẫu thử nghiệm thí điểm không có trọng số là không đại diện, vì vậy sự phân bố các kết quả không nên được áp dụng cho tổng quát. Ngoài ra, vì không có điểm kiểm tra sẽ được báo cáo, không có nhu cầu để tạo ra điểm theo thang đo có nguồn gốc, và kết quả hơn nữa từ giao diện rộng là không liên quan đến việc phân tích các dữ liệu PILOT1. Giao diện rộng sẽ được thảo luận chi tiết hơn trong Chương 10 Bạn có thể nhấp vào "Next >>" để tiếp tục các công cụ tiếp theo.

9.9. Bước 8: CHỌN CÂU HỎI THI

Sử dụng IATA lựa chọn các câu hỏi tối ưu có sẵn bất cứ khi nào một tập tin mục dữ liệu đã được nạp hoặc tạo ra trong quá trình phân tích các dữ liệu phản hồi. IATA có thể tự động chọn các câu hỏi dựa trên những đặc điểm mục thống kê của chúng để tạo ra các bài kiểm tra hiệu quả nhất cho mục đích một quá trình thử nghiệm nhất định. Các nguyên tắc cơ bản thử nghiệm xây dựng theo IRT- là việc kiểm tra thiết kế có một số kỳ vọng về mức độ sai số đo lường mà một bài kiểm tra nên có ở các cấp độ khác nhau về trình độ ngoài các yêu cầu về sự cân đối nội dung phải được đưa vào thử nghiệm.

Nói chung, có nhiều hơn các câu hỏi trong một bài kiểm tra, sẽ càng có nhiều thông tin mà chúng có thể tạo ra đối với yêu cầu năng lực người dự thi. Thật không may, thường kiểm tra mà có quá nhiều câu hỏi là không thực tế và kết quả là không như mong muốn; các câu hỏi có thể là không cần thiết trong phạm vi đánh giá và có thể dẫn đến làm cho học sinh mệt mỏi nên sin ra đoán mò (test-taker) và ảnh hưởng đến sức khỏe học sinh, dẫn đến kết quả kém chính xác. Kiểm tra quá dài cũng gây ra nhiều tốn kém về quản lý, điểm số, và quá trình cải tiến. Để có hiệu quả nhất, một bài kiểm tra chỉ nên bao gồm các loại câu hỏi kiểm tra thông tin cơ bản nhất từ các nguồn gồm các câu hỏi có sẵn. IATA có thể giúp phát triển một thử nghiệm với số lượng tối thiểu các bài kiểm tra cần thiết để trả lờicác mục đích của các nhà hoạch định chính sách và các bên liên quan khác.

Xác định một mức độ chấp nhận của lỗi tiêu chuẩn phụ thuộc vào mục đích của việc đánh giá. Trong khi nó sẽ là lý tưởng để xây dựng một thử nghiệm với thông tin cao ở tất cả các năng lực, điều này sẽ đòi hỏi nhiều câu hỏi, làm tăng độ dài của thời gian mỗi học viên dành cho ngày thi, do đó có thể làm giảm hiệu lực của các kết quả thử nghiệm bằng cách chấp nhận sự mệt mỏi và chán nản có ảnh hưởng đến điểm thi. Nếu một bài kiểm tra được giải thích theo kiểu Norm (Norm referenced- tham chiếu), cung cấp các thông tin chi tiết (và lỗi đo thấp) cần thiết cho tất cả các cấp độ nhận thức. Ngược lại, nếu một bài kiểm tra được giải thích theo tiêu chí (Criterion referenced) chỉ cần thiết về các thông tin xung quanh ngưỡng năng lực mà tại đó các quyết định được đưa ra.

Tuy nhiên, lựa chọn câu hoit ở giai đoạn thí điểm không nên chỉ được xác định bởi các kết quả phân tích thống kê. Thời hạn hiệu lực của việc giải thích các kết quả là các yếu tố quan trọng nhất và thật sự khác biệt trong việc xây dựng chuẩn thành tích quốc gia. Các điểm kiểm tra đầy đủ và chính xác nên đại diện cho các miền năng lực được đo. Các công cụ quan trọng nhất để duy trì hiệu lực kiểm tra là các giớ hạn phạm vi lý thuyết và các bảng thông số kỹ thuật hoặc kế hoạch kiểm tra chi tiết. Một kế hoạch chi tiết sẽ giúp xác định sự cân bằng về nội dung cũng như các yêu cầu về mức độ nhận thức, kỹ năng trong một thử nghiệm (xem Anderson và Morgan, 2008).

Các giao diện để lựa chọn các loại câu hỏi thử nghiệm tối ưu được thể hiện trong hình 9.18. Ở bên trái, một trình đơn thả xuống cho phép bạn lựa chọn nguồn gốc của câu hỏi. Trong ví dụ này, các bảng "Items1" có sẵn, trong đó có hiện các kết quả của các analysis[9]. Bên dưới các lựa chọn nguồn dữ liệu là những lĩnh vực mà cho phép bạn xác định tên sẽ được áp dụng cho việc lựa chọn câu hỏi và tổng số các câu hỏi để lựa chọn từ các mẫu dữ liệu. Bảng bên dưới các lĩnh vực này chứa một danh sách của tất cả các câu hỏi hiệu chuẩn trong các nguồn dữ liệu được chọn, cùng với cấp độ trình độ "Level" và giới loại nội dung ("Nội dung") kết hợp với mỗi câu hỏi. Mặc dù sau này hai trường dữ liệu thường được đọc vào IATA trong một tập tin mục dữ liệu, dữ liệu cũng có thể được chỉnh sửa trực tiếp bằng tay trong bảng. Quá trình lựa chọn thống kê không yêu cầu cấp độ và thông số kỹ thuật, vể nội dung, nhưng có thông tin chi tiết về mỗi câu hỏi sẽ giúp bạn tối ưu hóa việc lựa chọn câu hỏi khi duy trì thể hiện nội dung như mong muốn.

Nhấp vào hộp kiểm bên trái của một tên câu hỏi sẽ buộc IATA chọn câu hỏi, bất kể tính chất thống kê của nó.

Bên dưới bảng câu hỏi, có hai điều khiển trượt cho phép bạn xác định phạm vi năng lực mà trong đó bạn muốn tăng tối đa độ chính xác của kiểm tra. Các điều khiển được đặt sao cho giá trị tối thiểu tương ứng với 2 phần trăm về trình độ và tương ứng tối đa là 98 phần trăm (các giá trị được chọn hiện tại được hiển thị ở bên phải của từng kiểm soát trượt). Bạn có thể chỉ định một phạm vi hẹp hơn, trong đó để tối đa hóa các thông tin bằng cách sửa đổi giới hạn trên và dưới để phản ánh mục tiêu đánh giá của bạn. IATA sẽ lựa chọn các câu hỏi để tạo ra các lỗi tiêu chuẩn tối thiểu về đo lường trong phạm vi trình độ giữa các giới hạn trên và dưới, giả sử một phân phối chuẩn về trình độ.

Figure 9.18 Item selection results for PILOT1 data, 50 items

Hình 9.18 item kết quả lựa chọn cho dữ liệu PILOT1, 50 câu hỏi

Mục đích chính của hướng dẫn thử nghiệm đánh giá các câu hỏi là xác định câu hỏi hữu ích nhất trong khâu cuối cùng của tổ chức đánh giá quốc gia. Bởi vì các câu hỏi đã được hiệu chuẩn với một mẫu không đại diện, nó có thể hữu ích để kiểm tra chéo quá trình lựa chọn cách thức đánh giá bằng cách sử dụng một số tiêu chí. Bởi vì mẫu là hoàn toàn từ các trường thành thị, có khả năng là sự phân bố về trình độ trung bình trong mẫu là hơi cao so với trình độ học sinh nói chung. Nói cách khác, việc lựa chọn các bài kiểm tra để tối ưu hóa độ chính xác cho học sinh có trình độ trung bình yếu trong mẫu hiện tại sẽ có khả năng tối ưu hóa độ chính xác cho học sinh trung bình trong toàn bộ học sinh. Hãy nhớ rằng chúng ta muốn tạo một bài kiểm tra cuối cùng có 50 item, chúng ta có thể nhập các thông số kỹ thuật vào IATA như sau:

1. Trong "Lựa chọn tên câu hỏi", gõ "50Items" (tên là tùy ý, chúng tôi sử dụng tên ở đây để bạn có thể so sánh các kết quả mà bạn tạo ra các kết quả trong các thư mục dữ liệu mẫu IATA).

2. Trong hộp "Tổng số các item", nhập số 50.

3. Di chuyển thanh trượt cho các ràng buộc trên để nó có một giá trị của 80; đặc điểm kỹ thuật này chỉ ra rằng việc lựa chọn câu hỏi sẽ không cố gắng để tối đa hóa độ chính xác trên mức 80% trong phân phối trình độ của các mẫu hiện tại, để bù đắp những trình độ cao hơn của các mẫu thí điểm so với trình độ học sinh nói chung.

4. Nhấp vào nút "Select Items".

Khi IATA đã thực hiện các nhiệm vụ, giao diện của bạn sẽ xuất hiện như trong hình 9.18. Ở phía bên tay trái trong danh mục, bạn có thể xem các thực tế 50 câu hỏi đã được lựa chọn. (Câu cuối cùng là MATHC1041). Ở phía bên tay phải, biểu đồ hiển thị thông tin tập và dự kiến sẽ báo lỗi đo lường các câu hỏi được chọn nếu nó được xem như một sự thử nghiệm. Kết quả chỉ ra rằng việc lựa chọn câu hỏi là chính xác nhất xung quanh các điểm 0 về trình độ (năng lực trung bình trong mẫu hiện hành). Bảng bên dưới đồ thị tóm tắt sự phân bố của các câu hỏi chọn trên khắp phạm vi nội dung và mức độ nhận thức khác nhau (cho những dữ liệu này, tất cả các câu hỏi đã được một giá trị mặc định là 1, giá trị có thể được chỉnh sửa trực tiếp trong bảng câu hỏi hoặc tải lên trong các tập tin dữ liệu ). Nếu dữ liệu trong bảng này chỉ ra rằng sự lựa chọn tối ưu về mặt thống kê không đầy đủ phù hợp với kế hoạch kiểm tra, bạn có thể chỉnh sửa để cân đối nội dung bằng cách lựa chọn và xóa các câu hỏi cụ thể bằng các hộp kiểm bên cạnh mỗi tên câu hỏi trong bảng bên trái. Khi bạn tự chọn các câu hỏi, tóm tắt các tính chất thử nghiệm trên bên phải sẽ được tự động cập nhật.

Việc lựa chọn câu hỏi này còn được ghi nhận là một bảng dữ liệu câu hỏi trong IATA với tên "CustomTest50ItemsA." Như với tất cả các kết quả được tạo ra bởi IATA, bạn có thể xem và xuất bảng dữ liệu này bằng cách tiến tới giao diện cuối cùng của quy trình làm việc (xem Phần 9.11). Các câu hỏi trong bảng được sắp xếp theo thứ tự của sự phù hợp cho các tiêu chí lựa chọn, với các câu hỏi phù hợp nhất ở đầu trang.

Với một số lượng nhỏ của các câu hỏi trong phân tích hiện tại, câu hỏi dùng có thể sử dụng IATA đơn giản để đặt hàng tất cả các câu hỏi trong chuỗi của sự phù hợp với phạm vi mong muốn về trình độ (tức là dưới 80 phần trăm trong các mẫu hiện tại). Sau đó, nhóm phát triển thử nghiệm có thể xem lại các tập tin dữ liệu câu hỏi tạo ra bởi IATA, khi lựa chọn các câu hỏi cho các bài kiểm tra cuối cùng, sử dụng một bảng xếp loại của các câu hỏi trong các điều khoản của sự phù hợp trong khi đảm bảo rằng sự cân bằng thích hợp của các nội dung khác nhau được duy trì. Để tạo ra một lựa chọn câu hỏi mới, thực hiện chương sau đây:

1. Nhấn vào nút "Clear" để loại bỏ tất cả các lựa chọn trước từ danh mục.

2. Nhập một tên mới cho việc lựa chọn câu hỏi "79Items" (nếu bạn sử dụng tên đó đã được sử dụng, các kết quả trước đó sẽ bị ghi đè).

3. Nhập số lượng tối đa của câu hỏi có sẵn (79) là tổng số các câu hỏi. Nếu bạn nhập một số lớn hơn số lượng các câu hỏi có sẵn, IATA sẽ chỉ chọn những thiết lập có sẵn.

4. Bạn có thể để lại các ràng buộc trên 80%, vì mục tiêu đánh giá về trình độ không thay đổi.

5. Bấm vào nút "Select Items".

Hình 9.19 trình bày một số kết quả của việc phân tích các thử nghiệm thí điểm 79 câu hỏi. Một bảng kết quả (có tên là "CustomTest79Iems") đã được thêm vào bộ kết quả IATA, trong đó có thể xem được trên giao diện cuối cùng của quy trình làm việc. Các nhà phát triển thử nghiệm có thể sử dụng thông tin này để giúp cải thiện chất lượng các câu hỏi được sử dụng trong các đánh giá quốc gia.

Figure 9.19 Item selection results for PILOT1 data, 79 items

Hình 9.19 item kết quả lựa chọn cho dữ liệu PILOT1, 79 câu hỏi

Quá trình lựa chọn câu hỏi phụ thuộc vào chất lượng của các câu hỏi có sẵn. IATA không thể giới thiệu chính xác cho các giới hạn cụ thể về trình độ, nếu không có các câu hỏi với các thông tin trong các vùng đó. Quá trình tự động có thể giúp chọn bài kiểm tra có sẵn tốt nhất, nhưng nó không thể tự thực hiện chính xác hơn với các câu hỏi.

Khi bạn đã kết thúc đánh giá kết quả, nhấp vào "Next >>" để tiếp tục.

9.10. Bước 9: TIÊU CHUẨN HIỆU SUẤT

Ở giai đoạn thí điểm, không có đủ bằng chứng để hỗ trợ việc thiết lập các tiêu chuẩn hoạt động. Mặc dù một số thông tin có sẵn về các thuộc tính mục thống kê và các thông số kỹ thuật được sử dụng để tạo ra các câu hỏi, vẫn chưa có bất kỳ thông tin chi tiết về việc phân phối năng lực trong số học sinh. Vì vậy, bất kỳ nỗ lực để thiết lập các tiêu chuẩn hiệu suất ở giai đoạn thí điểm sẽ là không cần thiết và có khả năng gây nhầm lẫn.

Ví dụ, việc phân tích các dữ liệu thử nghiệm thí điểm không đòi hỏi bất kỳ thiết lập tiêu chuẩn, bạn có thể nhấp vào "Next >>" để tiếp tục xem kết quả và giao diện lưu lại.

9.11. Bước 10: THỰC HIỆN QUẢN LÝ KẾT QUẢ PHÂN TÍCH

Đối với công cụ trong tất cả các quy trình phân tích, IATA tạo ra một số kết quả khác nhau ở định dạng bảng dữ liệu. Kết quả bảng dữ liệu từ IATA có thể được xem và lưu trên giao diện cuối cùng của mỗi công cụ. Giao diện xem và lưu các kết quả cho phép bạn xem lại mỗi bảng dữ liệu của kết quả tạo ra trong công cụ phân tích. Giao diện sẽ hiển thị bảng dữ liệu được chọn trong trình đơn thả xuống. Để thay đổi các nguồn dữ liệu, chọn một bảng khác nhau từ trình đơn thả xuống, như thể hiện trong hình 9.20. Chương 9 (Bảng 8.5) cung cấp một danh sách đầy đủ và mô tả các bảng dữ liệu có sẵn được tạo ra bởi IATA.

Lưu ý rằng, mặc dù bạn không chỉ tạo ra bất kỳ tiêu chuẩn hiệu suất, bảng "P Levels" được tạo ra tự động bằng cách sử dụng các giá trị mặc định đặc điểm kỹ thuật.

Figure 9.20 Viewing results from the analysis of PILOT1 data

Hình 9.20 Xem kết quả từ việc phân tích các dữ liệu PILOT1

Bạn có thể lưu các bảng kết quả trong một tập tin đầu ra duy nhất hoặc nhiều file bằng cách nhấn vào nút "Save Data". Bạn có thể lưu lại một bảng duy nhất hoặc tất cả các bảng cùng một lúc với một loạt các định dạng. Có hai định dạng tập tin được đề nghị cho IATA lưu đầu ra: Excel và SPSS (*.sav) (*.xls / * xlsx.). Nói chung, Excel là một lợi thế, bởi vì tất cả các bảng dữ liệu có thể được lưu vào một tập tin dữ liệu duy nhất. Các định dạng Excel cũng có thể được mở trong phần mềm miễn phí như OpenOffice (tải về từ http://www.openoffice.org/). Tuy nhiên, phiên bản gần đây của Excel được giới hạn tối đa là 255 biến. Nếu tập tin dữ liệu của bạn có nhiều biến hơn, IATA sẽ chỉ lưu lại 255 đầu tiên vào *.xls. Để lưu các file dữ liệu lớn hơn, bạn phải sử dụng *.sav hoặc *.xlsx định dạng. File SPSS có lợi thế có thể lưu trữ các bảng dữ liệu lớn một cách hiệu quả và có thể lưu trữ siêu dữ liệu (nếu chúng được chỉnh sửa trong các gói phần mềm SPSS). Lưu ý, tuy nhiên, SPSS có một hạn chế chính: mỗi bảng dữ liệu sẽ được lưu vào một tập tin riêng biệt.

Một hộp thoại tập tin sẽ yêu cầu bạn chỉ định tên file và vị trí cho kết quả, cũng như các định dạng đầu ra. Chọn định dạng dữ liệu mong muốn và nhấp vào nút "Save" để kết thúc việc lưu bảng hoặc các bảng (tables)[10]. Kết quả các tập tin có chứa tất cả các kết quả dạng bảng được tạo ra trong toàn bộ công cụ phân tích, cung cấp tài liệu về phân tích.

Để tham khảo, các kết quả mục dữ liệu của chương phân tích này từ bảng tên "Items1" bao gồm trong các tập tin ItemDataAllTests.xls trong bảng tính có tên ReferenceP1."

Đối với một hướng dẫn thực hiện phân tích thử nghiệm (tức là, không sử dụng dữ liệu mô phỏng), các bảng kết quả và bất kỳ đồ họa mà bạn đã sao chép và dán trong công cụ phân tích nên được cung cấp cho các nhà phát triển thử nghiệm (người biên soạn đề thi-kiểm tra), những người sau đó sẽ sử dụng các thông tin để sửa đổi các bài kiểm tra, lựa chọn, đặt hàng, và thêm các câu hỏi theo yêu cầu, để tối đa hóa độ chính xác và tính hữu dụng của các hình thức kiểm tra cuối cùng.

9.12.TÓM TẮT

Trong chương này, bạn đã được giới thiệu đến các phân tích dữ liệu thử nghiệm thí điểm với IATA. Bạn đã sử dụng "phân tích dữ liệu Response" quy trình làm việc để phân tích dữ liệu hồi đáp bằng cách sử dụng một tập tin câu trả lời quan trọng. Các giai đoạn khác nhau trong quy trình làm việc bao gồm tải các dữ liệu, quy định cụ thể việc phân tích, mục phân tích, phân tích đa chiều, phân tích các chức năng độ phân biệt câu hỏi và lựa chọn câu hỏi. Tạo điểm theo thang đo và phát triển các tiêu chuẩn hiệu suất đã không được thực hiện, bởi vì việc phân phối năng lực trong các mẫu thí điểm không đại diện cho dân số.

Trong chương tiếp theo, ví dụ tiếp tục với các bước đánh giá quốc gia cuối cùng, sau khi kiểm tra cuối cùng đã được xây dựng và quản lý các mẫu đánh giá quốc gia hoàn chỉnh.

[1] See chapter 9 for a discussion of the symbols and their meanings

[2] For more information on common issues identifiable with distractor analysis, see Chapter 15, page 170.

[3] It is unreasonable to have a loading equal to 1, because this would require each respondent to have the same score on every item. This requirement implies that the test could produce only two distinct score values, which is not very informative

[4] The values displayed in IATA have been standardized to express the proportion of total variance accounted for by each eigenvalue.

[5] Clicking on the header twice will sort the column in descending order

[6] The coefficient of sampling variation is calculated as the standard error of the S-DIF statistic divided by the absolute value of the S-DIF statistic.

[7] All results from this walkthrough are available for reference and comparison in the IATA sample data folder in the Excel table named, “ReferencePILOT1.xls.” The DIF result tables are in the worksheets with names beginning in “DIF_.

[8] You can copy any of the DIF analysis graphs, by placing the cursor on the graph and using Copy and Paste functions from the right-click menu.

[9] For different analyses that involve linking, you may select from previously calibrated item data (“Items2”) or the set of items that are common to two item data sources (“MergedItems”).

[10] If you save all tables and select the SPSS (*.sav) output format, each result table will be exported as a separate *.sav data file, with the name you provide as a prefix to all the table names

Còn nữa...!

MỘT SỐ VẤN ĐỀ GIÁO DỤC

Thứ Sáu, 15 tháng 5, 2015

Hướng dẫn sử dụng phần mềm phân tích đề thi IATA (dịch thô)_Phần 2_Chương 9