10. CHƯƠNG 10 TRÌNH BÀY ĐẦY ĐỦ MỘT PHÂN TÍCH TỔNG QUÁT VỀ QUẢN LÝ DỮ LIỆU THỬ NGHIỆM CUỐI CÙNG

Sử dụng các dữ liệu mẫu CYCLE1 thiết lập để thực hiện các bài tập này. Các Key cho bài kiểm tra này là trong bảng tính EXCEL, ItemDataAllTests.xls, trong bảng có tên CYCLE1.

Tiếp tục chương trình giới thiệu trong chương 11, nhóm đánh giá quốc gia đã tạo ra và quản lý một thử nghiệm với một mẫu học sinh quốc gia. Kiểm tra cuối cùng bao gồm 50 câu hỏi, đại diện nội dung cho năm khía cạnh (số lượng tri thức, phạm vi và không gian, quan hệ, giải quyết vấn đề, và không chắc chắn) theo tỷ lệ xác định bởi các thông số kỹ thuật kiểm tra. Các mẫu thiết kế cuối cùng là một mẫu phân tầng, với các trường học là đơn vị chọn mẫu cơ bản và một mẫu mục tiêu gồm 30 thí sinh của mỗi trường. Các mẫu bao gồm 79 trường, được lựa chọn là đại diện của 5 quốc gia vùng và phân chia theo tình trạng nông thôn và ngôn ngữ giảng dạy. Tổng số học sinh trong mẫu là 2242, đại diện cho một dân số khoảng 86.000 học sinh.

Chương sau này tương tự như việc phân tích các dữ liệu thử nghiệm thí điểm. Tuy nhiên, vì các thử nghiệm cuối cùng là có liên quan chủ yếu đến việc tạo ra và giải thích điểm, phân tích câu hỏi thường được thực hiện mà không có sự nhấn mạnh thăm dò hiện diện trong phân tích dữ liệu thử nghiệm thí điểm. Theo đó, hướng dẫn này sẽ tập trung vào các khía cạnh độc đáo của hình thức phân tích dữ liệu thử nghiệm mà phân biệt nó với phân tích các dữ liệu thử nghiệm thí điểm. Phân tích trong chương này trùng với những thảo luận trong chương trước, nếu cần thì tham khảo các thông tin được trình bày trong các chương trước.

Bắt đầu phân tích bằng cách nhấn vào "phân tích dữ liệu Response" từ menu chính IATA.

10.1. Bước 1: THÀNH LẬP CÁC PHÂN TÍCH

Các thủ tục thành lập các phân tích tương tự như trong chương 11. Trước tiên, bạn phải tải một tập tin kết quả trả lời, sau đó tải một tập tin mục dữ liệu hồi đáp và sau đó xác định các phân tích. Nếu bạn không biết làm thế nào để thực hiện chương này, tham khảo chương 11, Bước 1 đến Bước 3, để được hướng dẫn chi tiết về cách thực hiện từng nhiệm vụ. Đề cập đến các nội dung của các thư mục dữ liệu mẫu IATA:

• Các tập tin dữ liệu hồi đáp cho chương này là CYCLE1.xls. Tập tin này có 2.242 học sinh và 58 biến.

• Các tập tin mục dữ liệu là trong tập tin Excel có tên là "ItemDataAllTests.xls" trong bảng có tên "CYCLE1". Đảm bảo rằng chọn đúng các tên bảng trong giao diện mục tải dữ liệu. Các mục dữ liệu CYCLE1 có 50 hồ sơ và 4 biến.

Các item trong kiểm tra đánh giá quốc gia này là một tập hợp con của các câu hỏi thí điểm trong chương 11.

Các thông số kỹ thuật để phân tích này là hơi khác nhau từ việc phân tích dữ liệu thử nghiệm thí điểm, chủ yếu là kết quả từ việc sử dụng các mẫu khoa học trong quản lý đầy đủ các đánh giá quốc gia. Sự khác biệt đầu tiên là tên của biến xác định, được đặt tên là "CYCLE1STDID". Sự khác biệt thứ hai, trong đó sẽ có ảnh hưởng đến các kết quả phân tích, là sự hiện diện của một số thiết kế mẫu, được đặt tên là "CYCLE2weight". Những thông số kỹ thuật biến phải được lựa chọn từ trình đơn thả xuống. Trong những dữ liệu này, các giá trị là 9 đại diện cho câu trả lời còn thiếu sẽ được coi như là không chính xác. Các thông số kỹ thuật đã hoàn thành trông giống như hình 10.1.

Figure 10.1 Analysis specifications for CYCLE1 data

Hình 10.1 Phân tích kỹ thuật cho CYCLE1 dữ liệu

Lưu ý rằng các mục dữ liệu phục vụ cho đánh giá cuối cùng cũng bao gồm các dữ liệu trong phạm vi "Level" cột thứ ba của bảng bên trái. Những dữ liệu này là số tự nhiên (1 hoặc lớn hơn) mà đại diện cho mức độ dự kiến năng lực trả lời từng loại câu hỏi kiểm tra: Cấp độ 1 là mức thấp nhất của hiệu suất (tức là năng lực tối thiểu) và Level 4 đại diện cho mức cao nhất. Mặc dù tất cả các câu hỏi đều được phân cấp, nó có thể là sẽ không đạt được ngay cả học sinh ở mức năng lực thấp nhất.

Sau khi xác định rằng các thông số kỹ thuật và dữ liệu là chính xác, nhấn "Next >>" để tiếp tục. Việc phân tích sẽ bắt đầu tự động, cập nhật giao diện với sự tăng dần theo định kỳ. Với dữ liệu lớn hoặc do máy tính cấu hình thấp, phân tích có thể xuất hiện phạm vi "ước tính " là tốn thời gian nhất. Đừng đóng chương trình thực hiện; IATA sẽ tiếp tục chạy và sẽ cung cấp một bản cập nhật khi phân tích hoàn tất.

10.2. Bước 2: KẾT QUẢ PHÂN TÍCH CƠ BẢN

Bởi vì các câu hỏi có vấn đề đã được xác định và loại bỏ trong quá trình phân tích các dữ liệu thử nghiệm thí điểm, các câu hỏi không có vấn đề còn lại trong các dữ liệu thử nghiệm sau cùng. Bạn nên xác nhận rằng các mục đang xử lý một cách thích hợp bằng cách xem 1) mục phân tích và 2) các kết quả kiểm tra đa chiều. Nếu bạn không biết làm thế nào để thực hiện bước này, tham khảo chương 10, Bước 4 và bước 5, để được hướng dẫn chi tiết về cách thực hiện các nhiệm vụ. Lưu ý rằng tất cả các câu hỏi có vòng tròn màu xanh lá cây với các ngoại lệ là MATHC1046, mà chúng tôi xác định trong các chương trước xem như là có một số ít vấn đề nhưng chúng tôi giữ lại trong thử nghiệm. Tiếp tục hoạt động với các giao diện khác khi bạn đã hoàn thành.

10.3. Bước 3: PHÂN TÍCH CHỨC NĂNG ITEM

Mặc dù phân tích DIF được thực hiện trên các dữ liệu thử nghiệm thí điểm, các kết quả phân tích của DIF có xu hướng nhạy cảm với lỗi lấy mẫu, vì vậy nó là thực hành tốt để hỗ trợ tạo lại những phân tích với các mẫu đầy đủ. Một lý do khác để thực hiện các phân tích DIF là có thể có các biến bổ sung có sẵn trong các mẫu đầy đủ mà không có sẵn trong các mẫu thí điểm, hoặc các mẫu cung cấp đủ số lượng các trường hợp để thực hiện các phân tích DIF. Ví dụ, trong các dữ liệu thí điểm phân tích trong chương 9, tất cả học sinh trong mẫu là từ các khu vực đô thị, trong khi các mẫu đầy đủ phải có học sinh đến từ cả khu vực nông thôn và thành thị.

Sự lặp lại (Replication) của phân tích DIF từ chương trước là ngược lại như một bài tập độc lập. Đối với ví dụ này, chúng ta sẽ thực hiện một phân tích DIF sử dụng biến "nông thôn". Chúng tôi muốn biết nếu học sinh nông thôn thì sẽ bị gặp khó khăn hơn so với học sinh thành thị. Đối với các dữ liệu CYCLE1, một giá trị "1" cho chỉ số này có nghĩa là một học sinh đang theo học một trường nông thôn. Để xác định phân tích này và xem xét các kết quả, thực hiện bước sau đây:

1. Từ menu thả xuống bên trái, chọn biến "nông thôn". Khi bạn làm như vậy, bảng bên dưới sẽ được khu trú với các giá trị "0.00" và "1.00", với các giá trị 56% cho "0,00" và 44% cho "1,00", chỉ ra rằng trọng số 44% số học sinh trong mẫu học tại các trường nông thôn.

2. Trong bảng giá trị, bấm vào giá trị "1.00" - điều này sẽ làm cho giá trị 1,00 (đại diện cho học sinh nông thôn) được nhập như các nhóm tập trung trong hộp văn bản bên dưới.

3. Trong bảng giá trị, bấm vào giá trị "0.00" - điều này sẽ làm cho giá trị 0.00 (đại diện cho học sinh đô thị) được nhập như các nhóm tham khảo trong hộp văn bản bên dưới.

4. Nhấp vào nút "Calculate" và chờ cho các tính toán hoàn thành.

5. Khi tính toán hoàn tất, trong danh sách các mục, nhấp vào tiêu đề của "S-DIF" để sắp xếp tất cả các mục các giá trị thống kê S-DIF.

Khi bạn đã hoàn thành bước này, giao diện sẽ xuất hiện như minh họa trong hình 10.2. So với kết quả trình bày trong Chương 11, các câu hỏi có tính ổn định hơn nhiều trong thực nghiệm IRFs đã được nhìn thấy trong các dữ liệu PILOT1. Nếu bạn dùng để nhân rộng các phân tích tương tự như đã được trình bày trong chương 11 với các dữ liệu hiện tại, bạn sẽ thấy sự khác biệt tương tự nhỏ hơn giữa các nhóm nói riêng so với nhóm chung trong số liệu thống kê U-DIF. Sự ổn định tăng phần lớn là do kết quả của việc tăng kích thước mẫu. Rà soát từng câu hỏi, bạn sẽ thấy rằng phần lớn các số liệu thống kê cả S-DIF và U-DIF là ít hơn 5, chỉ ra rằng, sau khi kiểm tra sự khác biệt về trình độ giữa các học sinh nông thôn và thành thị, sự khác biệt trong trả lời câu hỏi giữa nông thôn và học sinh thành thị có xu hướng là không đáng kể.

Figure 10.2 DIF analysis results for CYCLE1 data by sex, item MATHC1008

Hình 10.2 DIF kết quả phân tích cho CYCLE1 dữ liệu theo giới tính, item MATHC1008

Mục đích của việc thực hiện phân tích DIF ở giai đoạn thử nghiệm cuối cùng của một đánh giá quốc gia là xác định nếu một câu hỏi được thực hiện không đủ điều kiện để tính điểm của học sinh. Ở giai đoạn này của sự phân tích, nó sẽ là thích hợp để chia sẻ các kết quả phân tích thống kê với các ban chỉ đạo đánh giá quốc gia, sẽ quyết định nếu các câu hỏi có khả năng có vấn đề thì cần được loại bỏ hoặc giữ lại. Nếu một câu hỏi bị xóa, các phân tích có thể được chạy lại bằng một trong hai cách là xóa Key trả lời của câu hỏi trong giao diện thông số kỹ thuật phân tích, hoặc bằng cách bỏ chọn các câu hỏi trong giao diện mục phân tích. Đối với ví dụ hiện tại, chúng tôi sẽ giả định rằng tất cả các câu hỏi sẽ được giữ lại.

Khi bạn đã hoàn thành việc rà soát tất cả các câu hỏi, nhấp vào "Next >>" để tiếp tục.

10.4. Bước 4: Mở rộng quy mô

Mẫu mặc định được sử dụng để tính toán các kết quả cho điểm theo thang đo IRT là tiêu chuẩn hoặc mẫuZ, trong đó có một trung bình là 0 và độ lệch chuẩn 1. Điểm biểu hiện trên mẫu này có thể xuất hiện vấn đề đối với các bên liên quan, vì một nửa học sinh sẽ có điểm 'tiêu cực'. Tương tự như vậy, điểm số bị giới bởi 0 và 100 cũng có những thách thức từ dư luận, hầu hết dư luận có xu hướng cho rằng số điểm 50 là đại diện cho một điểm chấp nhận được (điểm đậu), trong khi đó nó có thể không phản ánh đầu đủ năng lực nhóm kiểm tra vì tùy thuộc vào các thông số kỹ thuật kiểm tra.

Đối với mục đích xã giao, nó có thể là kết quả như mong muốn để báo cáo kết quả kiểm tra với số điểm trung bình ít hơn 50 phần trăm hoặc dưới 0. Nhà báo, các nhà hoạch định chính sách và các nhà bình luận khác có thể không đánh giá cao tính chất thống kê của các giá trị tiêu cực và không đầy đủ và từ đó suy ra rằng một nửa học sinh không đạt hoặc cao hơn tiêu chuẩn (hoặc thậm chí tệ hơn, một nửa học sinh có mức năng lực rất thấp). Một số đánh giá mẫu lớn, số điểm chuyển đổi của họ được tính vào mẫu có các giá trị là 500, 100, hoặc 50 và tương ứng độ lệch chuẩn là 100, 20 và 10,. Mỗi tổ chức đánh giá quốc gia nên chọn loại điểm có nhiều khả năng để tạo điều kiện cho việc báo cáo hiệu quả của kết quả đánh giá.

Có hai loại thang đo được thiết lập có thể được thực hiện trong IATA: thiết lập các mẫu và thay đổi tỷ lệ. Thiết lập các mẫu cho phép bạn xác định các giá trị trung bình mong muốn và độ lệch chuẩn của các điểm số theo thang đo. Thay đổi tỷ lệ (Rescaling) cho phép bạn áp dụng với một biến đổi tuyến tính đơn giản với điểm số IRT, đó là hữu ích nếu các điểm theo thang đo được so sánh với một mẫu đã được thành lập từ một phân tích trước đó. Trong trường hợp này, các thông số câu hỏi từ chu kỳ trước có thể được sử dụng, dùng để ước tính điểm thi hoặc kết quả tương đương từ dữ liệu học sinh trong chu kỳ mới để các tính toán điểm số IRT rằng IATA được so sánh với tính toán điểm số IRT chu kỳ trước. Các kết quả tính toán sau đó có thể được thay đổi tỷ lệ sử dụng các chức năng thay đổi tỷ lệ (rescale) để họ có thể so sánh với mẫu báo cáo từ chu kỳ trước.

Trong cả hai trường hợp, số tỷ lệ điểm mới được tạo ra bằng cách nhập tên của số điểm mới và xác định độ lệch tiêu chuẩn và có nghĩa là trong các trường hợp thích hợp. Khi bạn nhấp vào nút "Calculate", IATA sẽ tạo ra các điểm theo thang đo mới và hiển thị số liệu thống kê phân phối và bản tóm tắt.

Bởi vì các chức năng chính của việc phân tích các dữ liệu thử nghiệm đánh giá quốc gia là để tạo ra điểm đó có thể giải thích và phân tích được, các phạm vi rộng được quan tâm nhiều hơn với các phân tích dữ liệu thử nghiệm đầy đủ hơn là với các phân tích dữ liệu thử nghiệm thí điểm. Có hai mục đích chính là giới thiệu này sẽ thực hiện ở phạm vi lớn: đầu tiên, xem xét sự phân bố về khả năng liên quan đến việc phân phối các thông tin kiểm tra sẽ thông báo chất lượng của các kết luận có thể được thực hiện về các phạm vi khác nhau về trình độ; thứ hai, tạo ra một mẫubáo cáo về kết quả kiểm tra sẽ thiết lập một thước đo để cung cấp kết quả cho các bên liên quan.

Để xem xét sự phân bố các điểm IRT, chọn "IRTscore" từ trình đơn thả xuống ở phía trên bên trái của giao diện. Giao diện sẽ cập nhật với các chi tiết mô tả về điểm số IRT và các thông tin kiểm tra, như thể hiện trong hình 10.3. Trung bình của sự phân phối IRTscore là -0.02 và độ lệch tiêu chuẩn nếu 1.04. Những giá trị này không có ý nghĩa đối vởi bản thân chúng, vì chúng đại diện cho mẫutùy ý mà trên đó các item đã được hiệu chỉnh. Biểu đồ cho thấy các thông tin kiểm tra, minh họa bằng các đường màu đen vững chắc, hơi rộng hơn so với sự phân bố của phân bố năng lực; Kết quả này là lý tưởng về mặt thống kê ở chỗ nó làm giảm thiểu các sai số chuẩn trung bình của đo lường trong việc phân phối các năng lực (xem Chương 15, trang 185). Các nhánh tần số ở phía bên tay trái của đồ thị tại khoảng -3 trên mẫutương ứng với trình độ học sinh đã không có câu trả lời nào đúng trong bài thi. Kiểm tra này không có đủ thông tin để xác định chính xác năng lực của các học sinh, vì các thử nghiệm không có nhiều câu hỏi rất dễ; Kết quả là, các học sinh nhận được cùng một số điểm thấp.

Figure 10.3 Distribution of proficiency (IRT score) and test information, CYCLE1 data

Hình 10.3 Sự phân bố về trình độ (điểm IRT) và kiểm tra thông tin, dữ liệu CYCLE1

Những kết quả này cũng chỉ ra rằng các kiểm tra thử nghiệm là tương đối khó khăn cho học sinh. Đỉnh của biểu đồ chức năng thông tin có xu hướng được đặt tại các khu vực về trình độ mà học sinh có nhiều khả năng để trả lời đúng 50%. Trong hình 10.3, đỉnh này là một số ít so với với điểm trung bình -0.02, điều này chỉ ra rằng các học sinh trên mức trung bình có xu hướng chỉ đúng có 50% điểm. Trong khi kết quả này cung cấp thống kê chính xác tốt, kết quả có thể gây thất vọng cho các bên liên quan được sử dụng để giải thích bất kỳ kết quả bài kiểm tra nhỏ hơn 50% là thất bại.

Để tạo ra một mẫubáo cáo hữu ích hơn dựa trên số điểm IRT, sử dụng "Add Điểm New Scale" chức năng ở góc dưới bên phải của giao diện. Đối với ví dụ này, chúng ta hãy giả định rằng Ban Chỉ đạo Quốc gia yêu cầu một mẫumới mà đòi hỏi phải thiết lập bằng trung bình đến 500 và độ lệch chuẩn bằng 100. tỷ lệ này sẽ được thiết lập trong chu kỳ đánh giá quốc gia đầu tiên và được sử dụng trong chu kỳ tiếp theo cũng như để báo cáo về những thay đổi trong sự tiến bộ theo thời gian. Tên của điểm số này sẽ là "NAMscore" (đánh giá quốc gia của điểm Toán).

Để cung cấp các thông số kỹ thuật, thực hiện chương sau đây:

1. Loại "NAMscore" trong hộp văn bản dưới nhãn "Add Điểm Scale New".

2. Nhập vào giá trị "100" Độ lệch St..

3. Nhập một giá trị "500" cho trung bình.

4. Đảm bảo rằng "Thiết lập thang tỷ lệ" được chọn. Điều này sẽ đảm bảo rằng các tỷ lệ điểm tạo ra sẽ có một ý nghĩa chính xác bằng 500 và độ lệch tiêu chuẩn chính xác bằng 100 cho mẫu (tùy chọn tỷ lệ điểm <Rescale> chỉ đơn giản là sẽ điều chỉnh số điểm IRT hiện bằng giá trị trung bình và độ lệch tiêu chuẩn quy định).

5. Bấm vào nút "Calculate".

Khi IATA xử lý hoàn tất yêu cầu, nó sẽ cập nhật giao diện với các đồ thị tóm tắt và thống kê cho số tỷ lệ điểm vừa được tạo ra, được hiển thị trong hình 10.4.

Figure 10.4 Distribution and summary statistics for new scale score (NAMscore), CYCLE1 data

Hình 10.4 thống kê phân phối và bản tóm tắt cho số điểm mới mẫu(NAMscore), CYCLE1 dữ liệu

Có rất ít những hạn chế trong việc lựa chọn một score. Thang tỷ lệ có về cơ bản được sử dụng bất kỳ tên hợp lệ cho số tỷ lệ điểm gốc, miễn là nó không đã được sử dụng trong các dữ liệu hồi đáp (xem Chương 8 cho ước đặt tên và hạn chế tên biến). Giá trị trung bình có thể cho ra được bất kỳ số thực, và độ lệch tiêu chuẩn có thể cho ra được bất kỳ số thực lớn hơn 0. Tuy nhiên, điều quan trọng là để đảm bảo rằng các điểm của học sinh được báo cáo thấp nhất là không ít hơn 0. Kể từ khi số điểm thấp nhất thường là khoảng 3-4 là độ lệch chuẩn dưới trung bình, đó là thực hành tốt để thiết lập giá trị trung bình phải có ít nhất 4 lần độ lệch chuẩn trên 0. IEA, ví dụ, thường là báo cáo sử dụng kết quả trung bình là 500 và độ lệch chuẩn là 100. việc lựa chọn một phạm vi báo cáo cần được thảo luận với ban chỉ đạo đánh giá quốc gia ở giai đoạn lập kế hoạch ban đầu để tất cả các bên liên quan hiểu làm thế nào để giải thích các kết quả báo cáo.

Sau khi đã tạo ra được thang điểm mới, nhấp vào "Next >>" để tiếp tục.

10.5. Bước 5: CHỌN CÂU HỎI THI

Các dữ liệu CYCLE1 đại diện cho chu kỳ ban đầu của một chương trong tiến trình đánh giá quốc gia. Nhìn về tương lai, nó sẽ là cần thiết trong chu kỳ tiếp theo để thay đổi thử nghiệm và duy trì một mối liên hệ với các kết quả ban đầu của chu kỳ. Để làm điều này, bạn sẽ cần phải chọn một tập hợp con của các câu hỏi đó được chính xác và đại diện cho sự liên tục về trình độ.

Một thực tế hợp lý để duy trì một mối liên kết mạnh mẽ giữa các kỳ kiểm tra là để giữ khoảng 50% các câu hỏi phổ biến giữa các đánh giá liền kề, còn được gọi là các câu hỏi đã được xác lập. Để tạo thuận lợi cho quá trình lựa chọn các câu hỏi đã được xác lập, bạn có thể sử dụng các chức năng lựa chọn item của IATA để tạo ra ra một bảng xếp loại của các câu hỏi phù hợp để tối đa độ chính xác trong phạm vi thành thạo. Để thực hiện lựa chọn này, thực hiện theo chương sau:

1. Gõ tên "ItemRanks" vào tên của trường lựa chọn item.

2. Gõ số 50 trong số lĩnh vực câu hỏi để chọn tất cả các item.

3. Để lại các giới hạn trên và dưới giá trị mặc định của chúng về 2 và 98,

4. Nhấp vào nút "Select Items".

Các kết quả hoàn thành được thể hiện trong hình 10.5. Tất cả các item có sẵn đã được lựa chọn và phân loại theo nội dung và mức độ nhận thức từ thông số kỹ thuật ban đầu của chúng. Các bảng kết quả, lưu trữ như một bảng dữ liệu item IATA, được tạo ra bởi các đơn đặt hàng thông số kỹ thuật từng loại item theo khả năng phù hợp của nó để đưa vào tập hợp các item thông thường. Bảng này nên được cung cấp cho các nhà phát triển thử nghiệm chịu trách nhiệm cho việc sửa đổi các đánh giá quốc gia vòng 2 (hoặc sắp) để họ có thể chọn lọc tập hợp các câu hỏi đại diện chung nhất, có tính đến thông tin tài khoản về nội dung và giá trị tâm lý của từng loại item kiểm tra được sử dụng trong các chu kỳ 1 (hoặc đầu tiên) đánh giá quốc gia. Lý tưởng nhất, một số câu hỏi đã được xác lập nên có 20-50% số lượng các câu hỏi như kiểm tra hoàn tất, và các câu hỏi nên đại diện cho nội dung và thông số kỹ thuật kiểm tra nhận thức ở các tỷ lệ giống nhau như các thử nghiệm. Một trong các cách thức thực dụng của việc lựa chọn item này sẽ được bắt đầu với các câu hỏi được ưa chuộng nhất và phân bổ các câu hỏi vào các cell của các chi tiết kỹ thuật kiểm tra mới theo nội dung và mức độ nhận thức cho đến khi số lượng mong muốn đạt được trong mỗi cell hoặc các danh item các câu hỏi đã được chọn lọc.

Figure 10.5 Selecting items, CYCLE1 data

Hình 10.5 item chọn, CYCLE1 dữ liệu

Khi IATA đã hoàn thành phân tích này, nhấp vào "Next >>" để tiếp tục.

10.6. Bước 6: THIẾT LẬP TIÊU CHUẨN

Trong chu kỳ đầu tiên của một đánh giá quốc gia, điều quan trọng là để đặt nền móng cho việc giải thích các điểm tạo ra bởi đánh giá. Hầu hết báo cáo kết quả đánh giá hiện đại theo năng lực. Đánh giá quốc tế như PIRLS, PISA và TIMSS, cũng như nhiều đánh giá quốc gia như NAEP, công bố điểm số thành tích học sinh về hiệu suất hoặc mức điểm chuẩn (xem Greaney và Kellaghan, 2008; Kellaghan, Greaney, và Murray, 2009). TIMSS, ví dụ, báo cáo điểm số, sử dụng bốn tiêu chuẩn: "yếu", "trung bình", "khá" và "giỏi" (Martin, Mullis, và Foy, 2008). Điều quan trọng là các tiêu chuẩn hoạt động có ý nghĩa, chứ không phải là ngưỡng thống kê tùy ý như điểm tứ phân vị (percentiles), bởi vì chúng là những công cụ chính được sử dụng để tổng hợp và báo cáo kết quả học tập. Quá trình xác định các tiêu chuẩn hiệu suất có ý nghĩa được gọi là thiết lập tiêu chuẩn.

IATA tạo điều kiện cho các thủ tục thiết lập tiêu chuẩn bằng cách đầu tiên thiết lập xác suất trả lời chính xác cho từng câu hỏi cụ thể (RP), sau đó tính toán năng lực (giá trị RP) kết hợp với các quy định RP. Ví dụ, nếu một xác suất (RP) được thiết lập ở mức 50%, sau đó giá trị RP cho một câu hỏi sẽ là năng lực kết hợp với cơ hội 50% trả lời chính xác. Một loạt các xác suất trả lời (RP) được sử dụng bởi những đánh giá khác nhau, thông thường từ 50% đến 80% - thực tế phổ biến nhất là sử dụng 67%, có xu hướng được tối ưu về mặt thống kê ở độ khó câu hỏi. Tuy nhiên, sự lựa chọn RP cũng cần được định rõ các định nghĩa chuẩn mực những gì xác suất trả lời đúng là đảm bảo chắc chắn về kiến thức và cần tính toán đến việc những kết quả sau phân tích của các tiêu chuẩn sẽ được sử dụng như thế nào. Ví dụ, trong một bối cảnh giáo dục, nơi mà những hậu quả của báo cáo không chính xác có xu hướng gia tăng so với các báo cáo trung thực, khi đó RP thấp hơn có thể được ưa thích.

Trước khi phân tích các dữ liệu, một bảng điều khiển của các bên liên quan bao gồm các chuyên gia trong chương của tiến trình đào tạo và giảng dạy, tham khảo ý kiến với Ban chỉ đạo đánh giá quốc gia, nên quyết định về số lượng các năng lực để được sử dụng. Một số đánh giá quốc gia chỉ đơn giản là chọn hai cấp độ như "chấp nhận được" và "không thể chấp nhận được"; những câukhác chọn ba cấp độ như "Yếu", "trung bình", và "khá", trong khi những câukhác như TIMSS và PISA, sử dụng bốn hoặc nhiều hơn. Nếu bảng điều khiển các bên liên quan quyết định nhiều hơn hai cấp độ, ngoại trừ mức thấp nhất, mỗi cấp độ thông thạo cần được xác định bởi một tập hợp các câu hỏi được coi là học sinh "có thể trả lời được" hiển thị mức độ thực hiện. Nói chung, trừ khi có hàng trăm câu hỏi thuộc các đánh giá (đòi hỏi một thiết kế được lặp đi lặp lại), sẽ không có đủ các câu hỏi để xác định đầy đủ hơn ba hoặc bốn cấp độ.

Các giao diện để thực hiện phân tích này được thể hiện trong hình 10.6. Ở bên trái, một trình đơn thả xuống cho phép bạn chọn nguồn gốc của câu hỏi để lựa chọn item. Như với giao diện lựa chọn item, bạn có thể lựa chọn bất kỳ nguồn sẵn có trong công cụ hiện tại của item dữ liệu. Trong các phân tích hiện tại, chỉ có "Items1" bảng là available15[1].Đối với phân tích công cụ mà làm cho việc sử dụng các liên kết, các "Items2" và "Merge" bảng cũng có sẵn.). Các câu hỏi từ các nguồn được chọn sẽ được liệt kê trong bảng bên dưới trình đơn thả xuống. Các giá trị trong "Level" cột có thể được chỉnh sửa trực tiếp trong mỗi hàng. Để ước tính ngưỡng tối ưu về mặt thống kê dựa trên việc phân loại câu hỏi hiện tại, di chuyển thanh trượt dọc ở chính giữa của giao diện cho các RP mong muốn. Khi giao diện được mở ra, các RP mặc định là 67%, cho thấy rằng các tiêu chí sử dụng để xếp loại các câu hỏi hoặc ước tính ngưỡng tối ưu là một xác suất 67% của một trả lời chính xác theo từng câu hỏi.

Khi bạn nhấn chuột vào thanh trượt dọc hoặc điều chỉnh giá trị của nó, IATA sẽ cập nhật các ngưỡng tối ưu và tạo ra các kết quả ở bên tay phải trong cửa sổ đồ thị và bảng kết quả ở phía dưới. Biểu đồ minh họa vị trí của mỗi ngưỡng với đường thẳng đứng so với sự phân bố về khả năng và chức năng kiểm tra thông tin. Thông tin này cho thấy tính hữu ích của các cấp. Ví dụ, nếu có rất ít câutrả lời trong một cấp độ, sau đó bất kỳ thống kê tóm tắt mô tả các học sinh ở mức độ đó sẽ là quá nhỏ hoặc không ổn định để giải thích được. Tương tự như vậy, nếu kiểm tra là không chính xác ở ngưỡng cửa của một cấp độ, sau đó phân loại học sinh vào cấp đó sẽ không chính xác.

Bảng bên dưới cửa sổ đồ thị mô tả các item đại diện cho mỗi cấp độ với giá trị trung bình và độ lệch chuẩn của item b-thông số. Trong mọi tình huống thì hầu hết các cột trong bảng chứa các ngưỡng đã được ước tính cho mỗi cấp độ. Trong hình 10.6, độ lệch trung bình và tiêu chuẩn của các b-tham số (b-parameters) cho mức 4 là, 0,77 và 0,38, tương ứng. Ngưỡng RP67 cho mức 4 là 1,08. Những số liệu thống kê hữu ích trong việc xác định sự phân công của câu hỏi là hợp lý. Ví dụ, nếu độ lệch chuẩn của các item trong một mức độ lớn hơn khoảng cách giữa chương hoặc ngưỡng của các cấp liền kề, các cơ sở thống kê để xác định mức độ có thể nhỏ. Đối với kết quả này, độ lệch chuẩn trong mức khoảng 0,35 và khoảng cách giữa các mức kế cận là khoảng 0,4, điều này cho thấy rằng mức độ được xác định rõ.

Figure 10.6 Default performance standards interface, CYCLE1 data

Hình 10.6 Mặc định tiêu chuẩn thực hiện giao diện, CYCLE1 dữ liệu

IATA sử dụng sự phân định các item để phát triển các ngưỡng hỗ trợ cho các nhóm câu hỏi trên mẫunăng lựcIRT. Các câu hỏi thường được giao cho một cấp (hoặc một số loại hệ thống phân cấp về nhận thức, chẳng hạn như phân loại của Bloom) trong suốt quá trình phát triển câu hỏi và thử nghiệm. Tuy nhiên, quá trình xác định mức độ để đánh giá cần linh hoạt và lặp đi lặp lại. IATA cho phép các câu hỏi được phân định và điều chuyển đến trình độ khác nhau trong quá trình phân tích. Kinh nghiệm cho thấy rằng các nhà phát triển các quy trình kiểm tra mức độ nhận thức và chương trong tiến trình giảng dạy cho rằng các học sinh sử dụng để trả lời một câu hỏi là không nhất thiết phải là những học sinh thực sự sử dụng. Các chuyên gia sẽ sử dụng số liệu thống kê hàng loạt được tạo ra bởi IATA để xác minh phân loại item ban đầu của chúng hoặc để phân loại lại các câu hỏi. Một phương pháp phổ biến để làm điều này được biết đến như là thủ tục Bookmark.

Với thủ tục Bookmark, các item được sắp xếp theo giá trị RP của họ và thường được sắp xếp trong một cuốn sách nhỏ, với một item trên mỗi trang, sắp xếp theo giá trị RP. Các bảng điều khiển bên liên quan chịu trách nhiệm về tiêu chuẩn thiết lập có thể xem qua các item theo thứ tự giá trị RP và xác định ranh giới giữa các nhóm nhận thức riêng biệt của câu hỏi mà các câu hỏi đại diện cho một tiêu chuẩn hiệu suất cao hơn. Điểm năng lựckết hợp với những ranh giới này có thể được sử dụng để phân loại cả các bài kiểm tra và kết quả thi của học sinh, và quá trình này có thể được nhân rộng với giá trị RP khác nhau để xác nhận. Các item có thể được phân loại cũng được cập nhật trong IATA trong "Level" cột và sử dụng để thống kê ước tính ngưỡng để phân loại học sinh.
Hãy xem xét một thiết kế mà các bên liên quan đã quyết định sử dụng một RP 50% để xác nhận việc phân loại ban đầu của các câu hỏi. Để cung cấp các bằng chứng cần thiết để thực hiện xác nhận này và phân loại lại, hoàn tất chương sau đây:

1. Đặt RP đến 50% bằng cách click và kéo thanh trượt như trong hình 10.7.

2. Nhấp vào nút "Save Bookmark Data". IATA sẽ tạo ra một cuộc đối thoại xác nhận để thông báo cho bạn biết rằng các dữ liệu đã được lưu.

3. Nhấp vào "Next >>" để điều hướng đến các kết quả xem màn hình.

4. Chọn "BookmarkData" bảng từ trình đơn thả xuống.

Figure 10.7 Performance standards interface with RP=50%, CYCLE1 data

Hình 10.7 Hiệu suất tiêu chuẩn giao diện với RP = 50%, CYCLE1 dữ liệu

Kết quả của việc tạo ra các dữ liệu Bookmark được hiển thị trong hình 10.8. Các dữ liệu bao gồm các item tên (Name), các thông số IRT (a, b, và c), phân loại cấp độ hiện có (Level), các tập tin nguồn của các thống kê item (Source), và các giá trị RP (RP50) cho mỗi item. Trong trường hợp này, chỉ có một cột giá trị RP đơn, nhưng một bảng dữ liệu bookmark có thể bao gồm một số cột giá trị RP. Bảng lựa chọn các kết quả sẽ được tạo ra và cung cấp đến bảng điều khiển bên liên quan chịu trách nhiệm cho việc thiết lập các tiêu chuẩn. Khi sắp xếp theo các cột "RP50", dữ liệu có thể thông báo trong chương của thủ tục Bookmark phân loại các trình độ đối với mỗi câu hỏi, và luân phiên xác định điểm cắt để xác định năng lực. Sử dụng các thủ tục Bookmark, các bên liên quan xem xét từng item theo thứ tự giá trị RP của nó. Khi các nhà phê bình gặp một item mà họ cho rằng nó đại diện cho một tiêu chuẩn cao hơn về hiệu suất, họ thêm một "bookmark" tại địa điểm đó. Các giá trị RP ngay lập tức trước khi đến các địa điểm đánh dấu đại diện cho các ngưỡng được đề xuất cho các năng lực. Một sự kết hợp của các cuộc thảo luận nhóm và trung bình thống kê thường được sử dụng để kết hợp các ngưỡng khác nhau được tạo ra bởi các nhà phê bình khác nhau để tạo ra các ngưỡng nhận thức. Để phát triển chất lượng của mỗi trình độ, các câu hỏi được phân loại theo các ngưỡng chung, và các cấp độ được mô tả trong các điều khoản của các năng lực cần thiết của các câu hỏi thành phần của bài kiểm tra.

Figure 10.8 Bookmark data for CYCLE1 data, RP=50%

Hình 10.8 dữ liệu Bookmark cho CYCLE1 dữ liệu, RP = 50%

Trong thực tế, một loạt các thông tin, bao gồm các thông số kỹ thuật câu hỏi, tài liệu tham khảo hay giáo trình, văn bản quy phạm và các định nghĩa của những gì học sinh biết và có thể làm được ở mỗi năng lực, cần được cung cấp đồng thời với bảng điều khiển của các bên liên quan chịu trách nhiệm thiết lập tiêu chuẩn. Các bên liên quan phải tiến hành cân bằng các nguồn thông tin khác nhau và xác định cut-điểm cắt và nhiệm vụ của các bài kiểm tra các cấp độ một cách hữu ích nhất. Theo quyết định của họ, các nhà phê bình cũng có thể quyết định sử dụng phân loại câu hỏi được định nghĩa trước về thời gian bởi các nhà phát triển item thay vì phân loại lại các câu hỏi dựa trên các kết quả của các thủ tục Bookmark. Trong cả hai trường hợp, các ngưỡng tính của IATA đại diện cho các ngưỡng tối ưu về mặt thống kê cho các phân loại item quy định.

Các ngưỡng tối ưu khuyến cáo của IATA nên được hiểu như những gợi ý và cần được tiếp tục điều chỉnh bằng tay cho các mục đích truyền đại thông tin. Bạn có thể tự thay đổi các mức ngưỡng bằng cách chỉnh sửa các ngưỡng trực tiếp trong bảng kết quả. Sau khi bạn thay đổi giá trị (s), đồ thị được tự động cập nhật. Những điều chỉnh phổ biến nhất được thực hiện bao gồm việc đưa các ngưỡng như nhau khoảng cách đều nhau hoặc sẽ giao cho các ngưỡng đó, sau khi áp dụng các hằng số lớn, xảy ra ở toàn bộ số gia tăng (ví dụ, 5 hoặc 10). Đánh giá chuyên môn nên được thực hiện khi đối chiếu từ các phân tích thống kê và nội dung với các nhu cầu liên quan đến kết quả đối với khán giả. Đơn giản nên được cân đối với truyền thông chính xác sự khác biệt có ý nghĩa trong hoạt động của học sinh.

Đối với ví dụ hiện tại, giả sử rằng các bên liên quan, sau khi sử dụng các dữ liệu minh họa trong hình 10.8 để tạo thuận lợi cho việc xem xét item item trong một thủ tục Bookmark, đề xuất việc thiết lập sau đây của cut-điểm: -0,85, -0,25, 0,35, và 0,95 để xác định các mức độ khác nhau. Học sinh có điểm rơi xuống dưới -0,85 sẽ được phân loại là hạ xuống dưới cấp 1. Những ngưỡng được chỉ khoảng xấp xỉ so với giá trị tối ưu về mặt thống kê cho thấy trong hình 10.7, nhưng hầu hết các bên liên quan có xu hướng ủng hộ làm tròn số và thậm chí cả làm gia tăng điểm số bởi vì cảm giác trực quan họ thấy vậy, ngay cả khi kết quả không phải là tối ưu về mặt thống kê.

Nhấp vào nút "<< Back" để trở về giao diện tiêu chuẩn hoạt động, nơi bạn có thể ghi lại những cắt-điểm trong các tập tin dữ liệu kết quả và phân định học sinh đến mức thích hợp. Thực hiện chương sau đây:

1. Nhập các giá trị được đề nghị tạo ra bởi các ủy ban của các bên liên quan vào các hàng thích hợp trong cột có nhãn "Threshold". Nhấn Enter sau khi nhập cảnh cuối cùng để đảm bảo IATA cập nhật giao diện một cách chính xác.

2. Nhấp vào nút "Thêm Levels". IATA sẽ phân định học sinh đến mức độ thích hợp của bài kiểm tra dựa trên điểm số IRT của họ.

Hình 10.9 minh họa sự xác định các ngưỡng cho các mức hiệu năng. Các cấp là bằng nhau, và áp dụng đối với một tỷ lệ hợp lý các học sinh ở mỗi cấp. Mặc dù không có lý do toán học cho khoảng cách bằng nhau của các ngưỡng, thực tế phổ biến ở hầu hết các đánh giá quốc gia và quốc tế là sử dụng các ngưỡng như nhau khoảng cách đều nhau vì chúng cho thấy là trực quan hơn đối với khán giả, là các đối tượng chính cho bản tóm tắt về các năng lực. Ngoài ra, số lượng thông tin ở từng ngưỡng là ít nhất hai phần ba số thông tin thử nghiệm tối đa, trong đó chỉ ra rằng các thử nghiệm là tương đối chính xác tại từng ngưỡng để đưa ra quyết định giải thích.

Figure 10.9 Performance standards interface with manually-set thresholds for CYCLE1 data

Hình 10.9 Hiệu suất tiêu chuẩn giao diện với ngưỡng tay-set cho CYCLE1 dữ liệu

Trong phần "Điểm số" bảng dữ liệu, có thể xem được trên màn hình cuối cùng của công cụ phân tích, hồ sơ cho mỗi học sinh cũng sẽ có một biến có tên là "Level."

Biến này chứa mức độ tiêu chuẩn hiệu suất mà mỗi học sinh được chỉ định dựa trên ngưỡng hiển thị trong Hình 10.9.

Khi bạn đã hoàn thành việc thiết lập các ngưỡng tiêu chuẩn thực hiện và áp dụng chúng vào các điểm của học sinh, nhấp vào "Next >>" để tiếp tục giao diện để xem và lưu kết quả.

10.7. Bước 7: LƯU KẾT QUẢ

Về giao diện xem và lưu lại kết quả, bạn có thể xem kết quả tạo ra bằng các ví dụ chương hiện tại. Tất cả các bảng phải được lưu lại cho cả hai tài liệu dự án và tạo điều kiện để thử nghiệm kết nối với các chu kỳ tiếp theo của dữ liệu. Để tham khảo, các kết quả mục dữ liệu của chương phân tích này đầy đủ trong các tập tin ItemDataAllTests.xls, trong bảng tính có tên "ReferenceC1."

10.8. TÓM TẮT

Trong chương này, bạn xem xét các chức năng phân tích dữ liệu chính trong công cụ đầu tiên của IATA. Ngoài những phân tích phổ biến với dữ liệu thử nghiệm, phân tích các dữ liệu thử nghiệm đầy đủ đã sử dụng các giao diện mẫumở rộng và sự phát triển của các tiêu chuẩn hiệu suất.

Trong hướng dẫn trong các chương sau đây, sẽ được xây dựng trên các kỹ thuật được sử dụng trong các ví dụ. Hai cách thức mới sẽ được giới thiệu để phân tích dữ liệu và phân tích nêu rõ: bài kiểm tra lặp lại cân bằng và bài kiểm tra một phần tín dụng.

[1] For analyses workflows that make use of linking, the “Items2” and “Merged” tables are also available.

Còn nữa....!!!

MỘT SỐ VẤN ĐỀ GIÁO DỤC

Thứ Năm, 28 tháng 5, 2015

Hướng dẫn sử dụng phần mềm phân tích đề thi IATA (dịch thô)_Phần 3_Chương 10