10. CHƯƠNG 10 TRÌNH BÀY ĐẦY ĐỦ MỘT PHÂN TÍCH TỔNG QUÁT VỀ QUẢN LÝ DỮ LIỆU THỬ NGHIỆM CUỐI CÙNG
Sử dụng các dữ liệu mẫu CYCLE1 thiết lập để thực hiện các
bài tập này. Các Key cho bài kiểm tra này là trong bảng tính EXCEL,
ItemDataAllTests.xls, trong bảng có tên CYCLE1.
Tiếp tục
chương trình giới thiệu trong chương 11, nhóm đánh giá quốc gia đã tạo ra và quản lý
một thử nghiệm với một mẫu học sinh quốc gia. Kiểm tra cuối cùng bao gồm 50 câu
hỏi, đại diện nội dung cho năm khía
cạnh (số lượng tri thức, phạm
vi và không gian, quan hệ, giải quyết vấn đề, và không
chắc chắn) theo tỷ lệ xác định bởi các thông số kỹ thuật kiểm tra. Các mẫu
thiết kế cuối cùng là một mẫu phân tầng, với các trường học là đơn vị chọn mẫu
cơ bản và một mẫu mục tiêu
gồm 30 thí sinh của mỗi trường. Các mẫu bao gồm 79 trường, được lựa chọn là đại
diện của 5 quốc gia vùng và phân chia theo tình trạng nông thôn và ngôn ngữ
giảng dạy. Tổng số học sinh trong mẫu là 2242, đại diện cho một dân số khoảng
86.000 học sinh.
Chương sau
này tương tự như việc phân tích các dữ liệu thử nghiệm thí điểm. Tuy nhiên, vì
các thử nghiệm cuối cùng là có liên quan chủ yếu đến việc tạo ra và giải thích điểm, phân tích câu hỏi thường được thực
hiện mà không có sự nhấn mạnh thăm dò hiện diện trong phân tích dữ liệu thử
nghiệm thí điểm. Theo đó, hướng dẫn này sẽ tập trung vào các khía cạnh độc đáo
của hình thức phân tích dữ
liệu thử nghiệm mà phân biệt nó với
phân tích các dữ liệu thử nghiệm thí điểm. Phân tích trong chương này trùng với những
thảo luận trong chương trước, nếu
cần thì tham khảo các thông tin được trình bày trong các chương trước.
Bắt đầu phân tích bằng cách nhấn vào
"phân tích dữ liệu Response" từ menu chính IATA.
10.1. Bước 1: THÀNH LẬP CÁC PHÂN TÍCH
Các thủ tục thành lập các phân tích tương tự như trong chương
11. Trước tiên, bạn phải tải một tập tin kết
quả trả lời, sau đó tải một tập tin mục dữ liệu hồi đáp và sau đó xác định
các phân tích. Nếu bạn không biết làm thế nào để thực hiện chương này, tham
khảo chương 11, Bước 1 đến Bước 3, để được hướng dẫn chi tiết về cách thực hiện
từng nhiệm vụ. Đề cập đến các nội dung của các thư mục dữ liệu mẫu IATA:
• Các tập tin dữ liệu hồi đáp cho chương này là
CYCLE1.xls. Tập tin này có 2.242 học
sinh và 58 biến.
• Các tập tin mục dữ liệu là trong
tập tin Excel có tên là "ItemDataAllTests.xls" trong bảng có tên
"CYCLE1". Đảm bảo rằng chọn đúng các tên bảng trong giao diện mục tải dữ liệu. Các mục dữ liệu CYCLE1 có
50 hồ sơ và 4 biến.
Các item trong kiểm tra đánh giá quốc gia này là một tập
hợp con của các câu hỏi thí điểm trong chương 11.
Các thông số kỹ thuật để phân tích này là hơi khác nhau
từ việc phân tích dữ liệu thử nghiệm thí điểm, chủ yếu là kết quả từ việc sử
dụng các mẫu khoa học trong quản lý đầy đủ các đánh
giá quốc gia. Sự khác biệt đầu tiên là tên của biến xác định, được đặt tên là
"CYCLE1STDID". Sự khác biệt thứ hai, trong đó sẽ có ảnh hưởng đến các
kết quả phân tích, là sự hiện diện của một số thiết kế mẫu, được đặt tên là "CYCLE2weight".
Những thông số kỹ thuật biến phải được lựa chọn từ trình đơn thả xuống. Trong
những dữ liệu này, các giá trị là
9 đại diện cho câu trả lời còn thiếu sẽ được coi như là không
chính xác. Các thông số kỹ thuật đã hoàn thành trông giống như hình 10.1.

Figure
10.1 Analysis specifications for CYCLE1 data
Hình 10.1 Phân tích kỹ thuật cho CYCLE1 dữ liệu
Lưu ý rằng các mục dữ liệu phục
vụ cho đánh giá cuối cùng cũng bao gồm các dữ liệu trong phạm vi "Level" cột thứ ba của bảng bên
trái. Những dữ liệu này là số tự nhiên (1 hoặc lớn hơn) mà đại diện cho mức độ
dự kiến năng lực
trả lời từng loại câu hỏi kiểm tra: Cấp độ
1 là mức thấp nhất của hiệu suất (tức là năng
lực tối thiểu) và Level 4 đại diện cho
mức cao nhất. Mặc dù tất cả các câu
hỏi đều được phân cấp, nó
có thể là sẽ không đạt được ngay cả học sinh ở
mức năng lực thấp nhất.
Sau khi xác định rằng các thông số kỹ thuật và dữ liệu là
chính xác, nhấn "Next >>" để tiếp tục. Việc phân tích sẽ bắt
đầu tự động, cập nhật giao diện với sự
tăng dần theo định kỳ. Với dữ liệu lớn hoặc do máy tính cấu hình thấp, phân tích có thể
xuất hiện phạm vi "ước tính " là tốn thời gian nhất. Đừng đóng chương trình thực hiện; IATA sẽ tiếp tục
chạy và sẽ cung cấp một bản cập nhật khi phân tích hoàn tất.
10.2. Bước 2: KẾT QUẢ
PHÂN TÍCH CƠ BẢN
Bởi vì các câu hỏi có vấn đề đã được xác định và loại bỏ
trong quá trình phân tích các dữ liệu thử nghiệm thí điểm, các câu hỏi không có vấn đề còn lại
trong các dữ liệu thử nghiệm sau
cùng. Bạn nên xác nhận rằng các mục đang xử lý một
cách thích hợp bằng cách xem 1) mục phân tích và 2) các kết quả
kiểm tra đa chiều. Nếu bạn không
biết làm thế nào để thực hiện bước này, tham khảo chương
10, Bước 4 và bước 5, để được hướng dẫn chi tiết về cách thực hiện các nhiệm
vụ. Lưu ý rằng tất cả các câu hỏi có vòng tròn màu xanh lá cây với các ngoại lệ
là MATHC1046, mà
chúng tôi xác định trong các chương trước xem
như là có một số ít vấn đề nhưng chúng
tôi giữ lại trong thử
nghiệm. Tiếp tục hoạt động với các giao diện khác khi bạn đã hoàn thành.
10.3. Bước 3: PHÂN TÍCH CHỨC NĂNG ITEM
Mặc dù phân tích DIF được thực hiện trên các dữ liệu thử
nghiệm thí điểm, các kết quả phân tích của DIF có xu hướng nhạy cảm với lỗi lấy
mẫu, vì vậy nó là thực hành tốt để hỗ trợ tạo lại những phân tích với các mẫu
đầy đủ. Một lý do khác để thực hiện các phân tích DIF là có thể có các biến bổ
sung có sẵn trong các mẫu đầy đủ mà không có sẵn trong các mẫu thí điểm, hoặc
các mẫu cung cấp đủ số lượng các trường hợp để thực hiện các phân tích DIF. Ví
dụ, trong các dữ liệu thí điểm phân tích trong chương 9, tất cả học sinh trong
mẫu là từ các khu vực đô thị, trong khi các mẫu đầy đủ phải có học sinh đến từ
cả khu vực nông thôn và thành thị.
Sự lặp lại (Replication) của phân tích DIF từ chương trước là ngược lại như một bài tập độc lập. Đối với ví
dụ này, chúng ta sẽ thực hiện một phân tích DIF sử dụng biến "nông
thôn". Chúng tôi muốn biết nếu học sinh nông thôn thì sẽ bị gặp
khó khăn hơn so với học sinh thành thị. Đối với các dữ liệu
CYCLE1, một giá trị "1" cho chỉ số này có nghĩa là một học sinh đang
theo học một trường nông thôn. Để xác định phân tích này và xem xét các kết
quả, thực hiện bước sau đây:
1. Từ menu thả xuống bên trái, chọn biến "nông
thôn". Khi bạn làm như vậy, bảng bên dưới sẽ được khu trú với các giá trị
"0.00" và "1.00", với các giá trị 56% cho "0,00"
và 44% cho "1,00", chỉ ra rằng trọng số 44% số học sinh trong mẫu học tại các trường nông thôn.
2. Trong bảng giá trị,
bấm vào giá trị "1.00" - điều này sẽ làm cho giá trị 1,00 (đại diện
cho học sinh nông thôn) được nhập như các nhóm tập trung trong hộp văn bản bên
dưới.
3. Trong bảng giá trị,
bấm vào giá trị "0.00" - điều này sẽ làm cho giá trị 0.00 (đại diện
cho học sinh đô thị) được nhập như các nhóm tham khảo trong hộp văn bản bên
dưới.
4. Nhấp vào nút "Calculate" và chờ cho các tính
toán hoàn thành.
5. Khi tính toán hoàn tất, trong danh sách các mục, nhấp vào tiêu đề
của "S-DIF" để sắp xếp tất cả các mục các giá trị thống
kê S-DIF.
Khi bạn đã hoàn thành
bước này, giao diện sẽ xuất hiện như minh họa trong hình 10.2. So với kết quả
trình bày trong Chương 11, các câu hỏi có tính ổn định hơn nhiều trong thực
nghiệm IRFs đã được nhìn thấy trong các dữ liệu PILOT1. Nếu bạn dùng để nhân rộng các
phân tích tương tự như đã được trình bày trong chương 11 với các dữ liệu hiện
tại, bạn sẽ thấy sự khác biệt tương tự nhỏ hơn giữa các nhóm nói riêng so với nhóm chung trong số liệu thống kê
U-DIF. Sự ổn định tăng phần lớn là do
kết quả của việc tăng kích thước mẫu. Rà soát từng câu hỏi, bạn sẽ thấy
rằng phần lớn các số liệu thống kê cả S-DIF và U-DIF là ít hơn 5, chỉ ra rằng,
sau khi kiểm tra sự khác biệt về trình độ giữa các học sinh nông thôn và thành
thị, sự khác biệt trong trả
lời câu hỏi giữa nông thôn và học sinh thành thị có xu hướng là không đáng kể.

Figure
10.2 DIF analysis results for CYCLE1 data by sex, item MATHC1008
Hình 10.2 DIF kết quả
phân tích cho CYCLE1
dữ liệu theo giới tính, item MATHC1008
Mục đích của
việc thực hiện phân tích DIF ở giai đoạn thử
nghiệm cuối cùng của một đánh giá quốc gia là
xác định nếu một câu hỏi được thực
hiện không đủ điều kiện để tính
điểm của học sinh. Ở giai đoạn này của sự phân tích, nó sẽ là
thích hợp để chia sẻ các kết quả phân tích
thống kê với các ban
chỉ đạo đánh giá quốc gia, sẽ quyết định nếu các câu hỏi có khả năng có vấn đề thì cần
được loại bỏ hoặc giữ lại.
Nếu một câu hỏi bị xóa, các phân tích có
thể được chạy lại bằng một trong hai cách
là
xóa Key trả lời của câu hỏi trong giao diện thông số kỹ thuật phân tích,
hoặc bằng cách bỏ chọn các
câu hỏi trong giao diện mục
phân tích. Đối với ví dụ hiện
tại, chúng tôi sẽ giả định rằng
tất cả các câu hỏi sẽ được
giữ lại.
Khi bạn đã hoàn thành việc rà
soát tất cả các câu hỏi, nhấp vào "Next >>"
để tiếp tục.
10.4. Bước 4: Mở rộng quy mô
Mẫu mặc định được sử dụng để tính toán các kết quả
cho điểm theo thang đo IRT là tiêu chuẩn hoặc
mẫuZ, trong đó có một trung bình là 0 và độ lệch
chuẩn 1. Điểm biểu hiện trên mẫu này có
thể xuất hiện vấn đề đối với các bên liên quan, vì một nửa học sinh
sẽ có điểm 'tiêu cực'. Tương tự như vậy, điểm số bị giới bởi 0 và 100 cũng có những thách thức từ dư luận, hầu
hết dư luận có
xu hướng cho rằng số điểm 50
là đại diện cho một điểm chấp nhận được (điểm đậu), trong khi đó nó có
thể không phản
ánh đầu đủ năng lực nhóm kiểm tra vì tùy
thuộc vào các thông số kỹ
thuật kiểm tra.
Đối
với mục đích xã giao, nó có thể là kết quả như mong muốn để báo cáo kết quả kiểm tra với số điểm trung bình ít hơn 50
phần trăm hoặc dưới 0. Nhà báo, các nhà hoạch định
chính sách và các
nhà bình luận khác có thể không đánh
giá cao tính chất thống kê của
các giá trị tiêu cực và không đầy đủ và từ đó suy
ra rằng một nửa học sinh không đạt hoặc cao hơn tiêu chuẩn (hoặc
thậm chí tệ hơn, một nửa học sinh có mức năng
lực rất thấp). Một số đánh giá
mẫu lớn, số điểm chuyển đổi của họ được tính vào mẫu có các giá trị là 500, 100,
hoặc 50 và
tương ứng độ lệch chuẩn là 100, 20 và 10,. Mỗi tổ chức đánh giá quốc gia nên chọn loại điểm
có nhiều khả năng để tạo điều kiện
cho việc báo
cáo hiệu quả của kết quả đánh giá.
Có
hai loại thang đo được thiết lập có thể được
thực hiện trong IATA: thiết lập các mẫu và thay đổi tỷ lệ. Thiết lập các mẫu cho phép bạn xác định các giá
trị trung bình mong muốn và độ lệch chuẩn của các điểm
số
theo thang đo. Thay đổi tỷ lệ (Rescaling) cho phép bạn áp dụng với
một biến đổi tuyến tính
đơn giản với điểm
số IRT, đó là hữu ích nếu các điểm theo thang
đo được so sánh với một mẫu đã được
thành lập từ một phân tích trước đó. Trong
trường hợp này, các thông số câu hỏi từ chu kỳ trước có thể được sử dụng, dùng để
ước tính điểm thi hoặc
kết quả tương đương từ dữ liệu học sinh trong
chu kỳ mới để các tính toán
điểm số
IRT rằng IATA được so sánh với tính
toán điểm số IRT chu kỳ trước. Các
kết quả tính toán sau đó có thể được thay
đổi tỷ lệ sử dụng các chức năng thay
đổi tỷ lệ (rescale) để họ có thể
so sánh với mẫu báo cáo từ chu kỳ trước.
Trong cả hai trường hợp, số tỷ lệ điểm mới được tạo ra bằng cách nhập tên của số
điểm mới và xác định độ lệch tiêu chuẩn và có
nghĩa là trong các trường hợp thích hợp. Khi bạn nhấp vào nút "Calculate",
IATA sẽ tạo ra các
điểm theo thang đo mới và hiển thị số liệu thống kê phân phối và bản tóm tắt.
Bởi
vì các chức năng
chính của việc phân tích các dữ liệu thử nghiệm đánh giá quốc gia là để tạo ra điểm
đó có thể giải
thích và phân tích được, các
phạm
vi rộng được quan tâm nhiều hơn với các phân tích
dữ liệu thử nghiệm đầy đủ hơn là với các phân tích dữ liệu thử nghiệm thí điểm. Có hai mục đích chính là
giới thiệu này sẽ thực hiện ở phạm
vi lớn: đầu
tiên, xem xét sự phân bố
về khả năng liên quan đến việc phân phối các thông tin kiểm tra sẽ thông báo chất
lượng của các kết luận có thể
được thực hiện về các phạm vi khác nhau về trình độ; thứ hai, tạo ra
một mẫubáo cáo về
kết quả kiểm tra sẽ thiết lập
một thước đo để cung cấp kết quả cho các bên liên quan.
Để xem xét sự phân bố các điểm
IRT, chọn "IRTscore" từ trình đơn thả xuống ở
phía trên bên trái của giao diện.
Giao diện sẽ cập nhật với các chi tiết mô tả về điểm số IRT và các thông tin kiểm tra,
như thể hiện trong hình 10.3. Trung bình
của sự
phân phối IRTscore là -0.02 và độ lệch
tiêu chuẩn nếu 1.04. Những giá trị này không có ý nghĩa đối vởi bản thân chúng,
vì chúng đại diện cho mẫutùy
ý mà trên đó các item đã được
hiệu chỉnh. Biểu đồ cho thấy các thông tin kiểm
tra, minh họa bằng các đường màu đen vững chắc, hơi rộng hơn so với sự phân bố của phân bố năng lực; Kết quả này là lý tưởng về mặt thống kê ở chỗ nó làm giảm thiểu các sai
số chuẩn trung bình của đo lường trong việc phân phối các năng lực (xem Chương 15,
trang 185). Các nhánh tần số ở phía bên tay trái của đồ thị
tại khoảng -3
trên mẫutương ứng với trình độ học sinh đã không
có câu trả lời nào đúng trong bài thi.
Kiểm tra này không có đủ thông tin để xác định chính
xác năng lực của các học sinh, vì các thử nghiệm không có
nhiều câu hỏi rất dễ; Kết quả là, các học
sinh nhận được cùng một số điểm thấp.

Figure 10.3 Distribution of proficiency (IRT score) and test information, CYCLE1
data
Hình 10.3 Sự phân bố về trình độ (điểm IRT)
và kiểm tra thông tin, dữ liệu CYCLE1
Những kết
quả này cũng chỉ ra
rằng các kiểm tra thử nghiệm là tương đối khó khăn cho
học sinh. Đỉnh của biểu đồ chức
năng thông tin có xu hướng được đặt
tại các khu vực về trình độ mà học sinh có nhiều khả năng để trả lời đúng 50%. Trong
hình 10.3, đỉnh này là một số ít so với với điểm trung bình
-0.02, điều
này chỉ ra rằng các học sinh trên mức trung bình có xu hướng chỉ đúng có 50% điểm. Trong khi kết quả này cung
cấp thống kê chính xác tốt,
kết quả có thể gây thất vọng cho các bên liên quan được
sử dụng để giải thích bất kỳ kết quả bài
kiểm tra nhỏ hơn 50% là thất bại.
Để tạo
ra một mẫubáo cáo
hữu ích hơn dựa trên
số điểm IRT, sử dụng
"Add Điểm New
Scale" chức năng ở góc dưới bên phải của
giao diện. Đối với ví dụ này,
chúng ta hãy giả định rằng Ban Chỉ đạo Quốc gia yêu
cầu một mẫumới mà đòi hỏi phải thiết lập bằng trung bình đến 500
và độ lệch chuẩn bằng 100. tỷ
lệ này sẽ được thiết lập trong chu kỳ đánh giá quốc gia
đầu tiên và được
sử dụng trong chu kỳ tiếp theo cũng như để báo
cáo về những thay đổi trong
sự tiến bộ theo thời gian. Tên của điểm số này
sẽ là "NAMscore" (đánh
giá quốc gia của điểm Toán).
Để cung cấp các thông số kỹ
thuật, thực hiện chương sau đây:
1. Loại "NAMscore" trong hộp văn bản dưới
nhãn "Add Điểm
Scale New".
2. Nhập vào giá trị "100" Độ lệch St..
3. Nhập một giá trị "500" cho trung bình.
4. Đảm bảo rằng "Thiết lập thang tỷ lệ" được chọn. Điều này sẽ
đảm bảo rằng các
tỷ lệ điểm tạo
ra sẽ có một ý nghĩa chính xác bằng 500 và độ lệch tiêu chuẩn
chính xác bằng 100 cho mẫu (tùy chọn tỷ
lệ điểm <Rescale> chỉ đơn giản là sẽ điều chỉnh số điểm IRT
hiện bằng giá trị
trung bình và độ lệch tiêu chuẩn
quy định).
5. Bấm vào nút "Calculate".
Khi IATA xử lý hoàn tất yêu cầu, nó sẽ cập nhật
giao diện với các đồ thị tóm tắt và thống
kê cho số tỷ lệ điểm vừa được tạo ra, được hiển
thị trong hình 10.4.

Figure
10.4 Distribution and summary statistics for new scale score (NAMscore), CYCLE1
data
Hình 10.4 thống kê phân phối và bản tóm tắt cho số điểm mới mẫu(NAMscore),
CYCLE1 dữ liệu
Có rất ít những hạn chế trong việc lựa chọn một score. Thang tỷ lệ có về cơ bản được sử dụng bất kỳ tên
hợp lệ cho số tỷ lệ điểm
gốc, miễn là nó không đã được sử dụng trong các dữ liệu hồi đáp (xem Chương
8 cho ước đặt tên và hạn chế tên biến). Giá trị trung bình có thể cho ra được bất kỳ số
thực, và độ lệch tiêu chuẩn có thể cho
ra được bất kỳ số thực lớn hơn 0. Tuy nhiên, điều quan trọng là để đảm bảo
rằng các điểm của học sinh được báo cáo thấp nhất là không ít hơn 0. Kể từ khi
số điểm thấp nhất thường là khoảng 3-4 là độ lệch chuẩn dưới trung bình, đó là
thực hành tốt để thiết lập giá trị trung
bình phải có ít nhất 4 lần độ lệch chuẩn trên 0. IEA, ví dụ, thường là báo cáo sử
dụng kết quả trung bình là 500 và độ lệch chuẩn là 100. việc lựa chọn một phạm vi báo cáo cần được thảo luận với ban chỉ đạo đánh giá quốc gia ở giai đoạn
lập kế hoạch ban đầu để tất cả các bên liên quan hiểu làm thế nào để giải thích
các kết quả báo cáo.
Sau khi đã tạo ra được thang điểm mới, nhấp vào
"Next >>" để tiếp tục.
10.5. Bước 5: CHỌN CÂU HỎI THI
Các dữ liệu CYCLE1 đại diện cho chu kỳ ban đầu của một chương
trong tiến trình đánh giá
quốc gia. Nhìn về tương lai, nó sẽ là cần thiết trong chu kỳ tiếp theo để thay
đổi thử nghiệm và duy trì một mối liên hệ với các kết quả ban đầu của chu kỳ.
Để làm điều này, bạn sẽ cần phải chọn một tập hợp con của các câu hỏi đó được
chính xác và đại diện cho sự liên tục về trình độ.
Một thực tế hợp lý để duy trì một mối liên kết mạnh mẽ
giữa các kỳ kiểm tra là để giữ khoảng
50% các câu hỏi phổ biến giữa các đánh giá liền kề, còn được gọi là các câu hỏi
đã được xác lập. Để tạo thuận lợi
cho quá trình lựa chọn các câu hỏi đã được xác lập, bạn có thể sử dụng các chức
năng lựa chọn item của IATA để tạo ra ra một bảng xếp loại của các câu hỏi phù
hợp để tối đa độ chính xác trong phạm vi thành thạo. Để thực hiện lựa chọn này, thực hiện theo chương
sau:
1. Gõ tên "ItemRanks" vào tên của trường lựa
chọn item.
2. Gõ số 50 trong số lĩnh vực câu hỏi để chọn tất cả các item.
3. Để lại các giới hạn trên và dưới giá trị mặc định của chúng về 2 và 98,
4. Nhấp vào nút "Select Items".
Các kết quả hoàn thành
được thể hiện trong hình 10.5. Tất cả các item có sẵn đã được lựa chọn và phân
loại theo nội dung và mức độ nhận thức từ thông số kỹ thuật ban đầu của chúng. Các bảng kết quả, lưu trữ như một bảng dữ liệu item IATA, được tạo ra bởi
các đơn đặt hàng thông số kỹ thuật từng loại item theo khả năng phù hợp của nó
để đưa vào tập hợp các item thông thường. Bảng này nên được cung cấp cho các
nhà phát triển thử nghiệm chịu trách nhiệm cho việc sửa đổi các đánh giá quốc
gia vòng 2 (hoặc sắp) để họ có thể chọn lọc tập hợp các câu hỏi đại diện chung
nhất, có tính đến thông tin tài khoản về nội dung và giá trị
tâm lý của từng loại item kiểm tra được sử dụng trong các chu kỳ 1 (hoặc đầu tiên) đánh giá quốc gia. Lý tưởng nhất, một số câu hỏi đã được xác lập nên có
20-50% số lượng các câu hỏi như kiểm tra hoàn tất, và các câu hỏi nên đại diện
cho nội dung và thông số kỹ thuật kiểm tra nhận thức ở các tỷ lệ giống nhau như
các thử nghiệm. Một trong
các cách thức thực dụng của việc lựa chọn item này
sẽ được bắt đầu với các câu hỏi được ưa chuộng nhất và phân bổ các câu hỏi vào các cell của các chi tiết kỹ thuật kiểm tra mới theo nội dung và mức độ nhận
thức cho đến khi số lượng mong muốn đạt được trong mỗi cell hoặc các danh item
các câu hỏi đã được chọn lọc.

Figure 10.5 Selecting items,
CYCLE1 data
Hình 10.5 item chọn, CYCLE1
dữ liệu
Khi IATA đã hoàn thành phân
tích này, nhấp vào "Next >>" để tiếp tục.
10.6. Bước 6: THIẾT
LẬP TIÊU CHUẨN
Trong chu kỳ đầu tiên của một
đánh giá quốc gia, điều quan trọng
là để đặt nền móng cho việc giải thích các điểm tạo ra bởi đánh
giá. Hầu hết báo cáo kết quả
đánh giá hiện đại theo năng lực. Đánh giá quốc tế như PIRLS, PISA
và TIMSS, cũng
như nhiều đánh giá quốc gia như NAEP,
công bố điểm số thành tích học sinh
về hiệu suất hoặc mức điểm chuẩn (xem
Greaney và Kellaghan,
2008; Kellaghan, Greaney, và Murray, 2009).
TIMSS, ví dụ, báo
cáo điểm số, sử dụng bốn tiêu chuẩn:
"yếu",
"trung bình",
"khá" và "giỏi" (Martin, Mullis, và
Foy, 2008). Điều
quan trọng là các tiêu chuẩn hoạt
động có ý nghĩa, chứ không phải
là ngưỡng thống kê tùy ý như điểm tứ phân vị (percentiles), bởi vì chúng là những công cụ chính được sử dụng để tổng
hợp và báo cáo kết quả học tập.
Quá trình xác định các tiêu chuẩn
hiệu suất có ý nghĩa được gọi là thiết lập tiêu chuẩn.
IATA tạo điều kiện cho các thủ tục thiết lập tiêu chuẩn bằng cách đầu tiên
thiết lập xác suất trả lời chính xác cho từng câu hỏi cụ thể (RP), sau đó tính toán
năng lực (giá trị RP) kết hợp với các
quy định RP. Ví dụ,
nếu một xác suất
(RP) được thiết lập ở mức 50%,
sau đó giá trị RP cho một câu hỏi sẽ là năng lực kết hợp với cơ hội 50% trả lời chính xác. Một loạt các xác suất trả lời (RP) được sử dụng
bởi những đánh giá khác nhau, thông thường từ 50% đến 80% - thực tế phổ
biến nhất là sử dụng 67%, có xu hướng được tối
ưu về mặt thống kê ở độ khó câu hỏi.
Tuy nhiên, sự lựa chọn RP cũng cần được định rõ các định nghĩa chuẩn mực những gì xác suất trả lời đúng là đảm bảo chắc
chắn về kiến thức và cần tính
toán đến việc những kết quả sau phân tích của các tiêu chuẩn sẽ được sử dụng như thế nào. Ví dụ, trong một
bối cảnh giáo dục, nơi mà những hậu quả của báo cáo không chính xác
có xu hướng gia tăng so với các báo cáo trung thực,
khi đó RP thấp
hơn có thể được ưa thích.
Trước khi phân tích các dữ liệu, một bảng điều khiển của các
bên liên quan bao gồm các chuyên gia trong chương của tiến trình đào tạo và giảng dạy, tham khảo ý kiến với Ban
chỉ đạo đánh giá quốc
gia, nên quyết định về số lượng các năng lực để được
sử dụng. Một số đánh
giá quốc gia chỉ đơn
giản là chọn hai cấp độ như "chấp nhận được" và "không thể chấp nhận được";
những câukhác chọn ba cấp độ như "Yếu", "trung bình", và "khá", trong khi những câukhác như TIMSS và PISA, sử dụng bốn hoặc
nhiều hơn. Nếu bảng điều khiển
các bên liên quan quyết định nhiều hơn hai
cấp độ, ngoại trừ mức thấp nhất,
mỗi cấp độ thông thạo cần được xác định bởi một
tập hợp các câu hỏi được coi là học sinh "có thể trả lời
được" hiển thị mức
độ thực hiện. Nói chung, trừ khi
có hàng trăm câu hỏi thuộc các đánh giá (đòi
hỏi một thiết kế được lặp đi lặp
lại), sẽ không có đủ
các câu hỏi để xác
định đầy đủ hơn ba hoặc bốn cấp độ.
Các giao diện để thực hiện phân
tích này được thể hiện trong hình 10.6. Ở bên trái, một trình
đơn thả xuống cho phép bạn
chọn nguồn gốc của câu hỏi để lựa chọn item.
Như với giao diện lựa chọn item, bạn có thể lựa chọn
bất kỳ nguồn sẵn có trong công cụ hiện tại của item
dữ liệu. Trong các phân tích hiện
tại, chỉ có "Items1" bảng
là available15[1].Đối với phân tích công cụ mà làm cho việc
sử dụng các liên kết, các "Items2" và "Merge"
bảng cũng có sẵn.). Các câu hỏi
từ các nguồn được chọn sẽ được liệt kê trong bảng bên dưới trình
đơn thả xuống. Các giá trị trong
"Level" cột có thể được
chỉnh sửa trực tiếp trong mỗi hàng.
Để ước tính ngưỡng tối ưu về mặt thống kê dựa
trên việc phân loại câu hỏi hiện tại, di chuyển thanh trượt dọc ở chính giữa của giao diện cho các RP mong muốn.
Khi giao diện được mở ra, các RP mặc định là 67%,
cho thấy rằng các tiêu chí sử dụng để xếp
loại các câu hỏi hoặc ước tính
ngưỡng tối ưu là một
xác suất 67% của một trả lời chính xác theo từng câu hỏi.
Khi bạn nhấn chuột vào thanh trượt dọc hoặc điều chỉnh giá trị của nó, IATA sẽ cập nhật các
ngưỡng tối ưu và tạo ra các kết quả ở bên tay
phải trong cửa sổ đồ thị và
bảng kết quả ở
phía dưới. Biểu đồ minh họa
vị trí của mỗi ngưỡng với đường thẳng đứng so với sự phân bố về khả năng và
chức năng kiểm tra thông tin. Thông tin này cho thấy tính
hữu ích của các cấp. Ví dụ,
nếu có rất ít câutrả
lời trong một cấp độ, sau đó bất
kỳ thống kê tóm tắt mô tả các học sinh ở mức độ
đó sẽ là quá nhỏ hoặc không ổn định để giải
thích được. Tương tự như vậy, nếu
kiểm tra là không
chính xác ở ngưỡng cửa của một cấp độ, sau đó phân
loại học sinh vào cấp đó sẽ không chính xác.
Bảng bên dưới cửa sổ đồ thị mô
tả các item đại diện cho mỗi cấp
độ với giá trị trung bình và độ lệch
chuẩn của item b-thông số. Trong mọi tình huống thì hầu
hết các cột trong bảng chứa các ngưỡng đã được ước tính
cho mỗi cấp độ. Trong
hình 10.6, độ lệch trung bình và tiêu chuẩn của các b-tham số (b-parameters) cho mức 4 là, 0,77 và 0,38, tương ứng. Ngưỡng RP67 cho mức 4 là 1,08. Những số liệu thống kê hữu ích trong việc xác định sự phân công của câu hỏi là hợp lý. Ví dụ,
nếu độ lệch chuẩn của các item trong một mức độ
lớn hơn khoảng cách giữa chương hoặc ngưỡng
của các cấp liền kề, các cơ sở thống kê để
xác định mức độ có thể nhỏ. Đối với kết
quả này, độ lệch chuẩn trong
mức khoảng 0,35
và khoảng cách giữa các mức kế cận là khoảng 0,4,
điều này cho
thấy rằng mức độ được xác định rõ.

Figure 10.6 Default performance standards
interface, CYCLE1
data
Hình 10.6 Mặc định tiêu chuẩn thực hiện giao diện, CYCLE1
dữ liệu
IATA sử dụng sự phân định các item để phát triển các
ngưỡng hỗ trợ cho các nhóm câu hỏi trên mẫunăng lựcIRT. Các câu hỏi thường
được giao cho một cấp (hoặc một số loại hệ thống phân cấp về nhận thức, chẳng
hạn như phân loại của Bloom) trong suốt quá trình phát triển câu hỏi và thử
nghiệm. Tuy nhiên, quá trình xác định mức độ để
đánh giá cần linh hoạt và lặp đi lặp lại. IATA cho phép các câu hỏi được phân định và điều chuyển đến trình độ khác
nhau trong quá trình phân tích. Kinh nghiệm cho thấy rằng các nhà phát triển
các quy trình kiểm tra mức độ nhận thức và chương trong
tiến trình giảng dạy cho rằng các học sinh sử dụng để trả lời một câu hỏi là
không nhất thiết phải là những học sinh thực sự sử dụng. Các chuyên gia sẽ sử
dụng số liệu thống kê hàng loạt
được tạo ra bởi IATA để xác minh phân loại item ban đầu của chúng hoặc để phân loại
lại các câu hỏi. Một phương pháp phổ biến để
làm điều này được biết đến như là thủ tục Bookmark.
Với thủ tục Bookmark, các item được sắp xếp theo giá trị
RP của họ và thường được sắp xếp trong một cuốn sách nhỏ, với một item trên mỗi
trang, sắp xếp theo giá trị RP. Các bảng điều khiển bên liên quan chịu trách
nhiệm về tiêu chuẩn thiết lập có thể xem qua các item theo thứ tự giá trị RP và
xác định ranh giới giữa các nhóm nhận thức riêng biệt của câu hỏi mà các câu
hỏi đại diện cho một tiêu chuẩn hiệu suất cao hơn. Điểm năng lựckết hợp với những ranh giới này có thể được sử dụng để phân
loại cả các bài kiểm tra và kết quả thi của học sinh, và quá trình này có thể
được nhân rộng với giá trị RP khác nhau để xác nhận. Các item có thể được phân
loại cũng được cập nhật trong IATA trong "Level" cột và sử dụng để
thống kê ước tính ngưỡng để phân loại học sinh.
Hãy xem xét một thiết kế mà các bên liên quan đã quyết định sử dụng một RP 50% để xác nhận việc phân loại ban đầu của các câu hỏi. Để cung cấp các bằng chứng cần thiết để thực hiện xác nhận này và phân loại lại, hoàn tất chương sau đây:
Hãy xem xét một thiết kế mà các bên liên quan đã quyết định sử dụng một RP 50% để xác nhận việc phân loại ban đầu của các câu hỏi. Để cung cấp các bằng chứng cần thiết để thực hiện xác nhận này và phân loại lại, hoàn tất chương sau đây:
1. Đặt RP đến 50% bằng cách click và kéo thanh trượt như
trong hình 10.7.
2. Nhấp vào nút "Save Bookmark Data". IATA sẽ
tạo ra một cuộc đối thoại xác nhận để thông báo cho bạn biết rằng các dữ liệu
đã được lưu.
3. Nhấp vào "Next >>" để điều hướng đến
các kết quả xem màn hình.
4. Chọn "BookmarkData" bảng từ trình đơn thả
xuống.

Figure 10.7 Performance
standards interface with RP=50%, CYCLE1
data
Hình 10.7 Hiệu suất tiêu
chuẩn giao diện với RP = 50%, CYCLE1 dữ liệu
Kết quả của việc tạo ra các dữ liệu Bookmark được hiển thị trong
hình 10.8. Các dữ liệu bao gồm các item
tên (Name), các thông số IRT (a, b, và c), phân loại
cấp độ hiện có (Level), các tập tin nguồn của các
thống kê item (Source), và các giá trị RP
(RP50) cho mỗi item. Trong trường hợp này, chỉ
có một cột giá trị RP đơn, nhưng một bảng dữ liệu
bookmark có thể bao gồm một số cột giá trị RP.
Bảng lựa chọn các
kết quả sẽ được tạo ra và cung cấp đến bảng điều khiển bên liên quan chịu trách nhiệm cho việc thiết lập các tiêu chuẩn. Khi sắp
xếp theo các cột "RP50",
dữ liệu có thể thông báo trong chương của thủ tục Bookmark phân
loại các trình
độ
đối với mỗi câu hỏi, và luân phiên xác định điểm cắt để
xác định năng lực. Sử dụng các thủ tục Bookmark, các bên liên quan xem xét từng item theo
thứ tự giá trị RP của nó. Khi các nhà phê
bình
gặp một item mà họ cho rằng nó đại
diện cho một tiêu chuẩn cao hơn
về hiệu suất, họ thêm một "bookmark" tại địa điểm đó. Các giá trị RP ngay lập
tức trước khi đến các địa điểm
đánh dấu đại diện cho các ngưỡng được đề xuất cho các năng lực. Một sự
kết hợp của các cuộc thảo luận
nhóm và trung
bình thống kê thường được sử dụng
để kết hợp các ngưỡng
khác nhau được tạo ra bởi các nhà phê bình khác nhau để tạo ra các ngưỡng nhận thức. Để phát triển chất lượng của
mỗi trình độ, các
câu hỏi được phân loại theo các ngưỡng chung, và các
cấp độ được mô tả trong các điều khoản của các
năng lực cần thiết của các câu hỏi thành phần của
bài kiểm tra.

Figure 10.8 Bookmark data for CYCLE1 data, RP=50%
Hình 10.8 dữ liệu Bookmark cho
CYCLE1 dữ liệu, RP
= 50%
Trong thực
tế, một loạt các thông
tin, bao gồm các thông số kỹ thuật câu hỏi, tài liệu tham khảo hay giáo trình, văn bản quy
phạm và các định nghĩa của những gì học sinh biết
và có thể làm được ở mỗi năng lực,
cần được cung cấp
đồng thời với bảng điều khiển của
các bên liên quan chịu trách nhiệm
thiết lập tiêu chuẩn. Các bên liên quan phải tiến hành cân bằng các nguồn
thông tin khác nhau và xác định cut-điểm cắt và nhiệm vụ của các bài kiểm
tra các cấp độ một cách hữu ích nhất. Theo quyết định của họ, các nhà phê bình cũng có
thể quyết định sử dụng phân loại câu
hỏi được định nghĩa trước về thời
gian bởi các nhà phát triển item
thay vì phân loại lại các
câu hỏi dựa trên các kết quả của các thủ tục Bookmark.
Trong cả hai trường hợp, các ngưỡng
tính của IATA
đại diện cho các ngưỡng tối ưu về mặt thống kê cho
các phân loại item quy định.
Các ngưỡng tối ưu khuyến cáo của IATA
nên được hiểu như những gợi ý và cần được tiếp tục điều chỉnh bằng tay cho các mục đích truyền đại thông tin. Bạn có thể tự thay đổi các mức
ngưỡng bằng cách chỉnh sửa các
ngưỡng trực tiếp trong bảng
kết quả. Sau khi bạn thay đổi giá trị (s), đồ
thị được tự động cập nhật.
Những điều chỉnh phổ biến nhất được thực hiện bao gồm việc đưa các ngưỡng như nhau khoảng
cách đều nhau hoặc sẽ giao cho các
ngưỡng đó, sau khi áp dụng
các hằng số lớn, xảy ra ở toàn bộ
số gia tăng
(ví dụ, 5 hoặc 10). Đánh giá chuyên môn nên được thực hiện khi đối
chiếu từ các phân tích thống kê
và nội dung với các nhu cầu liên quan đến kết quả đối với khán giả. Đơn giản nên
được cân đối với truyền
thông chính xác sự khác biệt có ý
nghĩa trong hoạt động của học
sinh.
Đối với ví dụ hiện tại, giả sử rằng các bên liên quan, sau
khi sử dụng các dữ liệu minh họa trong hình 10.8
để tạo thuận lợi cho việc xem xét item item
trong một thủ tục Bookmark, đề xuất việc thiết lập sau đây của cut-điểm: -0,85,
-0,25, 0,35, và
0,95 để xác định các mức độ khác nhau. Học
sinh có điểm rơi xuống dưới -0,85
sẽ được phân loại
là hạ
xuống dưới cấp 1. Những ngưỡng được chỉ khoảng
xấp xỉ so với giá trị tối ưu về mặt thống kê cho thấy trong hình 10.7, nhưng
hầu hết các bên liên quan có xu
hướng ủng hộ làm tròn số và thậm chí cả làm
gia tăng điểm số bởi vì cảm giác trực quan họ
thấy vậy, ngay cả khi kết quả không
phải là tối ưu về mặt thống
kê.
Nhấp vào nút "<< Back"
để trở về giao diện tiêu chuẩn hoạt động, nơi bạn có thể ghi lại những cắt-điểm trong các tập tin
dữ liệu kết quả và phân định học sinh đến mức
thích hợp. Thực hiện chương sau đây:
1. Nhập các giá trị được đề
nghị tạo ra bởi các ủy ban của các bên liên quan vào các hàng thích hợp trong
cột có nhãn "Threshold". Nhấn Enter sau khi nhập cảnh cuối cùng để đảm bảo IATA
cập nhật giao diện một cách chính xác.
2. Nhấp vào nút "Thêm
Levels". IATA sẽ phân định học sinh đến
mức độ thích hợp của bài kiểm tra dựa trên điểm số IRT của họ.
Hình 10.9 minh họa sự xác định các ngưỡng cho
các mức hiệu năng. Các cấp là bằng nhau, và
áp dụng đối với một tỷ lệ hợp lý các học sinh ở mỗi cấp. Mặc dù không
có lý do toán học cho khoảng cách
bằng nhau của các ngưỡng, thực tế phổ biến ở hầu hết các đánh giá quốc gia và
quốc tế là sử dụng các ngưỡng như nhau khoảng
cách đều nhau vì chúng cho thấy là trực quan hơn đối với khán giả, là các đối
tượng chính cho bản tóm tắt
về các năng lực. Ngoài ra, số lượng thông tin ở từng ngưỡng là
ít nhất hai phần
ba số thông tin thử nghiệm
tối đa, trong đó chỉ
ra rằng các thử nghiệm là tương đối chính xác tại từng ngưỡng để đưa ra
quyết định giải thích.

Figure 10.9 Performance
standards interface with manually-set thresholds for CYCLE1
data
Hình 10.9 Hiệu suất tiêu chuẩn giao
diện với ngưỡng tay-set cho CYCLE1
dữ liệu
Trong phần
"Điểm số"
bảng dữ liệu, có thể xem được trên màn hình
cuối cùng của công cụ phân tích,
hồ sơ cho mỗi học sinh cũng sẽ có một biến có tên là "Level."
Biến này chứa mức độ tiêu chuẩn
hiệu suất mà mỗi học
sinh được chỉ định dựa trên ngưỡng
hiển thị trong Hình 10.9.
Khi bạn đã hoàn thành việc thiết
lập các ngưỡng tiêu chuẩn thực hiện
và áp dụng chúng vào các điểm của học sinh, nhấp
vào "Next >>"
để tiếp tục giao diện để xem và lưu kết quả.
10.7. Bước 7: LƯU
KẾT QUẢ
Về giao diện xem và lưu lại kết quả, bạn
có thể xem kết quả tạo ra bằng các ví dụ chương hiện
tại. Tất cả các bảng phải được lưu lại cho cả hai tài liệu dự án và tạo
điều kiện để thử nghiệm kết nối với các chu kỳ
tiếp theo của dữ liệu. Để tham khảo, các kết
quả mục dữ liệu của chương
phân tích này đầy đủ trong các tập tin
ItemDataAllTests.xls, trong bảng tính có tên "ReferenceC1."
10.8. TÓM TẮT
Trong chương này, bạn xem xét
các chức năng phân tích dữ liệu chính trong
công cụ đầu tiên của
IATA. Ngoài những phân tích
phổ biến với dữ
liệu thử nghiệm, phân tích các
dữ liệu thử nghiệm đầy đủ đã sử dụng các giao diện
mẫumở rộng và sự phát triển của các tiêu chuẩn hiệu suất.
Trong hướng
dẫn trong các chương sau đây, sẽ được
xây dựng trên các kỹ thuật được sử
dụng trong các ví dụ. Hai cách thức mới sẽ được giới thiệu để phân tích dữ liệu và phân tích
nêu rõ: bài
kiểm tra lặp lại cân bằng và bài kiểm tra một phần tín dụng.
[1] For analyses workflows
that make use of linking, the “Items2” and “Merged”
tables are also available.
Còn nữa....!!!