9 Chương 9 Phân tích dữ liệu từ điểm thi thử nghiệm
9.1.Tổng quan
Sử dụng các dữ liệu
mẫu PILOT1 thiết lập để thực hiện bài tập này. Các Key cho bài kiểm tra này là
trong bảng tính EXCEL, ItemDataAllTests trong bảng tên PILOT1.
Chúng ta hãy xem xét thiết kế sau đây. Một nhóm nghiên cứu đánh giá quốc gia và các
chuyên gia chương trình giảng dạy đã tạo
ra một tập hợp các câu hỏi nhiều lựa chọn mới để đánh giá các kỹ năng toán học
lớp 10. Những bài kiểm tra mới được xem là đủ để đại diện cho các chương trình quốc gia. Các câu
hỏi đã được tạo ra để phản ánh các loại nội dung chính được xác định bởi Ban
chỉ đạo quốc gia (số lượng tri thức, hình thức và nội dung, quan hệ, giải
quyết vấn đề, và không chắc chắn). Phiên bản cuối cùng của thử nghiệm có nghĩa
là để đo lường về tất cả các năng
lực của các học sinh lớp 10 và thiết
kế chứa 50 câu hỏi.
Như là một bước đầu tiên, nhóm nghiên cứu đánh giá quốc
gia quản lý một bài kiểm tra 80 loại item với tổng số 262 học sinh, lấy mẫu từ 7
trường trong 3 miền, với tập tài liệu thử nghiệm trong 2 ngôn ngữ. Đây là một
số lượng lớn các câu hỏi hơn sẽ được đưa vào thử nghiệm cuối cùng, nhưng có rất
nhiều câu hỏi thường sẽ không tốt cho một bài kiểm tra với một loạt các lý
do (ví dụ, câu hỏi quá dễ hoặc quá
khó, câu hướng dẫn khó hiểu).
Một quá trình phát triển thử nghiệm có thể tạo ra hai hoặc ba lần và nhiều câu hỏi không tốt vẫn sẽ được sử dụng
trong các thử nghiệm cuối cùng. Hầu hết các câu hỏi
này sẽ bị từ chối bởi sự xem xét lại trước khi nhà nước
kiểm tra. Tuy nhiên, một
nhóm đánh giá quốc gia vẫn nên kiểm tra trước ít nhất hơn 50% số câu hỏi được yêu cầu cho
kiểm tra cuối cùng. Thử nghiệm thí điểm này được thiết kế để kiểm tra các cách thức hoạt động
cho các cuộc khảo sát cũng như để xác định các thành phần của các câu hỏi trong bài kiểm
tra cuối cùng sẽ được dùng cho đánh giá quốc gia
(cho một mẫu học sinh khác nhau). Các tập
tin dữ liệu hồi đáp có câu trả lời của mỗi học sinh cho 80 câu hỏi nhiều lựa chọn cũng như một số biến cấp
trường (xác định khu vực, xác định trường, loại trường và kích thước trường) và
một số thông tin học sinh hay về mức độ năng lực - (quan hệ tình dục và ngôn ngữ).
Từ menu chính, bấm vào tùy chọn trình đơn đầu tiên “Response data analysis", nhập vào công
cụ phân tích, như thể hiện trong hình 9.1. Nếu ở giai đoạn nào trong quy trình
làm việc, bạn nhận được một lỗi hoặc nhận được kết quả là khác hơn so với dự kiến,
trở lại bước trước hoặc bắt đầu phân tích một lần nữa từ menu chính.
Hình 9.1 Chọn "dữ liệu hồi đáp phân tích"
quy trình làm việc
Figure
9.1 Select the “Response data analysis” workflow
9.2. Bước 1. TẢI DỮ LIỆU HỒI ĐÁP
Bất kể việc lựa chọn hướng
phân tích, bạn phải chỉ đạo IATA để tải dữ liệu thu thập được trước đó (ví dụ, đánh
giá quốc gia dữ liệu thử nghiệm
thí điểm, hoặc một tập tin dữ liệu item). IATA linh
hoạt và có thủ tục đơn giản
với các nút để thực hiện tải dữ liệu hồi đáp,
dữ liệu câu hỏi, hoặc
cả hai. Bất kể hướng phân tích hoặc
loại dữ liệu, bạn phải khai báo với IATA về tập tin dữ liệu để nhập vào trong file dữ liệu để sử dụng.
IATA có thể nhập dữ
liệu trong SPSS (*.sav), EXCEL (*.xls
/ *. Xlsx), nhãn (tab)-giới hạn (*.txt), và comma- hỗ trợ
(*.csv) định dạng. Bởi vì các tập tin dữ
liệu EXCEL có thể chứa nhiều
bảng riêng biệt, bạn phải chỉ định
bảng được nhập
vào để phân tích.
Màn hình đầu tiên trong hướng phân tích này đòi hỏi bạn phải nhập một tập tin dữ liệu trả lời vào IATA.
Giao diện dữ liệu tải được thể hiện trong
hình 9.2. Các hướng dẫn bắt đầu với dòng chữ " DỮ LIỆU HỒI ĐÁP CỦA THÍ SINH..." để chỉ ra rằng bạn đang tải dữ liệu có chứa câu trả lời đến các item và giải thích nội dung chung dự kiến sẽ được các tập tin dữ liệu. Hướng dẫn dưới đây gồm hai khung: một bản tóm tắt đường
dẫn tập tin, và một trình đơn thả xuống để chọn bảng dữ liệu trong các tập
tin được chọn. Bên phải các khung là nút có nhãn "Open File". Bảng ở dưới
cùng của giao diện hiển thị dữ liệu
cho nguồn dữ liệu đã chọn. Nếu có hơn 500 dòng dữ
liệu, chỉ dòng đầu tiên trong 500 dòng sẽ được hiển thị. Nếu bạn đã chọn một
định dạng dữ liệu nhiều bảng, chẳng hạn như Excel hoặc
Access, sau đó là tên của bảng đầu tiên trong các tập tin dữ liệu sẽ xuất hiện trong hộp thả xuống. Nếu không, tên
của file sẽ xuất hiện trong hộp
thả xuống. Đối với tập tin dữ liệu đa bảng, các dữ liệu mong muốn có thể không có trong bảng đầu tiên. Bạn nên xác minh
rằng các dữ liệu thích hợp được lựa
chọn bằng cách xem xét các nội dung
của bảng dữ liệu sẽ xuất hiện
trong phạm vi rộng lớn ở dưới cùng của giao diện. Nếu bảng hoạt động không chứa các dữ liệu mong muốn, bạn có thể chọn một bảng khác nhau bằng cách nhấn vào trình đơn thả xuống.
Hình 9.2 trả lờigiao diện dữ liệu tải
Figure
9.2 Response data loading
interface
Trong ví dụ này, bạn phải tải các tập
tin PILOT1.xls:
1. Nhấp vào Open File để chọn một tập
tin dữ liệu. Trong trình duyệt
tập tin, điều hướng đến thư mục trên máy tính của bạn có
chứa các dữ liệu mẫu IATA.
2. Chọn định dạng tập tin Excel
(*.xls). Nếu bạn thấy (*.xlsx) trong hộp bên
phải trường tên tập tin, sử dụng
mũi tên thả xuống và bấm vào (*.xls).
3. Chọn (hoặc gõ) PILOT1.xls.
4. Nhấp vào Open hoặc bấm phím Enter.
Khi các tập tin mở ra, một hộp
thoại bung ra (pop-up) sẽ nhắc nhở bạn xác nhận rằng các dữ liệu
bạn đã chọn chứa dữ liệu item trả lời chính xác hay
chưa. Nhấn OK để tiếp tục. Xác nhận rằng các dữ liệu mẫu thí điểm được
nạp một cách chính xác; giao diện
của bạn sẽ trông giống như hình
9.2.
Các dữ liệu trong hình 11.2 cho thấy
các hồ sơ cho mỗi học sinh đã kiểm tra thí
điểm. Bảy biến đầu tiên từ bên trái
mô tả sinh động thông tin về mẫu học sinh:
• PILOT1STDID - mã nhận dạng
học sinh duy nhất;
• SCHOOLID - mã nhận dạng
trường học duy nhất;
• Sex - giới tính của
học sinh (1 = nam,
2 = nữ);
• SchoolSize - tổng số
học sinh trong trường học;
• nông thôn - vị trí của trường (0 = đô thị, 1 =
nông thôn);
• Khu vực - một số định
danh cho các khu vực địa lý;
• Ngôn ngữ - một số định danh cho
các ngôn ngữ chính thống thử nghiệm.
Các item kiểm tra toán học
đầu tiên xuất hiện trong cột
8 và được dán nhãn là MATHC1019. Di chuyển lên
trên để thấy
rằng các tập tin có chứa dữ liệu trên 80
câu hỏi; các mục trong cột cuối cùng được
dán nhãn MATHC1041. Tên các câu hỏi là tùy ý và không phản ánh vị trí của item trong bài thi. Hầu hết các ô có giá trị A, B, C hoặc
D cho thấy sự lựa
chọn của học sinh. Ô có giá trị bằng 9 chỉ ra rằng một học sinh không trả lời
các câu hỏi.
Giống như với hầu hết các mẫu thí điểm, các học
sinh đại diện cho một mẫu thuận tiện, chứ không phải đại diện mang tính khoa học cho dân số. Trọng lượng mẫu câu hỏi chỉ có giá trị khi chúng được tạo ra như tạo
một mẫu thiết kế khoa
học. Do đó, không có trọng lượng mẫu
trong các tập tin dữ liệu hồi đáp
PILOT1.
Sau khi xác minh rằng bạn đã tải chính xác các tập tin dữ
liệu hồi đáp, nhấp vào "Next >>" nút.
9.3. Bước 2: LOADING ĐÁP ÁN
Bạn cũng phải nạp Key mục câu trả lời để IATA có thể thực
hiện việc phân tích một cách
chính xác. Như với dữ liệu trả
lời, các mục dữ liệu nằm trong định dạng Excel trong thư mục dữ liệu IATA trên máy tính để bàn của bạn.
1. Nhấp vào Open File để chọn một tập
tin dữ liệu. Trong trình duyệt
tập tin, điều hướng đến thư mục trên máy tính của bạn có
chứa các dữ liệu mẫu IATA.
2. Chọn định dạng tập tin Excel
(*.xls).
3. Chọn (hoặc gõ) ItemDataAllTests.xls.
4. Nhấp vào Open hoặc bấm phím Enter.
Khi các tập tin mở ra, một hộp
thoại xuất hiện (pop-up) sẽ nhắc nhở bạn rằng IATA sẽ ước tính bất kỳ số mục không xuất hiện. Nhấn OK để
tiếp tục. Các tập tin dữ liệu đã
chọn chứa các bảng cho tất cả các
ví dụ khác nhau trong cuốn sách này.
Đảm bảo rằng bạn đã chọn đúng bảng có tên là
"PILOT1" trong trình
đơn thả xuống. Xác nhận rằng item các dữ liệu được nạp một
cách chính xác; giao diện của bạn sẽ trông giống như hình 9.3. Nếu bạn muốn tìm thông tin về một item cụ thể một cách dễ dàng, bạn
có thể sắp xếp các item bằng cách nhấp
vào tiêu đề ở cột Name.
Hình 9.3 mục dữ liệu cho dữ liệu hồi đáp PILOT1
Figure
9.3 Item data for the PILOT1 response
data
Khi bạn đã xác nhận rằng mục dữ liệu đã được nạp chính xác, nhấp vào "Next >>" để tiếp tục.
9.4. Bước 3: KỸ THUẬT PHÂN TÍCH
Mỗi công cụ có sử dụng dữ
liệu hồi đáp đòi hỏi bạn phải cung
cấp thông số kỹ thuật nhất định
sẽ ảnh hưởng đến kết quả của tất cả các phân tích tiếp theo. Những đặc điểm này bao gồm Key và biến
đổi mục dữ liệu, biến nhận dạng
đơn, trọng số mẫu thiết kế, và xử lý
mã dữ liệu thiếu. Giao
diện cho phép cung cấp những thông số kỹ thuật được thể hiện trong hình 9.4. Bảng lớn bên trái có chứa một bảng của các bài kiểm tra trong
các tập tin dữ liệu hồi đáp với
các cột tiêu đề "Tên",
"Key", "Level"
và "nội dung". Nếu một tập tin
dữ liệu đã được tải, bảng sẽ chỉ chứa các biến đã được
xác định là các bài kiểm tra; nếu không bảng sẽ chứa tất
cả các biến. Nếu bạn đã bỏ qua việc tải các tập
tin mục dữ liệu, bạn sẽ cần phải nhập thủ công các Key
trả lời cho mỗi item
trong bảng này (xem phần 8.3.2.119).
Trong phần chính
giữa của giao
diện, một nút có nhãn "Cập
nhật danh sách giá trị hồi đáp".
Bạn sẽ cần phải nhấp vào nút này nếu bạn thay đổi các thông
tin Key trả lời, hoặc bằng cách nhập thủ
công câu trả
lời hoặc xóa các câu trả lời hiện có. Khi bạn
nhấp vào nút này, IATA sẽ thả xuống hai trình
đơn với danh sách của các biến trong dữ liệu hồi đáp chưa được gán một Key và liệt kê tất cả các giá trị Key trả lời
hiện nay cho các biến được
xác định là các bài kiểm tra. Nếu
bạn đã tải một tập tin item dữ liệu,
các menu sẽ được đưa
đến với các
giá trị.
Bên dưới nút "Cập nhật danh sách giá trị hồi
đáp", có một số điều
khiển để cung cấp chi tiết kỹ thuật
tùy chọn: một trình
đơn thả xuống để xác định việc
xác định biến (ID), một trình đơn
thả xuống để lựa chọn các biến
trọng lượng, và một
bảng để xác định mã số giá trị xử lý thiếu. Xác định một biến
ID có thể cần thiết để hợp nhất các kết quả thử nghiệm câu hỏi của IATA với
các nguồn dữ liệu khác. Biến
ID duy nhất cần
xác định mỗi học sinh; nếu
bạn không chỉ định một biến ID, IATA sẽ tạo ra một
biến có tên "UniqueIdentifier"
để phục vụ mục đích này. Biến trọng lượng được sử dụng để đảm bảo rằng các số liệu thống kê tạo ra trong phân tích là
phù hợp cho việc thiết kế mẫu của
các đánh giá quốc gia. Nếu không có biến trọng
lượng được cung cấp, IATA sẽ giả định rằng tất cả học sinh trong các dữ liệu nhận được cùng một trọng lượng, tương đương với 1.
Hình 9.4 Phân tích chi tiết kỹ thuật cho các
dữ liệu PILOT1
Figure
9.4 Analysis specifications
for the PILOT1 data
Bạn có thể thông báo cho IATA rằng một giá trị hồi đáp là một mã trả lời thiếu bằng cách
nhấn vào một trong các hộp kiểm bên cạnh các giá trị trong bảng "Chỉ định Xử
lý không xuất hiện".
Theo mặc định, IATA giả định rằng tất cả các giá trị trả lời đại diện cho học sinh trả
lời thực tế. Nếu trong các cột "sai" được chọn, sau đó IATA sẽ xử lý giá trị đó là một trả
lời không hợp lệ sẽ
được ghi là không chính xác. Nếu các ô trong cột được kiểm tra "Không có điểm", IATA sẽ tính toán giá trị đó là bỏ
qua và giá trị sẽ không ảnh hưởng đến kết quả thi của học sinh. Theo mặc định,
nếu có bất kỳ ô nào không được điền
đầy đủ, hoặc dữ liệu hồi đáp trống, IATA sẽ xác định chúng là không chính xác,
trừ khi bạn đã tự quy định "Không có
Score" trong xử lý.
Đối với hướng dẫn này, các dữ liệu quan trọng và Key trả lời đều đã
được nhập vào, do đó danh sách các khoản trình bày trong hình 9.4 chỉ chứa các
biến với các Key trong các item dữ liệu. Đó là một ý tưởng tốt để xem xét các
bảng Key trả lời xác nhận
rằng các Key và các dữ liệu
khác về mỗi mục là chính xác và
đầy đủ, bởi vì bất kỳ sai sót ở giai đoạn này sẽ tạo ra nhiều hơn các sai sót
trong công việc tiếp theo trong
quy trình làm việc. Ở giữa màn hình, bạn sẽ cần phải xác định các chi tiết phân
tích thêm. Sử dụng các thông số kỹ thuật sau đây:
1. Sử dụng trình đơn thả đầu tiên xuống để chọn biến
PILOT1STDID là biến ID.
2. Các dữ liệu này không có một trọng lượng mẫu, vì vậy
bạn có thể để trống trình đơn thả xuống thứ
hai.
3. Giá trị bằng 9 sẽ được xử lý
và quy ước là không chính xác, vì vậy hãy kiểm vào ô thích hợp trong bảng giá trị
trong phần "Chỉ định Xử lý
không xuất hiện". Mặc dù không có item trống trong dữ liệu PILOT1, bạn
có thể để lại các đặc điểm kỹ thuật Xử lý
mặc định của item trống là không chính xác.
Khi các thông số kỹ
thuật đã được nhập vào, giao diện phải trông giống như hình 9.4.
Xác nhận rằng kỹ thuật của bạn là chính xác và nhấp vào
nút "Next" để tiếp tục. Các dữ liệu sẽ bắt đầu xử lý tự động. Các
giai đoạn xử lý là: Thiết lập dữ liệu, chấm điểm, Ước tính các thông số,
scaling IRT, Tính Điểm True, và phân tích nhân tố. Khi xử lý tiếp tục, giao
diện sẽ hiển thị các giai đoạn hiện tại của quá
trình xử lý. Tùy thuộc vào tốc độ của máy tính và kích thước của dữ liệu của bạn,
phân tích này có thể xử lý mất vài giây đến vài phút để hoàn thành. Khi IATA
kết thúc xử lý, nó sẽ hiển thị các kết quả trong các giao diện mục phân tích
9.5. Bước 4. PHÂN TÍCH
Khi xử lý dữ liệu đã hoàn tất,
giao diện mục
phân tích sẽ được cập nhật
với kết quả được thể hiện trong hình 9.5. Sử dụng giao diện
phân tích, bạn có thể truy cập vào các kết quả cũng như xem và lưu thông
tin chẩn đoán về mỗi câu hỏi kiểm tra.
Có bốn loại kết quả hiển thị trong
giao diện này:
1. Thống kê và các thông số thống kê mô tả từng câu hỏi (bên trái);
2. Một minh họa bằng đồ thị các mối quan hệ giữa trình
độ học sinh và xác suất trả lời chính xác một câu hỏi, cũng được biết đến như là một chức năng hồi đáp hoặc IRF (ở trên cùng bên phải);
3. Một bảng tiếp mô tả tỷ
lệ học sinh đạt điểm cao, trung bình, và điểm thi thấp, những câu lựa chọn Key trả lời khác
nhau, cũng được biết đến
như là một phân tích hỗ trợ (ở giữa bên
phải);
4. Một bản tóm tắt bằng ngôn
ngữ các kết quả phân tích câu hỏi (ở
dưới cùng bên phải)
Figure
9.5 Item analysis results for the PILOT1 data, item MATHC1019
Hình 9.5 item kết quả phân tích cho
các dữ liệu PILOT1,
item MATHC1019
Các bảng ở phía bên trái của giao diện mục
phân tích trình bày thông tin thống kê cũng như một biểu tượng mô tả sự phù
hợp tổng thể của mỗi câu hỏi (xem trang 23).
Tên của mỗi mục ở cột bên phải của
biểu tượng tóm tắt. Bạn có thể kiểm tra các kết quả chi tiết cho một câu hỏi riêng lẻ bằng
cách sử dụng các phím mũi tên hoặc chuột để làm nổi lên các dòng có các item xuất hiện
trong đó. Bạn có thể sử dụng các hộp kiểm trong "Sử dụng" bao gồm cột
cho mỗi hàng hoặc loại trừ các câu
hỏi từ các phân tích. Bỏ chọn một trong các hộp câu hỏi để loại bỏ các câu hỏi từ các phân tích.
Sau đó bạn có thể nhấp vào "Phân tích" để chạy lại phân tích với bộ câu hỏi đã được điều chỉnh sau khi
loại bỏ các câu hỏi không đạt. Trả lại tất cả các câu hỏi về trang thái ban đầu bằng cách nhấn vào nút "Đặt lại Items". Lưu ý
rằng cách nhấn vào "Thiết lập lại Items" sẽ thiết lập lại tất cả các câu
hỏi, vì vậy nếu bạn muốn loại bỏ vĩnh viễn một câu hỏi từ các phân tích, bạn nên xóa câu
trả lời chính của nó trong giao diện thông số kỹ thuật phân tích. Nút
"Scale" không ước tính lại bất kỳ thông số item; nó chỉ đơn
giản là tính điểm theo thang đo IRT cho các dữ liệu hồi đáp bằng cách sử dụng các tham số ở câu hỏi đã được ước tính hoặc nạp vào IATA
từ một tập tin dữ liệu bên ngoài.
9.5.1. Mục thống kê
Ba cột bên phải của mục
thống kê chứa các số liệu thống kê cổ điển gồm: các chỉ số phân biệt item ("Discr"), các
hệ
số tương quan_ biserial(PBis), và độ
khó dễ
câu hỏi ("PVal") mà có đôi khi được gọi là mục các trở ngại mặc dù giá trị PVal lớn hơn thì diễn đạt cho một câu hỏi kiểm tra dễ dàng
hơn. Ba cột cuối cùng có thể được ẩn đi, đòi
hỏi bạn phải di chuyển trong bảng, đó là ước tính của mục tham số lý thuyết hồi đáp (IRT): tham số độ dốc
("a"), các tham số vị trí ("b") và tham số đoán mò ("c"). Các
thảo luận sâu về các số liệu thống kê, các thông số và cách chúng có liên quan với nhau được thể hiện
trong Chương 15 (trang 149).
Nhìn chung, số liệu thống kê cổ điển có thể được giải
thích trực tiếp. Độ khó câu hỏi dễ (PVal) dao
động giữa 0 và 1 và mô tả độ
dễ một câu hỏi dành cho các mẫu
đưa ra: giá trị 0 chỉ ra
rằng không có học sinh nào
trả lời một cách chính xác, và giá trị 1 cho thấy
rằng tất cả các học sinh đã
trả lời một cách chính xác. Các chỉ số phân biệt và hệ số tương quan (point-biserial) cung cấp sự
luân phiên trong đo lường các mối quan hệ giống nhau, đó là cách trả lời mạnh mẽ về
mối liên quan của mỗi câu hỏi kiểm tra đến toàn bộ số điểm.
Đối với cả hai số liệu thống kê, giá trị phải lớn hơn 0,2. Những hướng dẫn này
không nên được coi là tuyệt đối, vì các chỉ số này cũng bị ảnh hưởng bởi các
yếu tố khác hơn là độ phân biệt của các câu hỏi, bao gồm cả tính chính xác của các bài kiểm tra
tổng thể. Ví dụ, các câu
hỏi dễ có xu hướng hạn chế các giá trị
tuyệt đối của cả hai chỉ số phân biệt và chỉ số tương quan (point –biserial). Nếu độ
khó các câu hỏi khác 0,5 (ví dụ, nỏ hơn 0,2 hoặc lớn hơn 0,8), các chỉ
số phân biệt và (point-biserial)
hệ số tương quan sẽ đánh giá thấp mối quan hệ
giữa trình độ và hiệu suất trả
lời của các học sinh trong một câu hỏi kiểm tra.
Mặc dù câu hỏi cực kỳ dễ hay rất khó có xu hướng
làm giảm các mối quan hệ trong
quan sát đánh giá trình độ, cũng có
thể bao gồm các nội dung chương trình giảng dạy quan trọng cần được đưa vào thử
nghiệm hoặc họ có thể (ví dụ trong trường hợp của các câu hỏi dễ dàng) được yêu
cầu để duy trì động lực cho
học sinh trong thử nghiệm. Đối với các lý do khác, thường là mong muốn bao
gồm một số lượng tương đối nhỏ các câu hỏi rất dễ hay rất khó.
Ngược lại, các thông số IRT không nên được hiểu trong sự
cô lập; mặc dù mỗi mô tả một hành vi cụ thể trong
từng câu hỏi thử nghiệm, các
mối quan hệ giữa khả năng trả lời các câu
hỏi và tổng thể trình độ là kết quả của sự hỗ trợ giữa tất cả ba thông số cũng
như năng lực của từng học sinh.
Các câu hỏi trong phân tích xuất hiện một vòng tròn
màu xanh lá cây thì sẽ chỉ ra rằng chúng không có vấn đề
lớn và là tương đối khả quan. Di chuyển xuống
phía dưới danh sách câu hỏi bên trái, bạn sẽ
thấy 13 câu hỏi có biểu tượng
cảnh báo hình kim cương (MATHC1047, MATHC1013, MATHC1002, MATHC1070,
MATHC1034, MATHC1035, MATHC1032, MATHC1010, MATHC1068, MATHC1046, MATHC1024,
MATHC1058, và MATHC1030). Item (MATHC1075) có biểu tượng cảnh báo hình tam
giác được coi là câu hỏi tiềm ẩn
nhiều vấn đề. Cách tốt nhất để kiểm tra các kết quả cho tất cả các câu hỏi và không phụ thuộc
vào biểu tượng được IATA tóm tắt, đối
với phần giới thiệu này, chúng tôi sẽ tập trung vào một vài ví dụ.
Theo mặc định, các kết quả cho các câu hỏi đầu tiên được
hiển thị trong đồ thị và bảng bên phải. IATA đã ấn
định MATHC1019, một đường tròn màu xanh_circle[1].
Mỗi kết quả trong số kết quả
IATA tạo ra cho câu hỏi này được giải thích trong phần sau.
9.5.2. Mục chức năng hồi đáp (IRF)
Trong cửa sổ đồ họa ở phía bên phải của giao diện mục phân tích, IATA sẽ hiển thị các chức năng mục Response (IRF)
cho một câu hỏi thử nghiệm được
lựa chọn. Rà soát các IRF là thường trực quan hơn kiểm tra các thông số IRT
hoặc mục thống kê để xác
định tính hữu ích tương đối của các bài kiểm tra khác nhau. Một câu hỏi hữu ích sẽ có một
mối quan hệ mạnh mẽ với khả năng phân
tích, chỉ bằng một IRF có một hình chữ S mạnh mẽ, với một khu vực hẹp trong đó
các đường cong gần như thẳng đứng. Độ dốc của IRF cho MATHC1019 là luôn tích
cực, nhưng mối quan hệ là yếu
và không có bất kỳ vùng có độ dốc nào đáng chú ý. Độ dốc ít sẽ chứng thực cho
các chỉ số phân biệt thấp (Discr = 0,36) và hệ
số tương quan thấp (PBis = 0,35).
Như với bất kỳ mô hình cách
thức thống kê, IRT chỉ hữu ích nếu các dữ liệu phù hợp với các mô hình lý
thuyết. Đối với mỗi câu hỏi hoặc giá trị điểm,
IATA tạo ra một hình ảnh của lý thuyết IRF bằng cách sử dụng các thông số ước
tính cũng như các thực nghiệm IRF ước tính trực tiếp từ tỷ lệ trả lời đúng ở
mỗi cấp độ. Các đồ họa có thể được sử dụng để đánh giá sự phù hợp của việc sử
dụng IRT để mô tả mỗi câu hỏi. Nếu mô hình IRT
là thích hợp, các dòng gạch màu đỏ sẽ xuất hiện là rất tương tự như các dòng
đen liền nét, nơi mà độ lệch nhỏ hơn 0,05, đặc
biệt là ở khu vực giữa
-1 và 1, nơi có nhiều học
sinh. Đối câu hỏi MATHC1019 của lý thuyết IRF và thực nghiệm là gần như giống hệt
nhau sẽ chỉ ra rằng mặc
dù các item đó có thể có một mối quan hệ có trình độ yếu, tính chất thống kê
của nó được mô tả một cách chính xác bởi các IRF.
9.5.3. Phân tích phương án gây nhiễu (Distractor Analysis)
Ở góc dưới bên của
giao diện mục phân tích, IATA thực hiện thống kê cho mỗi
giá trị trả lời
(bao gồm cả mã giá trị không xuất hiện và mã
giá trị trả lời
không chính xác) và một bản tóm tắt văn bản của phân tích. Các số liệu
thống kê ước tính riêng cho các
nhóm học sinh thực hiện ở
mức thấp, trung bình và học sinh thực hiện cao dựa trên kiểm tra điểm phần trăm độ chính xác của họ,
cũng như toàn bộ mẫu. Bảng này trình bày chi tiết trong hình 9.6, cũng được gọi
là một phân tích phương án gây nhiễu.
Figure 9.6 Distractor analysis for item MATHC109, PILOT1 data
Hình 9.6 Phân tích hỗ trợ cho mục dữ liệu MATHC109, PILOT1
Có nhiều lý do tại sao
một câu
hỏi có thể có quan hệ ở mức thấp hoặc thậm chí là một mối
quan hệ rất
tiêu cực với mức độ thông thạo. Chúng bao gồm: từ ngữ diễn đạt nghèo
nàn, hướng dẫn gây nhầm lẫn, sai sót lấy mẫu, và nhầm đáp án hoặc
không có đáp án (miskeying hoặc miscoding). Phân tích phương án gây nhiễu có thể được sử dụng để phát hiện và khắc phục một số lỗi thường gặp bằng
cách nhìn vào các mẫu trong mục trả lời. Một câu
hỏi tốt nên có những đặc điểm sau đây:
1. Các tùy chọn cột chính xác biểu hiện bằng các dấu hoa
thị (*), cần phải có một tỷ lệ phần trăm chọn
cao cho các có năng lực cao, và tỷ lệ phần
trăm lựa chọn thấp hơn cho các nhóm có năng lực trung bình và thấp. Câu MATCHC1019 thỏa
mãn điều kiện này với các giá trị là 47.9, 19.9 và 11.4 cho các nhóm cao, trung bình và thấp.
2. Đối với nhóm có năng
lực thấp, tỷ lệ lựa chọn chính xác các tùy chọn đúng
nên thấp hơn so với tỷ lệ lựa chọn bất kỳ một trong các tùy chọn khác. Tất
cả các tùy chọn không đúng (A, B và C) cho MATHC1019 thể hiện mô hình này.
3. Mỗi cột tương ứng với giá trị trả lời không chính xác nên có tỷ lệ xấp xỉ bằng nhau trong mỗi
cấp độ năng lực và tương tự với các giá trị trả
lời không chính xác trong các cột khác. MATHC1019 vi
phạm điều này, vì tùy chọn
B được lựa chọn gần như gấp đôi các lựa chọn không chính xác
hoặc là A hoặc C.
4. Đối với nhóm có năng lực cao, tỷ lệ lựa chọn các tùy chọn chính xác nên có kết
quả cao hơn so với tỷ lệ lựa chọn bất kỳ một trong các tùy chọn khác. MATHC1019
thỏa mãn mô hình này: 47.9
lớn hơn các giá trị tùy chọn A (14.1), B
(23,9) và C (14.1).
5. Đối với tất cả các
nhóm, các tỷ lệ phần trăm của mã giá trị thiếu (ký hiệu là X) nên gần bằng 0. Một tỷ lệ đáng kể các học sinh đã không có câu trả lời (mã 9), nhưng sự xuất hiện nhiều hơn ở câu hỏi đòi hỏi năng lực thấp, cho thấy rằng các quyết định Xử lý các mã trả
lời không chính xác (chứ không loại bỏ) là hợp lý.
6. Thiếu mã trả lời được
xử lý
bỏ qua (ký hiệu là bỏ qua) nên có tỷ lệ bằng nhau của học
sinh ở mỗi cấp độ
kỹ năng. Mã này đã không được sử dụng cho các dữ liệu này.
IATA cung cấp một bản tóm tắt văn bản về mục thực hiện, trong đó có cảnh
báo nếu phân biệt là quá thấp
sẽ cho thấy những gì có thể được thực hiện để cải thiện nó. Ví dụ, IATA sẽ
xác định phương án gây nhiễu không hiệu quả mà không căn cứ từ câu trả lời (hoặc có hồ sơ
thống kê tương tự để sửa câu trả lời)[2].
Nếu IATA không phát hiện bất kỳ vấn đề phổ biến trong các dữ liệu, một bản tóm
tắt bằng lời về các kết quả được
hiển thị trong hộp văn bản bên dưới bảng phân tích phương án gây nhiễu.
Kiểm tra các kết quả cho MATHC1019, tóm tắt văn bản trên
dưới cùng bên phải khuyến cáo kiểm tra việc
mã hóa các tùy chọn trả lời như "A". Nhìn vào bảng phân tích hỗ trợ, chúng ta có thể thấy
rằng trả lời"A" được xác nhận với một khoảng cùng một tỷ lệ giữa học sinh có thành tích cao và học sinh kém, chỉ ra rằng nó hoạt
động không tốt như một phương án hỗ trợ.
Các phân tích hỗ trợ của dữ liệu đánh giá quốc gia cũng
có thể có ích cho các nhà cung cấp các khóa học giáo dục tại chức cho giáo viên
và cơ sở cho các chương trình giảng
dạy. Các kết quả có thể giúp xác định những quan niệm sai lầm phổ biến và sai
sót của học sinh. Quản lý chương trình
giảng dạy cũng có thể sử
dụng các dữ liệu để đánh giá sự phù hợp của câu
hỏi cụ thể cho một mức độ điếm số cụ
thể.
9.5.4. So sánh các câu hỏi khác nhau
Chuyển đến câu
hỏi thứ hai trong bài thi, MATHC1027 được thể hiện trong hình 9.7, chúng ta
thấy rằng, so với các câu hỏi trước đó, điểm số của nó có một mối quan
hệ mạnh mẽ với trình độ, được chỉ định
bởi các IRF có độ dốc lớn và phân biệt lớn
hơn (0,65) và hệ số tương quan
-biserial (0,53). Các lý thuyết và thực nghiệm IRFs là gần như giống hệt nhau,
chỉ ra rằng các mô hình thống kê hồi đáp phù hợp với dữ liệu hồi đáp. Bảng phân
tích phương án nhiễu cho thấy có 73,2% học sinh trong nhóm "High" chọn đúng (C) so với
19,9% trong nhóm trung và 8,6% trong nhóm thấp. Tất cả các dữ liệu cho giá trị trả lời không
chính xác (A, B và D), cũng như các mã trả lời không xuất hiện (9), có nhiều khả năng được lựa chọn bởi
các học sinh có năng lực thấp hơn so với các học
sinh có năng lực cao hơn.
Figure
9.7 Item analysis results for PILOT1 data, item MATHC1027
Hình 9.7 item kết quả phân tích dữ
liệu cho PILOT1, item MATHC1027
Ngược lại với hai câu hỏi chúng tôi đã
kiểm tra, câu hỏi với các biểu tượng
hình tam giác thường cảnh báo câu hỏi kém và khi đưa vào thử nghiệm có thể tạo ra kết quả sai lệch hoặc không có ích trong đo lường
kết quả học tập. Số lượng các câu hỏi kém xuất hiện trong một hướng dẫn thử nghiệm như thế này có thể được giảm thiểu bằng
cách làm theo các hướng dẫn mục sáng tạo mô tả trong tập 2 của loạt bài này (Anderson và
Morgan 2008). Chỉ một câu hỏi với một
biểu tượng cảnh báo trong những dữ liệu này là MATHC1075,
thể hiện trong hình 9.8. Bằng cách nhấp vào các câu hỏi sẽ cho bạn thấy thấy kết quả gần như
không tồn tại một mối quan hệ giữa những câu trả lời đúng hay sai với mức độ thông
thạo. Mặc dù một
mã trả lời không
xuất hiện vẫn quan đến năng lực, các mô hình thử nghiệm là không rõ
ràng. Học sinh thuộc nhóm thấp nhất
không có nhiều khả năng để lựa chọn một trong ba tùy chọn không chính xác, và cũng không có học sinh trong nhóm cao nhất có khả
năng làm như vậy (câu hỏi này đặc biệt có độ phân biệt thấp giữa nhóm học sinh trung bình và nhóm học sinh trình độ thấp). Các chỉ số
phân biệt là thấp
(0.14)
cũng như sự tương quan kém (0.16). Câu
hỏi này có thể liên quan đến mức độ thành thạo, nhưng vì có quá
ít học sinh đã trả lời
một cách chính xác (PVal = 0,12), do đó không thể ước tính các mối
quan hệ. Sự
trả lời cho câu hỏi này rõ ràng là không phụ thuộc vào trình độ, câu hỏi
này trong thử nghiệm sẽ có
xu hướng gia tăng ảnh hưởng của
các yếu tố ngẫu nhiên trong các
điểm thi. Bao gồm cả câu hỏi này (và các câu hỏi có vấn đề khác) trong
phân tích cũng có thể làm giảm
độ chính xác của các ước tính thống kê cho các bài kiểm
tra khác, vì các mục
thống kê và các thông số được phân tích bằng cách sử dụng điểm thi.
Figure
9.8 Item analysis results for PILOT1 data, item MATHC1075
Hình 9.8 item kết quả phân
tích dữ liệu cho PILOT1, item MATHC1075
Câu hỏi này có thể được gỡ bỏ từ các phân tích bằng cách
nhấn vào hộp kiểm bên trái của
tên mỗi câu hỏi. Sau khi loại bỏ một
câu hỏi, kết quả sẽ được tính toán lại bằng cách nhấp vào nút "Phân tích" trước khi gỡ bỏ các câu hỏi khác. Việc loại bỏ một câu hỏi duy nhất sẽ ảnh hưởng đến kết
quả của tất cả các câu hỏi khác.
Nếu có nhiều câu hỏi có vấn đề, bạn nên loại
bỏ chỉ một câu hỏi trong một lần, bởi
vì một số câu hỏi có gắn cờ là có vấn đề chỉ có thể xuất hiện vì những ảnh hưởng của các
câu hỏi tồi tệ hơn vào kết quả
phân tích. Nếu bạn
vô tình xóa quá nhiều câu hỏi, bạn có
thể kiểm tra lại từng câu hỏi hoặc bằng cách nhấn vào nút "Đặt lại item"
trên danh mục câu hỏi
để thiết lập lại toàn bộ danh sách câu hỏi. Đối với ví dụ
này, chúng tôi sẽ loại bỏ MATHC1075 và chạy lại các
phân tích, tạo ra các kết quả trong hình
9.9, trong đó kết quả cho MATHC1075 được nhấn
mạnh sau khi loại bỏ. Lưu ý rằng
các dữ liệu Discr và Pbis cho câu hỏi này
đã được thay thế bởi NaN (có nghĩa là "không phải là một con số") hoặc ngoài phạm vi giá trị; chúng sẽ không ảnh hưởng đến tính toán
sau này. Để loại
bỏ các item, các bảng phân tích hỗ trợ bên phải
không xuất hiện, và có một tin nhắn trong phần tóm tắt văn bản để hỗ trợ
phân tích các dữ liệu thử nghiệm.
Bởi vì
chúng tôi chỉ loại bỏ một
câu
hỏi duy nhất, số liệu thống kê cho các
item còn lại là tương đối như cũ.
Figure
9.9 Item analysis results for PILOT1 data, item MATHC1061
Hình 9.9 item kết quả phân
tích dữ liệu cho PILOT1, item MATHC1061
Bạn có thể tiếp tục xem xét tất cả các item bằng cách nhấp chuột vào từng hàng trong danh sách item
hoặc bằng cách điều hướng với các phím mũi tên
lên và xuống. Lưu ý rằng các bản tóm tắt bằng lời
được cung cấp bởi IATA chỉ dựa trên bằng chứng thống kê và không
được thông báo bởi các nội dung của các câu hỏi.
Một câu hỏi chi tiết được
đưa ra một đánh giá chi tiết bằng IATA
có thể không có một câu hỏi đại diện; một đánh giá chi tiết chỉ ra rằng các câu hỏi có thể không
cung cấp thông tin hữu ích khi các thử nghiệm hiện đang được sử dụng với tất cả các câu hỏi.
Nói chung,
những kiến nghị IATA cung cấp để chỉnh sửa hoặc loại
bỏ các câu hỏi cần được xem xét
trong bối cảnh mục đích của thử nghiệm và lý do ban đầu bao gồm các
câu hỏi cụ thể. Ví dụ, một số câu hỏi nên được giữ lại bất kể tính chất thống kê của chúng do (a) hỗ trợ cho kích thích động cơ tích cực về động lực học của học sinh (chẳng hạn như câu hỏi
đầu tiên dễ dàng) hoặc (b) sự cần
thiết để có đầy đủ tính đại diện về các khía cạnh quan trọng của các chương
trình giảng dạy. Tuy nhiên, tất cả
các câu
hỏi có chỉ số phân biệt thấp cần được loại bỏ hoặc chỉnh sửa về đáp án (nếu nhập
Key là không chính xác) trước khi tiến hành các phân tích khác. Các loại câu hỏi cho thấy độ nhiễu hoặc các thay đổi không mong muốn vào
mục dữ liệu hồi đáp và làm giảm độ chính
xác của các ước tính cho các câu hỏi khác. Loại bỏ một số câu hỏi có các phương án
nhiễu yếu trong phân tích các dữ liệu thí
điểm sẽ giúp tăng độ chính xác
của các kết quả thống kê. Tuy nhiên, việc lựa chọn các thiết lập cuối cùng của các câu hỏi sau các đánh giá thử nghiệm hoặc thử nghiệm được thực hiện bởi các chuyên gia chuyên sâu và cùng phối hợp làm việc với các nhóm biên soạn câu hỏi cụ thể và chịu trách nhiệm về chất lượng tổng thể của các bài kiểm tra đánh
giá quốc gia...
Khi bạn đã hoàn thành việc rà
soát tất cả các mục, nhấp vào "Next >>"
để tiếp tục.
9.6. Bước 5: Định cỡ TEST
Một trong
những giả thuyết thống
kê của IRT, cũng như một yêu cầu cho việc giải thích giá trị của kết quả kiểm
tra, đó là hiệu suất trên các
bài kiểm tra đại diện cho một cấu trúc có thể giải thích về kết
cấu hay định cỡ cho bài
kiểm tra. Lý tưởng nhất là một bài
kiểm tra thành tích quốc gia
như toán học hay khoa học nên đo cấu trúc đơn hoặc đa chiều mà nó được thiết kế để đo lường và không nên đo cấu trúc
hoặc các kích thước khác như khả năng đọc. Mục đích của mục kiểm
tra đa
chiều là để phát hiện
bất kỳ hành vi vi phạm các giả định rằng: 1)
chỉ có một chiều hướng duy nhất ảnh
hưởng đến hiệu suất thực hiện bài kiểm tra, và 2) các mối quan hệ
giữa hiệu suất trên các cặp hoặc nhóm câu hỏi có thể được giải thích bởi
nhiều nội dung. Trong hầu hết các trường hợp, các giả thiết thứ hai
tiến hành trước, nhưng với test với nhiều câu hỏi
(ví dụ, với hơn 50 câu hỏi), các nhóm nhỏ của câu hỏi có được giải thích bởi một khía cạnh nổi trội mà không có một ảnh hưởng
đáng kể đối với toàn bộ các khía cạnh của kiểm tra.
Việc phân
tích kiểm tra đa chiều xác định mức độ mà các
biện pháp kiểm tra các nội dung khác nhau về
trình độ mà mỗi một câu hỏi liên quan đến một nội dung. Số ít các nội dung đó có ảnh hưởng mạnh mẽ đến các bài kiểm tra, những cách giải thích nào là có giá trị hơn các
điểm kiểm tra. Mặc dù, bằng chứng
này là không đủ
để xác nhận tính hợp lệ của một thử nghiệm, nó có
thể cung cấp thông tin quan trọng
về nội dung của các câu hỏi cụ thể. Khía cạnh khác có giá trị, chẳng hạn như giá trị nội dung (là rất
quan trọng trong bối cảnh của một đánh giá quốc
gia) thường được coi là quan trọng hơn so với số
liệu thống kê khi xác định tính hợp
lệ của một bài kiểm tra hoặc
một câu hỏi (xem Anderson và Morgan, 2008 về một mô tả các thủ tục được thiết
kế để đảm bảo rằng một thử nghiệm
có giá trị nội
dung đầy đủ).
Từ một quan điểm thống kê,
ước tính các thông số IRT và số điểm phụ thuộc vào các khái niệm về khả năng trả lời chính
xác, trong đó giả định rằng xác suất của một trả lời (ví dụ, một trả lời chính xác) là điều kiện về một khả năng duy nhất đại
diện cho trình độ. Nếu câu hỏi khác nhau có các điều kiện và
kích thước khác nhau, thì các
thông số ước tính và điểm
số sẽ không chính xác.
Khi giao diện này xuất hiện, các đồ thị bên trái
minh họa cả biểu
đồ “Scree” cho các bài kiểm tra tổng thể cũng như các yếu
tố tải nhân tố cho các item đầu tiên, MATHC1019 thể hiện trong hình 9.10. Ở phía bên tay trái của
giao diện là một bảng tương tự như trong các giao
diện mục phân tích. Ký hiệu Summary (giải thích ở trang 23) trong cột có nhãn "F" bên cạnh mục cột "Name"
mô tả sự
thích hợp tổng thể của một câu hỏi về mối quan hệ đa chiều của
nó với hầu hết các câu
hỏi khác trong bài thi. Bên phải
của cột "Tên", các câu hỏi dễ ("PVal") trong phân tích cổ điển sẽ được hiển thị, cùng với việc loading các nhân tố vào giới hạn ban đầu ("Loading").
Việc xếp hệ
số nhân tố trong khoảng từ -1 đến 1 là thể hiện mức độ của sự tương quan giữa hiệu suất trên mỗi
câu
hỏi và tất cả câu hỏi thử nghiệm chính.
Ví dụ, giá trị 0,34
cho MATHC1019 chỉ
ra rằng kết quả trả lời câu hỏi này có
một mối tương quan 0,34 với số tổng điểm
kiểm tra bài kiểm tra (phần trăm-chính xác). Không có
giá trị "lý tưởng" value7[3], nhưng biểu hiện tương quan tốt hơn được chỉ ra bởi hệ
số tải nhân tố gần bằng 1.
Figure
9.10 Test and item dimensionality for PILOT1 data, item MATHC1019
Hình 9.10 Kiểm tra và
item chiều cho
dữ liệu PILOT1, item
MATHC1019
Các kết quả trong bảng nên được giải thích cùng với các kết quả
đồ họa hiển thị ở
phía bên tay phải của giao diện. Các
kết quả chính được hiển thị trong cửa sổ đồ họa là biểu đồ gấp khúc
rời rạc, trong đó mô tả tỷ
lệ phương sai được giải thích bởi
đặc
trưng riêng (eigen
value=giá trị
riêng). Các đường màu đỏ kết nối các dấu hiệu hình tròn được
sắp xếp từ trái sang phải để minh
hoạ những ảnh hưởng tương đối của
đặc
trưng riêng (eigenvalue[4]) đến toàn bộ kết quả kiểm tra, và các
dòng màu xanh liền
nét kết nối các dấu hiệu hình hộp mô tả các ảnh
hưởng tương đối của mỗi dấu hiệu đặc
trưng lên các câu hỏi của bài kiểm tra (hệ số nhân tố
trung bình). Tầm quan trọng của các giá trị riêng là ít quan trọng hơn so
với các mô hình của các biểu đồ hình gấp khúc rời
rạc. Biểu đồ hình gấp khúc rời rạc (Scree) biểu diễn cho toàn bộ bài kiểm tra nên có một điểm duy nhất về
phía trên bên trái của biểu đồ (khoảng 0,30 trong hình
9.10) kết nối với một đường thẳng gần như
nằm ngang ở dưới cùng của biểu đồ và kéo dài về phía bên phải của đồ thị. "L"
hình chữ L với hai
đoạn đường thẳng riêng biệt thể hiện trong hình 9.10, cho thấy có
duy nhất một điểm chung là chịu trách nhiệm về
kết quả kiểm tra PILOT1. Số
lượng lớn hơn các
đoạn đường thẳng riêng biệt cần
thiết để kết nối các điểm trên cùng bên trái vào dòng gần như ngang ở phía dưới,
kích thước lớn hơn có thể sẽ thực hiện thử
nghiệm cơ bản.
Lựa chọn từng câu hỏi
trong danh sách bên trái sẽ hiển
thị các biểu
đồ gấp
khúc cho câu hỏi cụ thể tương
ứng phía bên phải. Lý tưởng nhất, biểu
đồ gấp khúc biểu diễn cho mỗi một câu phải tương tự như biểu đồ của bài kiểm tra tổng thể - giá trị cao nhất
trong các câu hỏi
cụ thể nên được thể hiện bên trái (tương ứng với các chiều hướng chủ yếu của các bài kiểm tra).
Tuy nhiên, đặc điểm câu hỏi cụ thể có thể
giới thiệu các mô hình khác nhau, và những mô hình cụ thể không nhất thiết phải giống nhau. Ví dụ, câu hỏi MATHC1019 trong hình 9.10 là
không tường minh theo một chiều hướng nào; mặc dù có một hệ số hệ số tải nhân tố khác
không theo
chiều hướng khác, tập trung mạnh nhất là
vào các khía cạnh chính. Nhìn chung, mục kết quả cụ thể chỉ cần để được tư vấn nếu có
rõ ràng là nhiều
hơn một khía
cạnh hiệu suất thử nghiệm cơ bản (tức là, có hơn hai
dòng riêng biệt phân
khúc tạo nên những đường màu đỏ).
Trong trường hợp đó, bạn nên xác định và kiểm
tra các câu hỏi cụ thể mà những câu hỏi có
hệ số nhân tố trung bình có giá trị tương ứng với các chiều hướng tương tự như các giá trị riêng
không
tuồng minh.
Một điều
lưu ý trong việc giải thích các biểu đồ hình gấp khúc rời rạc là hỗ trợ
của mục cơ sở. Trong các thử nghiệm,
hầu
hết các câu hỏi có mực cơ sở
tương tự, các câu
hỏi với các cơ sở lớn hơn hoặc thấp hơn so với
các câu hỏi khác có xu hướng tạo ra yếu
tố nhân tạo "các yếu tố
khó khăn", đặc biệt là với các phân bố không bình thường của điểm phần trăm
trả lời chính xác bài kiểm tra. Các câu hỏi có độ khó cao có thể
xuất hiện để xác định hệ số nhân tố rời
rạc, chỉ đơn giản bởi vì những học sinh chăm chỉ (ví dụ, khả năng cao hoặc thấp) sẽ tạo ra các mẫu của
trả lời xuất
hiện một cách rất bất thường, liên quan mạnh mẽ so
với các mối quan hệ
giữa các bài kiểm tra khác nhau. Tuy nhiên, những "yếu
tố khó khăn" không hẳn đã có vấn đề. Xem xét các
mục trọng số nhân tố có thể giúp
xác định xem yếu tố thứ
cấp là có vấn đề giả tạo hoặc là thực thực tế. Để
xác định một yếu tố phụ là một yếu tố khó khăn,
kiểm tra hệ số tải nhân tố các câu hỏi với mức thấp
(<0.2) hoặc
cao (> 0,8) mục đội khó (PVal). Nếu hệ số tải nhân tố của các câu hỏi này có
một đỉnh tương ứng
với vị trí của các yếu tố phụ,
nó rất có thể là một
yếu tố khó khăn và có thể được bỏ qua.
9.6.1. Trọng số nhân tố
Các mô hình giả định IRT
"khu vực độc lập" giữa
các câu hỏi, có nghĩa là khả năng trả lời một câu hỏi này không phụ thuộc vào các câu hỏi khác. Lý tưởng nhất, dưới IRT, một bài kiểm tra nên có
những câu hỏi độc lập về mọi mặt ngoại trừ bài kiểm tra thử nghiệm chính. Sự quan trọng từ các ảnh hưởng cục bộ của câu hỏi có thể dẫn đến ước lượng không chính xác các mục thông số thống
kê thử nghiệm và trình độ học sinh. Ví dụ, một
bài kiểm tra toán học bao gồm một câu hỏi giải quyết vấn
đề phức tạp có thể chỉ định một tập hợp các điểm số khác nhau
cho mỗi câu trong số các bước hợp lý cần thiết để tính toán câu trả lời cuối cùng. Nếu thử nghiệm trả
lời đoán mò ở bước 1 không đúng, nó ảnh hưởng đến khả năng trả lời chính xác trên mỗi bước
tiếp theo. Điều này đặt các loại câu hỏi kiểm tra phụ
thuộc sẽ không phù hợp cho mô hình- IRT
trong trường hợp này, câu hỏi cần được
xem
như chính xác là một câu hỏi đánh giá thái độ duy nhất.
Ảnh hưởng cục bộ thường là vấn đề duy nhất trong các
câu hỏi đang liên quan đến
các khía cạnh chính,
do đó cách hiệu quả nhất để sử dụng giao diện này là sắp xếp các câu hỏi theo cột "Loading" bằng cách nhấp vào
tiêu đề cột once[5]
(xem Hình 9.11), và
so sánh hệ số nhân
tố các câu hỏi thấp để xác định đỉnh chung trong đồ thị mục hệ số nhân tố của chúng. Nếu nhiều câu hỏi có hệ số
nhân tố kém sẽ có đỉnh ở những vùng tương
ứng với các chiều hướng
tương tự, chúng có thể có một số ảnh hưởng cục bộ. Các
thống kê này có xu hướng nhạy cảm
về lỗi lấy mẫu, vì vậy bất kỳ kết quả từ tổng thể thống kê này nên được sử dụng để khuyến khích xem xét nội dung câu hỏi chi
tiết hơn chứ không phải đưa ra quyết định dứt khoát.
Sau khi
phân loại các câu hỏi, các
câu
hỏi được chọn là MATHC1075; vì
câu hỏi này đã được gỡ bỏ từ các phân tích
trong bước phân tích trước đó, hệ số nhân tố cho câu hỏi này là NaN, và không có kết quả hiển
thị cho các câu
hỏi (đồ thị chỉ hiển thị các biểu đồ hình gấp khúc rời
rạc cho toàn bộ bài kiểm tra). IATA gán một biểu tượng
cảnh báo tam giác với bất kỳ item nào mà biểu hiện có thể có vấn đề về ảnh
hưởng đến việc ước lượng số liệu thống kê khác. Lưu
ý rằng IATA chỉ gắn cờ một câu hỏi khác
với các biểu tượng
cảnh báo hình tam giác. Hình 9.11 hiển thị
các kết quả cho câu hỏi MATHC1035. Câu hỏi MATHC1035 là
có
hệ số tương quan tương đối yếu với các khía cạnh
chính và có
một mối quan hệ rất đáng
chú ý đến khía cạnh thứ
hai, trong đó cho thấy nó có thể được đo một
khía
cạnh khác biệt so với phần lớn các câu hỏi khác. Tuy nhiên, những kết quả
đo
được từ các thử nghiệm không phải là bằng chứng thuyết phục để đảm bảo loại bỏ câu hỏi này. Chuyên
gia chương trình giảng dạy và
giáo viên có kinh nghiệm nên xem
xét lại vấn đề nào trong mục thống kê để
xác định nếu có một vấn đề
liên quan đến nội dung mà có thể đảm bảo loại
bỏ hoặc sửa đổi nó.
Figure 9.11
Comparison of item dimensionality results for PILOT1 data, items MATHC1035 and MATHC1034
Hình 9.11 So sánh các kết quả item cho dữ liệu
đa chiều PILOT1, các item MATHC1035 và MATHC1034
IATA gán một biểu tượng
cảnh báo hình kim cương cho bất kỳ câu
hỏi nào nếu đang có một hệ số tải nhân tố mạnh hơn vào các khía cạnh kiểm tra ban đầu, nhưng
nếu kết quả có thể sẽ không có vấn đề đối với
bất kỳ tính toán tiếp theo.
Một ví dụ điển hình được thể hiện trong hình 9.12, cho câu hỏi MATHC1002. Câu
hỏi này có liên quan đến một số phương
diện, nhưng vì các câu hỏi kiểm tra có ảnh hưởng thấp đên toàn
bộ
kết quả kiểm tra, được chỉ ra bởi các
giá trị riêng tương đối nhỏ (đường đứt nét màu đỏ) tương ứng với các đỉnh của hệ số tải nhân tố lớn (liền
nét đường màu xanh), xác định dù số ảnh hưởng của câu hỏi là có thể chấp nhận
hoặc không phải
là một khía
cạnh của nội dung kiểm tra chứ không phải là một trong số liệu thống kê.
Figure
9.12 item dimensionality results for PILOT1 data, items MATHC1002
Hình 9.12 item kết quả
chiều cho dữ liệu
PILOT1, các item MATHC1002
Tất cả các bài kiểm tra là bao quát trong một mức độ nào đó, bởi
vì nó không thể kiểm tra chính xác cùng một vấn đề về những điều tương
tự mà không cùng
một mục đích . Vì vậy, nếu diện tích biểu đồ hình gấp khúc của tổng thể
không chỉ ra bất kỳ vấn đề có khả năng ảnh hưởng của bất kỳ chiều hướng bào hoặc mức
độ phụ thuộc là không đáng kể. Đối với ví dụ này, tất
cả các câu
hỏi sẽ được giữ lại để phân tích
tiếp theo bởi vì biểu
đồ hình gấp khúc của tổng
thể không chỉ ra bất kỳ vấn
đề.
Khi bạn đã hoàn thành việc rà
soát các mục, nhấp vào "Next >>"
để tiếp tục phân tích các giao diện mục độ phân biệt.
9.7. Bước 6: MỤC CHỨC NĂNG PHÂN BIỆT CỦA CÂU HỎI
Các nguyên
tắc và lý do cho việc
phân tích chức năng phân biệt (DIF) sẽ được thảo luận
chi tiết trong Chương 15 (trang 192). Tóm lại, phân tích DIF
để kiểm tra mức độ mà các IRF của một câu hỏi là ổn định giữa các nhóm học sinh khác nhau. Nếu IRF là khác nhau cho hai nhóm khác nhau, sau đó điểm số được
ước tính bằng cách sử dụng IRF có thể thiên vị
hoặc trong phạm
vi trình độ của học sinh. Các phân tích DIF
kiểm soát những khác biệt về trung bình mức độ thông thạo trong các nhóm học sinh khác nhau,
có nghĩa là những lợi thế và bất lợi
thể hiện tương đối qua kết quả DIF độc lập
với sự khác biệt về trình độ
trung bình trong các
nhóm khác nhau.
Các giao diện phân tích DIF
được thể hiện trong hình 9.13. Ở phía bên tay trái
là tập hợp của bốn
điều khiển được sử dụng để xác định
các phân tích. Các trình đơn thả xuống ở
phía trên cho phép bạn chọn một
biến từ danh sách các biến trong
các dữ liệu hồi đáp mà không kiểm tra các câu hỏi. Khi bạn chọn một biến, IATA sẽ liệt
kê các giá trị duy nhất của biến
này trong các bảng "giá trị có thể", cùng với
tỷ lệ % không có trọng lượng của những học sinh có
mỗi một giá trị. Để
chọn nhóm so sánh, trước hết
vào giá trị mà bạn muốn là nhóm tập trung, và sau đó nhấp vào giá trị đại diện cho các nhóm tham khảo. Các
đặc điểm kỹ thuật tập trung và nhóm tham khảo xác định làm thế nào thống kê tóm tắt được các tính toán; các ước tính
sử dụng trọng số phân phối mẫu
về trình độ của các
nhóm tập trung để tính thiên vị và tính ổn định trung bình thống kê. Để thay đổi các nhóm tập trung và nhóm tham khảo, bấm vào giá trị
khác nhau trong các bảng "giá trị khả năng"; các giá trị được gán cho nhóm chính và
các nhóm tham chiếu sẽ được cập nhật trong các hộp văn bản ở phía dưới bên
trái. Các số liệu thống kê
là nhạy cảm nhất với các nhóm tập trung, do đó, thông thường các thực hành là để
đảm bảo rằng các
nhóm tập trung là một nhóm thiểu số hay
nhóm có nhiều thiệt
thòi.
Figure
9.13 DIF analysis results for PILOT1 data by sex, item MATHC1046
Hình 9.13 DIF kết quả phân
tích dữ liệu cho PILOT1 theo giới tính, item
MATHC1046
Đối với ví dụ này, chúng ta sẽ thực hiện một phân tích DIF sử dụng biến
"sex". Chúng tôi muốn xem nữ sinh có
bị hạn chế so với nam giới. Để chỉ định phân
tích và xem xét các kết quả,
cần thực hiện chương sau đây:
1. Từ menu thả xuống bên trái, chọn biến "sex".
Khi bạn làm như vậy, bảng bên dưới sẽ được khu
trú với các giá trị "1.00" và "2.00", với các giá trị của
50% cho mỗi giá trị, có nghĩa là mẫu có số lượng của nam và nữ bằng nhau.
2. Trong bảng giá trị,
bấm vào giá trị "1.00" - điều này sẽ làm cho giá trị là 1,00 (đại
diện cho phái nữ) để nhập như các nhóm tập trung trong hộp văn bản bên
dưới.
3. Trong bảng giá trị,
bấm vào giá trị "2.00" - điều này sẽ làm cho giá trị là 2,00 (đại
diện cho nam giới) để nhập như các nhóm tham khảo trong hộp văn bản bên
dưới.
4. Nhấp vào nút "Calculate" và chờ để cho các
tính toán hoàn thành.
5. Khi tính toán hoàn tất, trong danh sách các mục, nhấp vào tiêu đề
của "S-DIF" để sắp xếp tất cả các câu hỏi bằng giá trị của các số
liệu thống kê S-DIF.
Khi bạn đã hoàn thành những
bước này, giao diện sẽ xuất hiện như minh họa trong hình 9.13. Có 15 câu hỏi trong ví dụ minh họa này với IATA hoặc là một cờ hoặc biểu tượng cảnh báo. Đối với mỗi câu hỏi, hai số liệu thống kê được tính
toán, S-DIF và U-DIF. S-DIF mô tả sự khác biệt ước lượng trung bình giữa các nhóm (tham chiếu
trừ nhóm tập trung), và U-DIF mô tả sự khác biệt trung bình tuyệt đối giữa các nhóm.
Các giá trị thống kê U-DIF là luôn luôn tích cực và lớn hơn giá trị tuyệt đối
so với S-DIF. Ngay cả khi không có lợi thế có tính hệ thống cho một nhóm (S-DIF gần 0),
một câu hỏi có thể có một mối quan hệ mạnh mẽ hơn với trình độ thông thạo trong một
nhóm, mà sẽ tạo ra một
mối liên hệ lớn hơn U-DIF thống kê.
Một ví dụ về một câu
hỏi phù hợp với DIF, nơi các giá trị tuyệt đối của S-DIF và U-DIF giống hệt
nhau là MATHC1035, được minh họa trong hình 9.14. Đối với câu hỏi này, lợi thế
rõ ràng là trên toàn bộ phạm vi
thống kê thì phụ nữ thành thạo. Sự khác biệt phù hợp cho thấy rằng phụ nữ có nhiều khả
năng để thực hiện tốt hơn các câu
hỏi này so với nam giới, thậm
chí nếu họ có mức độ chính xác hơn
trong cùng một trình độ. Các số liệu thống kê S-DIF chỉ ra rằng, trung bình xác
suất trả lời chính xác của nữ là cao hơn 23% điểm
số so với nam giới về
trình độ tương đương.
Figure
9.14 DIF analysis results for PILOT1 data by sex, item MATHC1035
Hình 9.14 DIF kết quả phân tích dữ liệu cho PILOT1 theo giới
tính, item MATHC1035
Với phân tích DIF, các thống kê và con số có xu hướng rất nhạy cảm với lỗi
lấy mẫu, có thể dẫn đến xuất hiện các câu
hỏi có sự khác biệt có thể không xuất
hiện trong một mẫu lớn hơn. IATA gán một biểu tượng cảnh báo khi hệ số lấy mẫu
variation[6]
cho các số liệu thống kê S-DIF là nhỏ hơn 0,2, chỉ ra rằng sự khác biệt quan
sát có được không phải là khả năng do lỗi
lấy mẫu, hoặc có một sự khác biệt rất lớn hoặc trong S-DIF hay U-DIF cần phải
kiểm tra ngay cả trong các mẫu nhỏ.
Bởi vì lỗi nhạy cảm trong lấy mẫu, đôi khi
các kết quả đồ họa có thể gây hiểu nhầm. Ở hai đầu trên và dưới của thang thành
thạo, có xu hướng ít học sinh trả lời, đặc biệt với các
mẫu nhỏ như ví dụ hiện tại. Thông thường, các trả lời của một hoặc hai câu
hỏi có thể sai khiến sự xuất hiện của đồ thị tại hai thái cực này. Khi trọng
lượng thống kê tóm tắt các tính
toán số lượng học sinh nhóm tập trung tại mỗi năng lực, họ không bị ảnh hưởng
nhiều bởi sai số ngẫu nhiên như trong
các đồ thị. Đồ thị cho các kết quả cho MATHC1042 trong hình 9.15 cung cấp
một ví dụ về cách đồ họa kết quả đánh lừa trong một số trường hợp. Mặc dù đồ
thị cho thấy một bất lợi rất lớn đối với nữ (độ
nghiêng khu vực nhỏ), S-DIF thống kê thực tế (-2,01) chỉ ra một bất lợi
tương đối yếu.
Figure
9.15 DIF analysis results for PILOT1 data by sex, item MATHC1042
Hình 9.15 DIF kết quả phân tích dữ liệu cho PILOT1 theo giới
tính, item MATHC1042
Bằng chứng quan sát của DIF
cũng có thể được
tìm thấy khi nội dung câu hỏi cụ thể rất
không phù hợp với kích thước kiểm tra chính cũng như các kiểm tra
khác. Ví dụ, trong
toán học, mục tiêu học
tập phổ biến cho
học sinh trẻ là nhận ra các công cụ
đo lường khác nhau cho các đơn vị
khác nhau (chẳng hạn như cm, kg, độ C).
Học sinh ở vùng
sâu vùng xa thường có hoàn cảnh khó khăn, ngay cả khi họ rất giỏi trong
toán học, có thể không có sự tiếp xúc cùng
với những công cụ như học sinh trong khu
vực đô thị. Kết quả là, họ
có thể gặp khó khăn với công cụ trên các
bài kiểm tra đòi hỏi phải có kiến
thức cụ thể này. Tuy nhiên,
nhược điểm này không phải là một điểm số của các bài kiểm tra; nó là một hệ quả của
một bất lợi cụ thể
về mức độ thông thạo. Trước
khi có được bất kỳ kết luận nào về sự
thiên vị đối với học sinh cụ thể,
các chuyên gia về nội dung chương trình giảng dạy là những
người rất nhạy cảm với vấn đề dân tộc, sự khác biệt về địa
lý, giới tính nên họ có thể kiểm tra các loại câu hỏi kiểm tra để xác nhận rằng nó có bằng chứng về sự thiên
vị về khía cạnh nội dung mà có sự chấp nhận các bằng chứng thống kê.
Phân tích DIF nên được thực hiện
cho tất cả các đặc điểm nhân khẩu học và các nhóm đó sẽ được so sánh trong
kết quả của phân tích chính; sự hiện diện của
DIF trên sự lưu ý với một đặc
trưng điển hình không có liên
quan đến sự hiện diện hay vắng mặt
của DIF đối với đặc trưng khác. Thông
thường, các biến số quan trọng
nhất để xem xét cho DIF là những biến số lấy
mẫu phân tầng (như Region), hoặc có thể tạo lại biến từ bảng câu hỏi cơ
sở. Các dữ liệu
PILOT1 có ba biến nhân khẩu học: Sex, Ngôn ngữ và Vùng. Như một bài tập
độc lập, bạn có thể thực hiện tương tự như phân
tích DIF cho ngôn ngữ, và khu vực bằng
cách hoàn thành chương tương tự như
đối với các phân tích DIF quan hệ tình dục, chắc
chắn để chọn các nhóm thiểu số như nhóm chính và nhấn “Tính để cập nhật kết quả”.
Hình 9.16 minh họa một kết quả DIF phổ biến trong các tình huống chuyển đổi, sai sót trong chuyển đổi làm cho một câu hỏi thử nghiệm tốt lại gây khó
hiểu cho học sinh trong các phiên bản chuyển đổi.
Kết quả là từ
một phân tích DIF
cho các biến
ngôn ngữ cho item MATHC1064. Item này là
một ví dụ điển hình nhất của DIF
trong đó trả lời chính xác liên quan chặt chẽ
đến năng lực trong một dân số (trong
trường hợp này, language = 2) và có một mối quan hệ yếu hoặc
không tồn tại khác (language = 1).
Figure
9.16 DIF analysis results for PILOT1 data by language, item MATHC1064
Hình 9.16 DIF kết quả phân tích dữ liệu cho PILOT1 bởi ngôn ngữ, item MATHC1064
Các phân tích DIF trong
IATA có thể phục vụ như một công cụ nghiên cứu để xác định xem nhóm học
sinh cụ thể có vấn đề với lĩnh vực cụ thể. Phân tích DIF cũng có thể tạo điều kiện cho một sự hiểu biết về sự
khác biệt mà có thể được giới thiệu trong phiên bản các ngôn ngữ khác nhau của một bài kiểm tra đã được chuyển đổi. Bằng chứng
thống kê của DIF
có thể được sử dụng để hỗ trợ việc sửa lỗi trình bày chỉnh
sửa trong thời gian thí điểm hay
thử nghiệm. Nó cũng
có thể được sử dụng để thực hiện các nghiên cứu thăm dò vào sự khác biệt hiệu
suất thực tế mà có thể tồn tại trong học sinh.
Mục đích chính của phân tích DIF là để thảo luận và đánh
giá các câu hỏi hướng dẫn thử nghiệm và hướng dẫn giải thích kết quả. Đối với mỗi phân tích DIF
được thực hiện, IATA lưu kết quả ở một table[7] dữ liệu. Những kết quả này, và bất kỳ đồ thị
đặc biệt thú vị, nên được copied[8], lưu và chia sẻ với các
chuyên gia về nội dung chương đào tạo để xác định có thể giải thích cho mô
hình của sự khác biệt giữa
các nhóm tập trung và nhóm tham khảo. Nếu có thỏa thuận rõ ràng rằng một câu hỏi được thiên vị, nó cần được
loại bỏ từ các thông số kỹ thuật phân tích trên trang 2 của IATA và
phân tích của
IATA trước đó nên được lặp đi lặp lại. Cuối
cùng, nó là giá trị lặp đi lặp lại
rằng, khi các
kết quả phân tích DIF không đáng tin cậy là dễ từ lỗi lấy mẫu, bất kỳ quyết định về việc
có hay không việc lựa chọn một câu hỏi thử nghiệm cụ thể trong phiên bản cuối cùng của thử nghiệm dựa trên những nghi ngờ về sự thiên vị nên có một chương trình giảng dạy tốt hay nội dung rõ ràng. Chúng tôi sẽ tiến hành trong hướng dẫn này mà không loại bỏ bất kỳ câu hỏi của các bài kiểm tra.
Khi bạn đã hoàn thành việc thực
hiện phân tích DIF và đánh giá kết quả, nhấp
vào "Next >>"
nút.
9.8 Bước 7: THANG ĐÁNH GIÁ
Các kỹ thuật phát triển một
số số liệu để
phân tích các hoạt động thử nghiệm
được gọi là mở rộng quy mô. IATA báo cáo kết quả kiểm
tra bằng cách sử dụng các điểm theo thang đo sau: PercentScore, Trăm, RawZScore,
ZScore, IRTscore và
TrueScore. Những mẫu được giải thích sẽ có chi
tiết trong trong Bảng
8.1. Hiệu suất trên các mẫu mặc định hoặc là tóm tắt trên thang
điểm từ 0 đến 100 hoặc trên
mẫu tiêu
chuẩn, trong đó có một trung
bình là 0 và độ lệch chuẩn
là 1. Bạn nên sử
dụng các mẫu
đó là hữu ích nhất đối với các mục
đích của xử
lý kết quả - các bên liên quan khác
nhau có thể thích các loại khác
nhau của quy mô. Nói chung,
các IRTscore là
số điểm hữu ích nhất trên phạm vi rộng nhất của các mục đích, nhưng nó
đang có những bất lợi phổ biến vì có
khoảng một nửa học sinh có số điểm
ít hơn 0. Nhiều
câu
có lợi ích liên quan không biết làm thế nào để giải thích mức độ tiêu
cực
về điểm, vì vậy nó thích hợp hơn để tạo ra một mẫu mới để không có học sinh đạt giá trị điểm nhỏ
hơn 0.
Giao diện xem xét các điểm theo
thang đo và tạo điểm theo thang đo bổ sung được thể hiện trong hình 9.17. Ở phía bên tay trái, có một trình đơn thả xuống và
một cửa sổ đồ thị. Bạn có thể chọn bất kỳ loại
điểm theo thang điểm từ trình đơn thả xuống, sẽ
vẽ đồ thị phân phối được thang điểm được lựa chọn. Hình 10.10 trình bày
đồ thị cho số tỷ lệ điểm chọn (PercentScore). Bên phải là một bảng điều
khiển trình bày thống kê tóm tắt
cho các điểm được lựa chọn. Ở góc dưới
bên phải là một bộ điều khiển
cho các thay đổi tỷ lệ IRTscore bằng
cách áp dụng một độ lệch tiêu chuẩn mới có ý nghĩa. Các thủ tục rescaleing chỉ áp dụng cho
các IRTscore, mà
là đầu ra số điểm chính của IATA.
Chức năng Paste từ menu chuột phải.
Figure 9.17 The scale review and scale setting
interface
Hình 9.17 Việc xem xét mẫuvà
thiết lập mẫugiao diện
9.8.1. Phân phối điểm thử nghiệm và kiểm tra thông tin
IATA hiển thị phân phối điểm như biểu đồ, nơi mà mỗi
thanh đại diện cho một loạt các điểm, và chiều cao của mỗi thanh đại diện cho
tỷ lệ học sinh có điểm số trong phạm vi đó. Đối với các loại điểm được thể hiện
trên mẫu với các độ trung
bình khoảng 0 và độ
lệch chuẩn khoảng 1
(StandardizedZscore, RawZScore, và IRTscore), IATA cũng hiển các chức năng
kiểm tra thông tin là một đường liền
nét. Các chức năng kiểm tra thông tin mô tả cách chính xác các thử nghiệm ở
trình độ khác nhau về tiêu chuẩn mẫu
mà các câu hỏi được thu nhỏ (để biết thêm thông tin, hãy tham khảo Chương
15, trang 185). Các chức năng thông tin kiểm tra tỷ lệ nghịch với sai số chuẩn
đo lường; nếu các thông tin kiểm tra là cao, sai số chuẩn đo lường sẽ thấp. Các
chức năng thông tin kiểm tra nên được diễn giải liên quan đến các nhu cầu kiểm
tra cụ thể hoặc mục đích của thử nghiệm.
Ví dụ, nếu mục đích của thử nghiệm là để xác định mức
độ học sinh năng lực
thấp, một bài kiểm tra đó là không phù hợp và chính xác nhất
cho kiểm tra học sinh có trình độ cao sẽ
và sẽ không được sử dụng như là một biện
pháp thích hợp để xác định các học sinh năng lực thấp. Nói chung, các lỗi đo trung bình cho tất cả học
sinh sẽ được giảm thiểu nếu các chức năng thông tin cho một bài kiểm tra là hơi
rộng, nhưng về cấu trúc và vị trí, như sự
phân bố về trình độ cho các học sinh đang được thử nghiệm. So sánh các chức
năng kiểm tra thông tin với sự phân bố của các điểm kiểm tra có thể được làm sáng tỏ cho dù các thiết
kế thử nghiệm sẽ được hưởng lợi từ sửa đổi sự cân bằng của các câu hỏi với độ
chính xác lớn hơn cho khả năng năng lực cao hay thấp.
9.8.2. Tóm tắt thống kê
IATA tạo ra số liệu thống kê tóm tắt sau đây cho mỗi điểm
số kiểm tra:
1. Trung
bình (Mean)
4. Khuynh
hướng tập trung (Kurtosis)
5. Khoảng tứ phân vị (Interquartile range)
7. Trung
vị (Median)
8. Phân
vị thứ 25 (75th
percentile)
9. Tỷ lệ hồi
đáp (Response rate)
10. Độ tin
cậy (Reliability)
11. Tổng số câu
được hỏi (Total number of respondents)
12. Số lượng các câu
hỏi trong
các bài kiểm tra (Number of items in the
test)
13. Số lượng các câu hỏi đưa vào phân tích. (Number of items included in the analysis.)
Hỗ trợ thống kê đầu tiên mô tả sự phân bố các điểm ước
tính. Sử dụng thanh cuộn bên phải của bảng để xem ba hàng cuối cùng.
Các thống kê này giúp xác định sự phù hợp của các điểm
theo thang đo cho các mục đích khác nhau (ví dụ, phân tích thống kê trung bình hoặc báo cáo bằng điểm tứ vị phân). Thống kê trước
đó mô tả các điều kiện theo đó các phân tích được tiến hành và cung cấp một
đánh giá toàn diện về bài kiểm tra, mà phải
được kiểm tra để xác nhận rằng các phân tích được tiến hành trên các dữ liệu
phù hợp theo thông số kỹ thuật chính xác. Những thống kê này được mô tả trong
phần 1 của bộ sách này. Tỷ lệ hồi
đáp mô tả các số trung bình của các giá trị (không tính bỏ sót) trả lời trên mỗi
item. Độ tin cậy là một biện pháp tóm tắt tổng thể chính xác trung bình của một
thử nghiệm cho các mẫu học sinh. Cả hai tỷ lệ hồi
đáp độ tin cậy và phạm vi 0-1 cần phải càng cao càng tốt. Tổng số câu hỏi đưa
vào phân tích phản ánh thực tế là một số câu hỏi có thể được giảm từ các phân
tích khi chúng được coi là không
phù hợp do cách diễn đạt kém, gây nhầm lẫn cho học sinh hoặc bất cập kỹ thuật
khác. Đối với các phân tích hiện nay, số câu trả lời là 262, số lượng các câu hỏi là 80, và số
lượng các câu hỏi "Ok" là 79, vì câu
hỏi MATHC1075 đã được gỡ bỏ từ các phân tích.
Giao diện rộng là hữu ích hơn trong tổ chức đánh giá tổng hợp cuối cùng chứ không phải là
thử nghiệm thí điểm. Các mẫu thử nghiệm thí điểm không có trọng số là không
đại diện, vì vậy sự phân bố các kết quả không nên được áp dụng cho tổng quát. Ngoài
ra, vì không có điểm kiểm tra sẽ được báo
cáo, không có nhu cầu để tạo ra điểm theo thang đo có nguồn gốc, và kết quả hơn
nữa từ giao diện rộng là không liên quan đến việc phân tích các dữ liệu PILOT1.
Giao diện rộng sẽ được thảo luận chi tiết hơn trong Chương 10 Bạn có thể nhấp
vào "Next >>" để tiếp tục các công cụ tiếp theo.
9.9. Bước 8: CHỌN CÂU HỎI THI
Sử dụng IATA lựa chọn các câu hỏi tối ưu có sẵn bất cứ khi nào một tập
tin mục dữ liệu đã được
nạp hoặc tạo ra trong quá trình phân tích các dữ liệu phản hồi. IATA có thể tự
động chọn các câu hỏi dựa trên những
đặc điểm mục thống kê của chúng để tạo ra các bài
kiểm tra hiệu quả nhất cho mục đích một quá
trình thử nghiệm nhất định. Các nguyên tắc cơ bản thử nghiệm xây dựng theo IRT- là việc kiểm
tra thiết kế có một số kỳ vọng về mức độ sai số đo lường mà một bài kiểm tra
nên có ở các cấp độ khác nhau về trình độ ngoài các yêu cầu về sự cân đối nội dung phải
được đưa vào thử nghiệm.
Nói chung, có nhiều hơn các câu hỏi trong một bài kiểm
tra, sẽ càng có nhiều
thông tin mà chúng có thể tạo ra đối với yêu cầu năng lực người dự thi. Thật không may, thường kiểm
tra mà có quá nhiều câu
hỏi là không thực tế và kết quả là không như mong muốn; các câu hỏi có thể là không
cần thiết trong phạm vi đánh giá và có thể dẫn đến
làm cho học sinh mệt mỏi nên sin ra đoán mò (test-taker) và ảnh
hưởng đến sức khỏe học sinh, dẫn đến kết quả kém chính xác. Kiểm tra quá dài
cũng gây ra nhiều tốn kém về quản lý, điểm số,
và quá trình cải tiến. Để có hiệu quả
nhất, một bài kiểm tra chỉ nên bao gồm các loại câu
hỏi kiểm tra thông tin cơ
bản nhất từ các nguồn gồm các câu hỏi có
sẵn. IATA có thể giúp phát triển một thử nghiệm với số lượng tối thiểu các bài
kiểm tra cần thiết để trả lờicác mục đích của các nhà hoạch định chính sách và
các bên liên quan khác.
Xác định một mức độ
chấp nhận của lỗi tiêu chuẩn phụ thuộc vào mục đích của việc đánh giá. Trong
khi nó sẽ là lý tưởng để xây dựng một thử nghiệm với thông tin cao ở tất cả các
năng lực, điều này sẽ đòi hỏi nhiều câu hỏi, làm tăng độ dài của thời gian mỗi
học viên dành cho
ngày thi, do đó có thể làm giảm hiệu lực của các kết quả
thử nghiệm bằng cách chấp
nhận sự mệt mỏi và chán nản có ảnh hưởng đến điểm thi. Nếu một bài
kiểm tra được giải
thích theo kiểu Norm (Norm referenced- tham chiếu), cung
cấp các thông tin chi tiết (và lỗi đo thấp) cần thiết cho tất cả các cấp độ nhận thức. Ngược lại, nếu một bài kiểm tra
được giải
thích theo tiêu chí (Criterion referenced) chỉ cần thiết về
các thông tin xung quanh ngưỡng năng lực mà tại đó các quyết định được đưa ra.
Tuy nhiên, lựa chọn câu
hoit ở giai đoạn thí điểm không nên chỉ được xác định bởi các kết quả phân tích
thống kê. Thời hạn hiệu lực của việc giải thích các kết quả là các yếu tố quan
trọng nhất và thật sự khác biệt trong việc xây
dựng chuẩn thành tích quốc
gia. Các điểm kiểm tra đầy đủ và chính xác nên đại diện cho các miền năng lực được đo. Các công
cụ quan trọng nhất để duy trì hiệu lực kiểm tra là các giớ hạn phạm vi lý thuyết và các
bảng thông số kỹ thuật hoặc kế hoạch kiểm tra chi tiết. Một kế hoạch chi tiết
sẽ giúp xác định sự cân bằng về nội dung cũng như các yêu cầu về mức độ nhận thức, kỹ năng trong một thử nghiệm (xem Anderson
và Morgan, 2008).
Các giao diện để lựa chọn các loại câu hỏi thử nghiệm tối ưu
được thể hiện trong hình 9.18. Ở bên trái, một trình đơn thả xuống cho phép bạn
lựa chọn nguồn gốc của
câu hỏi. Trong ví dụ này, các bảng "Items1" có sẵn, trong đó có hiện các
kết quả của các analysis[9].
Bên dưới các lựa chọn nguồn dữ liệu là những lĩnh vực mà cho phép bạn xác định
tên sẽ được áp dụng cho việc lựa chọn câu hỏi và tổng số các câu hỏi để lựa
chọn từ các mẫu dữ liệu. Bảng bên
dưới các lĩnh vực này chứa một danh sách của tất cả các câu hỏi hiệu chuẩn
trong các nguồn dữ liệu được chọn, cùng với cấp
độ trình độ "Level" và giới
loại nội dung ("Nội dung") kết hợp với mỗi câu hỏi. Mặc dù sau này
hai trường dữ liệu thường được đọc vào IATA trong một tập tin mục dữ liệu, dữ liệu
cũng có thể được chỉnh sửa trực tiếp bằng
tay trong bảng. Quá trình lựa chọn thống kê không yêu cầu cấp độ và thông số kỹ
thuật, vể nội dung, nhưng có
thông tin chi tiết về mỗi câu
hỏi sẽ giúp bạn tối ưu hóa việc lựa chọn câu
hỏi khi duy trì thể hiện nội dung như mong muốn.
Nhấp vào hộp kiểm bên trái của một
tên câu hỏi sẽ buộc IATA chọn câu hỏi, bất kể tính chất thống kê của nó.
Bên dưới bảng câu hỏi, có hai điều khiển trượt cho phép bạn
xác định phạm vi năng lực mà trong đó bạn muốn tăng tối đa độ chính xác của kiểm
tra. Các điều khiển được đặt sao cho giá trị tối thiểu tương ứng với 2 phần
trăm về trình độ và tương ứng tối đa là 98 phần trăm (các giá trị được chọn hiện
tại được hiển thị ở bên phải
của từng kiểm soát trượt). Bạn có thể chỉ định một
phạm vi hẹp hơn, trong đó để tối đa hóa các thông
tin bằng cách sửa đổi giới hạn
trên và dưới để phản ánh mục tiêu đánh giá của bạn. IATA sẽ lựa chọn các câu hỏi để tạo ra các lỗi
tiêu chuẩn tối thiểu về đo lường trong phạm vi trình độ
giữa các giới hạn trên và dưới, giả sử một
phân phối chuẩn về trình độ.
Figure 9.18 Item selection results for PILOT1 data, 50 items
Hình 9.18 item kết quả lựa
chọn cho dữ liệu PILOT1, 50 câu hỏi
Mục đích chính của hướng dẫn
thử nghiệm đánh giá các câu
hỏi là xác định câu hỏi hữu ích nhất
trong khâu cuối cùng của tổ
chức đánh giá quốc gia. Bởi vì các câu
hỏi đã được hiệu chuẩn với một mẫu không đại diện, nó có thể hữu ích để kiểm
tra chéo quá trình lựa chọn cách
thức đánh giá bằng cách sử dụng một số tiêu chí. Bởi vì mẫu là hoàn toàn từ các trường thành thị, có khả năng là
sự phân bố về trình độ trung bình trong mẫu là hơi cao so với trình độ học sinh nói chung. Nói
cách khác, việc lựa chọn các bài kiểm tra để tối ưu hóa độ chính xác cho học
sinh có trình độ trung bình yếu trong mẫu hiện
tại sẽ có khả năng tối ưu hóa độ chính xác cho học sinh trung bình trong toàn
bộ học sinh. Hãy nhớ rằng
chúng ta muốn tạo một bài kiểm tra cuối cùng
có 50 item, chúng ta có thể nhập các
thông số kỹ thuật vào IATA như sau:
1. Trong "Lựa chọn tên câu hỏi", gõ
"50Items" (tên là tùy ý, chúng tôi sử dụng tên ở đây để bạn có thể so
sánh các kết quả mà bạn tạo ra các kết quả trong các thư mục dữ liệu mẫu
IATA).
2. Trong hộp "Tổng số các item", nhập số
50.
3. Di chuyển thanh trượt cho các ràng buộc trên để nó có
một giá trị của 80; đặc điểm kỹ thuật này chỉ ra rằng việc lựa chọn câu hỏi sẽ không cố gắng
để tối đa hóa độ chính xác trên mức 80%
trong phân phối trình độ của các mẫu hiện tại, để bù đắp những trình độ cao hơn của các
mẫu thí điểm so với trình độ học sinh nói chung.
4. Nhấp vào nút "Select Items".
Khi IATA đã thực hiện các nhiệm vụ, giao diện của bạn sẽ
xuất hiện như trong hình 9.18. Ở phía bên tay trái trong danh mục, bạn có thể xem
các thực tế 50 câu hỏi đã được lựa chọn. (Câu cuối cùng là MATHC1041). Ở phía bên tay phải, biểu đồ
hiển thị thông tin tập và dự kiến sẽ báo lỗi đo lường các câu hỏi được chọn nếu nó được xem như một
sự thử nghiệm. Kết quả chỉ ra rằng việc lựa chọn câu
hỏi là chính xác nhất xung quanh các điểm 0
về trình độ (năng lực
trung bình trong mẫu hiện hành). Bảng bên dưới đồ thị tóm tắt sự phân bố
của các câu hỏi chọn trên khắp phạm vi nội dung và mức
độ nhận thức khác nhau (cho những dữ liệu này, tất cả các câu hỏi đã được một giá
trị mặc định là 1, giá trị có thể được chỉnh sửa trực tiếp trong bảng câu hỏi hoặc tải lên
trong các tập tin dữ liệu ). Nếu dữ liệu trong bảng này chỉ ra rằng sự lựa chọn
tối ưu về mặt thống kê không đầy đủ phù hợp với kế hoạch kiểm tra, bạn có thể
chỉnh sửa để cân đối nội dung bằng
cách lựa chọn và xóa các câu
hỏi cụ thể bằng các hộp kiểm bên cạnh mỗi tên câu
hỏi trong bảng bên trái. Khi bạn tự chọn các câu
hỏi, tóm tắt các tính chất thử nghiệm trên bên phải sẽ được tự động cập nhật.
Việc lựa chọn câu hỏi này còn được ghi nhận là một bảng dữ
liệu câu hỏi trong
IATA với tên "CustomTest50ItemsA."
Như với tất cả các kết quả được tạo ra bởi IATA, bạn có thể xem và xuất bảng dữ
liệu này bằng cách tiến tới giao diện cuối cùng của quy trình làm việc (xem
Phần 9.11). Các câu hỏi trong bảng được sắp xếp theo thứ tự của sự phù hợp cho các
tiêu chí lựa chọn, với các câu hỏi phù hợp nhất ở đầu trang.
Với một số lượng nhỏ của các câu hỏi trong phân tích
hiện tại, câu hỏi dùng có thể sử
dụng IATA đơn giản để đặt hàng tất cả các câu hỏi trong chuỗi của sự phù hợp
với phạm vi mong muốn về trình độ (tức là dưới 80 phần trăm trong các mẫu hiện
tại). Sau đó, nhóm phát triển thử nghiệm có thể xem lại các tập tin dữ liệu câu hỏi tạo ra bởi IATA, khi lựa chọn các câu hỏi
cho các bài kiểm tra cuối cùng, sử dụng một bảng xếp loại của các câu hỏi trong các điều
khoản của sự phù hợp trong khi đảm bảo rằng sự cân bằng thích hợp của các nội
dung khác nhau được duy trì. Để tạo ra một lựa chọn câu hỏi mới, thực hiện chương
sau đây:
1. Nhấn vào nút "Clear" để loại bỏ tất cả các
lựa chọn trước từ danh mục.
2. Nhập một tên mới cho việc lựa chọn câu hỏi
"79Items" (nếu bạn sử dụng tên đó đã được sử dụng, các kết quả trước
đó sẽ bị ghi đè).
3. Nhập số lượng tối
đa của câu hỏi có sẵn (79) là tổng số các câu hỏi. Nếu bạn nhập một số lớn hơn
số lượng các câu hỏi có sẵn, IATA sẽ chỉ chọn những thiết lập có sẵn.
4. Bạn có thể để lại
các ràng buộc trên 80%, vì mục tiêu đánh giá về trình độ không thay đổi.
5. Bấm vào nút "Select Items".
Hình 9.19 trình bày một số kết quả của việc phân tích các
thử nghiệm thí điểm 79 câu
hỏi. Một bảng kết quả (có tên là "CustomTest79Iems") đã được thêm
vào bộ kết quả IATA, trong đó có thể xem được trên giao diện cuối cùng của quy
trình làm việc. Các nhà phát triển thử nghiệm có thể sử dụng thông tin này để
giúp cải thiện chất lượng các câu hỏi được sử dụng trong các đánh giá quốc gia.
Figure 9.19 Item selection
results for PILOT1 data, 79 items
Hình 9.19 item kết quả lựa
chọn cho dữ liệu PILOT1, 79 câu hỏi
Quá trình lựa chọn câu
hỏi phụ thuộc vào chất lượng của các câu hỏi có sẵn. IATA không thể giới thiệu
chính xác cho các giới hạn cụ thể về trình
độ, nếu không có các câu hỏi với các thông tin trong các vùng đó. Quá trình tự
động có thể giúp chọn bài kiểm
tra có sẵn tốt nhất, nhưng nó không thể tự
thực hiện chính xác hơn với
các câu hỏi.
Khi bạn đã kết thúc đánh giá kết quả, nhấp vào "Next
>>" để tiếp tục.
9.10. Bước 9: TIÊU CHUẨN HIỆU SUẤT
Ở giai đoạn thí điểm,
không có đủ bằng chứng để hỗ trợ việc thiết lập các tiêu chuẩn hoạt động. Mặc
dù một số thông tin có sẵn về các thuộc tính mục thống kê và các thông số kỹ thuật được sử dụng để tạo ra các câu hỏi, vẫn
chưa có bất kỳ thông tin chi tiết về việc phân phối năng lực trong số học sinh. Vì vậy, bất kỳ nỗ lực để thiết lập các tiêu chuẩn hiệu
suất ở giai đoạn thí điểm sẽ là không cần thiết và có khả năng gây nhầm lẫn.
Ví dụ, việc phân tích các dữ liệu thử nghiệm thí điểm không đòi hỏi bất kỳ thiết
lập tiêu chuẩn, bạn có thể nhấp vào "Next >>" để tiếp tục xem
kết quả và giao diện lưu lại.
9.11. Bước 10: THỰC HIỆN QUẢN LÝ KẾT QUẢ PHÂN TÍCH
Đối với công cụ
trong tất cả các quy trình phân tích, IATA tạo ra một số kết quả
khác nhau ở định dạng bảng dữ liệu. Kết quả bảng dữ liệu từ IATA có thể được
xem và lưu trên giao diện cuối cùng của mỗi công cụ. Giao diện xem và lưu các kết quả cho
phép bạn xem lại mỗi bảng dữ liệu của kết quả tạo ra trong công cụ phân tích.
Giao diện sẽ hiển thị bảng dữ liệu được chọn trong trình đơn thả xuống. Để thay
đổi các nguồn dữ liệu, chọn một bảng khác nhau từ trình đơn thả xuống, như thể
hiện trong hình 9.20. Chương 9 (Bảng 8.5) cung cấp một danh sách đầy đủ và mô
tả các bảng dữ liệu có sẵn được tạo ra bởi IATA.
Lưu ý rằng, mặc dù bạn
không chỉ tạo ra bất kỳ tiêu chuẩn hiệu suất, bảng "P Levels" được tạo ra tự động bằng cách sử dụng các giá trị mặc định đặc
điểm kỹ thuật.
Figure
9.20 Viewing results from the analysis of PILOT1 data
Hình 9.20 Xem kết quả từ
việc phân tích các dữ liệu PILOT1
Bạn có thể lưu các bảng kết quả trong một tập tin đầu ra duy nhất hoặc
nhiều file bằng cách nhấn vào nút "Save Data". Bạn có thể lưu lại một
bảng duy nhất hoặc tất cả các bảng cùng một lúc với một loạt các định dạng. Có
hai định dạng tập tin được đề nghị cho IATA lưu đầu ra: Excel và SPSS (*.sav)
(*.xls / * xlsx.). Nói chung, Excel là một lợi thế, bởi vì tất cả các bảng dữ
liệu có thể được lưu vào một tập tin dữ liệu duy nhất. Các định dạng Excel cũng
có thể được mở trong phần mềm miễn phí như OpenOffice (tải về từ
http://www.openoffice.org/). Tuy nhiên, phiên bản gần đây của Excel được
giới hạn tối đa là 255 biến. Nếu tập tin dữ liệu của bạn có nhiều biến hơn,
IATA sẽ chỉ lưu lại 255 đầu tiên vào *.xls. Để lưu các file dữ liệu lớn hơn,
bạn phải sử dụng *.sav hoặc *.xlsx định dạng. File SPSS có lợi thế có thể lưu
trữ các bảng dữ liệu lớn một cách hiệu quả và có thể lưu trữ siêu dữ liệu (nếu
chúng được chỉnh sửa trong các gói phần mềm SPSS). Lưu ý, tuy nhiên, SPSS có
một hạn chế chính: mỗi bảng dữ liệu sẽ được lưu vào một tập tin riêng biệt.
Một hộp thoại tập tin
sẽ yêu cầu bạn chỉ định tên file và vị trí cho kết quả, cũng như các định dạng
đầu ra. Chọn định dạng dữ liệu mong muốn và nhấp vào nút "Save" để
kết thúc việc lưu bảng hoặc các bảng (tables)[10]. Kết quả các tập tin có chứa tất cả các kết quả dạng bảng được tạo ra
trong toàn bộ công cụ phân tích, cung cấp tài liệu về phân tích.
Để tham khảo, các kết quả mục dữ liệu của chương
phân tích này từ bảng tên "Items1" bao gồm trong các tập tin
ItemDataAllTests.xls trong bảng tính có tên ReferenceP1."
Đối với một hướng dẫn thực hiện
phân tích thử nghiệm (tức là, không sử dụng dữ liệu mô phỏng), các bảng kết quả và bất kỳ đồ họa mà bạn đã sao chép
và dán trong công cụ phân tích nên được cung cấp cho các nhà phát triển thử
nghiệm
(người biên soạn đề thi-kiểm tra), những người sau đó sẽ sử dụng các thông tin để sửa đổi các bài kiểm tra, lựa chọn, đặt hàng, và thêm các câu hỏi theo yêu cầu, để tối đa hóa độ
chính xác và tính hữu dụng của các hình thức kiểm tra cuối cùng.
9.12.TÓM TẮT
Trong chương này, bạn đã được giới thiệu đến các phân tích dữ
liệu thử nghiệm thí điểm với IATA. Bạn đã sử dụng "phân tích dữ liệu
Response" quy trình làm việc để phân tích dữ liệu hồi đáp bằng cách sử dụng một tập tin câu trả lời quan trọng. Các
giai đoạn khác nhau trong quy trình làm việc bao gồm tải các dữ liệu, quy định
cụ thể việc phân tích, mục phân tích, phân
tích đa chiều, phân tích
các chức năng độ phân biệt câu hỏi và lựa chọn câu hỏi. Tạo điểm theo
thang đo và phát triển
các tiêu chuẩn hiệu suất đã không được thực hiện, bởi vì việc phân phối năng
lực trong các mẫu thí
điểm không đại diện cho dân số.
Trong chương tiếp theo, ví dụ tiếp tục với các bước đánh giá quốc gia cuối cùng, sau khi kiểm
tra cuối cùng đã được xây dựng và quản lý các mẫu đánh giá quốc gia hoàn chỉnh.
[1] See chapter
9 for a discussion of the symbols
and their meanings
[2] For more information on common
issues identifiable
with distractor analysis, see Chapter 15,
page 170.
[3] It is unreasonable to have a loading equal to 1, because
this would require each respondent to have the same score on every item. This requirement implies that the test could produce only two distinct score values, which is not very informative
[4] The values displayed
in IATA have been standardized to express the proportion of total variance accounted
for by each eigenvalue.
[5] Clicking on the header twice will sort the column in descending
order
[6] The coefficient of sampling variation is calculated as the standard error of the S-DIF statistic
divided by the absolute value of the S-DIF statistic.
[7] All results
from this walkthrough are available for reference and comparison in the IATA sample data folder in the Excel table named, “ReferencePILOT1.xls.” The DIF result tables are in the worksheets with names beginning
in “DIF_.
[8] You can copy any of the DIF analysis graphs,
by placing the cursor on the graph and using Copy and Paste functions from the right-click menu.
[9] For different
analyses that involve linking,
you may select from previously calibrated item data (“Items2”) or the set of items that are common to two item data sources (“MergedItems”).
[10] If you save all tables and select the SPSS (*.sav)
output format, each result table will be exported as a separate
*.sav data file, with the name you provide as a prefix to all the table names
Còn nữa...!
Còn nữa...!