Contents
Chương 8 Giới thiệu về IATA
8.1. TÓM TẮT
Các
thư mục và các phân tích về test
của phần mềm (IATA) kèm theo Phần II của cuốn sách này là nhằm giúp các học
viên thực hành đánh giá quốc gia,
các nhà nghiên cứu và các đối tượng khác khi phân tích dữ liệu
các câu hỏi đề kiểm tra cũng như xây dựng
các công cụ đánh giá hiệu quả. IATA được thiết kế để cung cấp cách sử dụng nhằm giải quyết các xem xét thống kê
liên quan đến các đánh giá quốc gia. Nó đặc biệt nhắm đến việc phân tích dữ
liệu câu hỏi kiểm tra thử
nghiệm, tạo ra một thử nghiệm mới từ một ngân hàng câu hỏi, hoặc so sánh, nhân rộng các bài kiểm tra giữa các mẫu khác nhau. Nó có
thể sẽ hữu ích cho các câu hỏi đơn lẻ
là những thư mục đã được sử dụng cũng
như một số thư mục khác có
khả năng thực hiện các thống kê khi thẩm định giáo dục
để phân tích câu hỏi, nhưng một số thư mục khác sẽ không quen thuộc với các quy trình
thống kê cụ thể mà là một tính năng của các đánh giá quốc gia.
Các hướng dẫn trong cuốn sách này giả định rằng bạn đã
quen thuộc với chức năng điện toán cơ bản trên một máy tính Windows, chẳng hạn
như bắt đầu chương trình, duyệt các thư mục, và mở tập tin. Các chương tiếp theo cũng giả định rằng bạn đã cài đặt IATA một cách
chính xác và có thể truy cập vào menu chính trong IATA. Nếu bạn chưa cài đặt
IATA hoặc không thể bắt đầu chương trình, xin vui lòng tham khảo các hướng dẫn
cài đặt IATA trên đĩa CD đi kèm. Độc giả của cuốn sách này cũng nên có một số hiểu biết về các khái niệm thống kê như: xác suất,
tính chất của phân phối thống kê.
Mục tiêu
chung của IATA là để tăng khả năng sử dụng và diễn giải về điểm thi-kiểm
tra. Mức độ trung bình chủ yếu của việc hoàn thành mục tiêu này là để giảm lỗi đo lường. Lỗi đo
lường là các khái niệm cơ bản thống nhất tất cả các sáng tạo thử nghiệm và phân
tích thử nghiệm. Một thử nghiệm được thiết kế để đo lường một lĩnh vực cụ thể, chẳng hạn như kỹ năng toán học hoặc trình độ đọc trong kiểm tra
ngôn ngữ. Tuy nhiên, việc kiểm tra không hoàn toàn là chính xác. Tất cả các điểm kiểm tra đều có sự không chắc chắn nhất định; nếu một học sinh đã không thực hiện được câu hỏi tương đương của một thử nghiệm với các đề kiểm tra khác nhau, sẽ không chắc rằng điểm số của học sinh đó là như nhau trên các bài kiểm tra
tương đương. Lỗi đo lường mô tả mức độ mà số điểm của học sinh trên
một thử nghiệm cụ thể 'điểm đúng' khác với số điểm anh ta hoặc cô sẽ đạt được
trong sự không
xuất hiện sự không chắc chắn. Mục tiêu quan trọng của phát triển thử nghiệm từ một quan điểm thống kê là để giảm
lỗi đo lường. Để giảm lỗi của đo lường, IATA phát hiện các vấn đề và góp phần vào nhận
biết các lỗi để có thể sửa đổi, thay thế, hoặc loại bỏ hoàn toàn.
Biện pháp thứ hai để hoàn thành mục tiêu này là thiết lập mẫu có ý nghĩa và phù hợp để báo cáo kết quả kiểm tra. Trong phần này của cuốn
sách, các điều khoản thống kê và thông số được sử dụng để mô tả đặc điểm của
các bài kiểm tra. Số liệu thống kê là kết quả của một phép tính được thực hiện trên một mẫu học sinh và các câu
hỏi cụ thể. Bởi vì giá trị của một thống kê phụ thuộc vào mẫu,
nó không thể khái quát với các mẫu hoặc học sinh khác nhau mà phải là
với các mẫu tương đương để từ đó ước tính được. Do đó, điểm thi
được tính như số liệu thống kê có thể không so sánh trực tiếp giữa các bài kiểm tra hoặc nhóm học sinh khác nhau. Ngược lại, một tham số liên quan các
tính chất thống kê của học sinh hoặc câu hỏi kiểm tra như chức năng của các đặc
tính mẫu. Theo đó, các thông số có thể được sử dụng để mô tả các học sinh và
các câu hỏi theo những cách khái quát mà không phải phụ thuộc vào các mẫu cụ thể. khi
nào IATA ước tính các thông số cho học sinh hoặc các bài kiểm tra, các thông số
này có thể được sử dụng hoặc so sánh giữa các bài kiểm tra khác nhau sẽ có hiệu quả cao hơn và nhiều thông tin hơn là khi sử dụng từng thử nghiệm trong đánh giá quốc gia chỉ đơn giản là giải thích chính bài kiểm tra đó.
8.2. TỔNG QUAN CÁC CHƯƠNG
Các chương trong Phần II bắt
đầu với các vấn đề trong sự phát
triển của một đánh giá quốc gia nơi mà các bài kiểm tra đã được tạo ra và in vào một tập sách
kiểm tra và dữ liệu trả lời
đã được thu thập. Chương 8 cung cấp một thông
tin đánh giá về xử lý và định dạng dữ liệu được trình bày trong cuốn sách trước
của loạt bài này, cũng như giới thiệu về giao diện IATA, bao gồm một mô tả về
menu chính và các yếu tố hỗ trợ khác nhau của màn hình trong IATA và kết quả nó
tạo ra. Các chương 9 đến 13 cung cấp các bước (walkthroughs) chi tiết cho ba công việc phân tích chính trong IATA, sẽ giúp bạn làm
quen từng chức năng sử dụng trong IATA. Những công việc được thiết kế để thực hiện theo các bước và phát triển đánh
giá quốc gia, từ thử nghiệm thí điểm để kiểm tra toàn diện và theo dõi kiểm tra
đánh giá trong chu kỳ tiếp theo. Tóm lại, những bước
tiếp theo (walkthroughs) sẽ giúp sử dụng IATA như thế nào để tiến hành tất cả các phân
tích tâm lý cần thiết cho một hệ thống đánh giá quốc gia.
Các chương 14 cung cấp một bản tóm tắt các công việc khác
nhau và trình bày ví dụ về cách mỗi công việc có thể được sử dụng trong các
tình huống thực tế khác nhau của cuộc sống. Những chương giới thiệu nhiều khái niệm có thể là mới là hoặc chỉ một phần là quen thuộc với những người có kinh nghiệm trong việc đánh giá
giáo dục. Mặc dù một số thông tin thống kê cơ bản được trình bày trong mỗi phần để
giúp giải thích kết quả được tạo ra bởi các phần mềm, giải thích chi tiết về lý
thuyết và nguyên tắc toán học đằng sau những khái niệm được trình bày trong Chương 15.
8.3. Dữ liệu đánh giá
Có hai loại dữ liệu chính được tạo ra và được sử dụng
trong việc phân tích đánh giá: dữ liệu hồi đáp và dữ liệu câu hỏi (item). Dữ liệu hồi đáp được tạo ra bởi các câu hỏi đơn lẻ khi học
sinh trả lời câu hỏi trên một thử nghiệm. Một thử nghiệm là một bộ sưu tập cụ
thể của câu hỏi đánh giá một miền chung về trình độ hay kiến thức. Câu hỏi câu trên một thử nghiệm được gọi chung là các câu hỏi. Các bài kiểm tra
có thể có câu hỏi nhiều lựa chọn,
trả lời ngắn, câu hỏi mở hoặc câu hỏi đóng, hoặc các dạng câu hỏi khác. Dữ liệu hồi đáp được tạo ra bằng
cách phân tích hoặc xem xét các câu
hỏi và ghi lại thống kê điểm số
hoặc nhận thức của học
sinh. Mỗi dòng trong một tập tin dữ liệu hồi
đáp mô tả các đặc điểm
của một học viên hoặc điểm kiểm tra, trong
khi mỗi dòng trong một tập tin dữ liệu câu
hỏi mô tả các đặc điểm của một câu hỏi kiểm tra.
IATA có thể đọc và viết một loạt các định dạng bảng dữ
liệu chung (ví dụ, tập tin văn bản Access, Excel, SPSS, phân cách) nếu chúng được định dạng
chính xác. Nếu dữ liệu không được định dạng với các cấu trúc chính xác, IATA sẽ
không thể thực hiện các phân tích. Cơ sở dữ liệu tương thích với định dạng như
Access hoặc SPSS đã được định dạng cẩn
thận hầu hết các vấn đề dữ liệu. Tuy nhiên, nếu các dữ liệu được lưu trữ trong định
dạng ít chặt chẽ, chẳng hạn như
Excel hoặc file văn bản, các quy ước sau đây cần được tuân thủ:
• Tên của các biến sẽ xuất hiện trong các ô ở đầu mỗi cột (được gọi là tiêu đề). Mỗi cột dữ liệu
phải có một tiêu đề cột. Tên của mỗi biến phải được phân biệt với tên của các
biến khác trong cùng một tập tin dữ
liệu. Tên của các biến phải bắt đầu bằng một chữ cái và không nên chứa bất kỳ
khoảng trống nào.
• Vùng dữ liệu không được chứa bất kỳ hàng hoặc cột
trống. Vùng dữ liệu là vùng của các ô có chứa dữ liệu,
bắt đầu với các tên biến của biến đầu tiên xuất hiện trong các tập tin dữ liệu
và kết thúc với giá trị của biến cuối cùng ở dưới cùng tất cả các hàng.
• Vùng dữ liệu phải
bắt đầu ở ô đầu tiên trong bảng tính hoặc tập tin. Trong Excel, ô này được dán
nhãn "A1". Trong tập tin văn bản, đây là vị trí
con trỏ trên cùng
bên trái trong các tập tin văn bản.
Hai ví dụ trong Hình 9.1 minh họa các định dạng dữ liệu
không chính xác và chính xác. Trong các định dạng dữ liệu không chính xác, bên
trái có một dòng trống phía trên vùng
dữ liệu và một cột trống bên trái của nó. Ngoài ra còn có các hàng và cột trống
trong vùng dữ liệu và một cột chứa dữ
liệu mà không có một tiêu đề. Trong định dạng đúng, chính xác thì tất cả các dữ liệu
được tập hợp thành một vùng dữ
liệu đơn ở phía trên bên trái của bảng tính không có hàng hoặc cột trống.
|
Hình 8.1 Dữ liệu định dạng không chính xác và dữ liệu đúng examples
Figure 8.1 Incorrect and correct data formatting
examples
8.3.1. Dữ liệu hồi đáp
Dữ
liệu hồi đáp bao gồm các trả lời
của mỗi học sinh cho từng loại câu
hỏi kiểm tra. Kết quả kiểm tra nhập vào trong các tập tin dữ liệu hồi đáp phải cho phép chấm điểm tự
động; điều này có nghĩa rằng các dữ liệu hồi đáp item nên bao gồm các mã đại
diện cho học sinh hiểu cách thức như thế nào để trả lời các câu hỏi. Ví dụ, nếu dữ liệu hồi đáp được từ một thử nghiệm nhiều lựa
chọn, các dữ liệu cần ghi lại mã đại diện cho các tùy chọn xác nhận bởi mỗi học
sinh (ví dụ, A, B, C, D, v.v…). IATA sẽ biến đổi các mã trả lời
thành điểm số bằng cách sử dụng Key hoặc bạn nhập thủ công hoặc cung cấp câu trả lời như là một tập tin quan trọng.
Các thông tin khác có thể được lưu trữ trong một tập tin dữ
liệu hồi đáp có thể hữu ích cho
việc phân tích kết quả kiểm tra. Ví dụ này bao gồm thông tin trên các biến như
tuổi, lớp, giới tính, trường học, và khu vực. Thông tin hữu ích khác có thể
được thu thập từ bảng câu hỏi (như hỏi học sinh và giáo viên) hoặc hồ sơ hành
chính. Nếu một mẫu phân tầng học sinh được sử dụng, trọng lượng mẫu cho mỗi học
sinh cần phải được đưa vào tập tin này.
Một biến
định danh duy nhất cho mỗi học sinh sẽ được cung cấp cho mỗi học sinh, mặc
dù IATA sẽ tự động tạo ra biến
định danh duy nhất dựa trên thứ tự hồ sơ mà nếu một định danh duy nhất
không được xác định từ trước. Tuy nhiên, nếu
kết quả được liên kết với các nguồn dữ liệu khác, chẳng hạn như theo dõi các
cuộc điều tra hoặc hồ sơ hành chính, đây
là một ý tưởng tốt để sử dụng một biến
định danh được xác định trước đó
như tên hoặc mã số học sinh để
tạo điều kiện cho các liên hệ trong tương
lai giữa các bộ dữ liệu.
Tất cả các câu trả lời phải được mã hóa theo quy định. Đối với câu hỏi hai hay
nhiều lựa chọn, thủ tục này là đơn giản bởi vì mỗi lựa chọn trả lời đã được mã
hoá là đúng hay sai. Đối với những câu
hỏi mở, một phiếu đánh giá chấm điểm cần thiết để giúp trả lời item là
sử dụng một khuôn khổ mã
hóa phổ biến. Các câu hỏi Mở -
đóng có thể được ghi không đúng hoặc như với một phần cho trả lời cục
bộ khác nhau. Mục kiểm tra cục bộ có nhiều hơn một
số điểm là lớn hơn 0. Câu trả lời cho câu hỏi mở-đóng phải được mã hóa
trước khi chuẩn bị dữ liệu hồi đáp. Chương 2 và 3 của loạt
bài này mô tả các thủ tục cho mã hóa các loại câu
hỏi kiểm tra (Anderson và Morgan năm 2008; Greaney và Kellaghan 2012). Để ghi dữ
liệu hồi đáp, đối với hầu hết các phân tích, một câu trả lời chính phải được
nạp vào IATA. Một danh sách key chính là một danh
sách các mã trả lời
cho biết câu trả lời đúng (s) cho mỗi câu
hỏi kiểm tra. Các key có thể được nhập
vào như là một tập tin dữ liệu hoặc nhập vào bằng tay. Nếu phân tích sử dụng mục
tiêu các tham số, thì các tham số mục
tiêu phải có câu trả lời trong các tập tin quan trọng; chúng có thể không được
nhập bằng tay (xem dữ liệu Item, trang 16).
8.3.1.1. Xử lý dữ liệu thiếu và bỏ qua
Thiếu dữ liệu xảy ra khi một học sinh không cung cấp một
trả lời với một item kiểm
tra. Khi điều này xảy ra, không để trống trường dữ liệu mà phải sử
dụng một mã giá trị thiếu để ghi lại lý do tại sao trả lời là không xuất hiện. Có hai loại trả lời thiếu: thiếu
và bỏ qua.
Mã
gán cho
giá trị dữ liệu Thiếu cho các biến khi mà học sinh có thể trả lời một item
nhưng đã không thực
hiện và để lại chỗ trống câu trả lời. Dữ liệu bị khuyết này sẽ được ghi là không chính xác. Ngược lại, bỏ qua mã dữ liệu được sử
dụng khi học sinh không có khả năng trả lời một câu hỏi, như một đánh giá quốc gia sử dụng
một thiết kế lặp
đi lặp lại.
Mã giá trị bị bỏ qua áp dụng cho trả lời
của học sinh là chỉ đọc hoặc học sinh đã thực hiện trả lời không đúng quy định, chẳng hạn như
lựa chọn hai lựa chọn trong câu hỏi nhiều lựa chọn, là
một dạng của trả lời
thiếu cho mục đích phân tích hàng chục. Tùy thuộc vào hoàn cảnh của tổ chức kiểm tra hoặc xử
lý dữ liệu, bạn phải quyết định những mã này sẽ được xử lý như là dữ liệu bị thiếu hoặc bị bỏ qua.
Nói chung, nếu có các dữ liệu lỗi là kết quả lỗi của học sinh, mã số phải được coi là không
xuất hiện và sẽ được ghi là không chính xác. Tuy nhiên, nếu lỗi là kết quả của
những hạn chế trong việc xử lý dữ liệu, chẳng hạn như sự thiếu chính xác trong
quét thẻ điểm là không phải xác minh
và các mã nên được coi như bỏ qua.
Một đánh
giá bỏ qua mã dữ liệu xảy ra khi một thiết kế đánh
giá lặp lại đòi hỏi phải suy xét
khi sử dụng. Thiết kế đánh giá lặp lại kiểm tra khả năng suy
xét liên quan đến việc cân bằng cho các mẫu ngẫu nhiên tương đương khác nhau
của các mẫu học sinh khác
nhau, do đó không phải tất cả học sinh trả lời các bài kiểm tra tương tự nhau (xem Anderson và Morgan,
2008). Những thiết kế này cho phép đảm
bảo vấn đề rộng lớn trong khi hạn chế lượng thời gian thi dành học sinh. Trong
thiết kế đánh giá lặp lại, mã bỏ qua phải được gán cho tất cả các item cho một học sinh ngoại trừ những câu được trình bày trong tập sách kiểm tra cho học sinh. Mã bỏ qua sẽ không được gán cho các item trong các tình huống mà tất cả học sinh được
yêu cầu phải trả lời tất cả các item.
Quy
ước chung khi sử dụng các giá
trị cụ thể cho các loại dữ liệu không đáp
ứng khác nhau. Xem Greaney và Kellaghan (2012) để biết thông tin về mã số hồi
đáp. Giá trị thường được sử dụng là:
• 9 cho thiếu phương
án trả lời, trường hợp các học sinh đã
không trả lời một item,
• 8 không
thể trả lời được (unsortable), thường xảy ra
trong thử nghiệm nhiều lựa chọn khi học sinh cung cấp nhiều câu trả lời và trong
các câu hỏi mở khi trả lời học sinh không thể đọc được.
• 7 cho các loại dữ
liệu item bị bỏ qua hoặc không
rõ ràng, có thể được sử dụng
trong một thiết kế kiểm tra năng lực.
Bất kể các mã cụ thể được sử dụng, bạn phải xác định như
thế nào để IATA Xử lý
mỗi mã không đáp ứng
yêu cầu, thiếu hoặc bỏ qua.
8.3.1.2. Đặt tên Item
Điều quan trọng là phải gán một tên duy nhất cho từng loại
item trong một đánh giá quốc gia (xem Anderson và Morgan năm 2008; Greaney và
Kellaghan năm 2012). Tất cả các phân tích thống kê thực hiện trên một item thử
nghiệm nên được liên kết rõ ràng với tên hay nhãn của một câu hỏi. Nếu một item
được lặp đi lặp lại trong một số chu kỳ của một đánh giá quốc gia, nó phải được
giữ nguyên cùng tên trong tập tin dữ liệu cho mỗi chu kỳ. Ví dụ, một item toán
học đầu tiên sử dụng trong năm 2009 có thể có tên M003, để chỉ ra rằng đó là item
thứ ba xuất hiện trong các thử nghiệm năm 2009. Nếu cùng một câu hỏi này được
sử dụng trong một thử nghiệm năm 2010, nó vẫn sẽ nhận được tên là M003, không phân
biệt nơi nó xuất hiện trên một thử nghiệm. Đặt tên cho các item bằng cách xác định vị trí trong một
thử nghiệm có thể gây nhầm lẫn khi sử dụng
bổ sung các câu hỏi. Vì lý do này, sẽ là hữu ích hơn để
gán các tên các câu hỏi
để kiểm tra thường xuyên khi chúng được phát triển đầu tiên, hơn là những câu hỏi khi lần đầu tiên
được sử dụng trong đánh giá.
Sử dụng tên phù hợp cũng tạo điều kiện liên kết các kết
quả của các bài kiểm tra khác nhau. Khi IATA ước tính mối quan hệ thống kê giữa
các kiểm tra, nó phù
hợp với các item trong sử dụng các thủ tục liên kết tên item. Nếu một tên item
đề cập đến các item khác nhau trong hai bài kiểm tra được liên kết, kết quả của
mối liên kết sẽ không được chính xác. Mặc dù nó có thể đổi tên các câu hỏi để
tạo thuận lợi cho quá trình liên kết
là đơn giản và ít có khả năng giới thiệu sai sót nếu tên câu hỏi đặc thù riêng được duy trì từ
đầu.
8.3.1.3. Biến dự trữ được tạo ra bởi IATA
Trong quá trình phân tích dữ liệu hồi đáp, IATA sẽ tính
toán nhiều biến số làm việc khác nhau. Tên thao
tác của các biến này hoặc đầu ra bị hạn chế và không nên được sử dụng như tên của bài kiểm tra hoặc biến câu hỏi. Các
biến này IATA thêm vào các tập tin kết quả dữ
liệu thử nghiệm, được liệt kê trong Bảng 8.1.
Tên điểm
(Score Name)
|
Mô tả
(Description)
|
X trọng lượng
(XWeight) |
Trọng lượng thiết kế của các trường hợp được sử dụng trong phân tích (nếu
không quy định, giá trị bằng 1 cho
tất cả học sinh);
The design weight of the case that is used during analysis
(if not specified, the value is equal to 1 for all students);
|
Thiếu
(Missing) |
Biến này mô tả số lượng câu
hỏi bị bỏ qua
cho một học
sinh;
This variable describes the number of items that are
omitted for a student;
|
Số phần trăm
(PercentScore)
|
Điểm số phần
trăm là số
lượng các câu hỏi một học sinh trả lời chính xác một tỷ lệ phần trăm trong tổng
số các câu hỏi dùng cho học sinh (không bao gồm các dữ liệu hồi đáp bỏ qua).
The percent score is the number of
items a student answered correctly expressed as a percentage of the total
number of items administered to the student (excluding omitted response
data).
|
Tỷ lệ lỗi
(PercentError) |
Các lỗi về đo lường đối với số điểm phần
trăm (ước tính này là cụ thể
cho từng học sinh; giá trị của nó
phụ thuộc vào số điểm phần trăm và số lượng
câu hỏi mà một học sinh trả lời);
The error of measurement for the
percent score (this estimate is specific to each student; its value depends
on the percent score and number of items to which a student responded);
|
Tứ
phân vị
(Percentile) |
Mức xếp loại phần trăm là một
số mô tả giữa 0 và 100 cho mỗi học sinh, tỷ lệ học sinh khác với số điểm phần
trăm thấp hơn.
The percentile rank is a number between 0 and 100 that
describes, for each student, the percentage of other students with lower
percent scores.
|
Điểm RawZ
(RawZScore) |
Các Raw ZScore là số điểm phần trăm,
chuyển đổi để có một trung bình là 0 và độ
lệch chuẩn là 1 trong mẫu.
The RawZScore is the percent score, transformed
to have a mean of 0 and a standard deviation of 1 within the sample.
|
Z Điểm
(ZScore) |
Điểm số
này là tương đương với
phân phối chuẩn của số điểm phần trăm. Nó
cũng là được gọi là "điểm đường cong".
Trong khi đó, sự phân bố của RawZScore phụ thuộc vào sự phân bố của phần trăm các điểm chính xác, sự phân bố ZScore có xu hướng được hoàn hảo hơn chuông hình.
This score is the normal-distribution equivalent of the
percentile score. It is also referred to as the ‘bell-curve score.’ Whereas
the distribution of the RawZScore depends on the distribution of the percent
correct score, the ZScore distribution tends to be more perfectly
bell-shaped.
|
Điểm số IRT
(IRTscore) |
Các IRTscore là ước
tính năng lực của học sinh; số điểm này là tương tự như
điểm số trung bình và độ lệch chuẩn trong khoảng 0 và 1, tương ứng. Các IRTscore tạo điều kiện tổng quát hơn một mẫu cụ thể của item này vì ước lượng của nó xem xét các tính chất thống kê của các bài kiểm tra khác nhau;[1].
The IRTscore is the proficiency estimate
of the student; this score is similar to the
typically has a mean and standard
deviation around 0 and 1, respectively. The IRTscore facilitates
generalization beyond a specific sample of items because its estimation
considers the statistical properties of different test items;.
|
lỗi IRT
(IRTerror) |
Các lỗi đo lường cho
IRTscore.
The error of measurement for the
IRTscore.
|
nghiêng IRT
IRTskew
|
Các Độ xiên dự toán
thành thạo, mà chỉ ra nếu thử nghiệm
là tốt hơn ở
đo ràng buộc thấp hơn hoặc cao trình độ của học sinh (ví dụ, một bài kiểm tra dễ dàng có thể mô tả chính xác nếu học sinh đã đạt đến một mức tối thiểu của năng lực nhưng có thể không rõ ràng về chính xác cao như thế nào năng lực thực sự là)
The skewness of the proficiency
estimate, which indicates if the test is better at measuring the lower or
upper bound of a student’s proficiency (for example, an easy test may
accurately describe if students have reached a minimum level of proficiency
but may be ambiguous about exactly how high the level of proficiency actually
is)
|
IRT kurt
IRTkurt |
Các kurtosis dự
toán thành thạo, trong đó mô tả
cách chính xác ước
tính là
với một mức độ của lỗi (ví dụ, cho hai điểm với các lỗi đo lường cùng, một với kurtosis lớn hơn là chính xác hơn).
The kurtosis of the proficiency
estimate, which describes how precise the estimate is
for a given level of error (for
example, for two scores with the same measurement error, one with the greater
kurtosis is more precise).
|
Điểm đúng
TrueScore |
Điểm số này là một ước tính của một số phần trăm
được tính toán từ số điểm IRT. nó
là thích hợp hơn để số điểm phần trăm nguyên liệu bởi vì nó điều chỉnh những khác biệt về sai số đo lường giữa các item. Điểm số này được tính bình quân của xác suất trả lời chính xác cho từng loại item, với số điểm IRT của học sinh và các thông số của bài kiểm tra.
This score is an estimate of a percent score that is calculated from the
IRT score. It is preferable to the raw percent score because it corrects for
differences in measurement error between items. This score is calculated as
the average of the probability of correct response to each item, given the
IRT score of the student and the parameters of the test item.
|
trình độ
Level
|
Biến này
là ước tính năng lực cho một học sinh đã được chỉ định dựa trên các thủ tục
thiết lập tiêu chuẩn (nếu không có
thủ tục thiết lập tiêu chuẩn đã được thực hiện, mặc định là dành cho
tất cả học sinh được chỉ định một
giá trị của 1).
This variable is an estimate of the
proficiency level for a student that has been
assigned based on standard setting
procedures (if no standard setting procedures have been performed, the
default is for all students to be assigned a value of 1).
|
Bảng 8.1 Các biến tạo ra hoặc sử dụng bởi IATA để mô tả khả năng
của học sinh và kiểm tra
(Table 8.1 Variables produced or used by IATA to describe student
proficiency and testperformance)
Ngoài những cái tên cụ thể, bạn
cũng nên tránh sử dụng tên
có chứa biểu tượng "@".
Biểu tượng này được dành riêng cho việc tạo các câu hỏi một phần đoán mò, là bài
kiểm tra rằng có nhiều hơn một
giá trị điểm số có thể lớn hơn 0.
8.3.2. Dữ liệu Item
IATA tạo ra và sử dụng tập tin dữ liệu câu hỏi với
một định dạng cụ thể. Một tập
tin dữ liệu chứa tất cả các
mục thông tin cần
thiết để thực hiện các phân
tích thống kê các câu hỏi và có
thể chứa các thông số được sử dụng
để mô tả các tính chất thống kê
của các câu hỏi. Một
tập
tin dữ liệu được tạo ra hoặc sử dụng bởi IATA nên chứa các biến được liệt
kê trong Bảng 8.2.
Name
|
(BẮT BUỘC) tên duy nhất của từng loại item kiểm tra;
(MANDATORY)
the unique name of each test item;
|
Key
|
(BẮT BUỘC) các thông tin được sử dụng
để chỉ định một số điểm số để mỗi câu trả lời item, đó là một trong hai mã duy nhất tương ứng với câu trả lời đúng, hoặc một mảng giới hạn các giá trị mà định nghĩa một loạt các trả lời chấp nhận được và điểm số tương
ứng của họ;
(MANDATORY)
the information used to assign a numeric
score to each item response, which is either the single code corresponding to
the correct response, or a delimited array of values that defines a variety
of acceptable responses and their corresponding numerical scores;
|
a
|
(Tùy chọn)
đầu tiên trong
ba thông số mô tả như thế nào hiệu suất trên một item kiểm tra liên quan đến trình độ thông thạo về lĩnh vực biểu diễn, được gọi là
độ dốc
hoặc
phân biệt
tham số;
(OPTIONAL) the first of three
parameters that describe how performance on a test item relates to
proficiency on the performance domain, referred to as the slope or
discrimination parameter;
|
b
|
(Tùy chọn) tham số item thứ hai, được gọi là vị trí khó khăn hoặc tham số; (OPTIONAL) the second item parameter, referred to as
the location or difficulty parameter;
|
c
|
(OPTIONAL) the third parameter, referred to as the
pseudo guessing Parameter;
|
Level
|
(Tùy chọn) một năng lực
được phân bổ trước cho một item
dựa
trên các đặc điểm kỹ thuật và chuyên gia hàng đầu tiên xem xét (giá trị nên các số tự nhiên, bắt đầu từ 1); và
(OPTIONAL) a previously assigned proficiency level for an
item based on the initial item specification and expert review (values should
be natural numbers, beginning with 1);
|
Content
|
(Tùy chọn) một mã hoặc mô tả được sử dụng để mô tả các tên miền phụ của chương trình, cũng được biết đến như một sợi hoặc sợi, mà
mỗi item được liên kết mạnh mẽ nhất.
(OPTIONAL) a code or description used to describe
the subdomain of the curriculum, also known as a strand or thread, to which
each item is most strongly aligned.
|
(Table
8.2 Variables in an item data file) - Bảng 8.2 Các
biến trong một tập tin dữ liệu
item
Bảng 8.3 trình bày các ví dụ từ một
tập tin dữ liệu về câu hỏi có
chứa thông tin về năm câu
hỏi có tên khoa học C1Sci31, C1Sci32, C1Sci33,
C1Sci34 và C1Sci35.
Lưu ý rằng các item
có tên là "C1Sci35" không có bất
kỳ dữ liệu trong các cột có nhãn a, b, c và nội dung. Như đã nêu
trong Bảng 8.3, dữ liệu chỉ có các trường bắt
buộc là Name và Key. Nếu a, b, c hoặc các thông
số đang thiếu, nó sẽ được ước tính trong phân tích. Có rất nhiều
tình huống có thể yêu cầu bạn nhập
một mục tập tin dữ liệu vào IATA đó là không xuất
hiện các thông số này. Thiết kế phổ biến nhất không bao giờ từng
xảy ra khi dữ liệu hồi đáp
cho các câu hỏi trước khi được phân tích; trong trường hợp này, các tập tin dữ liệu kiểm tra chỉ
đơn giản là được sử dụng như một
câu trả lời chính. Thiết kế khác xảy ra khi một số câu hỏi có các thông số đã được ước tính trong
một phân tích dữ liệu trước đó, và
bạn muốn sửa chữa các giá trị của
các câu hỏi này thay vì IATA lại ước tính chúng; trong thiết kế này, bạn sẽ để trống giá trị a, b, c và chỉ cho các item mà bạn muốn để ước tính cho các thông số mới (xem Chương 15, trang
119). Giá trị về Level và Nội dung có thể được nhập thủ công vào trong giao diện
IATA hoặc để trống.
Name
|
a
|
b
|
c
|
Key
|
Level
|
Content
|
C1Sci31
|
0.34
|
0.83
|
0.01
|
3
|
3
|
Lý luận khoa học
(Scientific
Reasoning)
|
C1Sci32
|
0.46
|
0.4
|
0.12
|
4
|
2
|
Vật lý (Physics)
|
C1Sci33
|
0.32
|
0.31
|
0.06
|
3
|
2
|
Vật lý (Physics)
|
C1Sci34
|
0.18
|
0.75
|
0.16
|
1
|
3
|
Sinh học (Biology)
|
C1Sci35
|
5
|
Môi trường (Environment)
|
Bảng 8.3 phần mẫu của một tập tin dữ
liệu item
(Table 8.3 Sample section of an item data file)
Một tập tin dữ liệu cũng có thể
bao gồm các biến bổ sung. Ví dụ, thông tin bổ sung dữ liệu thường được lưu trữ với item bao gồm các
câu hỏi gốc trong ngân hàng câu hỏi,
thống kê mô tả số lần item đã được sử dụng, hoặc
một danh sách các bài kiểm tra, trong đó mỗi item xuất hiện. Tuy nhiên, bất kỳ biến nào khác ngoài bảy lĩnh
vực dữ liệu cần thiết được liệt kê trong Bảng 8.3 sẽ không được sử dụng bởi IATA.
Nhóm đánh
giá quốc gia có thể sử
dụng thông tin từ bất cứ nguồn
nào miễn là họ có mục dữ liệu yêu cầu trong định dạng trình bày trong Bảng 8.2. Ví dụ, đánh giá
quốc gia có thể được phép
sử dụng các câu hỏi từ các đánh
giá có mẫu lớn khác nhau như những câu hỏi được quản lý bởi Hiệp hội Quốc tế
về Đánh giá các thành tựu giáo dục
(IEA) trong đó bao gồm TIMSS và PIRLS http://timss.bc.edu/).
Nếu các câu hỏi từ
các đánh giá có mẫu lớn hiện có được bao gồm trên một đánh giá quốc gia,
các thông số từ các
đánh giá hiện tại có thể được sử
dụng để tạo ra một tập tin dữ liệu
mà IATA có thể nhập vào.
8.3.2.1. Định dạng Key
Trong cột với tiêu đề 'khóa' trong
một tập tin dữ liệu câu hỏi,
bạn phải cung cấp với IATA thông tin mà nó có thể sử dụng để ghi vào mỗi item. Trong trường hợp đơn giản nhất,
cho câu hỏi kiểm tra nhiều
lựa chọn với một lựa chọn chính
xác duy nhất, giá trị trong mỗi cột phải là chữ số tương ứng
chính xác với
các lựa chọn. Giá trị
nhạy cảm, ví dụ, nếu câu trả lời đúng được mã hoá như là một trường hợp trên "A", sau đó các chữ hoa "A"
phải được cung cấp trong các câu trả lời chính; nếu
một giá trị quan trọng được cung cấp là "a", sau đó bất kỳ câu trả lời với một giá trị của "A" sẽ được
ghi không chính xác.
Trong một số ít trường hợp trong quá trình kiểm
tra đánh giá, có thể một item kiểm tra được xác định rằng có nhiều hơn một lựa chọn chính xác. Để chỉ định nhiều
hơn một
giá trị quan trọng để chọn trả lời, bạn phải nhập một danh sách các giá trị chính xác, cách nhau bằng dấu phẩy.
Không nhập khoảng trống giữa bất kỳ giá trị hoặc sau dấu phẩy. Ví dụ, nếu câu
trả lời của "A" và
"C" được chấp nhận như là trả lời chính xác cho một câu hỏi kiểm tra, sau đó giá trị Key cho câu
hỏi này cần được xác định là "A, C" [3].
8.3.2.2. Định dạng mục dữ liệu cho các câu hỏi đánh giá thái độ
Các câu hỏi thái độ, niềm tin (hoặc phân loại hồi đáp) là các bài kiểm
tra rằng có nhiều hơn một giá trị điểm số. Ví dụ, thay vì được ghi là 0
hoặc 1, một item với
các mức độ khác nhau về tính đúng
đắn có thể được ghi là 0, 1, hoặc 2,
trong đó 0 đại diện cho một cố gắng trả
lời, 1 đại diện cho một trả lời một phần chính xác, và 2 đại diện
cho một trả lời hoàn hảo. Để phù hợp với các giá trị điểm khác nhau, chọn câu trả lời phải được nhập cho mỗi giá trị số điểm là lớn hơn 0.
Nếu hệ thống đánh dấu sử dụng cho câu hỏi thái độ sử dụng điểm
số mà là tất cả lớn hơn 0,
sau đó trả lời các thông tin quan trọng
không nên nhập cho giá trị điểm số thấp nhất. Ví dụ, nếu điểm số item
có thể là 1, 2, 3, rồi chọn trả lời nên chỉ cung cấp thông tin chấm
điểm cho điểm số 2 và 3. Các định dạng cho một câu trả lời thái độ chính là: <score1>: <danh sách giá
trị 1>; <điểm 2>: <danh sách giá trị 2>;... <Số điểm n>: <danh sách giá trị n>. Ví dụ, cho một câu hỏi thái độ với ba điểm, ký hiệu là A, B, và C,
với điểm số của 1, 2, và 3 tương ứng, rồi nhập câu trả lời cho câu hỏi này cần được nhập như "1: A; 2 : B; 3: C ".
Nếu một câu hỏi đánh giá thái độ
đã được phân tích, nó sẽ có một số lượng lớn các thông số hơn một item
kiểm tra thường xuyên. Mỗi giá trị điểm số sẽ có một giá trị riêng biệt cho các
b-tham số, mặc dù một số sẽ có cùng
điểm số cho tất cả các giá trị. Những dữ liệu
item phải được nhập trong một định dạng đặc biệt. Ngoài việc cung cấp các item nhập chính với
Keytrả lời đầy đủ,
một item mới phải được thêm vào cho mỗi giá trị điểm số (trừ giá trị điểm số thấp
nhất) như thể mỗi điểm số item là một item
thử nghiệm riêng biệt. Các trường
tham số cho các item nhập chính nên được
để trống. Ví dụ, nếu
một câu hỏi có điểm số từ 0,
1 và 2, sau đó tổng cộng ba hàng sẽ được yêu cầu trong
các tập tin dữ liệu item : một
hàng cho item tổng thể, mà
sẽ chỉ có tên item và câu trả lời quan
trọng, và hai điểm cụ thể cho item 1 và 2 có tên, Key, và thông tin tham số.
Giá trị của trường tên cho mỗi item số điểm cụ thể mới
là tên item ban đầu
tiếp theo là "@ <giá trị
điểm số>". Ví dụ, nếu tên item
gốc là "TestItem" sau đó tên cho một
số item trong tổng
số 1 là "TestItem @ 1". IATA sử dụng một mô hình hồi đáp item đòi hỏi các giá trị của b-thông số khác nhau được
theo thứ tự giống như các điểm số.
Do đó, nếu có hai item điểm số, 1 và 2, sau đó giá trị tham số b cho
điểm 2 phải lớn
hơn b-tham
số cho 1 số điểm, như thể hiện trong Bảng 8.4.
Khi một
dòng mới được nhập vào cho mỗi điểm số item,
các giá trị của các lĩnh vực câu trả lời trọng điểm cũng phải được xác định khác nhau. Các phân tích của một
câu hỏi đánh giá thái độ giả định rằng một học sinh đạt được điểm item cụ thể cũng đã làm
chủ bất cứ mức độ kỹ năng được liên kết với một số
điểm thấp hơn trên item đó.
Nói cách khác, nếu mỗi điểm được coi
là một item
thử nghiệm riêng biệt, sau đó một học
sinh có điểm số đoán mò cao đã có hiệu quả một phần cũng
thực hiện một cách chính xác về điểm số đoán mò thấp hơn. Để quản lý mối quan hệ này trong IATA,
Key trả lời cho mỗi giá trị điểm số nên liệt kê giá trị quan
trọng riêng của nó (s) cũng như các giá trị của
bất kỳ điểm số
cao hơn.
Một ví dụ về một phần dữ liệu item thái độ định dạng đúng cho một item với điểm số 0, 1, 2 và 3 được đưa
ra trong Bảng 8.4. Lưu ý rằng
không có thông tin điểm được cung cấp cho các điểm số thấp nhất (0). Các mục item chính không có giá trị tham số hoặc một giá trị cho Level.
Bởi vì mỗi giá trị điểm số có thể tương ứng với một tiêu chuẩn khác nhau về
hiệu suất, nó không làm theo chiều hướng để có mức quy định cho toàn bộ. Mặc dù
các câu trả lời đã được xác định, kết quả thông tin vẫn còn phải được xác định với việc sử
dụng các định dạng câu trả lời chính xác. Để
IATA, tỷ số là câu trả lời đúng, các câu trả lời
chính phải cung cấp cả các giá trị được tìm thấy trong các dữ liệu và số điểm được
gán cho mỗi giá trị.
Name
|
a
|
b
|
c
|
Key
|
Level
|
Content
|
PCItem001
|
1:1;2:2;3:3
|
Thành phần của
câu (Parts of speech)
|
||||
PCItem001@1
|
0.61
|
-0.43
|
0
|
1,2,3
|
1
|
Parts of speech
|
PCItem001@2
|
0.61
|
0.22
|
0
|
2,3
|
1
|
Parts of speech
|
PCItem001@3
|
0.61
|
0.74
|
0
|
3
|
2
|
Parts of speech
|
Bảng 8.4 phần mẫu
của một tập tin dữ liệu item cho một câu
hỏi đánh giá thái độ
Table 8.4 Sample section of an item data file for a partial
credit item
8.4. Dữ liệu được tạo ra bởi IATA
IATA tạo ra một bảng số dữ
liệu có chứa các thông số kỹ thuật
phân tích hiện tại và kết quả phân tích. Nói chung, tất cả các kết quả sẽ được lưu trữ để tham khảo trong
tương lai. Bảng 8.5 tóm tắt
danh sách các bảng dữ liệu tạo ra của IATA.
Các bảng dữ liệu có
thể được lưu trực tiếp từ IATA
thành một trong các định dạng phổ biến như Excel (*.xls/*xlsx.), SPSS (*.sav), dấu phẩy phân cách (*.csv) hoặc tab-giới hạn
(*.txt).
Data Tables
|
Description
|
Hồi
đáp(Responses)
|
Original response data (including
non-test data) imported into IATA.
|
Giá
trị
Values |
Unique response codes for all test items, and indication
as to whether each response value is coded as a valid missing (valid skip) or
missing.
|
ĐIểm số đạt được
Scored
|
Response data that have been scored as correct (1) or incorrect
(0) using the specified answer key, as well as all summary scores and their
standard errors
|
Item1[4]
Items1 |
Item answer keys, and statistics related to the current
analysis and item parameters.
|
Item 2
Items2
|
Item answer keys and parameters of the reference item parameter
file used for linking.
|
item sáp nhập
MergedItems |
Item-by-item matching of items in both the new and
reference item parameter files used by the linking process
|
giá trị riêng
Eigenvalues |
Tỷ lệ phương trình sai được giải thích
bởi mỗi kích thước trong các câu trả lời item.
The proportion of variance explained
by each of the dimensions in the item responses.
|
mô hình Matrix
PatternMatrix |
Tỷ lệ sai giải thích
của từng loại item của mỗi kích thước cơ bản các
câu trả lời item.
The proportion of variance explained of each item by each
of the dimensions underlying the item
responses
|
mức
Levels |
Các ngưỡng được sử dụng để xác định năng lực.
The thresholds used to define proficiency levels.
|
Liên kết liên tục LinkingConstants
|
Hằng số chuyển đổi mẫu
sử dụng để điều chỉnh các
đặc điểm tiềm ẩn mẫugiữa các quần thể hoặc mẫu
Scale
transformation constants used to adjust the latent trait scale between
populations or samples
|
Cuốn sách đánh dấu dữ liệu
BookmarkData |
Một danh sách đặt hàng của các câu hỏi có thể
được sử dụng để tạo điều kiện
thiết lập tiêu chuẩn hoặc tạo ra các
định nghĩa về mức độ hiệu quả
An ordered list of items that can be used to facilitate
standard setting or creating definitions for performance levels
|
DIF_ <thông số kỹ thuật>
DIF_<specifications>
|
Các kết
quả của một phân tích khác biệt giữa các item hoạt động, nơi
<thông số kỹ thuật> phần trong
tên của bảng tóm tắt các
biến và các nhóm so sánh trong phân tích.
The results of a differential item functioning analysis,
where the
<specifications> portion of the table name summarizes the variable and groups compared in the analysis.
|
CustomTest<name>
|
Một số câu hỏi được
lựa chọn để tối ưu hóa giảm thiểu
lỗi của đo lường trên một phạm vi cụ thể về trình độ. Các <name>
là một giá trị câudùng chỉ định.
A set of items chosen to optimize minimize error of measurement
over a specific range of proficiency. The <name> is a user-specified
value.
|
Table
8.5 Data tables produced by IATA
8.5. Kết quả khác được tạo ra bởi IATA
Ngoài các bảng dữ liệu được
mô tả trong Bảng 8.5, IATA
cũng tạo ra nhiều bảng xếp loại, tóm tắt văn bản và
bảng kết quả chỉ
được hiển thị trong giao diện của
IATA. Những kết quả này có thể
được sao chép trực tiếp từ IATA và dán vào tài liệu khác để tham khảo trong tương lai. Các các
biện pháp của việc sao chép sản lượng phụ thuộc
vào loại đầu ra.
Đối với biểu đồ, kích chuột
phải vào thân biểu đồ sẽ xuất
hiện một
menu nâng
cao với các tùy chọn một trong hai: 1) sao chép ảnh vào clipboard
(bảng kẹp tạp), 2) lưu hình ảnh
biểu đồ trực tiếp vào một tập tin, hoặc 3) in hình ảnh. Để có kết quả được hiển thị dưới dạng bảng, bạn phải sao chép dữ liệu
bằng cách chọn các ô, hàng, hoặc cột mà bạn
muốn sao chép, sau đó sao chép dữ liệu
bằng cách chọn "Copy" từ bên phải nhấp chuột mở
ra menu hoặc bằng cách gõ Ctrl + C. Các dữ liệu sao
chép có thể được dán vào một tập tin văn bản hoặc trực tiếp vào bảng tính như Excel hoặc SPSS.
8.6. Giải thích kết quả IATA
Bất cứ khi
nào IATA tạo ra kết quả phân tích phân nhóm cho các item khác nhau, nó
cũng sẽ chỉ tóm tắt 'biểu tượng giao thông' hiện tại cung cấp một ý tưởng
chung về làm thế nào để giải
thích kết quả. Có ba dấu hiệu khác
nhau mà IATA sử dụng, giải thích trong bảng 8.6.
Symbol
|
Meaning
|
![]() |
Vòng tròn màu xanh lá cây cho thấy không có vấn đề lớn.
Green circles indicate no major problems.
|
![]() |
Một viên
kim cương màu vàng cho biết
kết quả là ít tối ưu hơn. Chỉ số này được sử dụng để cho thấy rằng những thay đổi có thể được yêu cầu cho
một trong hai thông số kỹ thuật phân tích hoặc các câu
hỏi của mình. Tuy nhiên,
câu hỏi đó không giới thiệu bất kỳ lỗi nào đáng kể vào kết quả phân tích.
A yellow diamond indicates that the results are less than
optimal. This indicator is used to suggest that modifications may be required
to either the analysis specifications or the items themselves. However, the
item is not introducing any significant error into the analysis results.
|
![]() |
Một tam
giác cảnh báo màu đỏ xuất hiện bên cạnh bất kỳ đối tượng có vấn đề. Chỉ
số này được sử dụng hoặc
để chỉ item mà
không thể được đưa vào phân tích do các vấn đề với dữ liệu, thông số kỹ thuật, hoặc để giới thiệu một cuộc
kiểm tra chi tiết hơn về các
chi tiết kỹ thuật hoặc dữ liệu cơ bản và item
kiểm tra. Khi chỉ
số này xuất hiện, nó không nhất
thiết có nghĩa là có một
vấn đề, nhưng nó cho thấy các kết quả phân tích tổng thể có thể được chính xác hơn nếu các item kiểm tra chỉ định đã
được gỡ bỏ hoặc nếu phân tích
được hỗ trợ chỉ định.
A red warning triangle appears beside any potentially
problematic items. This indicator is used either to indicate items that could
not be included in the analysis due to problems with the data or
specifications, or to recommend a more detailed examination of the
specifications or underlying data and test item. When this indicator appears,
it does not necessarily mean that there is a problem, but it does suggest
that the overall analysis results may be more accurate if the indicated test
item were removed or if the analysis were re-specified.
|
Bảng 8.6 ký hiệu giao
thông trong IATA và ý nghĩa của chúng
Table 8.6 Traffic symbols
in IATA and their meanings
Đối với phân tích, nơi có nhiều mẩu thông tin để xem xét khi kết quả giải
thích cho một item cụ thể,
chẳng hạn như các item phân tích và thử
nghiệm đa chiều kết quả, IATA cũng sẽ tạo ra báo
cáo diễn giải mà cố gắng để tóm tắt số liệu thống kê khác nhau. Các báo cáo này được dự định như là một
gợi ý hữu ích cho việc làm thế
nào để tiến hành. Tuy nhiên,
trong bất kỳ trường hợp IATA đề nghị sửa đổi
cho một trong hai thông số kỹ thuật
phân tích hoặc các
bài kiểm tra, bạn nên xác minh rằng các khuyến nghị thích hợp bằng
cách kiểm tra các kết quả thống
kê hoặc tập báo cáo nhỏ thử nghiệm thực tế
cho mình.
8.7. MẪU DỮ LIỆU
Khi IATA được cài đặt trên máy
tính của bạn, nó sẽ tạo ra một
thư mục trên máy tính của bạn
được gọi là IATA. Thư mục này chứa dữ liệu mẫu được yêu cầu cho các ví dụ hướng
dẫn chương trong cuốn sách này. Có sáu tập tin khác nhau trong thư mục dữ liệu mẫu. Chúng bao gồm bốn bộ dữ
liệu hồi đáp, mỗi định dạng
Excel, và một tập
tin Excel có chứa
các Key trả lời cho mỗi bộ dữ
liệu hồi đáp. Các tập tin được định
dạng *.xls để tương thích với
phần
mềm cũ và phần mềm mã nguồn mở (tùy thuộc vào máy tính của bạn cài đặt, bạn có thể không nhìn thấy ".xls" tập tin mở rộng). Tên và nội dung của các tập tin là:
• PILOT 1 (.xls) - một tập hợp
dữ liệu hồi đáp tương
ứng với một hướng dẫn thử nghiệm có chứa nhiều item lựa chọn
• CYCLE1 (.xls) - một tập hợp dữ liệu hồi đáp tương ứng với một tổ chức đánh giá quốc
gia.
• PILOT2 (.xls) - một tập hợp dữ liệu hồi đáp tương ứng với một hướng dẫn thử
nghiệm có chứa nhiều sự
lựa chọn và các câu hỏi đánh giá thái độ, niềm tin trong một thiết kế kiểm tra sự tính
toán.
• CYCLE2 (.xls) - một tập hợp dữ liệu hồi đáp tương ứng với một tổ chức đánh giá quốc gia hiện tại với
các câu hỏi phổ biến với
tổ
chức đánh giá quốc gia trước đó.
• CYCLE3 (.xls) - một tập hợp dữ liệu hồi đáp tương ứng với một tổ chức đánh giá quốc gia với các câu hỏi
phổ biến với một
tổ
chức đánh giá quốc gia trước đó.
• ItemDataAllTests (.xls) - một tập tin Excel
với nhiều sheet có
chứa các Key trả lời và thông tin về
các item trên mỗi tập tin dữ liệu hồi đáp khác
nhau.
Những dữ liệu mẫu là hư cấu
bộ dữ liệu đã được phát triển với mục đích duy nhất là cung cấp các ví dụ cụ thể và các ứng dụng của phần mềm này. Mặc dù nó phản ánh mô hình điển hình về trả lời của
học sinh và các mối quan hệ trong
các dữ liệu tương tự như tìm thấy trong hầu hết các đánh giá có mẫu lớn, kết quả và thảo luận về kết quả phân tích không đại diện cho thực tế đánh giá bất kỳ quốc gia nào.
Nếu bạn xóa bất kỳ tập tin dữ liệu mẫu, bạn có thể khôi phục lại chúng bằng cách cài đặt lại IATA. Các dữ
liệu cũng có thể được tìm thấy
trên đĩa CD kèm theo để cuốn sách này hoặc tải về từ trang web của IATA (http://www.polymetrika.org/IATA).
8.8. Giao diện và việc phân tích với IATA
IATA khác với nhiều các chương trình nghiên cứu thống kê, nó có
xu hướng cung cấp một loạt
các chức năng phân tích có
thể được truy cập riêng. Ngược lại, tất cả các chức
năng phân tích trong IATA được truy cập thông qua các quy trình công việc, nơi mà các kết quả từ mỗi bước trong công việc có thể được sử dụng để thông báo về các chi tiết kỹ thuật hoặc giải thích kết quả trong chương tiếp theo.
Có năm công việc có sẵn để phân
tích dữ liệu trong IATA:
1. Phân tích dữ liệu
hồi đáp.
2. Phân
tích dữ liệu hồi đáp với liên kết,
3. Liên kết item dữ liệu,
4. Lựa chọn các bài kiểm tra tối ưu,
5. Phát triển và gán các tiêu chuẩn hiệu suất.
Các công việc khác nhau phản
ánh nhu cầu của các mục tiêu khác nhau có thể xảy ra trong bối cảnh của một đánh
giá quốc gia. Dưới đây là một số tình huống phổ biến mà có thể yêu cầu công việc khác nhau:
• Nếu bạn đã tiến hành một thử
nghiệm thí điểm và cần thông tin chi tiết về câu hỏi hành vi để xác định nội dung của các bài kiểm tra cuối cùng, bạn nên sử dụng quy trình làm việc "phân tích dữ liệu Response";
• Nếu bạn đã hoàn thành việc thu thập dữ liệu cho việc đánh giá quốc gia đầu tiên trong một loạt kế hoạch đánh giá,
bạn nên sử dụng quy trình làm việc "phân
tích dữ liệu Response";
• Nếu bạn đang gán điểm
theo thang đo mới cho một mẫu
của học sinh đã được
quản lý các thử
nghiệm tương tự đã được sử dụng trong
một đánh giá quốc gia trước đó, bạn
nên sử dụng quy trình làm việc "phân tích dữ
liệu Response";
• Nếu bạn đã tiến hành một đánh
giá quốc gia có chung một mục
đích đánh giá và quan tâm đến việc so sánh kết quả của hai lượt đánh giá, bạn nên sử dụng "phân tích dữ liệu
hồi đáp với kết nối" hoặc giao
diện "Kết nối dữ liệu item ";
• Nếu bạn muốn thay đổi thử
nghiệm của bạn và cần phải biết các
câu hỏi tốt nhất để giữ lại trong
thử nghiệm mới để duy trì so sánh với các thử nghiệm trước đó, bạn nên sử dụng giao diện "Lựa chọn bài kiểm tra
tối ưu";
• Nếu bạn đã tiến hành đánh
giá quốc gia và muốn giải thích
kết quả trong một cách mà là phù hợp với mong đợi
của chương giảng
dạy, chứ không phải chỉ đơn giản là so sánh học sinh với
nhau, bạn nên sử dụng giao diện "Phát triển và gán tiêu chuẩn thực hiện".
Để thực hiện
một phân tích với
IATA, bạn phải chọn một trong các
giao diện từ menu chính. Menu chính đạt được bằng
cách nhấn vào nút "Main
Menu" trên góc
dưới bên phải của màn hình
lựa chọn ngôn ngữ và đăng ký mà tải với
IATA, thể hiện trong hình 8.2.

Hình 8.2 lựa chọn ngôn ngữ ban
đầu và đăng ký tùy chọn cho IATA
Figure
8.2 Initial language selection and optional
registration for IATA
Ngôn ngữ mặc định cho IATA là tiếng Anh.
Đăng ký là không bắt buộc và không phải bắt buộc để truy cập vào bất kỳ chức năng được thảo luận trong cuốn sách này. Menu chính IATA được thể hiện
trong hình 8.3.

Figure
8.3 The IATA main menu
Mỗi giao
diện bao
gồm một tập các nhiệm vụ được hoàn thành theo thứ tự. Hầu hết các giao diện chia
sẻ rất nhiều các nhiệm vụ tương tự. Có 10 nhiệm vụ khác nhau mà IATA thực hiện,
và mỗi chức năng có giao diện
riêng. Những nhiệm vụ này thường xuất hiện theo trình tự sau:
1. Đang tải dữ liệu.
2. Thiết lập thông số kỹ thuật phân tích.
3. Các loại item kiểm tra Phân tích.
4. Kết quả kiểm tra Scaling.
5. Phân tích kiểm tra chiều.
6. Item phân tích khác biệt chức năng.
7. Liên kết.
8. Lựa chọn các bài kiểm tra tối ưu.
9. Thông báo phát triển các tiêu chuẩn hiệu suất.
10 Lưu kết quả.
Không phải tất cả các nhiệm vụ xuất hiện trong tất cả các
giao diện của quy trình. Các giao diện của quy trình được
thiết kế để bạn chỉ cần thiết để thực hiện nhiệm vụ có liên quan đến mục tiêu phân tích của bạn. Bảng 8.7 tóm tắt những nhiệm vụ xuất
hiện trong giao diện quy
trình.
Bảng 8.7 Các
nhiệm vụ khác nhau trong IATA và các giao diện quy
trình mà IATA đang sử dụng
Table
8.7 Different tasks in IATA and the workflows in which they are used
Workflow:
A. Response data
analysis
B. Response data
analysis with linking
C. Linking item data
D. Selecting
optimal test items
E.
Developing and
assigning performance standards.
|
|||||
A
|
B
|
C
|
D
|
E
|
|
1. Loading data
|
●
|
●
|
●
|
●
|
●
|
2. Setting analysis specifications
|
●
|
●
|
|||
3. Analyzing test items
|
●
|
●
|
|||
4. Analysing test dimensionality
|
●
|
●
|
|||
5.
Analyzing differential item functioning
|
●
|
●
|
|||
6. Linking
|
●
|
●
|
|||
7. Scaling test results
|
●
|
●
|
|||
8. Selecting optimal
test items
|
●
|
●
|
●
|
||
9.
Informing development of performance
standards
|
●
|
●
|
●
|
||
10. Saving
results
|
●
|
●
|
●
|
●
|
●
|
Hai giao diện đầu tiên (A và B) là rất giống nhau
về nhiệm vụ của chúng, bởi vì tất cả ba yêu cầu
phân tích dữ liệu hồi đáp đòi hỏi
một số phân tích để xác định rằng việc sử dụng các mô hình đo lường thống kê là phù hợp với dữ liệu hồi đáp. Ngược lại, ba giao
diện cuối cùng (C, D và E) chỉ phân tích dữ liệu item. Tất cả các giao
diện của quy trình
đòi hỏi dữ liệu được nạp
vào IATA và cho phép bạn lưu kết quả.
8.9. Duyệt qua các chức năng của IATA
Khi bạn chọn
một giao
diện từ menu chính IATA, bạn
sẽ được hướng dẫn vào một tập nhiệm vụ cho giao diện đó. Mỗi nhiệm vụ có
giao diện riêng cho phép bạn chỉ
định cách IATA cần thực hiện các
nhiệm vụ, và nếu áp dụng, xem kết quả tạo ra sau khi IATA đã thực hiện nhiệm
vụ.
Ở phía trên
của mỗi giao diện chức năng,
có một số yếu tố được phổ biến cho tất cả các nhiệm vụ. Những yếu tố này là khung hướng dẫn và các nút điều hướng, thể hiện trong hình 8.4.
Khung hướng dẫn bên trái cung cấp một bản tóm tắt ngắn gọn về những chi tiết kỹ thuật được yêu cầu cho mỗi chức năng và làm thế nào để giải thích kết quả. Bên
phải từ trên, các nút có nhãn "<< Back" và "Next >>"
cho phép bạn xem lại nhiệm vụ trước đó
hoặc chuyển sang chức năng tiếp theo bằng cách nhấp vào
nút tương ứng. Lưu ý rằng, mặc dù
IATA không ngăn cản bạn di chuyển qua lại các giao diện, trong nhiệm vụ sau đó giao
diện IATA có thể
không cung cấp kết quả có
ý nghĩa trừ khi bạn đã hoàn thành
một cách chính xác các nhiệm vụ trước đó trong giao
diện.

Hình 8.4 IATA hướng dẫn
giao diện nhiệm vụ và các nút điều hướng
Figure
8.4 IATA task interface instructions and navigation buttons
Bất kỳ giao diện nào xuất hiện trong IATA, thông số kỹ
thuật chung cho mỗi công cụ vẫn như cũ. Các giao diện khác nhau với nhiệm vụ khác nhau
được giải thích chi tiết xuyên
suốt trong ví dụ trong các các chương từ 9 đến 13.
8.10. Tóm tắt
Trong chương này, bạn xem xét các yêu cầu dữ liệu cho item
và phân tích thử nghiệm và đã được trình bày tổng quan về các loại thông tin
được tạo ra bởi IATA. bạn đã cũng được
giới thiệu về các giao diện
IATA, bao gồm các giao diện nhiệm vụ, menu chính, và chuyển hướng giao diện.
Trong năm chương sau, bạn sẽ học cách sử dụng từng giao
diện bằng cách khám phá các
giao diện khác nhau. Chương 9 bắt đầu với việc phân tích các dữ liệu thử nghiệm thí
điểm. Chương 10 giới thiệu thiết kế tiếp tục với việc phân tích dữ liệu hoàn
toàn từ một tổ chức của một đánh giá
quốc gia. Chương 11 giới thiệu các phân tích xoay
quanh thiết kế của tập sách và các đặc điểm kỹ thuật và giải thích kết quả cho riêng câu hỏi. Chương 12 bao gồm các yêu cầu và
thủ tục liên kết nhiều chu kỳ của các kết quả từ đánh giá quốc gia. Chương 13
mô tả một phần các quy trình công cụ
và chỉ phân tích dữ liệu item và thảo luận về một thiết kế liên kết thay thế các tham số item hiện tại được sử dụng
để đưa ra dự toán các thông
số câu hỏi mới và điểm thi.
[2]
Use of the c-parameter to describe items may cause certain functions, such as equating, to not work properly. For most purposes,
the items are most useful if the value of the c-parameter is equal or set to 0. The 3-parameter model should only be used by expert users who are aware of its shortcomings.
Estimation and use of the c-parameter is provided by the advanced functionality
of IATA. Refer to Chapter
15 for a more details on the c-parameter. Registration of IATA, which is free, provides access to this advanced
functionality. For registration instructions, see the installation guide on the accompanying CD (Sử dụng các c-tham số để mô tả câu hỏi
có thể gây ra một số chức năng,
chẳng hạn như tương đương, để không làm việc đúng cách. Đối với hầu hết các mục đích, các mục hữu ích nhất nếu
giá trị của c-tham số bằng nhau hoặc thiết lập về 0. mô hình 3-tham số chỉ nên được sử dụng bởi người dùng chuyên gia nhận thức được những thiếu sót của mình. Dự toán và sử dụng các
c-tham số được cung
cấp bởi các chức năng tiên tiến
của IATA. Tham khảo
Chương 15 để biết thêm chi tiết về một sự
c-tham số. Đăng
ký của IATA, đó là miễn phí, cung cấp quyền truy cập vào các chức năng tiên tiến này. Để được
hướng dẫn đăng ký, hãy xem hướng
dẫn cài đặt trên đĩa CD kèm theo).
[3] This format
requirement means that commas should
never be used as answer key values. (Yêu cầu định dạng này có nghĩa là dấu phẩy không
bao giờ nên được sử dụng như là các giá trị phím trả lời)
[4]
The Items1 data table produced by IATA following an analysis of response data will serve as an item bank data file, but it also has several additional statistics. These additional statistics are discussed in the later
sections on analysis of response data and in the theoretical annex.
These statistics describe the behaviour of items in a specific sample
and are useful for advising test analysis and construction but are not required to be maintained in an item bank file that will be used by IATA.
Còn nữa............