Contents

Chương 8 Giới thiệu về IATA

8.1. TÓM TẮT

Các thư mục và các phân tích về test của phần mềm (IATA) kèm theo Phần II của cuốn sách này là nhằm giúp các học viên thực hành đánh giá quốc gia, các nhà nghiên cứu và các đối tượng khác khi phân tích dữ liệu các câu hỏi đề kiểm tra cũng như xây dựng các công cụ đánh giá hiệu quả. IATA được thiết kế để cung cấp cách sử dụng nhằm giải quyết các xem xét thống kê liên quan đến các đánh giá quốc gia. Nó đặc biệt nhắm đến việc phân tích dữ liệu câu hỏi kiểm tra thử nghiệm, tạo ra một thử nghiệm mới từ một ngân hàng câu hỏi, hoặc so sánh, nhân rộng các bài kiểm tra giữa các mẫu khác nhau. Nó có thể sẽ hữu ích cho các câu hỏi đơn lẻ là những thư mục đã được sử dụng cũng như một số thư mục khác có khả năng thực hiện các thống kê khi thẩm định giáo dục để phân tích câu hỏi, nhưng một số thư mục khác sẽ không quen thuộc với các quy trình thống kê cụ thể mà là một tính năng của các đánh giá quốc gia.

Các hướng dẫn trong cuốn sách này giả định rằng bạn đã quen thuộc với chức năng điện toán cơ bản trên một máy tính Windows, chẳng hạn như bắt đầu chương trình, duyệt các thư mục, và mở tập tin. Các chương tiếp theo cũng giả định rằng bạn đã cài đặt IATA một cách chính xác và có thể truy cập vào menu chính trong IATA. Nếu bạn chưa cài đặt IATA hoặc không thể bắt đầu chương trình, xin vui lòng tham khảo các hướng dẫn cài đặt IATA trên đĩa CD đi kèm. Độc giả của cuốn sách này cũng nên có một số hiểu biết về các khái niệm thống kê như: xác suất, tính chất của phân phối thống kê.

Mục tiêu chung của IATA là để tăng khả năng sử dụng và diễn giải về điểm thi-kiểm tra. Mức độ trung bình chủ yếu của việc hoàn thành mục tiêu này là để giảm lỗi đo lường. Lỗi đo lường là các khái niệm cơ bản thống nhất tất cả các sáng tạo thử nghiệm và phân tích thử nghiệm. Một thử nghiệm được thiết kế để đo lường một lĩnh vực cụ thể, chẳng hạn như kỹ năng toán học hoặc trình độ đọc trong kiểm tra ngôn ngữ. Tuy nhiên, việc kiểm tra không hoàn toàn là chính xác. Tất cả các điểm kiểm tra đều có sự không chắc chắn nhất định; nếu một học sinh đã không thực hiện được câu hỏi tương đương của một thử nghiệm với các đề kiểm tra khác nhau, sẽ không chắc rằng điểm số của học sinh đó là như nhau trên các bài kiểm tra tương đương. Lỗi đo lường mô tả mức độ mà số điểm của học sinh trên một thử nghiệm cụ thể 'điểm đúng' khác với số điểm anh ta hoặc cô sẽ đạt được trong sự không xuất hiện sự không chắc chắn. Mục tiêu quan trọng của phát triển thử nghiệm từ một quan điểm thống kê là để giảm lỗi đo lường. Để giảm lỗi của đo lường, IATA phát hiện các vấn đề và góp phần vào nhận biết các lỗi để có thể sửa đổi, thay thế, hoặc loại bỏ hoàn toàn.

Biện pháp thứ hai để hoàn thành mục tiêu này là thiết lập mẫu có ý nghĩa và phù hợp để báo cáo kết quả kiểm tra. Trong phần này của cuốn sách, các điều khoản thống kê và thông số được sử dụng để mô tả đặc điểm của các bài kiểm tra. Số liệu thống kê là kết quả của một phép tính được thực hiện trên một mẫu học sinh và các câu hỏi cụ thể. Bởi vì giá trị của một thống kê phụ thuộc vào mẫu, nó không thể khái quát với các mẫu hoặc học sinh khác nhau mà phải là với các mẫu tương đương để từ đó ước tính được. Do đó, điểm thi được tính như số liệu thống kê có thể không so sánh trực tiếp giữa các bài kiểm tra hoặc nhóm học sinh khác nhau. Ngược lại, một tham số liên quan các tính chất thống kê của học sinh hoặc câu hỏi kiểm tra như chức năng của các đặc tính mẫu. Theo đó, các thông số có thể được sử dụng để mô tả các học sinh và các câu hỏi theo những cách khái quát mà không phải phụ thuộc vào các mẫu cụ thể. khi nào IATA ước tính các thông số cho học sinh hoặc các bài kiểm tra, các thông số này có thể được sử dụng hoặc so sánh giữa các bài kiểm tra khác nhau sẽ có hiệu quả cao hơn và nhiều thông tin hơn là khi sử dụng từng thử nghiệm trong đánh giá quốc gia chỉ đơn giản là giải thích chính bài kiểm tra đó.

8.2. TỔNG QUAN CÁC CHƯƠNG

Các chương trong Phần II bắt đầu với các vấn đề trong sự phát triển của một đánh giá quốc gia nơi mà các bài kiểm tra đã được tạo ra và in vào một tập sách kiểm tra và dữ liệu trả lời đã được thu thập. Chương 8 cung cấp một thông tin đánh giá về xử lý và định dạng dữ liệu được trình bày trong cuốn sách trước của loạt bài này, cũng như giới thiệu về giao diện IATA, bao gồm một mô tả về menu chính và các yếu tố hỗ trợ khác nhau của màn hình trong IATA và kết quả nó tạo ra. Các chương 9 đến 13 cung cấp các bước (walkthroughs) chi tiết cho ba công việc phân tích chính trong IATA, sẽ giúp bạn làm quen từng chức năng sử dụng trong IATA. Những công việc được thiết kế để thực hiện theo các bước và phát triển đánh giá quốc gia, từ thử nghiệm thí điểm để kiểm tra toàn diện và theo dõi kiểm tra đánh giá trong chu kỳ tiếp theo. Tóm lại, những bước tiếp theo (walkthroughs) sẽ giúp sử dụng IATA như thế nào để tiến hành tất cả các phân tích tâm lý cần thiết cho một hệ thống đánh giá quốc gia.

Các chương 14 cung cấp một bản tóm tắt các công việc khác nhau và trình bày ví dụ về cách mỗi công việc có thể được sử dụng trong các tình huống thực tế khác nhau của cuộc sống. Những chương giới thiệu nhiều khái niệm có thể là mới là hoặc chỉ một phần là quen thuộc với những người có kinh nghiệm trong việc đánh giá giáo dục. Mặc dù một số thông tin thống kê cơ bản được trình bày trong mỗi phần để giúp giải thích kết quả được tạo ra bởi các phần mềm, giải thích chi tiết về lý thuyết và nguyên tắc toán học đằng sau những khái niệm được trình bày trong Chương 15.

8.3. Dữ liệu đánh giá

Có hai loại dữ liệu chính được tạo ra và được sử dụng trong việc phân tích đánh giá: dữ liệu hồi đáp và dữ liệu câu hỏi (item). Dữ liệu hồi đáp được tạo ra bởi các câu hỏi đơn lẻ khi học sinh trả lời câu hỏi trên một thử nghiệm. Một thử nghiệm là một bộ sưu tập cụ thể của câu hỏi đánh giá một miền chung về trình độ hay kiến thức. Câu hỏi câu trên một thử nghiệm được gọi chung là các câu hỏi. Các bài kiểm tra có thể có câu hỏi nhiều lựa chọn, trả lời ngắn, câu hỏi mở hoặc câu hỏi đóng, hoặc các dạng câu hỏi khác. Dữ liệu hồi đáp được tạo ra bằng cách phân tích hoặc xem xét các câu hỏi và ghi lại thống kê điểm số hoặc nhận thức của học sinh. Mỗi dòng trong một tập tin dữ liệu hồi đáp mô tả các đặc điểm của một học viên hoặc điểm kiểm tra, trong khi mỗi dòng trong một tập tin dữ liệu câu hỏi mô tả các đặc điểm của một câu hỏi kiểm tra.

IATA có thể đọc và viết một loạt các định dạng bảng dữ liệu chung (ví dụ, tập tin văn bản Access, Excel, SPSS, phân cách) nếu chúng được định dạng chính xác. Nếu dữ liệu không được định dạng với các cấu trúc chính xác, IATA sẽ không thể thực hiện các phân tích. Cơ sở dữ liệu tương thích với định dạng như Access hoặc SPSS đã được định dạng cẩn thận hầu hết các vấn đề dữ liệu. Tuy nhiên, nếu các dữ liệu được lưu trữ trong định dạng ít chặt chẽ, chẳng hạn như Excel hoặc file văn bản, các quy ước sau đây cần được tuân thủ:

• Tên của các biến sẽ xuất hiện trong các ô ở đầu mỗi cột (được gọi là tiêu đề). Mỗi cột dữ liệu phải có một tiêu đề cột. Tên của mỗi biến phải được phân biệt với tên của các biến khác trong cùng một tập tin dữ liệu. Tên của các biến phải bắt đầu bằng một chữ cái và không nên chứa bất kỳ khoảng trống nào.

• Vùng dữ liệu không được chứa bất kỳ hàng hoặc cột trống. Vùng dữ liệu là vùng của các ô có chứa dữ liệu, bắt đầu với các tên biến của biến đầu tiên xuất hiện trong các tập tin dữ liệu và kết thúc với giá trị của biến cuối cùng ở dưới cùng tất cả các hàng.

• Vùng dữ liệu phải bắt đầu ở ô đầu tiên trong bảng tính hoặc tập tin. Trong Excel, ô này được dán nhãn "A1". Trong tập tin văn bản, đây là vị trí con trỏ trên cùng bên trái trong các tập tin văn bản.

Hai ví dụ trong Hình 9.1 minh họa các định dạng dữ liệu không chính xác và chính xác. Trong các định dạng dữ liệu không chính xác, bên trái có một dòng trống phía trên vùng dữ liệu và một cột trống bên trái của nó. Ngoài ra còn có các hàng và cột trống trong vùng dữ liệu và một cột chứa dữ liệu mà không có một tiêu đề. Trong định dạng đúng, chính xác thì tất cả các dữ liệu được tập hợp thành một vùng dữ liệu đơn ở phía trên bên trái của bảng tính không có hàng hoặc cột trống.

Định dạng không đúng - các hàng và cột trống trong và xung quanh các dữ liệu (Incorrect Format – empty rows and columns within and around the data)

	A	B	C	D	E	F	G
1
2		Var_A		Var _B	Var _C		Var _E
3
4		1		1	1	1	1
5		2		2	2	2	2
6		3		3	3	3	4
7		4		4	4	4	4
8
9		5		5	5	5	5

Định dạng đúng Format-phạm vi dữ liệu trong góc trên cùng hàng hoặc cột mà không có câu hỏi nào

(Correct Format data range is in top corner without empty rows or columns)

Hình 8.1 Dữ liệu định dạng không chính xác và dữ liệu đúng examples

Figure 8.1 Incorrect and correct data formatting examples

8.3.1. Dữ liệu hồi đáp

Dữ liệu hồi đáp bao gồm các trả lời của mỗi học sinh cho từng loại câu hỏi kiểm tra. Kết quả kiểm tra nhập vào trong các tập tin dữ liệu hồi đáp phải cho phép chấm điểm tự động; điều này có nghĩa rằng các dữ liệu hồi đáp item nên bao gồm các mã đại diện cho học sinh hiểu cách thức như thế nào để trả lời các câu hỏi. Ví dụ, nếu dữ liệu hồi đáp được từ một thử nghiệm nhiều lựa chọn, các dữ liệu cần ghi lại mã đại diện cho các tùy chọn xác nhận bởi mỗi học sinh (ví dụ, A, B, C, D, v.v…). IATA sẽ biến đổi các mã trả lời thành điểm số bằng cách sử dụng Key hoặc bạn nhập thủ công hoặc cung cấp câu trả lời như là một tập tin quan trọng.

Các thông tin khác có thể được lưu trữ trong một tập tin dữ liệu hồi đáp có thể hữu ích cho việc phân tích kết quả kiểm tra. Ví dụ này bao gồm thông tin trên các biến như tuổi, lớp, giới tính, trường học, và khu vực. Thông tin hữu ích khác có thể được thu thập từ bảng câu hỏi (như hỏi học sinh và giáo viên) hoặc hồ sơ hành chính. Nếu một mẫu phân tầng học sinh được sử dụng, trọng lượng mẫu cho mỗi học sinh cần phải được đưa vào tập tin này.

Một biến định danh duy nhất cho mỗi học sinh sẽ được cung cấp cho mỗi học sinh, mặc dù IATA sẽ tự động tạo ra biến định danh duy nhất dựa trên thứ tự hồ sơ mà nếu một định danh duy nhất không được xác định từ trước. Tuy nhiên, nếu kết quả được liên kết với các nguồn dữ liệu khác, chẳng hạn như theo dõi các cuộc điều tra hoặc hồ sơ hành chính, đây là một ý tưởng tốt để sử dụng một biến định danh được xác định trước đó như tên hoặc mã số học sinh để tạo điều kiện cho các liên hệ trong tương lai giữa các bộ dữ liệu.

Tất cả các câu trả lời phải được mã hóa theo quy định. Đối với câu hỏi hai hay nhiều lựa chọn, thủ tục này là đơn giản bởi vì mỗi lựa chọn trả lời đã được mã hoá là đúng hay sai. Đối với những câu hỏi mở, một phiếu đánh giá chấm điểm cần thiết để giúp trả lời item là sử dụng một khuôn khổ mã hóa phổ biến. Các câu hỏi Mở - đóng có thể được ghi không đúng hoặc như với một phần cho trả lời cục bộ khác nhau. Mục kiểm tra cục bộ có nhiều hơn một số điểm là lớn hơn 0. Câu trả lời cho câu hỏi mở-đóng phải được mã hóa trước khi chuẩn bị dữ liệu hồi đáp. Chương 2 và 3 của loạt bài này mô tả các thủ tục cho mã hóa các loại câu hỏi kiểm tra (Anderson và Morgan năm 2008; Greaney và Kellaghan 2012). Để ghi dữ liệu hồi đáp, đối với hầu hết các phân tích, một câu trả lời chính phải được nạp vào IATA. Một danh sách key chính là một danh sách các mã trả lời cho biết câu trả lời đúng (s) cho mỗi câu hỏi kiểm tra. Các key có thể được nhập vào như là một tập tin dữ liệu hoặc nhập vào bằng tay. Nếu phân tích sử dụng mục tiêu các tham số, thì các tham số mục tiêu phải có câu trả lời trong các tập tin quan trọng; chúng có thể không được nhập bằng tay (xem dữ liệu Item, trang 16).

8.3.1.1. Xử lý dữ liệu thiếu và bỏ qua

Thiếu dữ liệu xảy ra khi một học sinh không cung cấp một trả lời với một item kiểm tra. Khi điều này xảy ra, không để trống trường dữ liệu mà phải sử dụng một mã giá trị thiếu để ghi lại lý do tại sao trả lời là không xuất hiện. Có hai loại trả lời thiếu: thiếu và bỏ qua.

Mã gán cho giá trị dữ liệu Thiếu cho các biến khi mà học sinh có thể trả lời một item nhưng đã không thực hiện và để lại chỗ trống câu trả lời. Dữ liệu bị khuyết này sẽ được ghi là không chính xác. Ngược lại, bỏ qua mã dữ liệu được sử dụng khi học sinh không có khả năng trả lời một câu hỏi, như một đánh giá quốc gia sử dụng một thiết kế lặp đi lặp lại.

Mã giá trị bị bỏ qua áp dụng cho trả lời của học sinh là chỉ đọc hoặc học sinh đã thực hiện trả lời không đúng quy định, chẳng hạn như lựa chọn hai lựa chọn trong câu hỏi nhiều lựa chọn, là một dạng của trả lời thiếu cho mục đích phân tích hàng chục. Tùy thuộc vào hoàn cảnh của tổ chức kiểm tra hoặc xử lý dữ liệu, bạn phải quyết định những mã này sẽ được xử lý như là dữ liệu bị thiếu hoặc bị bỏ qua. Nói chung, nếu có các dữ liệu lỗi là kết quả lỗi của học sinh, mã số phải được coi là không xuất hiện và sẽ được ghi là không chính xác. Tuy nhiên, nếu lỗi là kết quả của những hạn chế trong việc xử lý dữ liệu, chẳng hạn như sự thiếu chính xác trong quét thẻ điểm là không phải xác minh và các mã nên được coi như bỏ qua.

Một đánh giá bỏ qua mã dữ liệu xảy ra khi một thiết kế đánh giá lặp lại đòi hỏi phải suy xét khi sử dụng. Thiết kế đánh giá lặp lại kiểm tra khả năng suy xét liên quan đến việc cân bằng cho các mẫu ngẫu nhiên tương đương khác nhau của các mẫu học sinh khác nhau, do đó không phải tất cả học sinh trả lời các bài kiểm tra tương tự nhau (xem Anderson và Morgan, 2008). Những thiết kế này cho phép đảm bảo vấn đề rộng lớn trong khi hạn chế lượng thời gian thi dành học sinh. Trong thiết kế đánh giá lặp lại, mã bỏ qua phải được gán cho tất cả các item cho một học sinh ngoại trừ những câu được trình bày trong tập sách kiểm tra cho học sinh. Mã bỏ qua sẽ không được gán cho các item trong các tình huống mà tất cả học sinh được yêu cầu phải trả lời tất cả các item.

Quy ước chung khi sử dụng các giá trị cụ thể cho các loại dữ liệu không đáp ứng khác nhau. Xem Greaney và Kellaghan (2012) để biết thông tin về mã số hồi đáp. Giá trị thường được sử dụng là:

• 9 cho thiếu phương án trả lời, trường hợp các học sinh đã không trả lời một item,

• 8 không thể trả lời được (unsortable), thường xảy ra trong thử nghiệm nhiều lựa chọn khi học sinh cung cấp nhiều câu trả lời và trong các câu hỏi mở khi trả lời học sinh không thể đọc được.

• 7 cho các loại dữ liệu item bị bỏ qua hoặc không rõ ràng, có thể được sử dụng trong một thiết kế kiểm tra năng lực.

Bất kể các mã cụ thể được sử dụng, bạn phải xác định như thế nào để IATA Xử lý mỗi mã không đáp ứng yêu cầu, thiếu hoặc bỏ qua.

8.3.1.2. Đặt tên Item

Điều quan trọng là phải gán một tên duy nhất cho từng loại item trong một đánh giá quốc gia (xem Anderson và Morgan năm 2008; Greaney và Kellaghan năm 2012). Tất cả các phân tích thống kê thực hiện trên một item thử nghiệm nên được liên kết rõ ràng với tên hay nhãn của một câu hỏi. Nếu một item được lặp đi lặp lại trong một số chu kỳ của một đánh giá quốc gia, nó phải được giữ nguyên cùng tên trong tập tin dữ liệu cho mỗi chu kỳ. Ví dụ, một item toán học đầu tiên sử dụng trong năm 2009 có thể có tên M003, để chỉ ra rằng đó là item thứ ba xuất hiện trong các thử nghiệm năm 2009. Nếu cùng một câu hỏi này được sử dụng trong một thử nghiệm năm 2010, nó vẫn sẽ nhận được tên là M003, không phân biệt nơi nó xuất hiện trên một thử nghiệm. Đặt tên cho các item bằng cách xác định vị trí trong một thử nghiệm có thể gây nhầm lẫn khi sử dụng bổ sung các câu hỏi. Vì lý do này, sẽ là hữu ích hơn để gán các tên các câu hỏi để kiểm tra thường xuyên khi chúng được phát triển đầu tiên, hơn là những câu hỏi khi lần đầu tiên được sử dụng trong đánh giá.

Sử dụng tên phù hợp cũng tạo điều kiện liên kết các kết quả của các bài kiểm tra khác nhau. Khi IATA ước tính mối quan hệ thống kê giữa các kiểm tra, nó phù hợp với các item trong sử dụng các thủ tục liên kết tên item. Nếu một tên item đề cập đến các item khác nhau trong hai bài kiểm tra được liên kết, kết quả của mối liên kết sẽ không được chính xác. Mặc dù nó có thể đổi tên các câu hỏi để tạo thuận lợi cho quá trình liên kết là đơn giản và ít có khả năng giới thiệu sai sót nếu tên câu hỏi đặc thù riêng được duy trì từ đầu.

8.3.1.3. Biến dự trữ được tạo ra bởi IATA

Trong quá trình phân tích dữ liệu hồi đáp, IATA sẽ tính toán nhiều biến số làm việc khác nhau. Tên thao tác của các biến này hoặc đầu ra bị hạn chế và không nên được sử dụng như tên của bài kiểm tra hoặc biến câu hỏi. Các biến này IATA thêm vào các tập tin kết quả dữ liệu thử nghiệm, được liệt kê trong Bảng 8.1.

Tên điểm (Score Name)	Mô tả (Description)
X trọng lượng (XWeight)	Trọng lượng thiết kế của các trường hợp được sử dụng trong phân tích (nếu không quy định, giá trị bằng 1 cho tất cả học sinh); The design weight of the case that is used during analysis (if not specified, the value is equal to 1 for all students);
Thiếu (Missing)	Biến này mô tả số lượng câu hỏi bị bỏ qua cho một học sinh; This variable describes the number of items that are omitted for a student;
Số phần trăm (PercentScore)	Điểm số phần trăm là số lượng các câu hỏi một học sinh trả lời chính xác một tỷ lệ phần trăm trong tổng số các câu hỏi dùng cho học sinh (không bao gồm các dữ liệu hồi đáp bỏ qua). The percent score is the number of items a student answered correctly expressed as a percentage of the total number of items administered to the student (excluding omitted response data).
Tỷ lệ lỗi (PercentError)	Các lỗi về đo lường đối với số điểm phần trăm (ước tính này là cụ thể cho từng học sinh; giá trị của nó phụ thuộc vào số điểm phần trăm và số lượng câu hỏi mà một học sinh trả lời); The error of measurement for the percent score (this estimate is specific to each student; its value depends on the percent score and number of items to which a student responded);
Tứ phân vị (Percentile)	Mức xếp loại phần trăm là một số mô tả giữa 0 và 100 cho mỗi học sinh, tỷ lệ học sinh khác với số điểm phần trăm thấp hơn. The percentile rank is a number between 0 and 100 that describes, for each student, the percentage of other students with lower percent scores.
Điểm RawZ (RawZScore)	Các Raw ZScore là số điểm phần trăm, chuyển đổi để có một trung bình là 0 và độ lệch chuẩn là 1 trong mẫu. The RawZScore is the percent score, transformed to have a mean of 0 and a standard deviation of 1 within the sample.
Z Điểm (ZScore)	Điểm số này là tương đương với phân phối chuẩn của số điểm phần trăm. Nó cũng là được gọi là "điểm đường cong". Trong khi đó, sự phân bố của RawZScore phụ thuộc vào sự phân bố của phần trăm các điểm chính xác, sự phân bố ZScore có xu hướng được hoàn hảo hơn chuông hình. This score is the normal-distribution equivalent of the percentile score. It is also referred to as the ‘bell-curve score.’ Whereas the distribution of the RawZScore depends on the distribution of the percent correct score, the ZScore distribution tends to be more perfectly bell-shaped.
Điểm số IRT (IRTscore)	Các IRTscore là ước tính năng lực của học sinh; số điểm này là tương tự như điểm số trung bình và độ lệch chuẩn trong khoảng 0 và 1, tương ứng. Các IRTscore tạo điều kiện tổng quát hơn một mẫu cụ thể của item này vì ước lượng của nó xem xét các tính chất thống kê của các bài kiểm tra khác nhau;[1]. The IRTscore is the proficiency estimate of the student; this score is similar to the typically has a mean and standard deviation around 0 and 1, respectively. The IRTscore facilitates generalization beyond a specific sample of items because its estimation considers the statistical properties of different test items;.
lỗi IRT (IRTerror)	Các lỗi đo lường cho IRTscore. The error of measurement for the IRTscore.
nghiêng IRT IRTskew	Các Độ xiên dự toán thành thạo, mà chỉ ra nếu thử nghiệm là tốt hơn ở đo ràng buộc thấp hơn hoặc cao trình độ của học sinh (ví dụ, một bài kiểm tra dễ dàng có thể mô tả chính xác nếu học sinh đã đạt đến một mức tối thiểu của năng lực nhưng có thể không rõ ràng về chính xác cao như thế nào năng lực thực sự là) The skewness of the proficiency estimate, which indicates if the test is better at measuring the lower or upper bound of a student’s proficiency (for example, an easy test may accurately describe if students have reached a minimum level of proficiency but may be ambiguous about exactly how high the level of proficiency actually is)
IRT kurt IRTkurt	Các kurtosis dự toán thành thạo, trong đó mô tả cách chính xác ước tính là với một mức độ của lỗi (ví dụ, cho hai điểm với các lỗi đo lường cùng, một với kurtosis lớn hơn là chính xác hơn). The kurtosis of the proficiency estimate, which describes how precise the estimate is for a given level of error (for example, for two scores with the same measurement error, one with the greater kurtosis is more precise).
Điểm đúng TrueScore	Điểm số này là một ước tính của một số phần trăm được tính toán từ số điểm IRT. nó là thích hợp hơn để số điểm phần trăm nguyên liệu bởi vì nó điều chỉnh những khác biệt về sai số đo lường giữa các item. Điểm số này được tính bình quân của xác suất trả lời chính xác cho từng loại item, với số điểm IRT của học sinh và các thông số của bài kiểm tra. This score is an estimate of a percent score that is calculated from the IRT score. It is preferable to the raw percent score because it corrects for differences in measurement error between items. This score is calculated as the average of the probability of correct response to each item, given the IRT score of the student and the parameters of the test item.
trình độ Level	Biến này là ước tính năng lực cho một học sinh đã được chỉ định dựa trên các thủ tục thiết lập tiêu chuẩn (nếu không có thủ tục thiết lập tiêu chuẩn đã được thực hiện, mặc định là dành cho tất cả học sinh được chỉ định một giá trị của 1). This variable is an estimate of the proficiency level for a student that has been assigned based on standard setting procedures (if no standard setting procedures have been performed, the default is for all students to be assigned a value of 1).

Bảng 8.1 Các biến tạo ra hoặc sử dụng bởi IATA để mô tả khả năng của học sinh và kiểm tra

(Table 8.1 Variables produced or used by IATA to describe student proficiency and testperformance)

Ngoài những cái tên cụ thể, bạn cũng nên tránh sử dụng tên có chứa biểu tượng "@". Biểu tượng này được dành riêng cho việc tạo các câu hỏi một phần đoán mò, là bài kiểm tra rằng có nhiều hơn một giá trị điểm số có thể lớn hơn 0.

8.3.2. Dữ liệu Item

IATA tạo ra và sử dụng tập tin dữ liệu câu hỏi với một định dạng cụ thể. Một tập tin dữ liệu chứa tất cả các mục thông tin cần thiết để thực hiện các phân tích thống kê các câu hỏi và có thể chứa các thông số được sử dụng để mô tả các tính chất thống kê của các câu hỏi. Một tập tin dữ liệu được tạo ra hoặc sử dụng bởi IATA nên chứa các biến được liệt kê trong Bảng 8.2.

Name	(BẮT BUỘC) tên duy nhất của từng loại item kiểm tra; (MANDATORY) the unique name of each test item;
Key	(BẮT BUỘC) các thông tin được sử dụng để chỉ định một số điểm số để mỗi câu trả lời item, đó là một trong hai mã duy nhất tương ứng với câu trả lời đúng, hoặc một mảng giới hạn các giá trị mà định nghĩa một loạt các trả lời chấp nhận được và điểm số tương ứng của họ; (MANDATORY) the information used to assign a numeric score to each item response, which is either the single code corresponding to the correct response, or a delimited array of values that defines a variety of acceptable responses and their corresponding numerical scores;
a	(Tùy chọn) đầu tiên trong ba thông số mô tả như thế nào hiệu suất trên một item kiểm tra liên quan đến trình độ thông thạo về lĩnh vực biểu diễn, được gọi là độ dốc hoặc phân biệt tham số; (OPTIONAL) the first of three parameters that describe how performance on a test item relates to proficiency on the performance domain, referred to as the slope or discrimination parameter;
b	(Tùy chọn) tham số item thứ hai, được gọi là vị trí khó khăn hoặc tham số; (OPTIONAL) the second item parameter, referred to as the location or difficulty parameter;
c	(Tùy chọn) tham số thứ ba, gọi là giả đoán mò parameter[2]; (OPTIONAL) the third parameter, referred to as the pseudo guessing Parameter;
Level	(Tùy chọn) một năng lực được phân bổ trước cho một item dựa trên các đặc điểm kỹ thuật và chuyên gia hàng đầu tiên xem xét (giá trị nên các số tự nhiên, bắt đầu từ 1); và (OPTIONAL) a previously assigned proficiency level for an item based on the initial item specification and expert review (values should be natural numbers, beginning with 1);
Content	(Tùy chọn) một mã hoặc mô tả được sử dụng để mô tả các tên miền phụ của chương trình, cũng được biết đến như một sợi hoặc sợi, mà mỗi item được liên kết mạnh mẽ nhất. (OPTIONAL) a code or description used to describe the subdomain of the curriculum, also known as a strand or thread, to which each item is most strongly aligned.

(Table 8.2 Variables in an item data file) - Bảng 8.2 Các biến trong một tập tin dữ liệu item

Bảng 8.3 trình bày các ví dụ từ một tập tin dữ liệu về câu hỏi có chứa thông tin về năm câu hỏi có tên khoa học C1Sci31, C1Sci32, C1Sci33, C1Sci34 và C1Sci35. Lưu ý rằng các item có tên là "C1Sci35" không có bất kỳ dữ liệu trong các cột có nhãn a, b, c và nội dung. Như đã nêu trong Bảng 8.3, dữ liệu chỉ có các trường bắt buộc là Name và Key. Nếu a, b, c hoặc các thông số đang thiếu, nó sẽ được ước tính trong phân tích. Có rất nhiều tình huống có thể yêu cầu bạn nhập một mục tập tin dữ liệu vào IATA đó là không xuất hiện các thông số này. Thiết kế phổ biến nhất không bao giờ từng xảy ra khi dữ liệu hồi đáp cho các câu hỏi trước khi được phân tích; trong trường hợp này, các tập tin dữ liệu kiểm tra chỉ đơn giản là được sử dụng như một câu trả lời chính. Thiết kế khác xảy ra khi một số câu hỏi có các thông số đã được ước tính trong một phân tích dữ liệu trước đó, và bạn muốn sửa chữa các giá trị của các câu hỏi này thay vì IATA lại ước tính chúng; trong thiết kế này, bạn sẽ để trống giá trị a, b, c và chỉ cho các item mà bạn muốn để ước tính cho các thông số mới (xem Chương 15, trang 119). Giá trị về Level và Nội dung có thể được nhập thủ công vào trong giao diện IATA hoặc để trống.

Name	a	b	c	Key	Level	Content
C1Sci31	0.34	0.83	0.01	3	3	Lý luận khoa học (Scientific Reasoning)
C1Sci32	0.46	0.4	0.12	4	2	Vật lý (Physics)
C1Sci33	0.32	0.31	0.06	3	2	Vật lý (Physics)
C1Sci34	0.18	0.75	0.16	1	3	Sinh học (Biology)
C1Sci35				5		Môi trường (Environment)

Bảng 8.3 phần mẫu của một tập tin dữ liệu item

(Table 8.3 Sample section of an item data file)

Một tập tin dữ liệu cũng có thể bao gồm các biến bổ sung. Ví dụ, thông tin bổ sung dữ liệu thường được lưu trữ với item bao gồm các câu hỏi gốc trong ngân hàng câu hỏi, thống kê mô tả số lần item đã được sử dụng, hoặc một danh sách các bài kiểm tra, trong đó mỗi item xuất hiện. Tuy nhiên, bất kỳ biến nào khác ngoài bảy lĩnh vực dữ liệu cần thiết được liệt kê trong Bảng 8.3 sẽ không được sử dụng bởi IATA.

Nhóm đánh giá quốc gia có thể sử dụng thông tin từ bất cứ nguồn nào miễn là họ có mục dữ liệu yêu cầu trong định dạng trình bày trong Bảng 8.2. Ví dụ, đánh giá quốc gia có thể được phép sử dụng các câu hỏi từ các đánh giá có mẫu lớn khác nhau như những câu hỏi được quản lý bởi Hiệp hội Quốc tế về Đánh giá các thành tựu giáo dục (IEA) trong đó bao gồm TIMSS và PIRLS http://timss.bc.edu/). Nếu các câu hỏi từ các đánh giá có mẫu lớn hiện có được bao gồm trên một đánh giá quốc gia, các thông số từ các đánh giá hiện tại có thể được sử dụng để tạo ra một tập tin dữ liệu mà IATA có thể nhập vào.

8.3.2.1. Định dạng Key

Trong cột với tiêu đề 'khóa' trong một tập tin dữ liệu câu hỏi, bạn phải cung cấp với IATA thông tin mà nó có thể sử dụng để ghi vào mỗi item. Trong trường hợp đơn giản nhất, cho câu hỏi kiểm tra nhiều lựa chọn với một lựa chọn chính xác duy nhất, giá trị trong mỗi cột phải là chữ số tương ứng chính xác với các lựa chọn. Giá trị nhạy cảm, ví dụ, nếu câu trả lời đúng được mã hoá như là một trường hợp trên "A", sau đó các chữ hoa "A" phải được cung cấp trong các câu trả lời chính; nếu một giá trị quan trọng được cung cấp là "a", sau đó bất kỳ câu trả lời với một giá trị của "A" sẽ được ghi không chính xác.

Trong một số ít trường hợp trong quá trình kiểm tra đánh giá, có thể một item kiểm tra được xác định rằng có nhiều hơn một lựa chọn chính xác. Để chỉ định nhiều hơn một giá trị quan trọng để chọn trả lời, bạn phải nhập một danh sách các giá trị chính xác, cách nhau bằng dấu phẩy. Không nhập khoảng trống giữa bất kỳ giá trị hoặc sau dấu phẩy. Ví dụ, nếu câu trả lời của "A" và "C" được chấp nhận như là trả lời chính xác cho một câu hỏi kiểm tra, sau đó giá trị Key cho câu hỏi này cần được xác định là "A, C" [3].

8.3.2.2. Định dạng mục dữ liệu cho các câu hỏi đánh giá thái độ

Các câu hỏi thái độ, niềm tin (hoặc phân loại hồi đáp) là các bài kiểm tra rằng có nhiều hơn một giá trị điểm số. Ví dụ, thay vì được ghi là 0 hoặc 1, một item với các mức độ khác nhau về tính đúng đắn có thể được ghi là 0, 1, hoặc 2, trong đó 0 đại diện cho một cố gắng trả lời, 1 đại diện cho một trả lời một phần chính xác, và 2 đại diện cho một trả lời hoàn hảo. Để phù hợp với các giá trị điểm khác nhau, chọn câu trả lời phải được nhập cho mỗi giá trị số điểm là lớn hơn 0. Nếu hệ thống đánh dấu sử dụng cho câu hỏi thái độ sử dụng điểm số mà là tất cả lớn hơn 0, sau đó trả lời các thông tin quan trọng không nên nhập cho giá trị điểm số thấp nhất. Ví dụ, nếu điểm số item có thể là 1, 2, 3, rồi chọn trả lời nên chỉ cung cấp thông tin chấm điểm cho điểm số 2 và 3. Các định dạng cho một câu trả lời thái độ chính là: <score1>: <danh sách giá trị 1>; <điểm 2>: <danh sách giá trị 2>;... <Số điểm n>: <danh sách giá trị n>. Ví dụ, cho một câu hỏi thái độ với ba điểm, ký hiệu là A, B, và C, với điểm số của 1, 2, và 3 tương ứng, rồi nhập câu trả lời cho câu hỏi này cần được nhập như "1: A; 2 : B; 3: C ".

Nếu một câu hỏi đánh giá thái độ đã được phân tích, nó sẽ có một số lượng lớn các thông số hơn một item kiểm tra thường xuyên. Mỗi giá trị điểm số sẽ có một giá trị riêng biệt cho các b-tham số, mặc dù một số sẽ có cùng điểm số cho tất cả các giá trị. Những dữ liệu item phải được nhập trong một định dạng đặc biệt. Ngoài việc cung cấp các item nhập chính với Keytrả lời đầy đủ, một item mới phải được thêm vào cho mỗi giá trị điểm số (trừ giá trị điểm số thấp nhất) như thể mỗi điểm số item là một item thử nghiệm riêng biệt. Các trường tham số cho các item nhập chính nên được để trống. Ví dụ, nếu một câu hỏi có điểm số từ 0, 1 và 2, sau đó tổng cộng ba hàng sẽ được yêu cầu trong các tập tin dữ liệu item : một hàng cho item tổng thể, mà sẽ chỉ có tên item và câu trả lời quan trọng, và hai điểm cụ thể cho item 1 và 2 có tên, Key, và thông tin tham số.

Giá trị của trường tên cho mỗi item số điểm cụ thể mới là tên item ban đầu tiếp theo là "@ <giá trị điểm số>". Ví dụ, nếu tên item gốc là "TestItem" sau đó tên cho một số item trong tổng số 1 là "TestItem @ 1". IATA sử dụng một mô hình hồi đáp item đòi hỏi các giá trị của b-thông số khác nhau được theo thứ tự giống như các điểm số. Do đó, nếu có hai item điểm số, 1 và 2, sau đó giá trị tham số b cho điểm 2 phải lớn hơn b-tham số cho 1 số điểm, như thể hiện trong Bảng 8.4.

Khi một dòng mới được nhập vào cho mỗi điểm số item, các giá trị của các lĩnh vực câu trả lời trọng điểm cũng phải được xác định khác nhau. Các phân tích của một câu hỏi đánh giá thái độ giả định rằng một học sinh đạt được điểm item cụ thể cũng đã làm chủ bất cứ mức độ kỹ năng được liên kết với một số điểm thấp hơn trên item đó. Nói cách khác, nếu mỗi điểm được coi là một item thử nghiệm riêng biệt, sau đó một học sinh có điểm số đoán mò cao đã có hiệu quả một phần cũng thực hiện một cách chính xác về điểm số đoán mò thấp hơn. Để quản lý mối quan hệ này trong IATA, Key trả lời cho mỗi giá trị điểm số nên liệt kê giá trị quan trọng riêng của nó (s) cũng như các giá trị của bất kỳ điểm số cao hơn.

Một ví dụ về một phần dữ liệu item thái độ định dạng đúng cho một item với điểm số 0, 1, 2 và 3 được đưa ra trong Bảng 8.4. Lưu ý rằng không có thông tin điểm được cung cấp cho các điểm số thấp nhất (0). Các mục item chính không có giá trị tham số hoặc một giá trị cho Level. Bởi vì mỗi giá trị điểm số có thể tương ứng với một tiêu chuẩn khác nhau về hiệu suất, nó không làm theo chiều hướng để có mức quy định cho toàn bộ. Mặc dù các câu trả lời đã được xác định, kết quả thông tin vẫn còn phải được xác định với việc sử dụng các định dạng câu trả lời chính xác. Để IATA, tỷ số là câu trả lời đúng, các câu trả lời chính phải cung cấp cả các giá trị được tìm thấy trong các dữ liệu và số điểm được gán cho mỗi giá trị.

Name	a	b	c	Key	Level	Content
PCItem001				1:1;2:2;3:3		Thành phần của câu (Parts of speech)
PCItem001@1	0.61	-0.43	0	1,2,3	1	Parts of speech
PCItem001@2	0.61	0.22	0	2,3	1	Parts of speech
PCItem001@3	0.61	0.74	0	3	2	Parts of speech

Bảng 8.4 phần mẫu của một tập tin dữ liệu item cho một câu hỏi đánh giá thái độ

Table 8.4 Sample section of an item data file for a partial credit item

8.4. Dữ liệu được tạo ra bởi IATA

IATA tạo ra một bảng số dữ liệu có chứa các thông số kỹ thuật phân tích hiện tại và kết quả phân tích. Nói chung, tất cả các kết quả sẽ được lưu trữ để tham khảo trong tương lai. Bảng 8.5 tóm tắt danh sách các bảng dữ liệu tạo ra của IATA. Các bảng dữ liệu có thể được lưu trực tiếp từ IATA thành một trong các định dạng phổ biến như Excel (*.xls/*xlsx.), SPSS (*.sav), dấu phẩy phân cách (*.csv) hoặc tab-giới hạn (*.txt).

Data Tables	Description
Hồi đáp(Responses)	Original response data (including non-test data) imported into IATA.
Giá trị Values	Unique response codes for all test items, and indication as to whether each response value is coded as a valid missing (valid skip) or missing.
ĐIểm số đạt được Scored	Response data that have been scored as correct (1) or incorrect (0) using the specified answer key, as well as all summary scores and their standard errors
Item1[4] Items1	Item answer keys, and statistics related to the current analysis and item parameters.
Item 2 Items2	Item answer keys and parameters of the reference item parameter file used for linking.
item sáp nhập MergedItems	Item-by-item matching of items in both the new and reference item parameter files used by the linking process
giá trị riêng Eigenvalues	Tỷ lệ phương trình sai được giải thích bởi mỗi kích thước trong các câu trả lời item. The proportion of variance explained by each of the dimensions in the item responses.
mô hình Matrix PatternMatrix	Tỷ lệ sai giải thích của từng loại item của mỗi kích thước cơ bản các câu trả lời item. The proportion of variance explained of each item by each of the dimensions underlying the item responses
mức Levels	Các ngưỡng được sử dụng để xác định năng lực. The thresholds used to define proficiency levels.
Liên kết liên tục LinkingConstants	Hằng số chuyển đổi mẫu sử dụng để điều chỉnh các đặc điểm tiềm ẩn mẫugiữa các quần thể hoặc mẫu Scale transformation constants used to adjust the latent trait scale between populations or samples
Cuốn sách đánh dấu dữ liệu BookmarkData	Một danh sách đặt hàng của các câu hỏi có thể được sử dụng để tạo điều kiện thiết lập tiêu chuẩn hoặc tạo ra các định nghĩa về mức độ hiệu quả An ordered list of items that can be used to facilitate standard setting or creating definitions for performance levels
DIF_ <thông số kỹ thuật> DIF_<specifications>	Các kết quả của một phân tích khác biệt giữa các item hoạt động, nơi <thông số kỹ thuật> phần trong tên của bảng tóm tắt các biến và các nhóm so sánh trong phân tích. The results of a differential item functioning analysis, where the <specifications> portion of the table name summarizes the variable and groups compared in the analysis.
CustomTest<name>	Một số câu hỏi được lựa chọn để tối ưu hóa giảm thiểu lỗi của đo lường trên một phạm vi cụ thể về trình độ. Các <name> là một giá trị câudùng chỉ định. A set of items chosen to optimize minimize error of measurement over a specific range of proficiency. The <name> is a user-specified value.

Bảng 8.5 bảng dữ liệu tạo ra của IATA

Table 8.5 Data tables produced by IATA

8.5. Kết quả khác được tạo ra bởi IATA

Ngoài các bảng dữ liệu được mô tả trong Bảng 8.5, IATA cũng tạo ra nhiều bảng xếp loại, tóm tắt văn bản và bảng kết quả chỉ được hiển thị trong giao diện của IATA. Những kết quả này có thể được sao chép trực tiếp từ IATA và dán vào tài liệu khác để tham khảo trong tương lai. Các các biện pháp của việc sao chép sản lượng phụ thuộc vào loại đầu ra.

Đối với biểu đồ, kích chuột phải vào thân biểu đồ sẽ xuất hiện một menu nâng cao với các tùy chọn một trong hai: 1) sao chép ảnh vào clipboard (bảng kẹp tạp), 2) lưu hình ảnh biểu đồ trực tiếp vào một tập tin, hoặc 3) in hình ảnh. Để có kết quả được hiển thị dưới dạng bảng, bạn phải sao chép dữ liệu bằng cách chọn các ô, hàng, hoặc cột mà bạn muốn sao chép, sau đó sao chép dữ liệu bằng cách chọn "Copy" từ bên phải nhấp chuột mở ra menu hoặc bằng cách gõ Ctrl + C. Các dữ liệu sao chép có thể được dán vào một tập tin văn bản hoặc trực tiếp vào bảng tính như Excel hoặc SPSS.

8.6. Giải thích kết quả IATA

Bất cứ khi nào IATA tạo ra kết quả phân tích phân nhóm cho các item khác nhau, nó cũng sẽ chỉ tóm tắt 'biểu tượng giao thông' hiện tại cung cấp một ý tưởng chung về làm thế nào để giải thích kết quả. Có ba dấu hiệu khác nhau mà IATA sử dụng, giải thích trong bảng 8.6.

Symbol	Meaning
	Vòng tròn màu xanh lá cây cho thấy không có vấn đề lớn. Green circles indicate no major problems.
	Một viên kim cương màu vàng cho biết kết quả là ít tối ưu hơn. Chỉ số này được sử dụng để cho thấy rằng những thay đổi có thể được yêu cầu cho một trong hai thông số kỹ thuật phân tích hoặc các câu hỏi của mình. Tuy nhiên, câu hỏi đó không giới thiệu bất kỳ lỗi nào đáng kể vào kết quả phân tích. A yellow diamond indicates that the results are less than optimal. This indicator is used to suggest that modifications may be required to either the analysis specifications or the items themselves. However, the item is not introducing any significant error into the analysis results.
	Một tam giác cảnh báo màu đỏ xuất hiện bên cạnh bất kỳ đối tượng có vấn đề. Chỉ số này được sử dụng hoặc để chỉ item mà không thể được đưa vào phân tích do các vấn đề với dữ liệu, thông số kỹ thuật, hoặc để giới thiệu một cuộc kiểm tra chi tiết hơn về các chi tiết kỹ thuật hoặc dữ liệu cơ bản và item kiểm tra. Khi chỉ số này xuất hiện, nó không nhất thiết có nghĩa là có một vấn đề, nhưng nó cho thấy các kết quả phân tích tổng thể có thể được chính xác hơn nếu các item kiểm tra chỉ định đã được gỡ bỏ hoặc nếu phân tích được hỗ trợ chỉ định. A red warning triangle appears beside any potentially problematic items. This indicator is used either to indicate items that could not be included in the analysis due to problems with the data or specifications, or to recommend a more detailed examination of the specifications or underlying data and test item. When this indicator appears, it does not necessarily mean that there is a problem, but it does suggest that the overall analysis results may be more accurate if the indicated test item were removed or if the analysis were re-specified.

Bảng 8.6 ký hiệu giao thông trong IATA và ý nghĩa của chúng

Table 8.6 Traffic symbols in IATA and their meanings

Đối với phân tích, nơi có nhiều mẩu thông tin để xem xét khi kết quả giải thích cho một item cụ thể, chẳng hạn như các item phân tích và thử nghiệm đa chiều kết quả, IATA cũng sẽ tạo ra báo cáo diễn giải mà cố gắng để tóm tắt số liệu thống kê khác nhau. Các báo cáo này được dự định như là một gợi ý hữu ích cho việc làm thế nào để tiến hành. Tuy nhiên, trong bất kỳ trường hợp IATA đề nghị sửa đổi cho một trong hai thông số kỹ thuật phân tích hoặc các bài kiểm tra, bạn nên xác minh rằng các khuyến nghị thích hợp bằng cách kiểm tra các kết quả thống kê hoặc tập báo cáo nhỏ thử nghiệm thực tế cho mình.

8.7. MẪU DỮ LIỆU

Khi IATA được cài đặt trên máy tính của bạn, nó sẽ tạo ra một thư mục trên máy tính của bạn được gọi là IATA. Thư mục này chứa dữ liệu mẫu được yêu cầu cho các ví dụ hướng dẫn chương trong cuốn sách này. Có sáu tập tin khác nhau trong thư mục dữ liệu mẫu. Chúng bao gồm bốn bộ dữ liệu hồi đáp, mỗi định dạng Excel, và một tập tin Excel có chứa các Key trả lời cho mỗi bộ dữ liệu hồi đáp. Các tập tin được định dạng *.xls để tương thích với phần mềm cũ và phần mềm mã nguồn mở (tùy thuộc vào máy tính của bạn cài đặt, bạn có thể không nhìn thấy ".xls" tập tin mở rộng). Tên và nội dung của các tập tin là:

• PILOT 1 (.xls) - một tập hợp dữ liệu hồi đáp tương ứng với một hướng dẫn thử nghiệm có chứa nhiều item lựa chọn

• CYCLE1 (.xls) - một tập hợp dữ liệu hồi đáp tương ứng với một tổ chức đánh giá quốc gia.

• PILOT2 (.xls) - một tập hợp dữ liệu hồi đáp tương ứng với một hướng dẫn thử nghiệm có chứa nhiều sự lựa chọn và các câu hỏi đánh giá thái độ, niềm tin trong một thiết kế kiểm tra sự tính toán.

• CYCLE2 (.xls) - một tập hợp dữ liệu hồi đáp tương ứng với một tổ chức đánh giá quốc gia hiện tại với các câu hỏi phổ biến với tổ chức đánh giá quốc gia trước đó.

• CYCLE3 (.xls) - một tập hợp dữ liệu hồi đáp tương ứng với một tổ chức đánh giá quốc gia với các câu hỏi phổ biến với một tổ chức đánh giá quốc gia trước đó.

• ItemDataAllTests (.xls) - một tập tin Excel với nhiều sheet có chứa các Key trả lời và thông tin về các item trên mỗi tập tin dữ liệu hồi đáp khác nhau.

Những dữ liệu mẫu là hư cấu bộ dữ liệu đã được phát triển với mục đích duy nhất là cung cấp các ví dụ cụ thể và các ứng dụng của phần mềm này. Mặc dù nó phản ánh mô hình điển hình về trả lời của học sinh và các mối quan hệ trong các dữ liệu tương tự như tìm thấy trong hầu hết các đánh giá có mẫu lớn, kết quả và thảo luận về kết quả phân tích không đại diện cho thực tế đánh giá bất kỳ quốc gia nào.

Nếu bạn xóa bất kỳ tập tin dữ liệu mẫu, bạn có thể khôi phục lại chúng bằng cách cài đặt lại IATA. Các dữ liệu cũng có thể được tìm thấy trên đĩa CD kèm theo để cuốn sách này hoặc tải về từ trang web của IATA (http://www.polymetrika.org/IATA).

8.8. Giao diện và việc phân tích với IATA

IATA khác với nhiều các chương trình nghiên cứu thống kê, nó có xu hướng cung cấp một loạt các chức năng phân tích có thể được truy cập riêng. Ngược lại, tất cả các chức năng phân tích trong IATA được truy cập thông qua các quy trình công việc, nơi mà các kết quả từ mỗi bước trong công việc có thể được sử dụng để thông báo về các chi tiết kỹ thuật hoặc giải thích kết quả trong chương tiếp theo.

Có năm công việc có sẵn để phân tích dữ liệu trong IATA:

1. Phân tích dữ liệu hồi đáp.

2. Phân tích dữ liệu hồi đáp với liên kết,

3. Liên kết item dữ liệu,

4. Lựa chọn các bài kiểm tra tối ưu,

5. Phát triển và gán các tiêu chuẩn hiệu suất.

Các công việc khác nhau phản ánh nhu cầu của các mục tiêu khác nhau có thể xảy ra trong bối cảnh của một đánh giá quốc gia. Dưới đây là một số tình huống phổ biến mà có thể yêu cầu công việc khác nhau:

• Nếu bạn đã tiến hành một thử nghiệm thí điểm và cần thông tin chi tiết về câu hỏi hành vi để xác định nội dung của các bài kiểm tra cuối cùng, bạn nên sử dụng quy trình làm việc "phân tích dữ liệu Response";

• Nếu bạn đã hoàn thành việc thu thập dữ liệu cho việc đánh giá quốc gia đầu tiên trong một loạt kế hoạch đánh giá, bạn nên sử dụng quy trình làm việc "phân tích dữ liệu Response";

• Nếu bạn đang gán điểm theo thang đo mới cho một mẫu của học sinh đã được quản lý các thử nghiệm tương tự đã được sử dụng trong một đánh giá quốc gia trước đó, bạn nên sử dụng quy trình làm việc "phân tích dữ liệu Response";

• Nếu bạn đã tiến hành một đánh giá quốc gia có chung một mục đích đánh giá và quan tâm đến việc so sánh kết quả của hai lượt đánh giá, bạn nên sử dụng "phân tích dữ liệu hồi đáp với kết nối" hoặc giao diện "Kết nối dữ liệu item ";

• Nếu bạn muốn thay đổi thử nghiệm của bạn và cần phải biết các câu hỏi tốt nhất để giữ lại trong thử nghiệm mới để duy trì so sánh với các thử nghiệm trước đó, bạn nên sử dụng giao diện "Lựa chọn bài kiểm tra tối ưu";

• Nếu bạn đã tiến hành đánh giá quốc gia và muốn giải thích kết quả trong một cách mà là phù hợp với mong đợi của chương giảng dạy, chứ không phải chỉ đơn giản là so sánh học sinh với nhau, bạn nên sử dụng giao diện "Phát triển và gán tiêu chuẩn thực hiện".

Để thực hiện một phân tích với IATA, bạn phải chọn một trong các giao diện từ menu chính. Menu chính đạt được bằng cách nhấn vào nút "Main Menu" trên góc dưới bên phải của màn hình lựa chọn ngôn ngữ và đăng ký mà tải với IATA, thể hiện trong hình 8.2.

Hình 8.2 lựa chọn ngôn ngữ ban đầu và đăng ký tùy chọn cho IATA

Figure 8.2 Initial language selection and optional registration for IATA

Ngôn ngữ mặc định cho IATA là tiếng Anh. Đăng ký là không bắt buộc và không phải bắt buộc để truy cập vào bất kỳ chức năng được thảo luận trong cuốn sách này. Menu chính IATA được thể hiện trong hình 8.3.

Figure 8.3 The IATA main menu

Mỗi giao diện bao gồm một tập các nhiệm vụ được hoàn thành theo thứ tự. Hầu hết các giao diện chia sẻ rất nhiều các nhiệm vụ tương tự. Có 10 nhiệm vụ khác nhau mà IATA thực hiện, và mỗi chức năng có giao diện riêng. Những nhiệm vụ này thường xuất hiện theo trình tự sau:

1. Đang tải dữ liệu.

2. Thiết lập thông số kỹ thuật phân tích.

3. Các loại item kiểm tra Phân tích.

4. Kết quả kiểm tra Scaling.

5. Phân tích kiểm tra chiều.

6. Item phân tích khác biệt chức năng.

7. Liên kết.

8. Lựa chọn các bài kiểm tra tối ưu.

9. Thông báo phát triển các tiêu chuẩn hiệu suất.

10 Lưu kết quả.

Không phải tất cả các nhiệm vụ xuất hiện trong tất cả các giao diện của quy trình. Các giao diện của quy trình được thiết kế để bạn chỉ cần thiết để thực hiện nhiệm vụ có liên quan đến mục tiêu phân tích của bạn. Bảng 8.7 tóm tắt những nhiệm vụ xuất hiện trong giao diện quy trình.

Bảng 8.7 Các nhiệm vụ khác nhau trong IATA và các giao diện quy trình mà IATA đang sử dụng

Table 8.7 Different tasks in IATA and the workflows in which they are used

Task	Workflow: A. Response data analysis B. Response data analysis with linking C. Linking item data D. Selecting optimal test items E. Developing and assigning performance standards.
	A	B	C	D	E
1. Loading data	●	●	●	●	●
2. Setting analysis specifications	●	●
3. Analyzing test items	●	●
4. Analysing test dimensionality	●	●
5. Analyzing differential item functioning	●	●
6. Linking		●	●
7. Scaling test results	●	●
8. Selecting optimal test items	●	●		●
9. Informing development of performance standards	●	●			●
10. Saving results	●	●	●	●	●

Hai giao diện đầu tiên (A và B) là rất giống nhau về nhiệm vụ của chúng, bởi vì tất cả ba yêu cầu phân tích dữ liệu hồi đáp đòi hỏi một số phân tích để xác định rằng việc sử dụng các mô hình đo lường thống kê là phù hợp với dữ liệu hồi đáp. Ngược lại, ba giao diện cuối cùng (C, D và E) chỉ phân tích dữ liệu item. Tất cả các giao diện của quy trình đòi hỏi dữ liệu được nạp vào IATA và cho phép bạn lưu kết quả.

8.9. Duyệt qua các chức năng của IATA

Khi bạn chọn một giao diện từ menu chính IATA, bạn sẽ được hướng dẫn vào một tập nhiệm vụ cho giao diện đó. Mỗi nhiệm vụ có giao diện riêng cho phép bạn chỉ định cách IATA cần thực hiện các nhiệm vụ, và nếu áp dụng, xem kết quả tạo ra sau khi IATA đã thực hiện nhiệm vụ.

Ở phía trên của mỗi giao diện chức năng, có một số yếu tố được phổ biến cho tất cả các nhiệm vụ. Những yếu tố này là khung hướng dẫn và các nút điều hướng, thể hiện trong hình 8.4. Khung hướng dẫn bên trái cung cấp một bản tóm tắt ngắn gọn về những chi tiết kỹ thuật được yêu cầu cho mỗi chức năng và làm thế nào để giải thích kết quả. Bên phải từ trên, các nút có nhãn "<< Back" và "Next >>" cho phép bạn xem lại nhiệm vụ trước đó hoặc chuyển sang chức năng tiếp theo bằng cách nhấp vào nút tương ứng. Lưu ý rằng, mặc dù IATA không ngăn cản bạn di chuyển qua lại các giao diện, trong nhiệm vụ sau đó giao diện IATA có thể không cung cấp kết quả có ý nghĩa trừ khi bạn đã hoàn thành một cách chính xác các nhiệm vụ trước đó trong giao diện.

Hình 8.4 IATA hướng dẫn giao diện nhiệm vụ và các nút điều hướng

Figure 8.4 IATA task interface instructions and navigation buttons

Bất kỳ giao diện nào xuất hiện trong IATA, thông số kỹ thuật chung cho mỗi công cụ vẫn như cũ. Các giao diện khác nhau với nhiệm vụ khác nhau được giải thích chi tiết xuyên suốt trong ví dụ trong các các chương từ 9 đến 13.

8.10. Tóm tắt

Trong chương này, bạn xem xét các yêu cầu dữ liệu cho item và phân tích thử nghiệm và đã được trình bày tổng quan về các loại thông tin được tạo ra bởi IATA. bạn đã cũng được giới thiệu về các giao diện IATA, bao gồm các giao diện nhiệm vụ, menu chính, và chuyển hướng giao diện.

Trong năm chương sau, bạn sẽ học cách sử dụng từng giao diện bằng cách khám phá các giao diện khác nhau. Chương 9 bắt đầu với việc phân tích các dữ liệu thử nghiệm thí điểm. Chương 10 giới thiệu thiết kế tiếp tục với việc phân tích dữ liệu hoàn toàn từ một tổ chức của một đánh giá quốc gia. Chương 11 giới thiệu các phân tích xoay quanh thiết kế của tập sách và các đặc điểm kỹ thuật và giải thích kết quả cho riêng câu hỏi. Chương 12 bao gồm các yêu cầu và thủ tục liên kết nhiều chu kỳ của các kết quả từ đánh giá quốc gia. Chương 13 mô tả một phần các quy trình công cụ và chỉ phân tích dữ liệu item và thảo luận về một thiết kế liên kết thay thế các tham số item hiện tại được sử dụng để đưa ra dự toán các thông số câu hỏi mới và điểm thi.

1 See the Chapter 15, page 197, for more details on IRT scaling. Additional IRT scaling options are available in IATA’s advanced functionality; refer to the installation guide on the accompanying CD.

[2] Use of the c-parameter to describe items may cause certain functions, such as equating, to not work properly. For most purposes, the items are most useful if the value of the c-parameter is equal or set to 0. The 3-parameter model should only be used by expert users who are aware of its shortcomings. Estimation and use of the c-parameter is provided by the advanced functionality of IATA. Refer to Chapter 15 for a more details on the c-parameter. Registration of IATA, which is free, provides access to this advanced functionality. For registration instructions, see the installation guide on the accompanying CD (Sử dụng các c-tham số để mô tả câu hỏi có thể gây ra một số chức năng, chẳng hạn như tương đương, để không làm việc đúng cách. Đối với hầu hết các mục đích, các mục hữu ích nhất nếu giá trị của c-tham số bằng nhau hoặc thiết lập về 0. mô hình 3-tham số chỉ nên được sử dụng bởi người dùng chuyên gia nhận thức được những thiếu sót của mình. Dự toán và sử dụng các c-tham số được cung cấp bởi các chức năng tiên tiến của IATA. Tham khảo Chương 15 để biết thêm chi tiết về một sự c-tham số. Đăng ký của IATA, đó là miễn phí, cung cấp quyền truy cập vào các chức năng tiên tiến này. Để được hướng dẫn đăng ký, hãy xem hướng dẫn cài đặt trên đĩa CD kèm theo).

[3] This format requirement means that commas should never be used as answer key values. (Yêu cầu định dạng này có nghĩa là dấu phẩy không bao giờ nên được sử dụng như là các giá trị phím trả lời)

[4] The Items1 data table produced by IATA following an analysis of response data will serve as an item bank data file, but it also has several additional statistics. These additional statistics are discussed in the later sections on analysis of response data and in the theoretical annex. These statistics describe the behaviour of items in a specific sample and are useful for advising test analysis and construction but are not required to be maintained in an item bank file that will be used by IATA.

Còn nữa............

MỘT SỐ VẤN ĐỀ GIÁO DỤC

Thứ Ba, 12 tháng 5, 2015

Hướng dẫn sử dụng phần mềm phân tích đề thi IATA (dịch thô)_Phần 1_Chương 8