Thứ Tư, 4 tháng 2, 2015

Vấn đề kiểm tra, đánh giá kết quả học tập.



Các quan điểm về đo lường đánh giá kết quả học tập

Các quan niệm khác nhau về “kết quả học tập” như: “Kết quả học tập là bằng chứng sự thành công của người học/sinh viên về kiến thức, kĩ năng, năng lực, thái độ đã được đặt ra trong mục tiêu giáo dục” (James Madison University, 2003; James O. Nichols, 2002)”. “Kết quả học tập là kết quả của một môn học, một chuyên ngành hay của cả một khóa đào tạo”. “Kết quả học tập của sinh viên bao gồm các kiến thức, kĩ năng và thái độ mà họ có được. Các kiến thức, kĩ năng này được tích lũy từ các môn học khác nhau trong suốt quá trình học được qui định cụ thể trong chương trình đào tạo”. Trường Cabrillo quan niệm về kết quả học tập của sinh viên “là kiến thức, kỹ năng và thái độ sinh viên đạt được và phát triển trong suốt khóa học.”[2]

Như vậy, có thể có nhiều cách phát biểu khác nhau nhưng chung lại nội hàm của khái niệm “kết quả học tập” được hiểu là những kiến thức, kỹ năng và cả thái độ sinh viên đối với vấn đề họ lĩnh hội được qua từng môn học/ chương trình học và trong suốt quá trình học tập, rèn luyện tại trường.

Các quan điểm về “ Kiểm tra đánh giá kết quả học tập”, theo trường cao đẳng cộng đồng bang Baltimore (CCBC), “Đánh giá kết quả học tập không phải là nói đến tính chính xác cũng không phải nói đến tính hoàn hảo và lý giải điều đó ở trong đầu với những thông tin thu thập được. Đánh giá kết quả học tập là một cách tư duy về chất lượng từ sự sẵn sàng không ngừng kiểm tra, nghi vấn, và khi cần thiết, thay đổi những gì chúng ta làm.”[2]

Trên thực tế có khá nhiều quan niệm về đánh giá kết quả học tập, tuy nhiên có thể hiểu khái niệm này một cách rõ ràng và đầy đủ nhất qua định nghĩa của Rebecca Cartwright, Ken Weiner và Samantha Streamer-Veneruso: “Đánh giá kết quả học tập là quá trình thu thập thông tin và những thông tin này sẽ thông báo cho cơ sở đào tạo biết liệu rằng những dịch vụ, hoạt động của cơ sở đào tạo hoặc những thực nghiệm đang được cơ sở đào tạo áp dụng có tác động như mong muốn lên những người tham gia vào những dịch vụ, hoạt động hoặc những thực nghiệm đó hay không. Mặt khác cơ sở đó có tạo ra một sự khác nhau trong đời sống giữa các cá nhân nó phục vụ hay không.”[6]

Như vậy, việc kiểm tra đánh giá năng lực người học không những cung cấp các thông tin phản hồi tích cực về các hoạt động học thuật liên quan đến đào tạo đối với cơ sở giáo dục. Điều quan trọng hơn, qua đo lường đánh giá giúp cho các nhà quản lý, giảng viên đánh giá được kết quả về tri thức, kỹ năng và cả thái độ về vấn đề mà người học được lĩnh hội trong suốt quá trình học một  khóa học/ lớp học/ chương trình hay một bậc học so với mục tiêu ban đầu. Đây là cơ sở đầy đủ nhất để quyết định việc một cá nhân nên tiếp tục một chương trình đào tạo tiếp theo như thế nào hay lựa chọn một hướng khác để phát triển bản thân trong tương lai. 

Về mặt kỹ thuật trong lý thuyết đo lường và đánh giá kết quả học tập

Một bài thi có thể dùng để (1) phân loại năng lực người học so với mức năng lực nhóm chuẩn và (2) dùng để miêu tả những kiến thức, kỹ năng người học thành thạo ở mức độ nào so với mục tiêu đào tạo.[8] Với kiểm tra đánh giá thứ nhất được hiểu là để dùng xác định vị trí mức năng lực của người học này so với các cá nhân khác trong một lớp học/khóa học (Ví dụ: Học viên  A có mức năng lực đứng thứ 5 trong một khóa đào tạo cấp chứng nhận “Kỹ thuật viên Tin học” có 50 học viên ). Trong cách kiểm tra này, kết quả đo lường đánh giá dựa vào hệ quy chiếu theo nhóm đối chứng (Norm – referenced). Mỗi cá nhân được so sánh năng lực với những người khác trong cùng nhóm chuẩn, phép đo này được gọi là phép đo quy về nhóm chuẩn.[9] Dạng Norm thường được dùng cho các bài kiểm tra có một khoảng điểm đủ rộng để phân biệt trình độ nhận thức, kỹ năng giữa các thí sinh với nhau. Bài thi tuyển sinh ĐH chính là thuộc loại này và thường các câu hỏi dễ sẽ bị loại bỏ và những câu hỏi có độ khó trung bình và khó sẽ được sử dụng.

Với cách kiểm tra đánh giá thứ hai, được hiểu là phép đo dùng để xác định khả năng về nhận thức, kỹ năng và thái độ về vấn đề mỗi cá nhân lĩnh hội so với một tiêu chí, giá trị được ấn định trước và không nhằm so sánh với các cá nhân khác (Criterion-referenced)[9] (Ví dụ: Bài kiểm tra trong một tiết học vật lý nhằm kiểm tra xem mức độ các học sinh trong lớp nắm bắt chính xác các bộ phận của kính hiển vi và cơ chế hoạt động của nó theo mục tiêu bài giảng). Ý nghĩa về điểm số của mỗi cá nhân trong trường hợp này không tùy thuộc vào việc so sánh với điểm số của các thí sinh khác. Trong phép đo loại này, chúng ta muốn biết mỗi cá nhân có thể làm được những gì một cách cụ thể chứ không tập trung vào phân loại khả năng của cá nhân ấy so với những người khác. Các bài thi kiểm tra kết thúc một khóa học/ môn học thường sử dụng dạng này. Trong đề thi vẫn phải sử dụng những câu hỏi dễ, vì nếu không sử dụng chúng ta có thể miêu tả không đầy đủ mức độ nắm bắt môn học/ chương trình học của các cá nhân trong lớp học/ khóa học.

Trong công tác tuyển sinh, khi lựa chọn một học sinh cho ngành nghề nào, trường nào để học ở ĐH, chúng ta cần dùng loại trắc nghiệm quy về nhóm chuẩn để có cơ sở định hướng. Bởi, chúng ta cần biết chính xác khả năng, năng lực nhận thức và kỹ năng của người này so với các học sinh khác để hoàn thành cùng một chương trình đào tạo (Norm – reference).

Riêng với việc sử dụng loại trắc nghiệm dựa trên các tiêu chí khi chúng ta cần đánh giá hiệu quả học tập một chương trình giảng dạy. Đánh giá theo hệ quy chiếu các tiêu chí là đánh giá dựa trên mục tiêu đã định cho bài học/ chương trình học. Trong GDĐH Việt Nam chúng ta vẫn thường gọi là “chuẩn đầu ra”, còn các trường ở Hoa kỳ gọi là “learning outcome”, bao gồm xác định học sinh biết gì, làm được gì, đến mức nào, trong điều kiện nào. 

Như vậy, hai dạng thức đo lường đánh giá kết quả học tập được sử dụng với các mục tiêu là hoàn toàn khác nhau và do vậy sẽ là khó khăn khi đưa ra giải pháp vừa thi đánh giá hoàn thành chương trình THPT với thi tuyển sinh nhằm chọn người học  ĐH, CĐ.

Điển hình trong các kỳ thi trước khi vào học bậc đại học tại Hoa Kỳ như: ACT (American College Testing) là một kiểu kỳ thi chuẩn hóa nhằm giúp ban tuyển sinh của các trường đại học (ĐH) đánh giá và so sánh các đơn xét tuyển. ACT và SAT là 2 kỳ thi song song với nhau, cả hai kỳ thi đều chung một mục đích và hầu hết các học sinh (HS) chỉ cần thi một trong hai. ACT ngày càng trở nên phổ biến hơn khi hầu hết các trường ĐH phía Đông Mỹ bắt đầu chấp nhận cho quá trình nộp đơn tuyển sinh. Theo "tiêu chuẩn hóa" được hiểu theo một cách nào đó nhằm quá đánh giá giúp người học bộc lộ những điểm mạnh-yếu trong kiến thức kỹ năng của mình.Triết lý đánh giá của ACT là  kết quả thi được xem như một chỉ số về năng lực học tâp và sẵn sàng cho việc học tập ở bậc đại học của HS trung học. Mỗi một cá thể bẩm sinh đều khác nhau về năng lực trí tuệ, và do đó các bài kiểm tra của ACT không nhằm đánh giá độ thông minh, hay năng lực trí tuệ của HS, mà chỉ tập trung vào việc đánh giá những gì HS học được từ trường học và muốn "biết" HS đã chuẩn bị đủ kiến thức cần thiết để vào học ở bậc đại học hay chưa qua việc nỗ lực học tập của mình.

Với kỳ thi SAT, đây là một loại standardized test (trắc nghiệm định chuẩn) mà hết các đại học đều đòi hỏi. Điểm thi SAT cho biết vị trí thứ hạng (percentile) của cá nhân học sinh so với Nhóm Mẫu (Norm Group) học sinh toàn quốc. Người ta có thể nhìn vào kết quả bài trắc nghiệm SAT để biết khả năng hay năng khiếu (aptitude) dự đoán của cá nhân đó khi vào học đại học như thế nào. Đây là tiêu chuẩn quan trọng được dùng để chọn học viên vào học bậc đại học tại Hoa Kỳ.[3]

Qua các phân tích trên, cho thấy việc tuyển sinh vào ĐH, CĐ cần lựa chọn người học có khả năng nhận thức, khả năng tư duy và vốn kỹ năng cần thiết, phù hợp với ngành học. Không thể thông qua đánh giá mức độ hoàn thành chương trình phổ thông theo một mục tiêu riêng để làm cơ sở cho việc chọn lựa người học ở Đại học.

Vậy (1) Có cần thiết là phải đo lường và đánh giá năng lực người học sau khi kết thúc một chương trình/ khóa học hay không?; (2) Nếu không đo lường đánh giá năng lực người học sau một khóa học/bậc học thì sẽ ra sao?; (3) Nếu đo lường đánh giá thì sẽ đo lường đánh giá như thế nào (đo đúng)?; (4) Có cần phải đo lường và đánh giá đúng năng lực người học trước khi tổ chức một chương trình/ khóa học/bậc học hay không?; (5) Nếu không thực hiện đo lường đánh giá đúng năng lực người học thì sẽ đào tạo như thế nào?; v.v... Sẽ có rất nhiều vấn đề nẩy sinh mà chúng ta cần suy ngẫm.

Vài nét về lịch sử hình thành và phát triển của khoa học đo lường trong giáo dục trên thế giới và ở Việt Nam





Khoa học đo lường trong giáo dục có thể xem như bắt đầu cách đây khoảng một thế kỷ (Thorndike,1904). Ở châu Âu và đặc biệt là ở Mỹ, lĩnh vực khoa học này phát triển mạnh vào thời kỳ trước và sau thế chiến thứ hai với vài dấu mốc quan trọng như: Trắc nghiệm trí tuệ Stanford - Binet xuất bản năm 1916, bộ trắc nghiệm thành quả học tập tổng hợp đầu tiên Stanford Achievement Test ra đời vào 1923. Cho đến 1953 việc chấm bài trắc nghiệm đã được thực hiện bằng máy của IBM, kế đến là việc thành lập National Council on Measurement in Education (NCME) vào thập niên 1950 và ra đời Educational Testing Services (ETS) năm 1947, sau đó là American Testing Service (ACT). [7] Từ đó đến nay khoa học về đo lường trong tâm lý và giáo dục vẫn tồn tại, phát triển như là tất yếu của sự phát triển giáo dục. Thực tế là khoa học đo lường trong giáo dục ngày càng đầy đủ hơn các cơ sở khoa học để điều chỉnh những gì còn thiếu sót và khuyết điểm.
Ở một khía cạnh khác, cùng với sự phát triển của công nghệ tính toán, các lý thuyết về đo lường trong giáo dục (cũng như trong tâm trắc học) cũng phát triển rất nhanh bao gồm Lý thuyết Trắc nghiệm cổ điển (Classical Test theory - CTT), Lý thuyết Ứng đáp Câu hỏi (Item Response Theory - IRT), trong đó có mô hình Rasch. Các lý thuyết này phát triển từ chính các nhu cầu của việc đo lường trong giáo dục[12]. Sự ra đời của các lý thuyết này đã đánh dấu những thành tựu quan trọng trong việc nâng cao độ chính xác của trắc nghiệm, là cơ sở quan trọng cho việc nghiên cứu các phản ứng của con người trong các khoa học hành vi. Vì vậy mà ở các nước phát triển, đặc biệt là Mỹ, các công ty trắc nghiệm ETS, ACT áp dụng IRT cho các kỳ thi quan trọng để có kết quả xét tuyển vào đại học (SAT, ACT), sau đại học (GRE, GMAT…), tuyển dụng giáo viên (NTE); Viện Ý kiến công chúng Mỹ Gallup thiết kế các bản hỏi dùng để thăm dò ý kiến công chúng; các doanh nghiệp thiết kế công cụ để thăm dò ý kiến khách hàng v.v... Ở Mỹ, trắc nghiệm thực sự trở thành một ngành công nghiệp lớn.[7]
Khoa học về đo lường và đánh giá trong giáo dục ở nước ta trước đây trong tình trạng khá lạc hậu và chậm phát triển. Trước năm 1975, ở Miền Nam chỉ có một vài cá nhân được đào tạo về khoa học này từ các nước phương Tây. Trong số đó, điển hình có giáo sư Dương Thiệu Tống (1925-2008) là người đã đưa lý thuyết testing ứng dụng vào ngành giáo dục Việt Nam nhưng không thành công. Sau đó ông chỉ áp dụng ngân hàng câu hỏi vào việc thi kiểm tra đánh giá và đặc biệt áp dụng vào việc thi tuyển sinh đại học. Trường Đại học áp dụng mô hình thi trắc nghiệm đầu tiên ở nước ta là trường Đại học Đà Lạt. Vào năm 1974, kỳ thi tú tài lần đầu tiên được tổ chức ở Miền Nam bằng phương pháp TNKQ. Vào những năm sau 1975, ở miền Bắc cũng có một số cán bộ nghiên cứu về khoa học đo lường trong tâm lý. Đến năm 1993, Bộ GD & ĐT đã mời một số chuyên gia nước ngoài để phổ biến về khoa học này, đồng thời cử cán bộ ra nước ngoài học tập. Từ đó một số trường đại học có tổ chức các nhóm nghiên cứu áp dụng các phương pháp đo lường trong giáo dục để thiết kế các công cụ đánh giá, soạn thảo các phần mềm hỗ trợ, mua máy quét quang học chuyên dụng (OMR) để chấm thi. Kỳ thi tuyển đại học thí điểm được tổ chức tại trường Đại học Đà Lạt vào tháng 7 năm 1996 bằng phương pháp TNKQ. Kỳ thi này có 7200 thí sinh dự tuyển, 2 loại đề TNKQ và TL được sử dụng để thí sinh tự chọn. Có khoảng 70% lượt thí sinh chọn đề TNKQ, bài thi được chấm bằng máy Opscan-7, trong khoảng 60 trường hợp vi phạm kỷ luật thi do quay cóp thì chỉ có 4 thí sinh từ nhóm làm đề TNKQ. [6]
Từ sau năm 1997 các hoạt động đổi mới phương pháp đo lường và đánh giá trong giáo dục ở các trường đại học lắng xuống. Cho đến mùa thi tuyển đại học năm 2002 Bộ Giáo dục và Đào tạo tổ chức kỳ thi tuyển đại học “3 chung”. Đến năm 2003, Bộ Giáo dục và Đào tạo đã thành lập “Cục Khảo thí và Kiểm định chất lượng” để cải tiến việc thi cử và đánh giá chất lượng các trường đại học, và đã dùng phương pháp trắc nghiệm khách quan để làm đề thi tuyển đại học cho môn Tiếng Anh vào mùa thi 2005-2006. Bắt đầu từ năm học 2006 – 2007, song song với việc đổi mới phương pháp giảng dạy và học tập, Bộ GD&ĐT đã có chủ trương đổi mới quá trình KTĐG KQHT của người học. Hiện nay, một vấn đề nhận được rất nhiều sự quan tâm của dư luận cũng như giới học thuật đó chính là vấn đề thay đổi như thế nào để có một kỳ thi quốc gia đảm bảo tính trung thực, ít tốn kém, giảm áp lực lên xã hội và hiệu quả nhưng vẫn đảm bảo đánh giá đúng năng lực người học.