학술논문

고등학교 내신 영어 시험의 평가 유용도 탐색 / Exploring the Test Usefulness of School-based English exams in Korean High Schools
Document Type
Dissertation/ Thesis
Source
Subject
평가유용도
내신 영어 시험
신뢰도
타당도
문항 분석
문항 정답률
문항 변별도
Language
Korean
Abstract
본 연구는 고등학교 내신 영어 시험의 평가 유용도에 대해서 분석하고자 하였다. 평가 유용도는 신뢰도, 구성타당도, 진정성, 상호작용성, 영향력, 실용성으로 구성이 된다. 신뢰도와 변별도는 동전의 양면과도 같으며 내신 영어 시험이 신뢰도를 가지기 위해서는 변별도가 있어야 한다. 정답률을 먼저 조사해야 변별도를 알 수 있기 때문에 먼저 정답률을 조사하였다. 정답률과 변별도를 구한 후에 정답률과 변별도와 코퍼스 이독성 지수 사이의 상관관계를 조사하고 회귀 분석을 통해서 정답률과 변별도에 영향을 미치는 이독성 요인에 대해서 조사하였다. 정답률과 변별도를 예측하는 이독성 요인을 조사하는 것을 통해서 내신 영어 시험의 정답률을 일관되게 유지할 수 있게 하는 방법에 대해서 알아보고자 하였다. 또한, 내신 영어 시험의 특징에 대해서 알아보기 위해 문항 정답률과 문항 변별도와 오답지의 매력도를 조사하였다. 또한, 내신 영어 시험의 진정성과 상호작용성을 조사하기 위해서 원어민 강사에 의한 진정성과 상호작용성에 대한 정성적인 분석과 정량적 분석을 실시하였다. 다음으로, 내신 영어 시험의 영향에 대해서 알아보기 위해서 내신 영어 시험을 치룬 학생들을 대상으로 내신 영어 시험에 대한 설문조사를 실시하였다. 연구를 위하여 인천시 소재 C고등학교 2학년 학생 241명을 대상으로 2023년 1학기에 실시된 내신 영어 시험을 분석하였다. 내신 영어 시험의 평가 유용도에 대한 연구 결과는 다음과 같다.첫째, 내신 영어 시험에서 정답률(Item Facility)과 변별도(Item Discrimination)간 상관관계의 통계적 유의미성에 대해 조사했을때 정답률이 높거나 낮지 않고 적정할 때 변별도가 가장 높게 나타나는 것으로 나타났다. 내신 영어 시험의 전체 정답률과 전체 변별도 사이에는 유의미한 상관관계가 나타나지 않았지만, 정답률이 평균 이상일때와 정답률이 평균 이하일때로 나누어서 정답률과 변별도 사이의 상관관계 분석을 실시했을 때에는 정답률과 변별도 사이에 유의미한 상관관계가 나타났다. 이를 통해서 변별도가 가장 높을 때는 문항 정답률이 높거나 낮을 때가 아니라 정답률이 적정할 때라는 것을 알 수 있었다.둘째, 학생들을 상위권, 중위권과 하위권으로 나누어서 정답률과 변별도 사이의 상관관계를 조사했을 때, 상위권 학생들에게서만 정답률과 변별도 사이에 유의미한 상관관계가 나타났고, 중위권과 하위권 학생들 사이에는 유의미한 상관관계가 나타나지 않았다. 산포도(Scatterplot)를 통해서 각 그룹을 비교했을 때, 상위권 학생들의 정답률은 높은 점수대에 분포했고, 중위권 학생들의 정답률은 넓게 퍼져서 분포했으며 하위권 학생들의 정답률은 낮은 점수대에 분포했다. 하위권 학생들의 경우에는 문제를 끝까지 읽지 않고 푸는 경우가 있기 때문에 정답률이 낮게 나타나고, 이로 인해서 변별도가 낮게 나타나서 정답률과 변별도 사이에 상관관계가 낮게 나타나는 것으로 보인다. 셋째, 내신 영어 시험의 선택지 분석을 통해서 상위권 학생들과 하위권 학생들의 내신 영어 시험 선택지의 특징에 대해서 조사하였다. 상위권 학생들의 내신 영어 시험 선택지 분석을 통해서 상위권 학생들이 선택하는 보기가 대부분 정답인 것을 알 수 있었다. 또한, 상위권 학생들의 100%가 정답을 선택한 경우가 많이 있었다. 그에 대한 이유로 내신 영어 시험의 정답 시비를 들 수 있을 것이다. 내신 영어 시험을 출제할 때에 정답 시비가 없게 하려고 하다 보니 오답지가 명확하게 되어서 상위권 학생들이 모두 정답을 선택하는 경우가 존재하게 된 것으로 보인다. 하지만, 영어 내신 시험이 상위권 학생들의 영어 실력 향상을 돕는 시험이 되기 위해서는 상위권 학생들에게도 매력적인 보기가 필요할 것이다. 반면에, 하위권 학생들은 오답을 선택하는 비율이 높았다. 내신 영어 시험에서 하위권 학생들이 자신의 실력으로 풀 수 있는 적정한 수준의 문항이 필요할 것으로 보인다. 적정한 정답률을 가진 문항을 출제하는 것을 통해서 학생들의 실력을 잘 변별하고 학생들에게 동기를 부여할 수 있어야 할 것이다. 다양한 수준의 문제가 필요할 것으로 보인다. 넷째, 내신 영어 시험의 기준이 되는 시험으로 수능 모의고사를 상정하고, 내신 영어 시험 등급과 수능 영어 모의고사 등급 사이의 상관관계 분석을 통해 내신 영어 시험과 수능 영어 모의고사 사이의 관계성에 대해서 알아보았다. 내신 영어 시험 등급과 수능 모의고사 등급 사이의 상관 관계 분석을 실시한 결과 내신 영어 시험과 수능 영어 모의고사 사이에 의미 있는 상관관계가 있는 것으로 나타났다. 내신 영어 시험 성적이 높을수록 수능 영어 모의고사 성적도 높은 것으로 나타났다.다섯째, 내신 영어 시험의 일관성 있는 난이도를 유지하기 위한 코퍼스 활용 방안으로써, 내신 영어 시험의 난이도와 코퍼스 이독성 지수 간의 관계성을 분석하고자 하였다. Flesch Reading Ease, Gunning Fog Readability, Flesch-Kincaid Grade, Lexile, TTR, AWL(Academic Words List), 내용어비율, 단어수, 평균문장 길이 중에서 정답률과 변별도를 예측하는 요인에는 어떤 것이 있는지를 조사하였다. 정답률을 예측하는 요인으로는 본문의 단어수와 평균 문장 길이가 있었다. 본문 단어수가 많아질수록 정답률도 높아지는 것으로 나타났다. 이 것은 내신 영어 시험에서 단어수가 많은 문항이 교과서에서 출제된 문항이었고, 상대적으로 단어수가 적은 문항은 모의고사에서 출제된 문항이기 때문으로 분석이 된다. 또한, 문장 길이가 길어질수록 정답률이 낮아지는 것으로 나타났다. 문장 길이가 길어질수록 문장 안에 복문이 많아지고 여러가지 문법과 다양한 표현이 나타나서 학생들이 문장을 이해하는 데에 어려움이 있었던 것으로 보인다. 다음으로, 변별도를 예측하는 요인에는 Gunning Fog 지수, 내용어 비율, AWL(Academic Words List)이 있었다. 내용어 비율과 AWL이 높아질수록 변별도가 낮아졌고, 이 것은 학생들이 내용어와 AWL(Academic Words List)을 많이 접할수록 본문을 이해하는 것을 어려워 했기 때문으로 보인다. 특히 하위권 학생들의 경우에는 문제를 읽지 않고 푸는 경우가 생겨서 정답률이 낮아졌고 이로 인해서 변별도도 낮아진 것으로 보인다. 여섯째, 위의 연구 과제의 결과를 토대로 내신 영어 시험의 평가 유용도에 대해 논의해보고자 하였다. 내신 영어 시험의 신뢰도를 알아보기 위해 크론바흐 알파값을 조사했을때 크론바흐 알파값이 0.93으로 나타났다. 다음으로, 구인 타당도에 대해 조사하기 위해서 2022년에서 2023년에 실시된 내신 영어 시험의 이독성 지수(TTR, 내용어비율, 단어수, 평균 문장길이)의 평균값을 비교했을 때 이독성 지수가 일관되게 유지되는 것으로 나타났다. 내신 영어 시험이 교육과정을 따르고 있기 때문에 이독성 지수와 정답률 면에서 비슷하게 유지가 되는 것으로 보인다. 평가 문항을 제작할 때에 이독성 지수 활용을 통해서 일관성 있는 정답률을 가지는 평가 문항을 출제하는 것이 필요할 것이다. 다음으로, 진정성과 상호작용성에 대한 조사를 위해서 원어민 강사에 의한 정량적 분석과 정성적 분석을 실시하였다. 원어민 강사에 의한 정량적 분석에서 내용어 비율이 높아질수록 진정성은 낮아졌고 단어수가 많아질수록 상호작용성은 낮아졌다. 또한, 원어민 강사에 의한 상호작용성 분석에서 단어수가 많아 질수록 상호작용성이 낮아지는 것으로 나타났다. 원어민 강사에 의한 내신 영어 시험 문항에 대한 정성적 분석 결과에 따르면, 문항 본문의 난이도는 그리 높지 않은 것으로 분석되었고 단어가 많은 질문을 사용하는 것으로 보인다고 분석이 되었다. 마지막으로, 설문지를 통해서 내신 영어 시험의 영향을 조사했을 때 학생들은 내신 영어 시험이 수능 영어 모의고사와 영어 수행평가보다 더 부담이 된다고 응답을 했다. 학생들이 부담을 가지고 있는 내신 영어 시험에 대한 꾸준한 연구가 필요할 것으로 보인다. 본 연구의 결과를 바탕으로 영어 교육에서 실천할 수 있는 방안을 제안하면 다음과 같다. 첫째로, 적절한 정답률을 가질 때에 높은 변별도가 나타난다는 연구 결과가 보여주는 것처럼 너무 어렵거나 너무 쉬운 평가보다는 적절한 정답률을 유지하는 평가가 필요할 것으로 보인다. 둘째, 내신 영어 시험 문항을 제작할 때에 이독성 지수를 활용하여 적절한 정답률을 유지하는 것도 필요할 것이다. 이독성 지수를 사용하는 것을 통해서 평가의 정답률을 적정하게 유지하고 이렇게 적정한 정답률을 유지하는 것을 통해서 높은 변별도와 신뢰도를 가지는 것이 필요할 것이다. 셋째로, 학생들의 고등 사고 능력을 평가할 수 있는 문항의 개발이 꾸준히 필요할 것이다. 상위권 학생들의 문항 정답률을 분석했을 때, 모든 상위권 학생들이 맞춘 문항이 많이 있었다. 상위권 학생들의 사고력을 향상시키고 상위권 학생들의 실력을 변별할 수 있는 매력적인 오답을 개발할 필요가 있다. 평가에는 역류효과(washback)가 있기 때문에, 좋은 평가는 학생들의 학습에 대한 동기를 부여하고 더 나은 성취를 위해 노력하게 할 수 있을 것이다. 본 연구는 특정 지역의 인문계 고등학교를 대상으로 하고 있다는 점에 제한점이 있다. 인문계 고등학교에는 다양한 재능과 실력을 가진 학생들이 있으며 내신 영어 시험의 특성은 지역과 학교마다 다르다. 이러한 제약 사항을 고려할 때 후속 연구는 다양한 학교의 내신 영어 시험을 분석해 본다면 더 나은 시사점을 제시할 수 있을 것으로 기대가 된다. 내신 영어 시험은 수능 영어와 마찬가지로 학생들의 영어 실력에 영향을 주는 평가이기 때문에, 학생들이 꾸준히 영어 학습에 관심을 가질 수 있도록 내신 영어 시험에 대한 지속적인 연구가 필요할 것이다.
This study sought to analyze the usefulness of school-based English exams. Test usefulness consists of reliability, construct validity, authenticity, interactivity, impact, and practicality. Reliability and discrimination are like two sides of the same coin, and for school-based English exams to be reliable, it must have discrimination. Because the degree of discrimination can only be determined by examining the percentage of correct answers first, the percentage of correct responses was investigated first. The correlation between the correct response rate and discrimination obtained in this way and the corpus readability index was investigated, and the readability factors that affect the correct answer rate and discrimination were investigated through regression analysis. The purpose of this study was to find out how to maintain a consistent rate of correct answers in school-based English exams by examining the readability factors that predict the percentage of correct answers and discrimination. In addition, in order to find out the characteristics of school-based English exams, the percentage of correct answers, item discrimination, and attractiveness of incorrect answer sheets were investigated. In addition, in order to analyze the authenticity and interactivity of school-based English exams, qualitative and quantitative analyzes were conducted by a native English instructor. Next, in order to find out the impact of school-based English exams, a survey was conducted on school-based English exams to students who took school-based English exams. For the study, the English test conducted in the first semester of 2023 for 241 second-year students at C High School in Incheon was analyzed. The results of the analysis of school-based English exams in the study are summarized as follows.First, this study wanted to find out the statistical significance of the correlation between the percentage of correct answers (Item Facility) and item discrimination (Item Discrimination) in the English test, and it was found that discrimination was highest when the percentage of correct answers was appropriate. Although there was no significant correlation between the overall percentage correct and the overall discrimination of school-based English exams, a significant correlation was found between the percentage correct and the discrimination when a correlation analysis was conducted dividing the tests into cases where the percentage correct was above average and when the percentage correct was below average. Through this, it was discovered the highest discrimination was not when the percentage of correct answers to questions was low or high, but when the percentage of correct answers was appropriate.Second, students were divided into upper, middle, and lower classes and the correlation between the percentage of correct answers and the degree of discrimination was investigated. When examining the correlation between the percentage of correct answers and the degree of discrimination, a significant correlation between the rate of correct answers and the degree of discrimination was found only among the higher-scoring students, but no significant correlation was found between the average-scoring and lower-scoring students. Additionally, when comparing each group through a scatterplot, the percent correct of the top students was distributed in the high score range, the percent correct of the students in the middle was distributed widely, and the percent correct of the students in the bottom was distributed in the low score range. In the case of low-scoring students, the percentage of correct answers was low because they sometimes solved the problem without reading it to the end, and the analysis showed that this lowered the level of discrimination.Third, this study investigated the characteristics of the distribution of options for top and bottom-ranked students through analysis of the options in school-based English exams. Through analysis of the top-ranking students' choices, it was found that most of the options chosen by the top-ranking students were correct. Additionally, there were many cases where 100% of the top students chose the correct answer. The reason for this may be the controversy over the correct answers to the English. It seems that as they tried to avoid disputes over the correct answer when presenting their English test, the incorrect answers became clear, and there was a question for which all top students chose the correct answer. However, in order for the English test to be a test that helps top students improve their skills, it will need to be attractive to top students as well. On the other hand, students in the bottom tier had a very high rate of choosing incorrect answers. It appears that even students in the bottom half of their English test will need questions of an appropriate level that they can solve using their own skills. It should be possible to properly differentiate students' abilities and motivate them by presenting questions at an appropriate level.Fourth, the CSAT practice test was assumed to be the standard test for school-based English exams, and a correlation analysis was conducted between school-based English exams grade and the CSAT English practice test grade. As a result of conducting a correlation analysis between school-based English exams and the CSAT practice test grade, it was found that there was a meaningful correlation between school-based English exams and the CSAT English practice test grade. The higher the score on the English test, the higher the score on the CSAT English practice test.Fifth, as a way to utilize the corpus to maintain a consistent level of difficulty in the English test, this study attempted to analyze the relationship between the difficulty level of the English test and the corpus readability index. Factors predicting percent correct and discrimination were investigated among Flesch Reading Ease, Gunning Fog Readability, Flesch-Kincaid Grade, Lexile, TTR, AWL (Academic Words List), content word ratio, number of words, and average sentence length. Factors predicting the percentage of correct answers included the number of words in the text and the average sentence length. It was found that as the number of words in the text increases, the percentage of correct answers also increases. This is because the questions with a large number of words in the English test were questions from textbooks, and the questions with a relatively short word count were questions from a CSAT practice exam. It was found that the longer the sentence length, the lower the percentage of correct answers. It was found that students had difficulty understanding the sentences because as the sentence length became longer, the sentences became more complex and various grammar and expressions appeared within the sentences. Additionally, factors predicting discrimination included Gunning Fog index, content word ratio, and AWL (Academic Words List). As the content word ratio and AWL increased, the discrimination decreased. The more students were exposed to content words and AWL (Academic Words List), the more difficult it was for them to understand the text. In particular, students in the lower grades sometimes solved problems without reading them, which lowered their correct answer rate and thus lowered their level of discrimination.Sixth, based on the results of the above research tasks, this study attempted to discuss the usefulness of school-based English exams. When this study investigated the Cronbach's alpha value to determine the reliability of the English test, the Cronbach's alpha value was found to be 0.93 and the test had a reliability. To investigate construct validity, the average values of the readability index (TTR, content word ratio, number of words, and average sentence length) of the English test conducted in 2022 and 2023 were compared. Because school-based English exams followed the curriculum, it was found to be maintained similarly in terms of readability index and percentage of correct answers. When creating evaluation questions, it is necessary to use the readability index to create consistent evaluation questions. Next, quantitative and qualitative analyzes were conducted by native English teachers to study authenticity and interactivity. In quantitative analysis, as the content word ratio increased, authenticity decreased, and as the number of words increased, interactivity decreased. Additionally, in the analysis of interactivity by native English instructor, it was found that as the number of words increases, interactivity decreases. As a result of qualitative analysis of the evaluation questions by native English instructor, it was concluded that the level of difficulty was not very high and that questions with too many words appeared to be used. Lastly, when analyzing the impact of the English evaluation through the student questionnaire, students responded that the English evaluation was more burdensome than the CSAT English practice test and English performance evaluation. In this way, it seems necessary to conduct continuous research on the usefulness of school-based English exams.Based on the results of this study, this study suggests measures that can be implemented in English education as follows. First, as discovered that high discrimination occurs when the correct rate is appropriate, there is a need to develop an assessment that maintains an appropriate rate of correct responses rather than questions that are too difficult or too easy. Second, when creating English test questions, efforts will be needed to maintain an appropriate percentage of correct answers by using the readability index. It will be necessary to maintain an appropriate rate of correct responses in the evaluation through the use of a readability index and to have a high degree of discrimination through maintaining this appropriate rate of correct responses. Third, it is necessary to develop questions that can evaluate students' higher-order thinking abilities. When analyzing the percent correct, there were questions that all top students answered correctly. There is a need to improve the thinking skills of top students and develop attractive incorrect answers that can differentiate the skills of top students. Because assessments have a washback effect, good assessments will motivate students and help them achieve better.This study has a limitation in that it targets humanities high schools in a specific region. Since students with diverse talents and abilities are distributed in humanities high schools, differentiation can naturally occur. Considering these limitations, it is expected that follow-up research will be able to provide better implications by analyzing evaluations of various schools. Because the academic performance assessment, like the CSAT, is an assessment that affects students' English proficiency, continuous research will be needed to ensure that students continue to be interested in learning English.