• 3.1. Исторические аспекты развития тестового контроля
  • 3.2. Понятийно–классификационная база современного тестирования
  • 3.3. Основы конструирования тестов как контрольных измерительных материалов
  • 3.4. Этапы и алгоритмы создания контрольных измерительных материалов
  • 3.5. Методы шкалирования результатов тестирования
  • 3.6. Обоснование структуры контрольных измерительных материалов и подходов к шкалированию результатов
  • Вопросы и задания
  • Глава 3

    ПЕДАГОГИЧЕСКИЕ ИЗМЕРЕНИЯ В ОБРАЗОВАНИИ

    Каждый стоит столько, сколько стоит то, о чем он хлопочет.

    (Марк Аврелий )

    3.1. Исторические аспекты развития тестового контроля

    Важнейшей задачей образования в настоящее время становится выработка надежного, управляемого, объективного инструментария оценки качества образования, его соответствие меняющимся концепциям обучения и контроля, практическим подходам, образовательным потребностям личности. Закономерность изменений, исходящих из социально–экономических перспектив XXI в., определила необходимость инструментального измерения качества образования с целью его повышения.

    Среди факторов, формирующих нынешнюю ситуацию в сфере научно–методического обеспечения контрольно–оценочных систем, можно выделить наиболее важные:

    • изменение содержания образования;

    • информатизация всех его уровней и повышение роли творческих аспектов подготовки обучающихся на всех образовательных этапах;

    • обеспечение вариативности учебных программ, совершенствование структуры государственных образовательных стандартов;

    • введение единого государственного экзамена (ЕГЭ) как независимой формы аттестации выпускников и эффективной системы отбора абитуриентов;

    • интеграция страны в мировое образовательное пространство;

    • другие направления, актуализирующие проблему контроля результатов учебного труда по множеству дисциплин на разных этапах обучения.

    Как известно, традиционная система контроля и оценки качества учебных достижений обучаемых обладает многими существенными недостатками, не совместимыми с современными направлениями модернизации образования и управления его качеством. К их числу в первую очередь относятся проявление субъективизма оценок педагогов; отсутствие средств объективного контроля, адекватных современному уровню требований и компетентностному подходу в обучении; отсутствие стандартизированных измерителей, единых шкал и критериев оценивания; недостаточное методическое обеспечение самоконтроля, самокоррекции и самооценки результатов учебной деятельности; отсутствие современных методов практической реализации идей личностно ориентированного и развивающего обучения и др.

    В последнее время наряду с традиционной системой контроля и оценки качества обучения учащихся и студентов, в России складывается и внедряется в практику образования новая система педагогического измерения – тестирование, начинают широко использоваться тесты на основе математических логистических моделей Г. Раша (G. Rasch) [247, 248], А. Бирнбаума (A. Birn–baum) [231] и др. Конструируемые на основе этих моделей тесты являются педагогическими измерителями, а целью измерения является получение численных (количественных) эквивалентов, отождествляемых с оценками измеряемой переменной – уровнем учебных достижений, который в какой–то степени отображает латентный параметр обучающегося – подготовленность. Без сомнения, отдельные элементы педагогических измерений всегда присутствуют при оценке знаний учащихся, однако при традиционном оценочном процессе они нацелены исключительно на получение качественных эквивалентов оцениваемых свойств учащихся в тех случаях, когда не используются тесты. В современной педагогической науке измерения принято связывать исключительно с использованием тестов.

    Влияние субъективного фактора существенно снижается при тестовом контроле знаний учащихся. Поиск ответа на вопрос «Как измерить и как оценить результат?» привел ученых и практиков к попытке «технологизировать» процесс оценки подготовленности обучающихся. Существенные изменения претерпевает концепция оценки, поскольку только количественный подход не предоставляет точной характеристики уровня получаемого образования, а только качественный затруднен из–за неотработанности субъективных критериев. Комбинирование различных подходов, использование разнообразных процедур, в том числе и педагогического тестирования, могут выявить объективную информацию о качестве подготовленности обучаемых и качестве образовательных услуг.

    Тестология как наука об измерении характеристик человека все чаще применяется в педагогике, психологии и социологии, в зависимости от того, что является объектом измерения и изучения. В сравнении с другими направлениями педагогики она является достаточно новой и представляет собой прикладное направление по вопросами разработки тестов учебных достижений, организации процесса и технологии тестирования, обработки и шкалирования результатов.

    Первые тесты появились несколько тысячелетий назад в Древнем Китае [239]. Чтобы выбрать для службы при дворе наиболее достойных из множества желающих, 3 тыс. лет до н.э. была создана одна из первых систем объективного отбора. Во Вьетнаме в те времена подобная система использовалась при отборе офицеров для создания армии. Можно найти еще много других примеров использования тех или иных систем отбора, явившихся прообразами современного тестового контроля.

    Донаучный период развития тестологии длился до начала XX в., когда она как теория оценивания знаний при помощи тестов оформилась на стыке психологии, социологии, педагогики и других, так называемых поведенческих, наук. В 1920–е годы впервые появились стандартизированные тесты школьных достижений, в основу создания которых легли принципы разработки психологических тестов [251]. Классический период развития теории тестирования продолжался с 1930–х до конца 1970–х годов и явился особенно продуктивным в странах Запада, где появились так называемые батареи тестов достижений, реализующие идеи многомерных измерений, обеспечивающие сопоставимость результатов [9].

    В СССР к началу 1930–х годов успела сложиться своя педагогическая система, целью которой было воспитание молодежи в духе преданности определенной идеологии, в результате чего получила развитие традиционная практика обучения, которая исключала развитие объективного контроля знаний. Поэтому появившиеся тесты были запрещены как «буржуазные и вредные» постановлением ЦК ВКП(б) в 1936 г. Истинная причина была обусловлена усилением в стране субъективизма, централизма и эгалитаризма. Субъективизм препятствовал развитию объективных методов контроля качества знаний, а эгалитаризм проявлялся в виде суждений о равенстве способностей, одинаковой обучаемости, возможности каждого человека овладеть любой профессией. Ситуация запрета на тесты не позволяла долгие годы публиковать что–либо по этому направлению. В силу этого и ряда других причин в педагогике тест долгое время не считался методом педагогического исследования, а поэтому педология и тестология не могли развиваться ни как самостоятельные науки, ни как прикладные направления. Это явилось следствием того, что теория и технология разработки и использования тестовых материалов и методик проведения тестирования в нашей стране не получили должного развития. В результате в отечественном образовании сложилась такая ситуация, когда отстающее от требований времени и нужд практики научное обеспечение тестового контроля знаний стало одной из причин низкого качества тестов, тестовые материалы не могли обеспечить требуемого уровня оценки и контроля знаний. Низкое качество тестов стало предметом их критики со стороны многих педагогов того времени [1].

    Среди составляющих теоретического фундамента современного тестирования видное место принадлежит теории педагогических измерений, попытки развития которой предпринимались в нашей стране начиная с 20–х годов XX в. В числе авторов первых отечественных тестологических изданий можно выделить П.П. Блонского, М.С. Бернштейна, Е.В. Залкинд, М.И. Зарецко–го, А.А. Смирнова, А.А. Толчинского, Н.К. Удовиченко и других. В создание теоретического фундамента тестирования немаловажный вклад в 40–е годы XX в. внес Л.С. Выготский, сформулировав свою концепцию о зонах развития ребенка [39]. Говоря о теоретико–методологических основах тестирования, нельзя не выделить работы 1960—1980–х годов по общей педагогике, нацеленные на проблемы развивающего обучения [21, 92, 110, 143, 145] и индивидуализацию контрольно–корректировочных воздействий на учащихся в процессе проверки усвоения нового материала [205, 222], а также психолого–педагогические исследования проблем контроля и диагностики [127,154, 226].

    В разные периоды развития педагогической науки педагоги–практики и ученые–исследователи пытались соотнести виды учебной деятельности и наборы заданий определенной трудности с уровнями развития обучающихся. Процесс развития рассматривался как постоянное преодоление обучающимся грани между доступной областью знаний (уровнем актуального развития) и потенциально доступной (зоной ближайшего развития), создавая условия для формирования логического мышления обучаемых [41, 105, 218]. Задача педагогов состояла в том, чтобы подобрать для контроля трудные, но посильные задания, способствующие выявлению уровня актуального развития [21]. Как отмечает Г.К. Се–левко, определение внешних границ зоны ближайшего развития, умение отличить ее от актуальной и недоступной зоны – задача, которая чаще всего решается только на интуитивном уровне, зависящем от опыта и мастерства учителя [163]. В системе развивающего обучения Л.В. Занкова, появившейся в 1950–е годы, ведущим принципом было обучение на высоком уровне трудности. При этом само понятие «трудность», как правило, определяется интуитивно каждым преподавателем по отношению к каждому учащемуся. В результате большого числа теоретических и экспериментальных работ в этом направлении были заложены основы теории и практики контроля знаний, умений и навыков, одним из направлений которых стала классическая теория тестов, согласно которой задания подбирались на основе экспертных оценок их трудности.

    В 1950–е годы в США начинает активно формироваться направление психологического и педагогического тестирования, появляется ряд тестов для определения интеллекта: IQ, Вексле–ра, Амтхауэра, Бендера, Айзенка и др. Разрабатываются концепция и методология тестирования в образовании. Объективность результатов тестирования связывается с ошибкой измерений, обусловленной как условиями проведения тестирования, так и статистическими характеристиками самого теста. Начинают использоваться методы математической статистики для обработки результатов, которые привели к созданию математических моделей не только для обработки данных, но и для создания тестов как педагогических измерителей. Для педагогов оказалось непривычной идея оценки испытуемых разными наборами заданий, соответствующих разной подготовленности обучающихся. Вместе с тем попытки индивидуализации обучения и контроля приводят к повышению эффективности тестирования, появлению новых его форм, таких, как стандартизированное и адаптивное тестирование. При этом каждый из видов тестирования имеет определенные преимущества: стандартизированное тестирование обеспечивает сопоставимость результатов по различным выборкам испытуемых, адаптивное обеспечивает индивидуализацию контроля и более точное определение подготовленности каждого испытуемого, соответственно, позволяет индивидуализировать процессы обучения и развития.

    В конце 1970–х годов классическая теория тестов уступила свои позиции современной Item Response Theory (IRT), не имеющей пока адекватного русского перевода, иногда трактуемой как методология конструирования и параметризации тестов [240, 242, 244, 252]. Этот период характеризуется интенсивным внедрением компьютерной техники и информационных технологий в образовательный процесс, созданием большого числа программно–инструментальных средств. Преимущества IRT связаны в первую очередь с инвариантностью уровней учебных достижений тестируемых и уровней трудности тестовых заданий, что позволило увеличить объективность педагогических измерений за счет совершенствования процесса конструирования педагогических тестов [76]. Огромные возможности компьютеров, обеспечившие качественную калибровку тестовых заданий, хранение их в виде банков, высокий уровень автоматизации предъявления заданий в процессе обучения и контроля, оперативное реагирование на ответы испытуемого, компьютерное моделирование тестов сыграли решающую роль во внедрении основных теоретических положений современного тестирования в массовый образовательный процесс.

    В развитие научных и практических работ этого периода большой вклад сделал P.M. Lord в рамках программы Educational Testing Service, проведя исследовательскую работу по тестированию на основе научного аппарата IRT. Впоследствии результаты этой работы он изложил в своих монографиях, сыгравших огромную роль в развитии научных методов современного тестирования и новых технологий создания и применения так называемых адаптивных тестов [234]. В значительной мере развитию теории и технологии современного тестирования способствовали прикладные и теоретические исследования таких ученых, как C. V. Bunderson, D.K. Inouye, J.B. Olsen, G.G. Kingsbury, H. Wainer, D. J. Weiss. Ряд работ этих авторов был поддержан не только педагогической общественностью многих западных стран, но и армейской службой США. Как правило, главный акцент в этих работах делался на психологический отбор кадров для военных ведомств и на технологические вопросы. Интенсивное техническое перевооружение промышленности и военных структур в условиях научно–технической революции актуализировало проблемы профессионального отбора кадров и определения профессиональной пригодности специалистов. Возникла острая потребность в соотнесении чрезвычайно широкого спектра знаний, умений, навыков и способностей человека с требованиями современных профессий.

    Опыт западных стран показывает, что они опережают нас по масштабам применения тестов, числу публикаций, подготовке научных кадров, уровню и качеству теории тестовых методов контроля, оснащенности служб тестирования программно–вычислительной техникой и современными коммуникационными связями, используемыми при массовых тестированиях. Практически во многих странах уже создана индустрия тестирования, обладающая своей инфраструктурой: научные лаборатории, многочисленные центры тестирования, информационные средства коммуникации, службы разработки программных продуктов, типографии. Анализ существующих зарубежных моделей и систем тестирования показывает, что они существенно отличаются друг от друга [101—103, 198].

    К странам, широко использующим последние достижения в области педагогических измерений, относятся Нидерланды, США, Англия, Япония, Дания, Израиль, Канада, Австралия, Новая Зеландия. Они развили классическую теорию тестов, затем внедрили IRT и основанную на ней практику тестирования миллионов школьников, привели к созданию компаний и служб, являющихся основой индустрии разработки тестов, организации массового тестирования, регулярного сбора информации для мониторинга качества образования.

    АСТ (American a llege Testing Program) – корпорация, созданная в 1959 г. при университете Айовы для тестирования абитуриентов, обслуживает по всему миру свыше 100 различных тестовых программ, является независимой общенациональной экспертизой, включающей тесты по английскому языку, математике, чтению и научному мышлению. Результаты ACT учитывают практически все американские колледжи и университеты. Тест содержит 215 вопросов с альтернативными вариантами ответов и рассчитан на три часа. Тестирование проходит пять раз в году: в октябре, декабре, феврале, апреле и июне.

    ETS (Educational Testing Service – Служба тестирования в образовании) – частная некоммерческая организация, созданная в США в 1947 г., разрабатывает, готовит и ежегодно централизованно проводит по несколько миллионов тестов в 180 странах мира. До 10% тестов предлагается в компьютерном варианте. Наиболее известны ее тесты определения общих вербальных и математических способностей выпускников школ – SAT (Scholastic Aptitude Test). Цель трехчасового теста SAT I – оценить вербальные и математические способности, которыми должны обладать будущие студенты для успешного обучения. Все вопросы SAT I имеют альтернативные варианты ответов, за исключением 10 вопросов по математике с открытым ответом. SAT I оценивается по шкале 200—800. Этот тест обычно сдают учащиеся средней школы по несколько раз в год.

    SAT II: предметные тесты, рассчитанные на один час, с вариантами ответов. Предметные тесты измеряют знания и навыки по конкретному предмету (всемирная история, биология, химия или физика) и способности применять эти знания. Большинство колледжей требуют или рекомендуют сдачу одного или больше предметных тестов для поступления.

    Тесты для имеющих диплом:

    • LSAT (Law School Admission Test) – юридических вузов;

    • MCAT (Medical College Admission Test) – медицинских вузов;

    • GRE (Graduate Record Examination) – гуманитарных и технических вузов.

    Основной тест для аспирантов всех специальностей в гуманитарных и технических науках, а также математике (кроме медицины, бизнеса и права) – General Test – GRE (Graduate Record Examinations); тест для оценки поступающих в аспирантуру на специальности, связанные с бизнесом, – GMAT (Graduate Management Admission Test); тест по английскому языку как иностранному для поступления в колледжи и университеты США и Канады – TOEFL (Test of English as a Foreign Language); c ертафиIщрованньгй тест оценки профессиональной пригодности преподавателей и учителей – PRAXIS I: Academic Skills Assessments, используемый в 35 американских штатах.

    Тестирование проводят:

    • Sylvan Prometric – крупнейшая сеть, состоящая из 2500 центров компьютерного тестирования в 150 странах мира, специализируется на сертификации информационных технологий и выдаче профессиональных лицензий в области здравоохранения, финансов, страхования, управления недвижимостью. В компьютерных центрах Sylvan Prometric проводятся миллионы тестов на 25 языках, включая русский.

    • Question Mark Computing Ltd. – основана в 1998 г. в Лондоне для компьютерного тестирования в пяти вариантах: DOS, Windows, Macintosh, Web и Perception. Система используется коммерческими организациями и учебными заведениями в 50 странах мира.

    • LXR (Logic Xtension Resources) – калифорнийская фирма, создана в 1981 г. для ведения банка тестовых заданий, автоматизированной компоновки тестов, бланочного и компьютерного тестирования, обработки бланков ответов, подсчета баллов и анализа результатов тестирования. Число ее пунктов превысило 25 тысяч по всему миру.

    • Virtual Learning Technologies – американская компания в Бирмингеме для тестирования по Internet с мультимедийными элементами заданий, адаптивным алгоритмом и немедленным получением результата.

    Большинство исследований в западных странах, как правило, носят прикладной характер. Они обеспечивают добротный практический измерительный материал. Вместе с тем использование тестовых материалов и технологий в педагогической практике для личностного развития обучающихся там освещается крайне слабо. Во многом остается вне внимания теоретиков и методологов психолого–педагогическое обоснование теории и практики не только тестирования для оценки подготовленности обучающихся, но и использования тестов в учебном процессе для самоконтроля и саморазвития, усиления мотивационно–побудительных компонентов обучения.

    В нашей стране в таких исследованиях преобладает теоретико–методологический подход, но значительно слабее развита научная и практическая база тестирования. Отмечая теоретико–методологические достижения отечественных ученых, следует выделить работы по общей педагогике, нацеленные на проблемы личностно ориентированного образования [7, 115, 116, 167] и на индивидуализацию контрольно–корректировочных воздействий в процессе обучения [179]. Однако теория и практика тестового контроля интенсивно стали развиваться только с конца 1990–х годов. Именно поэтому в отечественной образовательной практике пока еще мало качественной тестовой продукции, а в учебном процессе она только начинает применяться. В России совсем недавно появились специфические обстоятельства, обусловливающие особую значимость и актуальность развития тестового контроля и общенациональной системы тестирования. Экономический кризис 90–х годов, болезненная ломка общественного строя и официальной идеологии, кризис государственного управления всеми отраслями общественного производства, катастрофический недостаток бюджетного финансирования образования привели к росту различных злоупотреблений в системе оценки знаний, и прежде всего в организации вступительных экзаменов в вузы. На этом фоне система тестирования оказалась особенно востребованной и призванной выполнить значимую социально–политическую функцию: восстановление социальной справедливости в области образования путем обеспечения независимой и объективной оценки реального уровня учебных достижений обучающихся и доступности профессионального образования [148, 149, 150, 151]. А.И. Севрук [161] тестирование называет каналом наблюдения за качеством образования выпускников основной и средней школы; линейкой, измеряющей уровень образования; как средство, показывающее объективную картину качества образования, определяет его В.А. Хлебников [189]; Н.А. Кулемин [113] считает, что тестовые технологии могут составить основу современного мониторинга качества образования в образовательных учреждениях любого типа.

    Однако пока еще научный уровень тестирования в нашей стране (разработка тестов, проведение тестирования, обработка, представление, педагогический анализ результатов и их интерпретация) не соответствует международным стандартам в этой области. В библиотеках образовательных учреждений нет достаточного количества литературы, отражающей современное состояние мировой теории и практики педагогических измерений. До настоящего времени в педагогических вузах страны не ведется систематическая работа по подготовке и переподготовке кадров, способных квалифицированно разрабатывать и использовать современные педагогические тесты, до сих пор не включены в образовательные программы специальные курсы по педагогическим измерениям. Как считает В.С. Аванесов, «…мы сейчас проходим нецивилизованный период применения тестов» [1]. А.Г. Шмелев указывает, что, несмотря на значительно увеличившийся интерес к тестам, пока «самодеятельность и анархия в этой сфере превосходят профессионализм и организованность» [213].

    Кажущаяся простота создания тестов и возросший спрос на них породили множество некачественных материалов, только называемых тестами, но не являющихся ими по существу. Такая ситуация входит в противоречие с мировой тенденцией повышения эффективности образования на основе применения качественных тестов и превращения самой образовательной деятельности в ведущую отрасль общественного производства, а создания тестов – в индустрию контроля, подготовки и использования высококачественных измерителей уровня учебных достижений обучающихся.

    Вместе с тем нельзя не отметить, что в последнее время и в отечественной тестологии осуществляются кардинальные преобразования, выводящие эту отрасль квалиметрии на передовые рубежи развития теории и практики образования. Сейчас в нашей стране предпринимаются значительные усилия по изменению ситуации в сфере разработки и применения педагогических тестов. В этом направлении уже работают многочисленные научные организации, наиболее компетентные в вопросах теории и методики разработки тестов.

    Среди них можно отметить:

    • Федеральный центр тестирования (ФЦТ);

    • Центр оценки качества образования (ЦОКО) Института общего среднего образования (ИОСО) РАО;

    • Исследовательский центр проблем качества подготовки специалистов Московского государственного института стали и сплавов (ИЦПКПС МГИСС);

    • Федеральный институт педагогических измерений (ФИПИ);

    • Центр психологического и профессионального тестирования МГУ;

    • лабораторию аттестационных технологий Московского института повышения квалификации работников образования (МИПКРО);

    • лабораторию изучения образовательных систем Центра развития образования в Санкт–Петербурге.

    Разрабатываются методологические и теоретические основы тестологии (В.С. Аванесов, А.В. Абрамова, М.С. Бернштейн, С.Г. Геллерштейн, М.И. Победов и др.); исследуется ее место в системе педагогической науки (Б.П. Битинас, Л.И. Катаева, И.И. Тихонов, И.П. Подласый и др.); создается типология тестовых заданий (В.С. Аванесов, В.П. Беспалько, Э.А. Вербас, Н.В. Володин, Д.С. Горбатов, Н. Грондлунд, Г.С. Костюк, И.П. Подласый, Б.У. Родионов, Н.М. Розенберг, А.О. Татур, М.Б. Челышкова и др.); анализируется зарубежный опыт тестирования (М.С. Бернштейн, Дж. Гласс, К. Ингекамп, Г.С. Ковалева, Дж. Стэнли, Э. Стоунс и др.); учитываются особенности психологического тестирования (А. Анастази, Л.Ф. Бурлачук, В.К. Гайда, В.П. Захаров, П. Клайн, С.Н. Морозов и др.).

    Многие исследователи отмечают высокую динамику развития тестирования на уровне региональных школьных и вузовских образовательных систем. На сегодняшний день можно утверждать, что отечественными учеными и практиками подготовлен серьезный теоретический и практический фундамент в виде отдельных базовых составляющих для развертывания работ по обсуждаемой проблематике. Современный период оценки знаний характеризуется интенсивным развитием теории и практики педагогических измерений, широким использованием математических моделей, компьютеров, информационных систем, программно–инструментальных и программно–педагогических средств автоматизированного обучения, контроля и самоконтроля.

    Современная тестология ставит широкий спектр теоретических проблем, предлагает практикам многочисленные математические подходы, модели и методы, экспериментальную апробацию тестовых материалов, методы проведения массовых контрольно–оценочных процедур, знакомит общественность с базами широкомасштабных тестологических разработок и результатами объективного оценивания в образовании, такими, как единый государственный экзамен.

    В последнее время ставится задача определения не только знаний, умений и навыков, но также компетенций и компетент–ностей.

    При компетентностном подходе в контрольно–оценочной сфере измерители приобретают специфические характеристики, поскольку кроме знаниевого компонента проверяется набор ключевых образовательных компетенций, нацеленных на проявление обучаемым деятельностных компонентов. Центральное место здесь отводится компетенциям, ориентированным на умения использовать и применять знания из разных дисциплин при решении междисциплинарных практических задач. Поэтому в тесты для проверки ключевых образовательных компетенций включаются задания, требующие от учащихся применения полученных знаний в реальной жизненной ситуации или имитирующей реальную.

    Еще одна инновационная тенденция в образовании, влияющая на введение новых видов измерителей, связана с индивидуализацией. Вместо жесткого, обязательного для всех восхождения по образовательным ступеням появляется пространство с индивидуальными образовательными программами (траекториями). Свобода и открытость такого образования выражаются и в том, что образовательную программу можно проходить в индивидуальном темпе. Соответственно, смена парадигмы образования сопровождается потребностью в новых контрольно–оценочных средствах.

    Однако отношение к тестам в отечественной научной и педагогической среде неоднозначное – от полного их признания до категорического отрицания. В настоящее время идет активное обсуждение проблем, связанных с использованием тестирования и введением ЕГЭ, не только внутри системы образования, но и в обществе в целом. При этом каждый из сторонников и оппонентов приводит свою аргументацию. Сторонники отмечают объективность, эффективность и стандартизированность контрольно–оценочных процедур [126, 132—134]. В то же время противники утверждают, что невозможны какие–либо измерения, связанные с личностью и тем более творческими способностями [153]. Как правило, противники тестов ссылаются на то, что при традиционных методах устного опроса якобы удается более точно выявить творческие возможности аттестуемых. Может быть, в этом есть и доля истины, если рассматривать традиционный экзамен (особенно вступительный) идеализированно: ответственный, опытный и добросовестный экзаменатор; не более 15 абитуриентов на одного экзаменатора; отсутствие раздражающих факторов.

    Однако что чаще всего бывает в реальности? Как правило, более 30 абитуриентов на одного преподавателя за экзамен. Кто оценил, как сказывается элементарная усталость на квалиметриче–ских свойствах педагога? Как теряют или приобретают баллы испытуемые в зависимости от квалификации и внутреннего состояния разных экзаменаторов? Как сказывается на оценке психологическое взаимодействие испытуемого и экзаменующего? Как сопоставить ответы разных испытуемых на разные по уровню трудности задания произвольно составленных экзаменационных работ? Как учесть разный уровень тревожности абитуриентов перед лицом экзаменатора и многое другое в условиях их непосредственного общения?

    Не отрицая безусловные достоинста тестов, отметим ряд недостатков, которые объективно имеет педагогическое тестирование, как и всякое средство контроля.

    Во–первых, производство качественного тестового продукта является достаточно трудоемким процессом, а пренебрежение правилами составления и апробации тестов может привести к нарушению надежности и валидности тестовых измерений. Для составления качественных тестов нужен не только большой педагогический опыт, но и достаточно солидная подготовка в области тестологии, а также определенный педагогический талант разработчика. Вместе с тем даже опытные разработчики не избавлены от возможности совершения ошибок, анализ которых показывает, что большинство из них допускаются при составлении заданий. Как правило, преобладают логические ошибки: нарушение правил подбора ответа по одному основанию; введение избыточной информации; повторы в ответах; предъявление заданий в форме отрицания; разные основания в подборе дистрак–торов (правдоподобных ответов); намек в условии заданий на правильный ответ; замена научного понятия синонимом повседневного обихода; использование двух и более условий; многословие в тексте заданий и многое другое [1].

    Во–вторых, часто встречается внутренняя противоречивость тестов. Существует мнение, что задания с выбором одного правильного ответа из числа предложенных (альтернативные тестовые задания) обеспечивают проверку только знаний низшего уровня. Считается, что тестовая методика не предоставляет возможности проверить понимание учащимися того или иного процесса, закономерности или явления, что тесты могут проверить лишь формализированные знания. На самом деле, как показывает опыт тестирования, многое зависит от качества и содержания тестов [195].

    В–третьих, имеется объективно обусловленная содержательная ограниченность теста, как и любого другого контрольно–измерительного инструмента. Тест – это всегда ограниченная выборка заданий на генеральной совокупности содержательных единиц, требующих проверки знаний и умений. Часто высказывается мнение о том, что увлечение тестированием может провоцировать усиление тенденции подхода к обучению по принципу натаскивания на тесты, вызывающему нарушения в информационных потоках, вольное обращение с учебным материалом, подчинение его нуждам тестирования, замену части базового материала другой информацией. Разработка и введение образовательных стандартов, минимумов, ожидающееся введение полноценных постоянно действующих образовательных стандартов могут существенно изменить эту тенденцию.

    В–четвертых, всегда существует возможность фальсификации результатов тестирования. Однако, как показывают опыт и статистика результатов массового тестирования, при тестовом контроле доля разного рода несанкционированных нарушений значительно ниже, чем при других способах оценки знаний.

    И наконец, в–пятых, можно назвать чисто субъективные недостатки: стереотип мнения большей части учителей и преподавателей о беспроблемности и обманчивой простоте процесса оценивания знаний, умений и навыков; неверие педагогов в возможности тестировани и его объективность; нежелание использовать новые технологии при ориентации на традиционные способы контроля; боязнь новых проблем, которые возникают с введением тестовых испытаний; опасение негативной оценки деятельности педагога по результатам тестирования обучающихся; безынициативность некоторых руководителей, не желающих менять устоявшуюся традиционную систему работы. Все это неизбежно в условиях становления и развития новой системы контроля.

    Проблемы повышения эффективности использования тестирования, а также методов анализа его результатов и воздействия образовательной информации на обучающихся, педагогов и образовательный процесс становятся все более актуальными, требующими объединения теории педагогических измерений, педагогики, психологии, математики, информатики, статистики, квалиметрии и мониторинга.

    Подводя итог краткого анализа истории развития и применения тестовых материалов и технологий, можно сделать вывод о том, что появление в последнее время большого числа теоретических и прикладных работ по проблемам тестирования и эффективного использования его результатов для совершенствования образовательного процесса в нашей стране не является случайностью. В практике образования складывается ситуация, под влиянием которой традиционная контрольно–оценочная деятельность педагогов и управленцев, осуществляемая на внешнем и внутреннем уровнях, постепенно перерастает в современные эффективные формы контроля, базирующегося на отличных от традиционных теоретико–методических основах, иных информационных потоках, измерителях и технологиях. Тестовый контроль предоставляет образовательную информацию одинакового свойства по разным уровням обобщения результатов независимо от свойств конкретной выборки испытуемых или качеств отдельных экзаменаторов.

    3.2. Понятийно–классификационная база современного тестирования

    Многие специалисты в области оценивания знаний (В.С. Ава–несов, Н.Е.Архангельский, В.П. Беспалько, М.С. Бернштейн, Ю.К. Бабанский, Б.П. Битинас, Д.С. Горбатов, Л.Б. Ительсон, З.И.Калмыкова, В.В. Краевский, Г.С. Костюк, И.Я. Лернер, Е.К. Марченко, А.Н. Майоров, И.П. Подласый, В.М. Полонский, Н.М. Розенберг, М.Н. Скаткин и др.) отмечают, что плохая организация системы наблюдения за результативностью процесса обучения является одной из причин деградации образования. Она приводит к двум полярным явлениям: тотальному либерализму, с одной стороны, проявлению субъективизма и предвзятости – с другой.

    Говоря о проблемах диагностики и экспертизы качества подготовленности учащихся, многие специалисты ориентируются на педагогическое тестирование как наиболее объективную, независимую диагностичную систему измерения учебных достижений обучающихся, предоставляющую возможность массовой, быстрой, многомерной диагностики результатов учебно–познавательной деятельности. Объективная диагностика учебных достижений становится необходимой при внедрении в образовательную практику инновационных концепций и технологий индивидуализированного обучения, рассматриваемого в сочетании с дея–тельностным подходом как одно из важнейших направлений по повышению качества образования (Б.Г. Ананьев, Л.С. Выготский, П.Я. Гальперин, В.В. Давыдов, О.Б. Лошнова, Г.К. Селевко, Г.А. Цукерман, В.В. Фирсов, В.Д. Шадриков, И.С. Якиманская, Е.А. Ямбург и др.).

    Как объективное диагностическое средство, тесты предоставляют сопоставимую информацию о сильных и слабых сторонах процессов, происходящих в сфере образования, отличающуюся такими критериями, как точность, полнота, достаточность, систе–матизированность, оптимальность, обобщенность, оперативность и доступность. Для понимания современных тестовых материалов, методов и технологий проверки знаний и оценки уровня подготовленности испытуемых, а также их использования как средства контроля качества образовательного процесса важно введение определений не только педагогического теста, но и других понятий, связанных с тестированием. Опираясь на работы А.С. Аванесова, А. Анастази, Т.М. Балыхиной, В.П. Беспалько, П.П. Блонского, В.А. Болотова, М.И. Грабаря, К.А. Краснян–ской, Н.А. Дадыгкина, Л.М. Зарецкого, И.Я. Лернера, Я.А. Микка, Т.Г. Михалевой, В.И. Нардюжева, В.М. Полонского, Дж. Равена, И.А. Рапопорта, А.О. Татура, В.А. Хлебникова, А.Г.Шмелева, М.Б. Челышковой и других тестологов, мы систематизировали термины современного тестирования в порядке, отражающем последовательность действий от планирования и моделирования теста до его применения и обработки результатов. Краткий терминологический справочник в виде отраслевого стандарта терминов приведен в приложении 1.

    В самом общем смысле измерение трактуется как процесс установления соответствия между некоторой совокупностью объектов и множеством чисел в соответствии с определенными правилами [76]. Научное обоснование процесса измерений включает:

    • выбор переменных измерения (объектов), их количества;

    • выбор измерительных процедур;

    • конструирование и использование измерительных инструментов;

    • выбор шкалы;

    • построение отображения результатов измерения на шкалу по определенным процедурам и правилам;

    • обработку и интерпретацию результатов измерения.

    Что касается понятийного аппарата тестирования, то основной замысел состоит в попытке создания системы таких базовых определений, которые бы включали в себя признаки, отличающие современное тестирование от всего того, что нередко выдается за него. Такая ситуация объясняется тем, что до настоящего времени еще не выработаны устойчивые и однозначные определения многочисленных понятий современной тестологии и технологических операций, а уже существующие и вошедшие в практику понятия должным образом не систематизированы.

    В теории педагогических измерений имеется множество определений понятия педагогический тест, но до сих пор нет одного четкого и однозначного. К примеру, Т.М. Балыхина приводит около двух десятков определений и видов тестов, различных по целям тестирования [16]. В переводе на русский язык английское слово «test» имеет вполне определенное значение – проверка, проба. Иногда понятие «педагогический тест» рассматривается в двух смыслах: как метод педагогического измерения и как результат применения теста, состоящего из множества заданий [53, 142]. В последнее время появились определения, учитывающие оба смысловых значения теста: и как метода, и как результата. Одно из них дает А.О. Татур: педагогический тест – это квалиметри–чески выверенная система тестовых заданий, методов их предъявления и оценивания результатов их выполнения, которая обеспечивает получение наиболее обоснованных характеристик объекта испытания [182]. Однако и оно не совсем корректно.

    Педагогический тест следует рассматривать как измерительное средство, представляющее собой стандартизированную систему калиброванных заданий специфической формы, позволяющую надежно и объективно оценить уровень учебных достижений испытуемых и выразить результат в числовом эквиваленте.

    Отечественная тестология, пройдя период негативного отношения к тестам, в настоящее время пытается дистанцироваться от самого термина «тест». Поэтому в последнее время в тезаурусе тестирования все чаще встречается понятие контрольные измерительные материалы. Такое название указывает на существенное отличие современного теста как контрольно–измерительного материала от теста классического – произвольного набора контрольных заданий, не оцененных по уровням трудности. В отличие от классических псевдотестов тесты как педагогические измерители построены по математическим моделям в соответствии с поставленными задачами измерения. Они обязательно проходят паспортизацию на соответствие целям на вполне определенных выборках испытуемых и имеют соответствующие статистические характеристики. Правильнее сегодня КИМы понимать не только как тесты. Это понятие шире понятия теста. В КИМы входят средства педагогических измерений (тесты), бланки ответов, инструкции по технологии и процедуре тестирования, выполнению заданий, методам обработки первичных результатов, шкалирования и оценивания.

    В КИМе получает развитие сразу несколько идей: тест рассматривается не как произвольный набор заданий, а как система заданий специфической формы и известной трудности (калиброванных), позволяющих решать проблему объективизации педагогических измерений; тест является не только средством проверки, но и технологией и методом педагогического измерения. В профессиональном педагогическом тесте система заданий организуется таким образом, чтобы максимально сократить ошибочность оценивания истинного уровня подготовленности каждого испытуемого, объективно дать достоверные сведения в соответствии с едиными для всех испытуемых требованиями, а также исключить влияние субъективного фактора.

    В современном понимании КИМы и тесты предусматривают научно обоснованную процедуру – тестирование, позволяющее выявить интересующие качества объекта реально. Поэтому тестирование можно рассматривать как целенаправленное, одинаковое для всех испытуемых обследование, проводимое в строго контролируемых условиях и позволяющее объективно измерить изучаемые характеристики испытуемого и педагогического процесса [1]. Это стандартизированная процедура измерений учебных достижений обучаемых, обработки результатов тестирования, количественного и качественного анализа учебной деятельности и учебных достижений [92]. В последнее время все большее внимание уделяется адаптивному тестированию, как правило компьютерному, при котором в зависимости от уровня подготовленности испытуемого ему выдаются задания соответствующей трудности, адаптированные к уровню знаний [194, 217].

    Педагогическое задание в тесте рассматривается как единица контролируемого материала. Каждое задание выверяется по таким параметрам, как контролируемый элемент содержания с учетом требований стандарта, базовость, значимость, время выполнения, трудность, дифференцирующая способность и др. При отборе заданий соблюдаются принципы отображения содержания учебной дисциплины в заданиях теста: значимость, оптимальность, научная достоверность, возрастание трудности заданий, комплексность и сбалансированность, взаимосвязь формы и содержания, соответствие современному состоянию науки. После выделения единиц контролируемого материала формулировкам заданий придается тестовая форма. Задания в тестовой форме (или претестовые) – это задания, выраженные в логической форме утверждения истинного или ложного, предусматривающие определенный порядок расположения элементов задания и место фиксации ответов, сопровождающиеся одинаковой для всех испытуемых инструкцией по выполнению, правилами оценивания степени выполнения заания в рамках принятой его тестовой формы.

    Претестовым заданиям придается так называемая правильная форма заданий, или тестовая, как средство упорядочения и организации содержания теста. Она позволяет точно выразить содержание учебной дисциплины (проводится посредством выделения укрупненных единиц знаний), понятна для всех испытуемых, исключает возможность появления ошибочных ответов по формальным признакам.

    Для расширения возможностей тестового задания используется компактная форма записи нескольких вариантов одного и того же задания – фасет. Принцип фасетности широко используется при конструировании профессионально разрабатываемых тестов для формулирования большого числа параллельных (одинаковых по основным характеристикам) тестовых заданий. Число фасетов зависит «от богатства содержания задания и количества вариантов параллельных заданий, требуемых при создании теста» [1].

    Только после проверки тестообразующих свойств претестовых заданий и статистической обработки результатов апробационного тестирования задания становятся тестовыми, или калиброванными, и могут включаться в тест. Тестовым заданиям приписываются параметры трудности, дифференцирующей способности, вариативности, локальной независимости, технологичности и эффективности, проверяемые эмпирическим путем. Без такой апробации задания не могут быть тестовыми. Требование известной трудности заданий является важнейшим системообразующим признаком тестового задания.

    Чтобы оценить уровень подготовленности обучающихся в соответствии со всем перечнем требований учебной дисциплины, в тесте используются задания разных видов. Тестовые задания могут быть с выбором ответа, с кратким ответом, с полным ответом, задания–эссе.

    Для заданий с выбором ответа подбираются дистракторы. Дистрактор (от англ. distractor – отвлекающий) – неправильный ответ на тестовое задание. Тестовые задания закрытого типа (с выбором ответа) содержат несколько вариантов ответов, среди которых только один является верным, остальные не берутся произвольно, а подбираются по принципу правдоподобия. Правильный подбор дистракторов является частью процедуры разработки качественного теста. Как правило, дистракторы получают, закладывая характерные ошибки в расчетах или рассуждениях, чаще всего допускаемых испытуемыми при апробации тестов. При совершении определенной ошибки каждый тестируемый найдет соответствующий результат в том или ином дистракторе.

    Поэтому дистракторный анализ может дать информацию об уровне подготовленности и видах затруднений испытуемых. Качество дистракторов проверяется по равномерности распределения частот выбора различных дистракторов (дистракторный анализ) [134].

    В связи с ростом массовости при тестировании появилась возможность получения надежных статистических характеристик тестовых заданий, проведения надежного дистракторного анализа, параметризации тестовых заданий и тестов. Накопление так называемых калиброванных тестовых заданий поставило задачу их систематизации в виде банка тестовых заданий и банка тестов для удобства их хранения и дальнейшего использования. Соответственно, вводится определение банка тестов как накопителя тестов, имеющих статистические характеристики, систематизированных определенным образом.

    Для конструирования и использования теста требуется разработка его спецификации, в которой определяются цели и задачи тестирования, сроки его проведения, время работы над тестом, количество и тип используемых заданий, содержательная структура теста, статистические данные апробации, система оценивания результатов тестирования. Спецификация теста представляет собой его содержательный план, необходимый для разработчиков и экспертов, содержит все пункты последовательных действий и основные требования.

    В свою очередь, цели и задачи тестирования определяют структуру теста, которая содержит всю информацию о количестве и названии частей теста, разделах учебной дисциплины, охватываемых указанными частями теста, количестве и последовательности тестовых заданий, сведения о разработчиках теста. С точки зрения содержания и структуры, целей и практики тестирования в современной литературе выделяют несколько типов тестов: гомогенные, гетерогенные, интегративные, адаптивные и др.

    Гомогенные тесты представляют собой систему заданий (по возможности возрастающей трудности) содержательной однородности (монодисциплинарные) для измерения уровня подготовленности испытуемых по одной учебной дисциплине или по одному разделу.

    Гетерогенные тесты состоят из системы заданий для измерения знаний по нескольким учебным дисциплинам сразу и для оценки уровня интеллектуального развития испытуемых. Гетерогенный тест может состоять из нескольких гомогенных субтестов [200]. Используются такие тесты для оценки комплексной профессиональной подготовленности выпускников или при приеме специалистов на работу.

    Интегративные тесты также состоят из системы заданий возрастающей трудности и используются для диагностики подготовленности выпускника или специалиста. Они содержат такие задания, для ответов на которые требуются синтезированные знания по двум или нескольким учебным дисциплинам. Такому тестированию должно соответственно предшествовать и интегра–тивное обучение, являющееся высококвалифицированной формой подготовки, проводимой на межпредметном уровне.

    Адаптивный тест представляет собой тест, по уровню трудности подобранный в соответствии с уровнем подготовленности испытуемого. Задания адаптивного теста, как правило, предъявляются по одному в зависимости от ответа тестируемого на предыдущий вопрос. В основном адаптивное тестирование проводится по компьютерным программам. Первым испытуемому выдается задание среднего уровня трудности. Затем тому, кто выполнил его верно, предлагаются задания более высокого уровня сложности, а тем, кто не выполнил, выдаются задания более низкого уровня и т.д. [213]. Такой тип тестирования отвечает концепции Л.С. Выготского об уровнях развития учащихся и соответствует оценке актуального уровня, достигнутого обучающимся на момент измерения знаний. При этом также могут реализоваться еще несколько целей: обучение, самоконтроль, контроль, олимпиады и др.

    В последнее время стал широко применяться термин стандартизированный тест, определение которого пока еще не стало общепринятым. Скорее всего это тест определенной длины и трудности, параметры и характеристики которого получены на репрезентативной выборке испытуемых, удовлетворяют поставленным целям и позволяют использовать его для массового тестирования с последующей автоматизированной проверкой правильности его выполнения, оцениванием, статистической обработкой результатов тестирования на генеральной выборке. Одним из свойств стандартизированного теста является его целостность как устойчивое взаимодействие заданий интегра–тивного качества и наилучшего состава тестовых заданий, обеспечивающих объективность контроля учебных достижений испытуемых. Основной составляющей такого теста является тестовое задание с набором характеристик и показателей качества. Поскольку тестовое задание является единицей теста, то требования к тесту в целом, предъявляются и к каждому отдельному тестовому заданию. Количеством и трудностью тестовых заданий определяется длительность работы над тестом.

    Иногда используется понятие эффективного теста, измеряющего уровень учебных достижений обучаемых при наименьшем числе заданий, качественно, быстро и дешево, удовлетворяя при этом всем требованиям оптимальности. Такой тест не может состоять из неэффективных заданий, т.е. заданий, не проверяющих какой–либо важный или ключевой элемент содержания учебной дисциплины. Кроме того, эффективный тест должен в максимальной степени соответствовать уровню подготовки испытуемых, а его эффективность как раз и подчеркивает научность критериев его качества.

    Как правило, для проведения тестирования используют несколько вариантов одной и той же модели теста. При внешнем отличии различные варианты батареи тестов имеют сходное содержание, дают равные среднеарифметические результаты, дисперсии и другие характеристики. Такие тесты одинаковы по диапазону и точности измерения, концептуально измеряют то же самое на различных выборках испытуемых. Их статистические характеристики должны совпадать так, чтобы разные варианты теста могли заменять друг друга и обеспечивать одинаковые надежность и валидность измерений. При массовом тестировании создается несколько десятков различных вариантов, по существу, одного и того же теста, сконструированного по определенной математической модели. Такие тесты иногда называют параллельными. Параллельные тесты должны содержать одинаковое количество тестовых заданий и иметь одинаковую трудность, сложность и другие статистические характеристики.

    По целям, которые определяют структуру контрольно–оценочных материалов, процедуры тестирования и анализ результатов, выделяют несколько типов тестов, различающихся концептуально и методологически в подходах к интерпретации результатов тестирования: нормативно–ориентированный, критериально–ориентированный, содержательно–ориентированный и др.

    Нормативно–ориентированный тест представляет собой средство и метод диагностики, позволяющие дифференцировать испытуемых по уровням подготовленности. Все тестируемые отвечают на одинаковые задания, за одинаковое время, в одинаковых условиях, их результаты оцениваются на одной и той же шкале оценок. Такой метод позволяет распределить тестируемых по местам или рейтингу, а цель достигается при сравнительно малом числе заданий в тесте. Результат может быть получен при минимуме заданий, за короткое время, качественно, с наименьшими затратами для большого числа участников. Интерпретация результатов проводится преимущественно с опорой на среднюю арифметическую оценку или процентильные нормы (рейтинг), когда каждый знает, сколько процентов испытуемых имеют тестовый результат хуже или лучше его [40]. Такая интерпретация результатов также называется нормативно–ориентированной. Вывод на рейтинг обусловливается цепочкой: задания – ответы – выводы о знаниях испытуемых – рейтинг. При нормативно–ориентированной интерпретации результатов тестирования на первое место выходит задача не столько определения полноты содержания, сколько выяснения сравнительного места или рейтинга каждого из тестируемых, так как главная цель нормативно–ориентированного подхода – дифференциация испытуемых по уровню подготовки. Подбор заданий по трудности для такого теста осуществляется в широкой области – от самых легких до очень трудных. Тесты централизованного абитуриентского тестирования и единого государственного экзамена как раз построены в основном для нормативно–ориентированной интерпретации результатов педагогических измерений, обеспечивающих надежную дифференциацию выпускников по уровню подготовленности.

    Критериально–ориентированные тесты предназначены для решения конкретных целей и задач, например для проверки уровня усвоения определенного перечня знаний, умений и навыков, аттестации выпускников на достижение ими минимально допустимого уровня компетентности.

    Вывод строится по логической цепочке: задания – ответы–выводы о соответствии испытуемого заданным критериям [229]. Для объективной независимой оценки уровня подготовленности школьников по разным учебным дисциплинам используются тесты аттестационного тестирования, разработанные на основе критериально–ориентированной интерпретации. В отличие от нормативно–ориентированных критериально–ориентированные тесты обеспечивают дифференциацию только в сравнительно небольшой области вблизи порогового балла. Для такой интерпретации результатов требуется малое число заданий определенной или критериальной трудности, чтобы выявить, что знает и чего не знает испытуемый из заданного стандарта, задания подбираются приблизительно одинаковой трудности. Как правило, такие тесты используются работниками органов управления образованием или ведущими педагогами, на мнение которых опираются проверяющие при аттестации образовательных учреждений.

    Практика массового тестирования показывает, что наиболее информативным мог бы быть тест, разработанный при совмещении этих двух подходов, так как, например, абитуриентские тесты используются как для дифференциации абитуриентов, так и для итоговой аттестации учащихся в школе. Однако разработка таких тестов наиболее сложна и трудоемка.

    Содержательно–ориентированная интерпретация результатов тестирования является способом выяснения степени усвоения каждым испытуемым отдельных элементов содержания учебной дисциплины или предметно–педагогическим подходом к анализу результатов тестирования. Для этого требуется большое число заданий, чтобы можно было достаточно точно выяснить, что из всей совокупности предложенных заданий (Domain) знает и чего не знает испытуемый.

    Разные авторы [1, 173, 181, 197, 214] для разработки тестовых заданий по различным целям и задачам используют специфические методологические основания и классифицируют тесты следующим образом:

    диагностические тесты, или тесты общих умственных способностей, тесты специальных способностей, тесты обучен–ности и успешности академических достижений, тесты для выявления особых качеств личности (память, характер, творчество и др.), тесты для определения уровня воспитанности;

    дидактические тесты, при тестировании выявляется как знание учебного материала, так и его незнание, а это позволяет широко применять тестирование в диагностических целях, разрабатывать диагностические тесты с особым отбором содержания, позволяющим оценить прочность знаний, полноту, глубину, гибкость, конкретность и обобщенность, системность и систематичность, оперативность;

    • тесты по содержанию и структуре – гомогенные, гетерогенные, интегративные, адаптивные и др.;

    • тесты по целевой направленности – критериально–ориентированные, нормативно–ориентированные, содержательно–ориентированные (определение уровня исходных знаний, дифференцирующие по качеству подготовки, разделяющие на успевающих и неуспевающих и т.д.);

    • тесты по задачам тестирования – тематические, итоговые, обучающие, развивающие, контролирующие остаточные знания;

    • по средствам предъявления – тестовые тетради; тесты на бумажных носителях с заполнением специальных бланков ответов; компьютерные адаптивные тесты с предъявлением последовательно каждого задания на экране монитора и фиксацией результата программными методами.

    Для возможно более точного оценивания большого числа тестируемых (при массовых тестированиях), сопоставимости и достаточной дифференцируемости результатов тестирования в качестве системообразующего фактора может выступать время работы над тестом, от которого существенно зависит качество результатов. Оптимальное время тестирования определяется эмпирически (исходя из удобства тестирования и естественных возможностей непрерывной работы тестируемых) и указывается для каждого теста. При этом трудность теста определяется суммарной трудностью всех его заданий. Требования современного тестирования предусматривают, что задания не могут быть все одинаковой трудности, так как по определению педагогического теста они должны быть (в гомогенном тесте) нарастающей трудности. Испытуемые среднего уровня подготовленности должны ответить верно примерно на половину заданий теста, на задания самого высокого уровня трудности правильно должны ответить только самые подготовленные.

    Долгое время в тестологии мерой трудности каждого задания была доля правильных ответов рj на j–e задание. В новых моделях вместе с долей правильных ответов pj составной частью новой единицы измерения стала величина qj = 1 – pj – доля неправильных ответов на j – е задание.

    Мерой уровня трудности заданий в современной тестологии является логит трудности задания, определяемый натуральным логарифмом отношения доли невыполненных заданий к доле правильных ответов на данное задание ln qjj. Соответственно, введена и логарифмическая оценка логит уровня подготовленности i – го учащегося, определяемый как ln pj /qj [107]. Сопоставление логарифмических оценок уровня знаний каждого испытуемого с уровнем трудности каждого задания посредством их вычитания позволяет создавать программно–инструментальные средства индивидуализации обучения и контроля, осуществить переход к методам адаптивного тестирования.

    Одной из важнейших составляющих современного теста являются его тестологические характеристики. Тестологические характеристики – это измерительные качества теста, которые появляются только в процессе использования его на апробационных выборках тестируемых. Создание так называемого качественного теста, обеспеченного соответствующими тестологическими характеристиками, – процесс сложный и длительный, связанный с выбором математической модели конструирования теста, наполнением ее заданиями, проведением апробационного тестирования, параметризацией, последовательным совершенствованием для достижения соответствия заданным целям и тестологическим свойствам методами последовательных итераций.

    Важной характеристикой тестирования является различие тестовых баллов у разных испытуемых – вариация тестовых баллов. Отсутствие вариации свидетельствует либо о том, что все обладают одинаковыми знаниями, либо о несостоятельности теста в дифференцировке знаний испытуемых. Так, при традиционных экзаменах пятибалльная шкала снижает вариацию даже там, где она есть (например, на вступительных испытаниях сотни абитуриентов получают тройки, хотя качество знаний таких абитуриентов может сильно отличаться), в то время как тесты ее заметно повышают (на 100–балльной шкале вариация результатов достаточно высока). Удобной мерой вариации результатов тестирования является дисперсия. Это особенно важно для организации адаптивного компьютерного тестирования. Сопоставление в ло–гитах (на единой шкале переменной) уровня знаний испытуемого и трудности задания позволяет ЭВМ из любого множества заданий для любого числа испытуемых подбирать индивидуальные задания и соответственно оценивать результаты ответов. Эффективность этого метода оказала огромное влияние на развитие зарубежной и отечественной педагогической теории и практики.

    Согласно теории педагогических измерений тесты могут быть качественными и давать достоверные результаты только в том случае, если они предварительно апробированы на типичных выборках испытуемых и показывают соответствие заложенным при разработке взаимосвязанным свойствам надежности и ва–лидности. В трудах теоретиков–тестологов валидность трактуется как многомерная характеристика теста, включающая сведения об области исследуемых явлений и репрезентативности тестовой методики по отношению к ней [93—95]. Валидность теста можно определить как совокупность характеристик, определяющих соответствие теста поставленной цели. Нередко процесс создания теста носит многоцелевой характер, поэтому часто стараются проверить валидность с разных позиций, основываясь на различных критериях целевой адекватности теста.

    Надежность теста понимается как способность давать одни и те же результаты при его применении к одинаковым выборкам тестируемых и характеризуется устойчивостью результатов тестирования. Идея достижения требуемой точности педагогических измерений заданиями теста теоретически задается надежностью теста. Это вытекает из известного постулата о неизбежности погрешности любых измерений: имеряемая величина Х не равна истинному значению Т [1]. В практическом смысле надежность понимается как мера одинаковости, повторяемости и связанности двух измерений одного и того же качества одним и тем же тестом или его параллельными вариантами [219]. Выделяется несколько типов надежности:

    • реестровая надежность, определяемая посредством повторного тестирования испытуемых с помощью одного и того же теста;

    • надежность параллельных форм, которая определяется с помощью тестирования одной и той же группы испытуемых параллельными тестами;

    • надежность частей теста – анализ устойчивости результатов отдельных блоков теста (в практике обычно для определения надежности прибегают к комбинированию различных типов).

    Значение надежности наиболее просто рассчитывается по коэффициентам корреляции между результатами двукратного тестирования одного и того же контингента испытуемых по эквивалентным вариантам тестов. О надежности тестов судят по степени сохранения ранговых позиций испытуемых. На практике по ряду причин это используется редко. Иногда для определения надежности гомогенных тестов по коэффициенту корреляции используется метод расщепления, описанный и использованный в работах А. Анастази и С. Урбина [9], Ю.М. Неймана и В.А. Хлебникова [134], М.Б. Челышковой [199]. Для этого тест разделяют на две эквивалентные половины. Затем стандартным способом вычисляют коэффициент корреляции r ' между результатами тестирования по двум половинам теста. При этом получается значение корреляции только половины теста, для целого теста она получается из соотношения r = 2r '/(1 + r ' ).

    Способность теста соответствовать поставленным задачам, т.е. пригодность тестовых результатов для определенной цели, задается валидностью. Валидность – это методологическая характеристика способности теста измерять то, для чего он был создан. Она зависит от качества заданий, их числа, степени полноты и глубины охвата содержания учебной дисциплины в заданиях теста; баланса и распределения заданий по трудности; метода отбора заданий из общего банка, от интерпретации результатов тестирования; организации сбора данных, отбора выборки испытуемых [1]. Как отмечает Э. Стоунс, «валидность – ахиллесова пята тестирования» [173]. В понятие валидности входит самая разнообразная информация о тесте, которая анализируется различными типами валидности:

    • диагностической (конкурентной), отражающей способность теста дифференцировать испытуемых по изучаемому признаку; это возможность по результатам тестирования судить о структуре знаний, умений и навыков испытуемых;

    • прогностической, определяющей «степень обоснованности и статистической надежности исследования измеряемого качества в будущем; возможность отбора учащихся по определенным признакам, например абитуриентов, способных успешно обучаться в вузе» [219].

    Различают понятия валидности по «содержанию, критериаль–ности, конкурентности и т.д.» [134].

    Эмпирическая валидность – независимый показатель, в котором используются экспертные оценки и характеристики теста, данные специалистами (педагогами, учеными–экспертами, сотрудниками центра тестирования и др.).

    Конструктивная валидность используется при сложности или невозможности подобрать адекватные критерии валидизации. При этом используется комплекс характеристик, свидетельствующих о теоретической обоснованности методики, соответствии полученных с помощью теста результатов теоретическим ожиданиям и закономерностям.

    Содержательная валидность отображает комплекс сведений о репрезентативности тестовых заданий как отражении всех важнейших составляющих контролируемых знаний. Содержательная валидность зависит от качества и числа заданий, степени полноты и глубины охвата содержания учебной дисциплины в заданиях теста по темам. Важно также распределение заданий по трудности.

    К указанным выше типам валидности в педагогической литературе В.С. Аванесов, В.П. Беспалько, И.П. Подласый и многие другие добавляют:

    • функциональную валидность, определяющую соответствие задания уровню усвоения контролируемых знаний;

    • критериальную валидность, связанную с направленностью теста на измерение знаний по тем или иным заранее определенным критериям, например соответствие контролируемых знаний образовательному стандарту. Количественной мерой критериальной валидности служат коэффициенты ранговой и бисериальной корреляции между показателями теста и критериальной мерой, задаваемой при конструировании теста.

    Построение числовой системы, в которой отношения между различными объектами тестирования выражены свойствами числового ряда, называется шкалированием. Для шкалирования результатов тестирования важное значение имеет структура нормативной выборки, представляющей группу тестируемых, содержащую представителей всех наиболее значимых страт, реально отражающих те же пропорции, что и выборка испытуемых. Преобразование шкал на основе анализа статистических результатов нормативной выборки «позволяет повысить качество педагогических измерений и выставить каждому испытуемому тестовый балл вне зависимости от того, в какой группе и над каким вариантом теста он работал» [190]. Эта процедура в настоящее время находится на стадии совершенствования и вызывает достаточно много споров.

    В практике массового тестирования в качестве нормативной используется генеральная выборка, включающая всех обучающихся, участвующих в тестировании по данной учебной дисциплине. В сертификатах тестирования помимо тестового балла может быть указан рейтинг учащегося, который определяет место (ранг) тестируемого среди всех участников. Это, например, дает возможность выпускнику оценить свои конкурентные (конкурсные) возможности. При систематическом тестовом контроле появляется возможность по среднему рейтингу обучающихся формировать рейтинг образовательного учреждения, по рейтингу абитуриентов – рейтинг вузов. Все это может обеспечить условия для открытости всей системы образования. При этом пользователями результатов тестирования могут быть не только обучающиеся, но и родители, учителя, руководители общеобразовательных учреждений, органы управления образованием всех уровней и др.

    Ежегодный статистический отчет, составляемый по итогам массового тестирования учащихся общеобразовательных учреждений, содержит детальную информацию о всех тестируемых, статистические данные о результатах тестирования по любой выборке учащихся, по каждому образовательному учреждению, району, городу, региону, стране в целом, по всем дисциплинам с указанием среднего тестового балла, средних оценок по пятибалльной шкале, процентов учащихся, правильно выполнивших задания. Материалы статистического отчета по результатам тестирования предоставляют уникальную возможность для анализа учебных достижений при независимом стандартизированном контроле знаний учащихся и являются основой образовательной статистики [129—131, 192]. Само понятие образовательная статистика может быть раскрыто как совокупность статистических показателей подготовленности различных выборок учащихся по результатам массового независимого тестирования.

    В статистических отчетах массового тестирования, как правило, приводится несколько показателей, характеризующих интегральную подготовленность учащихся: средний тестовый балл по совокупности всех предметов по России, по отдельным регионам, территориям и общеобразовательным учреждениям, по каждой дисциплине для разных выборок учащихся, по видам тестирования, а также указывается процент правильно выполненных заданий теста, систематизируются другие показатели.

    Рассмотренная выше систематизация понятий современного тестирования позволяет перейти к рассмотрению вопросов методологии тестирования, практики конструирования и параметризации контрольно–оценочных материалов, описанию форм, методов и процедур тестового контроля, а также методов анализа результатов, полученных на основе мониторинга учебных достижений школьников. Методологию современного педагогического тестирования можно определить как учение об основных положениях, формах, методах, принципах научного исследования и организации практики педагогического контроля и оценки уровня подготовленности обучающихся. Принципы научной организации тестового контроля, выработанные на основе обобщения зарубежного и отечественного передового опыта, формулируются в виде свода правил, способствующих повышению эффективности тестирования.

    3.3. Основы конструирования тестов как контрольных измерительных материалов

    Попытки ученых преодолеть многочисленные недостатки классической теории тестов для повышения точности измерений и оптимизации процедур контроля за счет адаптации трудности теста к уровню подготовленности учащегося позволили развить IRT и визуализировать формальные характеристики тестовых заданий, другими словами, позволили увидеть, как работают задания методами графических построений. Благодаря использованию математического аппарата и итерационных процессов (уточнений при последовательных испытаниях) теория IRT позволяет перейти от оценки внешних признаков, выявляемых экзаменаторами (наблюдаемых результатов выполнения задания), к оценкам латентных (скрытых, внутренних) параметров подготовленности испытуемых, обусловливающих некие константы состояния обучаемых (подготовленности) на момент измерения их знаний [238, 242]. Особенностью педагогических измерений по теории IRT является специфическая объективность результатов, связанная с тем, что на оценку испытуемого не влияют оценки других тестируемых данной выборки. Это связано со свойствами инструментария, обусловленными соответствующим подбором тестовых заданий определенного уровня трудности, и использованием специальных процедур шкалирования и оценивания в соответствии с используемыми моделями.

    Поисками таких моделей занимались многие зарубежные математики, среди которых особо следует отметить работы Д. Батесона и других (D. Bateson, C. Nikol, T. Achroeder) [228], Р. Берка (R. Berk) [229], А. Бинета и Т. Симона (A. Binet and T. Simon) [230], А. Бирнбаума (A. Birnbaum) [231], Б. Блума (B. Bloom) [232], Я. Кевиса (J. Keeves) [238], К. Лорда (K. Lord) [241 —244], Г. Раша (G. Rasch) [247 —249], Д. Вайса и Г. Кинсбери (D.J. Weiss, G.G. Kingsbury) [252]. Применение этих моделей в отечественной практике тестирования изложено в работах В.С. Аванесова [1], М.Б.Челышковой [195—200], Ю.М.Неймана и В.А.Хлебникова [134], других авторов.

    Использование специальных моделей измерения, соединяющих латентные параметры испытуемых с наблюдаемыми результатами выполнения теста, позволяет устранить многие трудности. В рамках IRT оценки качества подготовленности испытуемых можно отождествлять с модифицированными результатами тестовых измерений. При этом, казалось бы, совсем разные понятия «качество» и «количество» не противопоставляются друг другу, а, по определению М.Б. Челышковой и Г.С. Ковалевой, «вкладываются один в другой как показатели интенсивности проявления качества» [199]. Это позволяет представить образовательный процесс в качественных показателях и своевременно корректировать его.

    Для решения задач педагогического измерения плодотворным явилось определение знания как объективно и субъективно достаточного признака истинности или проявления логического суждения. При этом латентно–структурный анализ нацелен на выявление внутренних, скрытых качеств и факторов поведения (деятельности) испытуемого посредством математических моделей измерения и статистической обработки полученных результатов. IRT представляет некоторое структурное построение или математическую модель, позволяющую соединить между собой несколько латентных переменных. В соответствии с положениями латентно–структурного анализа оценки испытуемых учитывают уровень трудности используемых при тестировании заданий и выдаются в виде тестовых баллов, рассчитанных с помощью математических моделей. В зависимости от числа оцениваемых параметров тестируемых различают несколько видов математических моделей современных тестов: однопараметрическую, двух–параметрическую, трехпараметрическую и др. Качество тестов, конструируемых на основе этих моделей, значительно улучшается, задания подбираются таким образом, чтобы обеспечить возможность проявления испытуемыми не только знаний, умений и навыков, но и других характеристик, проверка которых может быть заложена в спецификациях тестов.

    В IRT вводится представление о существовании взаимосвязи между наблюдаемыми результатами тестирования и латентными качествами испытуемых, такими как уровень учебных достижений по предмету на момент тестирования. В отличие от классической теории тестов, где индивидуальный балл тестируемого рассматривается как постоянное наблюдаемое число Xi,  в IRT латентный параметр трактуется как некоторая переменная (латентная переменная), начальное значение которой получается непосредственно из эмпирических данных тестирования (например, первичный балл). При этом латентные параметры (уровень подготовленности испытуемого ?i и уровень трудности задания ?j) рассматриваются как результат взаимодействия двух множеств значений, порождающих наблюдаемые итоги выполнения теста. Элементами первого множества являются значения латентного параметра ?i – уровня знаний N испытуемый: (i = 1, 2, ..., N). Второе множество образуют значения латентного параметра ?i, соответствующего разной трудности заданий теста (j = 1, 2, ..., n). На практике всегда ставится задача оценить по ответам испытуемых значения параметров ? и ?. Для ее решения выбирается вид соотношения между этими параметрами (математическая модель).

    Оказалось, что эмпирически наблюдаемые результаты Xi и соответствующие им латентные значения уровня подготовленности испытуемых ?i связаны нелинейно. Переменный характер измеряемой величины трудности задания ?j также указывает на возможность последовательного приближения ее к объективным оценкам параметров при помощи итеративных методов в процессе апробации. Выбором математической модели установливается взаимосвязь между эмпирическими результатами тестирования и значениями латентных переменных: ? – уровень знаний испытуемых и ? – уровень трудности задания.

    Однопараметрическая модель датского математика Г. Раша (G. Rasch) устанавливает зависимость между уровнем подготовленности испытуемого (?i) и трудностью заданий (?j) [248]. Он предложил ввести это соотношение в виде разности между параметром уровня знаний испытуемых и параметром трудности заданий теста: ?i??j. При этом предполагается, что оба параметра оцениваются на одной и той же шкале логитов. Функция успеха, или вероятность правильного ответа Рj(?) при тестировании задается простой логистической моделью:


    где параметром является разность (???j), абсолютная величина которой представляет в логитах расстояние между уровнем знаний данного испытуемого и уровнем трудности данного задания. Если эта разность велика и отрицательна, то такое трудное задание бесполезно для измерения уровня знаний данного тестируемого, в то же время если эта разность велика и положительна, то задание тоже не представляет интереса, оно неэффективно, так как такой уровень трудности данным тестируемым уже хорошо освоен.

    Из логистической функции видно, что Pj(?) растет с ростом параметра ? испытуемых, так как чем выше уровень знаний тестируемых, тем выше вероятность правильного ответа на–е задание теста. Взаимосвязь между этими параметрами хорошо просматривается по характеристической кривой–го задания теста, вид которой представлен на рис. 7. Точка перегиба соответствует равенству уровня знаний тестируемого и уровня трудности тестового задания, ?=?j, вероятность правильного ответа при этом равна 0,5. Вероятность правильного ответа для хорошо подготовленных испытуемых стремится к 1, а для плохо подготовленных – к 0. Увеличение трудности задания на некоторую константу с > 0 смещает характеристическую кривую вправо, с прежней вероятностью на такое задание теперь сможет ответить тестируемый с другим уровнем знаний, равным (? + с).

    В однопараметрической модели вероятность правильного ответа на задания выражается посредством логистической функции, после введения которой симметрично возникла математическая модель, описывающая вероятность правильного ответа в зависимости от трудности заданий [196]. Аналогично по формуле рассчитывается вероятность Рi(?) правильного ответа i – го испытуемого на разные по трудности задания теста:



    Рис. 7. Характеристическая кривая тестового задания



    Вероятность правильного выполнения i-м испытуемым будет убывающей функцией в зависимости от трудности заданий. График функции Рi(?), или график индивидуальной кривой испытуемого, показан на рис. 8.



    Рис. 8. Индивидуальная кривая испытуемого: а – теоретическая, уровень знаний 0,5; б – эмпирическая, уровень знаний 0,6

    В точке перегиба кривой вероятность правильного ответа, как и на характеристической кривой задания, равна 0,5. В процессе обучения, по мере накопления знаний, индивидуальная кривая испытуемого смещается вправо.

    Двухпараметрическая модель А. Бирнбаума (А. Birnbaum) [231] была получена путем добавления к параметрам трудности заданий теста их дифференцирующей способности ?. В последнее время обработку эмпирических данных рекомендуется проводить на основе двухпараметрической модели, чтобы кроме латентного параметра трудности заданий теста можно было бы в широком диапазоне дифференцировать уровни знаний разных учащихся. Дифференцирующая способность является одной из важных характеристик заданий теста и определяется разностью долей правильных ответов слабой и сильной частей испытуемых в группе достаточно большой выборки (около 100 человек). Методика расчета достаточно проста: берут 27% испытуемых, имеющих наибольшие баллы, и 27% имеющих низкие баллы, считают долю правильных ответов в каждой группе рл и рх . Затем определяют дифференцирующую способность для каждого задания данного теста: ?j= pл? px.

    Например: на одно из заданий среди лучших правильно ответили 30 испытуемых из 40 (рл = 3/4), а среди худших правильный ответ у 10 из 40 х = 1/4), из чего следует, что ?j = 1/2. Для других заданий расчеты делаются аналогично. Отметим, что для всех заданий теста значения дифференцирующей способности находятся в пределах от–1 до +1.

    Вероятность правильного ответа на . – е задание в модели Бирнбаума записывается так:


    где ? – уровень знаний тестируемых (переменная); ? – трудность j – го задания; – параметр, характеризующий дифференцирующую способность j – го задания; (? – ?j) – разность на шкале логитов между уровнем знаний учащегося и уровнем трудности j–го задания. При геометрической интерпретации его связывают с крутизной характеристической кривой в точке перегиба: чем круче кривая, тем больше дифференцирующая способность задания.

    Совершенствование модели привело А. Бирнбаума к необходимости введения третьего параметра, учитывающего фактор угадывания правильного ответа. Новая модель стала называться логистической трехпараметрической. Ввиду большой сложности конструирования такого теста и статистической обработки результатов она не получила широкого распространения, так же как и метод наибольшего правдоподобия и метод моментов [250].

    Для моделирования теста и, тем более, для создания системы адаптивного тестового контроля важную роль играет информационная функция теста, позволяющая задать на оси латентной переменной (логистической шкале) интервал, в котором проводится измерение уровня подготовки испытуемых. Бирнбаумом она представлена в виде


    где Ij (?) – информационная функция; ? – уровень знаний испытуемого, латентная переменная; Pj(?) – вероятность правильного ответа на задание j; Q. (?) = 1—Pj(?), Q – вероятность неправильного ответа на задание j; n – число заданий в тесте;


    Информационная функция задает интервал, в котором работает данное задание, чем меньше этот интервал и круче характеристическая кривая, тем выше информативность и дифференцирующая способность такого задания. Это утверждение привносит дополнительные возможности в отбор заданий при формировании теста, позволяя варьировать диапазон заданий на шкале логитов. Введение информационной функции позволяет оценить точность педагогических измерений. Информативность задания обратно пропорциональна ошибке измерения, следовательно, речь может идти о дифференцированной оценке точности, обеспечиваемой j – м заданием теста данного уровня подготовленности ?i.Каждому уровню подготовленности в соответствие ставится количество получаемой при измерении информации. Отсюда следует, что наиболее информативно измерение подготовленности i-го испытуемого будет j – м тестовым заданием с уровнем трудности в точке перегиба при равенстве ?i=?j. Таким образом, чем ближе значение разности (?i??j) к нулю, тем эффективнее подобрано задание и меньше стандартная ошибка измерения уровня подготовленности испытуемого.

    Для получения качественного теста необходима его апробация на предмет получения статистических характеристик, выявления трудности заданий, их дифференцирующей способности, характеристик теста в целом. Поэтому требуется проведение апроба–ционных тестирований, проверки трудности теста на выборках генеральной совокупности для выявления устойчивости показателей. После проведения апробационного тестирования выполняется математико–статистическая обработка результатов испытания, которая состоит из нескольких этапов.

    Обработка данных начинается с выбора правил оценивания ответов испытуемых на задания теста. В большинстве случаев используется дихотомическая оценка. Оценку выполнения i-м испытуемым j – го задания обозначим Xij.  Она может принимать значения 1 или 0, при этом i = 1, 2, ..., N,, где N – число учащихся или студентов; а j = 1, 2, ..., n, где n – количество заданий в тесте. Из значений Xij составляют матрицу эмпирических данных. Строки матрицы состоят из нулей и единиц, соответствующих ответам разных испытуемых, по столбцам располагаются профили ответов на каждое задание, т.е. столбцов должно быть столько, сколько заданий в тесте – n, а строк – сколько испытуемых – N. Матрицу данных тестирования (столбцы – число правильных ответов на каждое задание теста Rj, строки – правильные ответы тестируемых) упорядочивают, располагая Rj в порядке убывания результата. Строки матрицы меняют так, чтобы верхняя соответствовала обучаемому с минимальным индивидуальным тестовым баллом Xi.

    По такой упорядоченной матрице рассчитываются доли правильных рi и неправильных qi ответов испытуемых:

    pi = X i /n, qi = 1 – Pi , где (i= 1, 2, ..., N).

    Аналогично рассчитываются доли правильных и неправильных ответов на задания теста:

    Pj = Rj /N и qj = 1 – Pj , где (j= 1, 2, ..., n).

    Сначала рассчитывается первичный балл каждого тестируемого:


    являющийся только начальной оценкой уровня подготовки учащихся или студентов, и определяется число правильных ответов на каждое задание теста:


    Это позволяет сделать первичную оценку трудности каждого задания. Следует иметь в виду, что показатель трудности задания Rj удобен до тех пор, пока число испытуемых N в разных группах остается неизменным. Если в группах число испытуемых меняется, то необходимо пользоваться нормированным статистическим показателем трудности Pj , он не зависит от N и характеризует долю правильных ответов:


    Оценка латентных параметров в большинстве случаев проводится в предположении нормальности распределения эмпирических данных как по множеству испытуемых, так и по множеству заданий.

    Для лучшей наглядности информация о распределении первичных баллов тестируемых может быть представлена в виде гистограммы или кривой распределения. Максимальная частота выбора правильного результата (число тестируемых, набравших соответствующий балл) должна находиться в центре кривой, к краям частота снижается. Проверка нормальности распределения значений индивидуальньж баллов Xi  (мера центральной тенденции) желательна при создании нормативно–ориентированных тестов. Одной из наиболее простых мер проверки центральной тенденции является среднее арифметическое; если его значение соответствует 50% общей суммы баллов для данного теста, то условие нормализации выполнено.

    После этого определяются значения дифференцирующей способности ?j, как это было указано ранее. Найденные для всех заданий значения ?j позволяют перейти к оценке уровня знаний испытуемых, или уровня подготовленности, – латентного параметра ?. В качестве начального значения латентного параметра выбирается индивидуальный балл тестируемого Xi.

    Аналогично проводится определение начального значения латентного параметра трудности задания ?j  по значению Rj. Затем вычисляются стандартные ошибки измерений ? и ?, строятся характеристические и информационные кривые, рассчитывается показатель эффективности заданий и другие параметры. Расчет статистических показателей заданий теста, как правило, проводится по специальным автоматизированным программам и не требует специальной подготовки [197].

    Схематически целевая и эмпирическая функции (для разного числа заданий) в процессе разработки и совершенствования теста за счет добавления заданий показаны на рис. 9. Правило определения длины теста указывает, что в процессе моделирования необходимо собирать статистику и подсчитывать дисперсию индивидуальных баллов тестируемых после каждого удлинения теста, наблюдая за изменением информационной функции теста.

    Как только (при удовлетворительном заполнении области под целевой информационной функцией и при высокой содержательной валидности) дисперсия



    прекращает изменяться, можно найти оптимальную длину теста (Xi – число правильных ответов i – го испытуемого; N – число испытуемых).



    Рис. 9. Динамика информационной функции теста J(?) – информационная функция; ? – уровень знаний

    Апробация теста требует много времени, но обеспечивает высокий уровень качества теста. Верхняя часть кривой отражает стремление разработчиков создать тест, обеспечивающий равную точность оценок испытуемых в заданном интервале оценок на шкале логитов.

    Для обработки статистических данных по результатам применения теста необходимо использовать ту же модель, что и при конструировании теста. Благодаря свойству инвариантности устойчивые оценки параметров тестовых заданий в IRT получаются на любой репрезентативной выборке (порядка 200 человек), даже если она существенно отличается от планируемой. На В –оси латентной переменной – информационная функция в пределах от–3 до +3 логитов соответствует диапазону оценки уровня знаний, определяемого нормативно–ориентированными тестами.

    Следует обратить внимание на то, что при одной и той же спецификации заполнение области кривой под целевой информационной функцией может быть получено разными способами за счет использования разных по трудности тестовых заданий. В разрабатываемом тесте задания варьируются по трудности и дифференцирующей способности на основе одной и той же спецификации теста. Это особенно следует учитывать при создании параллельных тестов, когда крайне важно обеспечить равную трудность различных вариантов в соответствующих точках на оси переменной измерения, при переработках теста, исследованиях эффективности различных форм тестовых заданий, сопоставлении методов отбора заданий из банка и в других случаях. Поэтому необходимы сопоставление эффективности различных тестов и выбор оптимального набора заданий, обеспечивающих планируемые свойства теста.

    Надежность теста снижается при подборе преимущественно легких или трудных заданий, кроме того, тест не отражает содержание учебной дисциплины. Наибольшей могла бы быть надежность теста, составленного из средних по трудности заданий, однако тогда снижаются содержательная валидность и дифференцирующая способность теста. В свою очередь, стремление поднять валидность может привести к снижению надежности. В теории конструирования тестов этот случай достаточно подробно описан Ф. Лордом (F.M. Lord) [242].

    Подбор заданий сбалансированной сложности позволяет удовлетворить требованиям оптимальной надежности и валид–ности теста. Расчет надежности достаточно сложен, а поэтому для практических целей рекомендуется более простой метод. Проводится повторное тестирование испытуемых в одинаковых условиях по одним и тем же тестам, а потом выполняется проверка на коррелирование результатов. При значениях корреляции 0,9 и выше надежность отличная; от 0,85 до 0,89 – очень хорошая; от 0,8 до 0,84 – хорошая; далее – удовлетворительная; ниже 0,5 – неудовлетворительная. В практике применяется очень мало тестов, имеющих надежность 0,8 [2].

    Валидность как пригодность тестов может быть определена экспертами – опытными преподавателями. При этом важно оценить, находятся ли задания в соответствии с программой, полностью ли ее охватывают, соответствуют ли стандарту. В итоге должно быть заключение, пригоден ли тест для оценки уровня подготовки учащихся по конкретной дисциплине (теме, разделу). Если тест по каким–либо параметрам не устраивает разработчика, то вся процедура его конструирования и параметризации повторяется заново. Это достаточно трудоемкая работа, но именно она обеспечивает качество педагогического измерителя.

    Использование большого количества вариантов одного и того же теста и возможность статистической обработки результатов такого тестирования в рамках теории моделирования и параметризации педагогических тестов позволяют получать оценки латентных параметров знаний испытуемых на метрической шкале и сравнивать их между собой для разных выборок испытуемых. Однако, учитывая, что создание параллельных, одинаковых по трудности вариантов практически невозможно, используется методика выравнивания за счет введения во все варианты теста некоторого количества абсолютно одинаковых заданий – узлов, отвечающих определенным требованиям. Это позволяет определять начало метрической шкалы, переносить оценки всех испытуемых на единую шкалу и определять каждому участнику тестирования сертификационный балл. Для этого соответствующие оценки уровня подготовленности испытуемых путем линейных преобразований переводятся на множество натуральных чисел от 1 до 100 (100–балльную шкалу).

    Таким образом, использование IRT приводит к созданию тестов, обладающих несколькими достоинствами:

    • моделирование структуры теста по задачам тестирования;

    • объективные оценки параметра, характеризующего подготовленности испытуемых;

    • устойчивость, обусловленная относительной инвариантностью оценок независимо от трудности заданий теста при достаточном количестве испытуемых;

    • объективность значений параметров трудности заданий, не зависящих от свойств выборки испытуемых, выполнявших тест;

    • измерение значений оценок испытуемых и трудности заданий теста на единой шкале логитов, имеющей свойства интервальной шкалы;

    • возможность с достаточной точностью предсказать вероятность правильного выполнения заданий теста испытуемыми любой выборки до предъявления теста;

    • возможность оценить эффективность различных по трудности заданий для измерения данного значения латентного параметра знаний испытуемых;

    • наличие дифференцированной ошибки измерений;

    • сохранение сопоставимости результатов при проведении тестирования многих групп испытуемых различными вариантами одного и того же теста.

    На рис. 10 представлены параметры и некоторые характеристики отдельных заданий тестов по математике.

    Задания взяты из банка тестовых заданий Центра тестирования, используемых при критериально–ориентированной интерпретации результатов аттестационного тестирования. Данный рисунок является примером того, как можно визуализировать параметры самих тестовых заданий для последующего отбора и включения их в банк тестовых заданий, а затем в конструируемый или совершенствуемый тест. Результаты параметризации приведенных двух заданий указывают на их разные уровни трудности и значения дифференцирующих способностей.

    По характеристической кривой задания 1 половина учащихся, выполнивших задание, приходится на –1,1 логита, а выполнивших задание 2 – на –1,7 логита. Этим же значениям логитов соответ



    Рис. 10. Характеристики тестовых заданий

    ствуют максимумы кривых эффективности заданий. Вид характеристической кривой (крутизна) указывает на дифференцирующую способность задания, т.е. большая крутизна характеристической кривой соответствует большей дифференцирующей способности задания. Задание 1 перекрывает на логистической шкале диапазон примерно от–2,5 до +0,5 логитов с дифференцирующей способностью ?= 1,3, а задание 2 – от–2,5 до–0,5 логитов с 0 =2. Работая с банком таким образом калиброванных заданий, можно их подбором перекрыть любой заранее запланированный интервал на шкале логитов.

    В последнее время в обиход входит такой показатель, как информативность теста, связанный с использованием моделей IRT. Здесь обращается внимание на два ключевых понятия: число заданий теста и уровень подготовленности испытуемого. В данном случае информативность сопрягается с оптимальностью, если по трудности заданий тест соответствует уровню подготовленности учащегося или студента.

    Поэтому для эффективности измерений уровня подготовленности испытуемых и повышения информативности контроля требуется набор тестов различной сложности, оцененных по шкале логитов. Показатель информативности впервые введен А. Бирн–баумом [231]. Считается, что чем больше трудность теста соответствует подготовленности испытуемого, тем больше информации можно получить, соответственно, выше эффективность такого тестирования. Согласно В.С. Аванесову, эффективное тестирование – это обязательно индивидуализированное измерение уровня подготовки каждого испытуемого с помощью теста, оптимального по трудности и минимального по количеству заданий [4].

    В теории и практике тестирования качество тестов, так же как и тестовых заданий, оценивается по таким критериям, как надежность, валидность, дифференцирующая способность и др.

    Оценка параметров трудности заданий и направления улучшения теста показаны на примере параметризации одного из абитуриентских тестов по математике, использованного при централизованном тестировании, и демонстрируют способ визуализации метрических возможностей исследуемого теста. Приведенный ниже пример указывает на возможности визуализации характеристик самого теста, пределы и возможности его использования, оценки недостатков и информацию о том, как на основе имеющегося банка калиброванных тестовых заданий поэтапно провести совершенствовать такой тест как педагогическое измерительное средство.

    Параметризация теста выполняется с помощью современных математических моделей. Характеристические кривые трудности тестовых заданий, полученных таким образом, представлены на шкале логитов (рис. 11). Эмпирические данные тестирования большого числа учащихся (выборка составляла более 200 человек), выполнявших один и тот же вариант теста, обработаны с помощью программных средств [71], в основу которых положена однопараметрическая модель Г. Раша. Это позволило визуализировать структуру трудности теста. Вверху сетки рисунка обозначены номера тестовых заданий, по вертикали – доля выполненных заданий, по горизонтали – уровни трудности заданий теста на шкале логитов в диапазоне от–7 до +7. Видно, что характеристические кривые всех 20 заданий исследуемого нами теста достаточно равномерно распределены вдоль логистической шкалы. Неравномерность видна только на небольших участках в интервалах от–0,78 до–0,5 и от–0,27 до 0,07 логита. Для его совершенствования два промежутка неравномерности на логистической шкале можно заполнить либо корректировкой заданий под номерами 2, 15 и 3, 11, либо заменой их из банка тестовых заданий на другие, более соответствующие диапазону требуемой трудности.



    Рис. 11. Характеристические кривые заданий абитуриентского теста по матем

    Проверка теста на содержательную валидность показывает, что тест достаточно хорошо отображает учебную программу, но его можно еще улучшить, если произвести замену двух заданий 3 и 16 или 4 и 17 на задания из других тем. Коэффициент корреляции заданий с индивидуальной суммой баллов находился в пределах от 0,37 до 0,64, что позволяет считать такой тест и его задания достаточно валидными, хорошо дифференцирующими уровни знаний разных испытуемых. Информационная кривая этого теста симметрична относительно 0 и позволяет использовать тест для проверки испытуемых с уровнем знаний в диапазоне от–2,5 до +2,5 логита, соответствующем требованиям нормативно–ориентированной интерпретации результатов. В соответствии с требованиями абитуриентского тестирования такой тест можно считать качественным.

    Распределение индивидуальных тестовых баллов испытуемых на 100–балльной шкале оказалось близким к нормальному с максимумом в середине оси сертификационных баллов, стандартное отклонение соответствовало значению 4,9. Трудность заданий теста находилась в пределах от–0,78 до 1 логита, среднее значение трудности всего теста составило 0,1 логита.

    В случае использования готового теста с известными параметрами трудности его заданий задача сводится только к оцениванию параметра подготовленности тестируемого. Поскольку у всех обучающихся уровень подготовленности и темп обучения разные, то для развития мотивационно–побудительных стимулов следует подбирать уровень трудности заданий, соответствующий зоне актуального развития обучающегося, а сами задания – посильные для самостоятельного выполнения. В тесте необходимо предусматривать также наличие заданий более трудных, соответствующих зоне потенциального развития учащихся, выполнение которых возможно в сотрудничестве с педагогом. Включение легких заданий и заведомо трудных в процесс обучения неэффективно. Использование в учебном процессе тестов с заданиями известной трудности позволяет активизировать работу всех обучающихся на основе дифференцированного подхода к обучению.

    Основываясь на рассмотренных выше основных положениях теории IRT, можно отметить, что современные технологии тестирования способствуют развитию технологий индивидуализированного обучения. Однако если при традиционных способах обучения учитель самостоятельно определяет зоны развития обучающихся интуитивно во взаимодействии с каждым отдельным учащимся путем опроса или контрольной работы, то технология использования тестов в учебном процессе позволяет с заданной точностью не только учителю, но и каждому обучающемуся определять зону своего развития и работать на грани своих возможностей. Это открывает новые перспективы в организации образовательного процесса на принципах дифференцированного обучения, перестройки взаимоотношений между обучающимися и обучаемыми на основе сотрудничества, доверия и творческой самостоятельности обучающихся. При таком подходе контроль из средства оценки и принуждения к обучению становится средством активизации познавательной деятельности и учебной активности, технологией самообучения и саморазвития. В этой связи возникает проблема методологического характера, связанная с обоснованием оптимальности использования тестов в учебном процессе не только при подготовке к итоговой аттестации выпускников, но и на ранних стадиях обучения. В этой связи в центре внимания находится вопрос об использовании тестовых заданий известной трудности для самообучения школьников, при аттестации и самоаттестации образовательных учреждений.

    3.4. Этапы и алгоритмы создания контрольных измерительных материалов

    Создание качественного теста – процесс длительный, трудоемкий, дорогостоящий. На подготовку качественного итогового теста профессиональные разработчики тратят 1,5—2 года. Как правило, такие тесты создаются творческими коллективами преподавателей вузов и учителей школ под руководством ведущих научно–исследовательских центров, профессионально занимающихся вопросами оценки качества образования и подготовки специалистов, имеющих определенный опыт в этом направлении, а также финансовую поддержку. Высокое мастерство разработчиков современных тестов базируется на наличии у разработчиков достаточно глубоких специальных знаний по теории конструирования тестовых материалов, наличии технического и программного обеспечения, опыте практической деятельности, навыках апробации и параметризации тестов, использовании итерационных этапов совершенствования теста.

    Использование именно таких тестов в образовательной практике особенно эффективно. Однако имеющиеся в методических сборниках тесты не всегда позволяют педагогам решать многообразные, быстро меняющиеся целевые установки проверки качества подготовленности обучающихся в ходе учебного процесса. Кроме того, требуется решение ряда сопутствующих вопросов, связанных с подготовкой заданий в тестовой форме, для активизации учебно–познавательной деятельности обучающихся. Для системного использования тестового контроля в учебном процессе одних лишь тестов, построенных на моделях IRT, недостаточно, поэтому педагоги вынуждены разрабатывать и использовать так называемые авторские тесты. Несмотря на значительные трудовые затраты, необходимые на этапе подготовки тестовых материалов, грамотно составленные контрольно–оценочные средства обеспечат педагогам эффективность работы в последующем. Именно поэтому тестовая культура педагогов должна выстраиваться в русле алгоритмических подходов к созданию контрольно–оценочных средств.

    Как создать педагогический измеритель, обеспечивающий научно обоснованный контроль, какие знания и умения следует формировать, развивать и оценивать у обучаемых, какую систему показателей и критериев оценки качества учебных достижений можно использовать при тестовом контроле, как проводить шкалирование результатов? Эти и другие вопросы сегодня волнуют педагогов, особенно в условиях изменения контрольно–оценочной системы в отечественном образовании.

    Следует отметить, что для создания теста требуется многократное повторение ряда процедур для совершенствования структуры и содержания педагогического измерителя (рис. 12).

    Алгоритм разработки теста (рис. 13) следует рассматривать «как предписание обязательной последовательности определенных действий, направленных на достижение поставленной цели» [145].

    В процессе моделирования теста выделяют несколько последовательных шагов.

    1. Определение цели конструирования теста и выбор подходов к его разработке (нормативно–ориентированный или критериально–ориентированный), планирование содержания теста.

    2. Получение первоначальных представлений об ожидаемом положении на оси измеряемой переменной результатов уровня подготовки данной выборки испытуемых (из анализа предварительной экспресс–диагностики приблизительно задаются наиболее вероятные пределы переменной измерения на шкале логитов для данной выборки).

    3. Выбор планируемой точности измерений. При этом желательно задать стандартную ошибку для всех значений измеряемой переменной в выделенной области на шкале логитов.

    4. Задание формы целевой информационной функции теста на выделенном интервале шкалы логитов с использованием методов математического моделирования теста. Для нормативно–ориентированных тестов она может иметь вид кривой нормаль



    Рис. 12. Последовательность этапов создания теста

    ного распределения. Для критериально–ориентированнь ж тестов целевая информационная функция на оси логитов будет иметь вид треугольника с вершиной в точке, соответствующей пороговому баллу, что позволит отделять испытуемых, не прошедших критерий выполнения теста, от прошедших его.

    5. Выбор планируемого вида распределения уровней трудности заданий теста: прямоугольное (когда все значения параметра трудности распределены равномерно, а каждое значение встречается только один раз), нормальное (значения параметра трудности распределены по нормальному закону) и др.

    6. Отбор заданий, параметры трудности которых равномерно заполняют область под целевой информационной функцией теста. При этом предполагается наличие банка тестовых заданий с устойчивыми оценками параметров, уже полученных методами



    Рис. 13. Алгоритм разработки педагогического теста

    IRT. На практике предпочтение применению математических моделей IRT отдается тогда, когда имеется ряд жестких требований к качеству выборки аттестуемых (итоговая аттестация, вступительные испытания, отбор специалистов и др.). Однако эта задача требует применения программных средств и организации компьютерного процесса оценки трудности тестовых заданий. Необходимо также умения анализировать и интерпретировать полученные данные на основе IRT. В настоящее время для этих целей используются готовые программные продукты.

    7. Добавление заданий при вычислении количества информации в различных точках оси измеряемой переменной для каждого из вновь создаваемых вариантов теста.

    8. Отбор заданий из банка ведется до тех пор, пока информационная функция теста не приблизится в приемлемой степени к теоретически заданной информационной функции модели теста. Отбор тестовых заданий должен быть ориентирован не только на трудность, но и на содержательные элементы, проверка которых планируется в спецификации теста.

    Процедура совершенствования тестов такова, что обеспечивает постоянное обновление состава тестовых заданий путем их выбраковки и замены по результатам очередных тестовых испытаний. Это обусловлено тем, что одной из целей тестирования является объективизация оценки уровня подготовленности выпускников на основе единых требований к средствам и методам контроля. Выполнение этой последовательности шагов предполагает, что предварительно имеются банк параметризированных (калиброванных) заданий и разработанная спецификация, обеспечивающая содержательную валидность теста, согласно требованиям которой содержание тестов должно полностью соответствовать целям проверки: вступительные экзамены, олимпиада, текущий или рубежный контроль, аттестация образовательного учреждения и др. В первом случае задания должны быть достаточно трудными, в последнем – легкими. Однако при одинаковой трудности заданий теряется понятие теста как педагогического измерителя – задания должны быть нарастающей сложности и достаточной дифференцирующей способности.

    Методика разработки педагогических измерителей в зависимости от поставленных целей должна обеспечивать достижение ряда качественных характеристик теста: содержательной валидно–сти, высокой надежности, требуемой трудности, максимальной дифференцирующей способности в широкой области на оси измеряемой переменной уровня подготовки тестируемых.

    Сообразно выстроенному подходу планируется структура теста. При этом заданную структуру соблюдают во всех вариантах.

    Успех создания теста во многом зависит от правильности выделения укрупненных единиц знаний по учебной дисциплине, этим же определяется и длина теста, так как число заданий должно ограничиваться разумными пределами, но в то же время желательно максимально отобразить содержание контролируемого учебного материала.

    Для тестов нормативно–ориентированной интерпретации соблюдается несколько важных условий, учитываемых при проведении апробации:

    • нормативная (апробационная) группа должна адекватно отображать генеральную совокупность учащихся;

    • статистические показатели тестовых заданий (уровень трудности, дифференцирующая способность, коэффициент корреляции) обязательны при отборе заданий для включения их в тест;

    • тестовые баллы должны иметь значительную дисперсию по значениям трудности;

    • распределение тестовых баллов должно иметь вид, близкий к нормальному;

    • индивидуальные результаты испытуемых должны сопоставляться со статистической нормой, полученной в процессе параметризации теста.

    К числу необходимый условий подготовки критериально–ориентированных тестов относятся:

    • четкое, детализированное определение области контролируемого содержания для более репрезентативного подбора заданий;

    • отличие от нормального распределения тестовых баллов и их низкая вариативность;

    • заранее установленные критериальные баллы, отражающие требования стандартов к освоению содержания предметных областей;

    • достаточно слабая дифференцирующая способность тестов вблизи критериального балла.

    После уточнения целей тестирования проводится уточнение спецификации на разработку теста, которая позволяет задать структуру теста в виде таблицы, отражающей номера тем, изучаемое содержание, число заданий по вопросам темы, сквозную нумерацию заданий по вопросам. Спецификация позволяет установить, охватывает ли тест (субтест) репрезентативную выборку конкретных умений, навыков и знаний и свободно ли его выполнение от влияния посторонних факторов.

    Насколько спецификация может быть информативна и важна, видно из примера требований к спецификации на разработку нормативно–ориентированных тестов абитуриентского тестирования ( www.ege.ru ):

    1. Цель создания теста, абитуриентское тестирование для итоговой аттестации и отбора абитуриентов в вузы, аттестационное тестирование для засчитывания результатов в общеобразовательных учреждениях.

    2. Исходные документы – временные требования к обязательному минимуму содержания (с указанием года и места издания), программы вступительных испытаний (с указанием года и места издания), перечень используемых разработчиком базовых и вариативных учебников (с анализом их на соответствие базовым программам).

    3. Число заданий в каждом варианте теста.

    4. Число вариантов теста.

    5. Тип заданий с указанием количества и процентного содержания заданий каждой формы.

    6. Число ответов к заданиям закрытой формы (с выбором одного правильного ответа либо нескольких правильных ответов).

    7. Рекомендуемый автором вес заданий каждой формы при подсчете баллов тестирования, рекомендации по засчитыванию вариативных заданий.

    8. Рекомендуемое время выполнения теста и среднее время выполнения заданий разных форм.

    9. Структура теста по разделам (содержательным линиям) и видам деятельности испытуемых (знаниям, умениям и навыкам) с подробной расшифровкой. Анализ значимости тем (большим количеством заданий должны быть представлены темы, изучение которых завершено или наиболее важно для дальнейшего обучения).

    10. Методика формирования параллельных вариантов тестов.

    11. Рекомендации автора по срокам апробации.

    12. Общая характеристика охвата тестом требований программы и рекомендации по дополнительным формам проверки в случае необходимости.

    13. Степень стандартизации теста и возможность его компьютерной обработки, требования к программным продуктам, используемым для обработки результатов тестирования, выведения тестового балла участникам тестирования, составления статистического отчета и визуализации его содержания.

    Именно последнее качество теста определяет эффективность воздействия результатов тестирования на различные звенья системы образования. Важным моментом также является подготовка валидного теста, для чего по содержанию учебной дисциплины проводится отбор тем, разделов и вопросов, значимых для проверки усвоения знаний, который, по существу, является отбором основных укрупненных единиц учебного материала. На основе этого составляется спецификация будущего теста (приложение), где отражается, какие знания, умения и навыки должен проверить и измерить тест, задается его структура (табл. 1).

    Содержание теста должно однозначно отвечать требованию определенности содержания данной дисциплины и логичности процедуры измерения. Анализ содержания дисциплины необходим также для выделения предметной принадлежности (предметной чистоты) при построении тестовых заданий, которые бы по возможности не включали знания из других дисциплин (кроме интегративных тестов). Так как содержание теста зависит от целей тестирования и от объема контролируемого учебного материала, то соответственно этому меняется тип теста (гомогенный, гетерогенный, интегративный, адаптивный и др.). Таким образом, тест создается для решения вполне определенных задач, а потому и валиден (пригоден) только при использовании для решения именно этих, а не каких–либо других задач. Необходимо также иметь в виду, что на результаты тестирования существенное влияние оказывает срок проведения тестирования, он должен соответствовать этапу обучения.

    Таблица 1


    Основные принципы отбора содержания: значимость и научная достоверность учебного материала; соответствие содержания уровню современного состояния науки по изучаемой дисциплине; репрезентативность элементов содержания контролируемого материала; вариативность; системность; комплексность и сбалансированность элементов знания; взаимосвязь содержания и формы тестовых заданий. В работах С.И.Архангельского обращается внимание на два начала в содержании теста: научное и учебное [12]. Научное отображает процесс развития науки и ее применимости, а учебное – принципы формирования системы знаний. При этом следует помнить, что форма тестовых заданий выступает как способ организации, упорядочения и отражения содержания дисциплины в содержании теста [2]. Как уже отмечалось ранее, в условиях быстро изменяющегося мира и глобализации знаний зачастую используются обобщенные понятия, модели и представления, поэтому проблемы семантики в образовании и контроле выходят на одно из первых мест, а выделение укрупненных и обобщенных единиц контролируемого содержания является при этом одной из важнейших задач.

    Сформулируем принципы анализа содержания дисциплины и выделения контролируемых единиц для включения их в содержание теста:

    • взаимосвязь тестового контроля и обучения необходима, так как обучение без последующего тестирования неэффективно, потому что только систематический контроль показывает, в каком направлении нужно корректировать дальнейшее обучение и развитие обучающегося;

    • научность и эффективность создания педагогических измерителей на основе требований современной тестологии: включения в содержание тестовых заданий только истинных знаний и исключения спорных (важно при контроле, при обучении спорные знания являются основанием для проблемного построения занятий), сопоставления содержания дисциплины с современным состоянием науки, проверки результатов тестирования на надежность и валидность, использования стандартизированных тестовых материалов для проверки уровня учебных достижений на тех стадиях обучения, для которых эти материалы подготовлены разработчиками;

    • систематичность и всесторонность, обусловленные научно обоснованной периодичностью контроля, согласованием целей и результатов его различных видов – текущего, рубежного, тематического и итогового;

    • значимость предполагает отбор наиболее важных, ключевых знаний по содержательным элементам и базовым основаниям, необходимым для изучения других дисциплин;

    • репрезентативность предписывает необходимость включения в содержание теста научно достоверных сведений с учетом полноты и достаточности объема контролируемого материала;

    • вариативность содержания предполагает постоянное изменение, переконструирование и совершенствование содержания тестов в соответствии с развитием науки и изменением образовательных стандартов;

    • комплексность и сбалансированность содержания теста – отображение основных тем учебного курса, сочетание теоретических, исторических, фактологических и практических знаний;

    • взаимосвязь содержания и формы как органическое соединение содержания заданий с наиболее приемлемой формой их представления (закрытая, открытая, со свободным конструированием ответа, эссе или другая), вне тестовых форм его заданий о тесте вообще говорить нельзя;

    • возрастающая трудность контролируемых знаний в пределах тематической завершенности отдельных частей теста или субтеста;

    • оптимальность числа заданий теста диктует необходимость жесткого отбора их содержания (так как в один тест невозможно вложить для контроля все содержание учебной дисциплины, то отбирается только то основное, что учащиеся или студенты должны четко усвоить к моменту контроля);

    • объективность нацеливает на необходимость подготовки тестов, одинаковых по уровню трудности для всех испытуемых, устранения субъективизма и предвзятости;

    • справедливость и гласность означают одинаково благожелательное отношение ко всем испытуемым, открытость всех этапов тестирования, своевременность ознакомления с результатами испытания.

    К перечисленным выше принципам следует добавить принцип логической определенности содержания задания, согласно которому задание является логически определенным, если большинство знающих учащихся находят правильный ответ, а незнающие не могут выбрать (угадать) правильный ответ на задание.

    Для задач педагогического измерения, отбора содержания учебной дисциплины и формирования оптимального числа единиц знания имеются классификации контролируемых знаний и способностей, разработанные Б. Блумом [232] и Р. Гагне (R. Gagne) [236]:

    1) знание названий и имен;

    2) знание смысла названий и имен;

    3) фактуальные знания;

    4) знание определений;

    5) сравнительные и сопоставительные знания;

    6) классификационные знания;

    7) знание противоположностей, противоречий, синонимичных и антонимичных объектов;

    8) ассоциативные знания;

    9) причинные знания и знания причинно–следственных отношений, оснований и принципов классификации;

    10) процессуальные, алгоритмические, процедурные знания;

    11) технологические знания;

    12) обобщенные, системные знания;

    13) оценочные знания;

    14) вероятностные знания;

    15) абстрактные знания;

    16) структурные знания;

    17) методологические знания.

    Следующим шагом при создании теста является выбор на основе использования математического аппарата IRT модели теста, обеспечивающей планируемую точность определения уровня учебных достижений испытуемых и корректные оценки параметров тестовых заданий. Под моделированием теста понимают наполнение созданной модели тестовыми заданиями согласно предварительно заданной информационной функции, отражающей цели тестирования.

    Важным фактором, влияющим на надежность, следует считать длину теста, которая должна, по оценкам отечественных и зарубежных исследователей, составлять не менее 40—50 заданий. Приходится учитывать, что по мере роста длины теста увеличивается утомляемость испытуемых и снижается их мотивация к выполнению заданий теста, что в совокупности вместо ожидаемого уменьшения ошибки измерения приводит к ее росту. Поэтому при выборе оптимальной длины теста обычно учитывают группу факторов, способствующих успешному выполнению теста, высокой дисперсии тестовых баллов и нормальности их распределения: форму тестовых заданий, время тестирования в соответствии с физиологическими возможностями испытуемых и другими ограничениями организационного характера.

    Согласно данным международных сравнительных исследований (IAEP, TIMSS) [101], принято следующее распределение времени на выполнение заданий различного типа: выполнение задания с выбором ответа в среднем требует до минуты, выполнение задания с кратким ответом – в среднем до 2 минут, а задания с полным ответом – до 5 минут. По международным нормам письменная работа на два урока может включать до 50 заданий с выбором ответа, что позволит при прочих условиях обеспечить приемлемую надежность теста. Нахождение длины теста является одним из методов повышения его надежности.

    При создании теста вначале идет отбор контролируемого содержания и подбор заданий требуемой трудности и логической правильности содержания, проверяется их эффективность, оценивается возможность приведения их к технологичному виду для автоматизированной обработки. После отбора дидактических единиц контролируемого материала, вариативных по элементам содержания и трудности, задания формулируют в утвердительной форме, требующей в конце предложения поставить неизвестное.

    По мнению большинства тестологов, именно тип представления контролируемого содержания учебного материала в тестовом задании определяет степень педагогического воздействия на испытуемого в процессе контроля, раскрывает требования к ответу, задает внутреннюю логику и педагогический замысел контроля [126, 195]. В этой связи для подготовки тестовых заданий используется ряд логических и методических оснований: противоречие; противоположность ответов; однородность формулировок, когда требуется отбирать варианты ответов, относящиеся к одному роду, виду или явлению; способы кумуляции, относящихся к одному роду, виду или явлению; способы кумуляции, когда каждый последующий ответ вбирает в себя содержание предыдущего; фасетность, позволяющая создавать сразу несколько вариантов на базе одного и того же задания; импликация, способствующая выяснению понимания причинно–следственных отношений в процессах и явлениях; сочетание этих и других приемов в одном и том же задании.

    В соответствии с современными требованиями для более эффективного измерения знаний в одном тесте одновременно используются несколько различных форм тестовых заданий: с выбором ответа, со свободным ответом, экспериментальные задания, задания–эссе и др. Считается, что в тестовом задании данной формы должно быть 4—5 вариантов ответов, тогда вероятность угадывания правильного ответа может быть ничтожно малой. Ее можно рассчитать по биноминальному закону:

    P = Cnm pmqn–m,

    где n – количество заданий в тесте; m – количество угаданных правильных ответов; р – вероятность угадывания правильного ответа в каждом задании; q – вероятность получения неправильного ответа [208].

    В вопросах с альтернативными вариантами ответов увеличение числа заданий в тесте при четырех или пяти альтернативах в каждом задании существенно уменьшает возможность угадывания с вероятностью, близкой к нулю (табл. 2).

    Таблица 2

    Вероятность угадывания в зависимости от числа альтернативных вариантов ответов



    Еще один достаточно простой метод коррекции индивидуальных баллов с учетом угадывания правильного ответа осуществляется по формуле:


    где Xi  – скоррекшрованный балл i – го испытуемого; Xi – тестовый балл до коррекции; Wi – число неправильно выполненных или пропущенных заданий; n = Xi + Wi – число заданий в тесте; а m – число предложенных ответов на задание [245].

    Например, для теста из 60 заданий с пятью ответами, если тестируемый выполнил правильно 50 заданий, то скорректированный балл будет равен 48. Если же выполнено только 40, то после коррекции получим 35 баллов, а если выполнено только 30, то всего 23 балла. Таким образом, при необходимости (при малом числе дистракторов) можно внести коррекцию на случай их угадывания и из окончательного результата (суммы баллов) вычитать вероятное число баллов, которое может быть набрано за счет угадывания. Однако справедливее использовать достаточное количество дистракторов (к каждому заданию 4—5), которого вполне достаточно для необходимого снижения вероятности угадывания правильного ответа.

    Важное значение для получения истинного результата педагогических измерений имеет техника тестирования, подразумевающая ряд требований, основная часть которых справедлива для любых видов или форм тестовых заданий и должна учитываться при их подготовке:

    • из текста задания должны быть убраны всякая двусмысленность и неясность формулировок, используется только логическая форма высказывания;

    • формулировка задания должна быть краткой и состоять из одного предложения (семь–восемь слов);

    • синтаксическая конструкция должна быть предельно простой, допускается не более одного придаточного предложения;

    • основной текст задания должен содержать почти все необходимые слова, а для ответа остаются одно, два, максимум три слова, ключевых для данной проблемы, – правильная форма задания;

    • все ответы на задание должны быть однотипны и одинаковой длины, соблюдается наличие определенного места для ответа;

    • из текста убираются все вербальные ассоциации, способствующие угадыванию правильного ответа;

    • соблюдается правильность расположения элементов задания;

    • частота номера места правильного ответа в разных заданиях теста должна быть равновероятной;

    • не рекомендуется в ответы вводить слова «все», «ни одного», «никогда», «всегда»;

    • из числа неправильных исключаются ответы, вытекающие один из другого или выясняющие мнение тестируемого по какому–либо вопросу;

    • одинаковость правил оценки ответов распространяется на все задания;

    • для всех испытуемых дается одинаковая инструкция, адекватная форме и содержанию задания.

    Самыми распространенными являются задания с выбором одного или нескольких правильных ответов. Как правило, это задания закрытой формы.

    В заданиях закрытой формы выделяют основную часть утверждения, содержащую постановку проблемы, и готовые ответы, сформулированные разработчиком теста. Среди нескольких ответов чаще всего только один бывает правильным. Эта форма тестовых заданий удобна для автоматизации контроля знаний и хорошо воспринимается тестируемыми. В заданиях этой формы широко используется принцип вариативности (фасетности). Особенности и примеры заданий с разными принципами композиции приведены в приложении 2.

    В последнее время в отечественной и зарубежной практике рекомендуется использование в тесте нескольких разных форм тестовых заданий. Соблюдение принципа единства формы достигается тем, что задания разных форм группируются в отдельные обособленные части тестов (субтестов), в каждой группе одинаковых по форме заданий соблюдается принцип адекватности инструкции форме и содержанию заданий, позволяющий довести до сознания испытуемого все требования, заложенные в содержании задания. Это особенно важно при создании контрольно–оценочных материалов для итоговой аттестации и единого государственного экзамена. В этих тестах практикуется использование трех форм: задания «А» – закрытой формы, задания «В» – открытой формы и «С» – задания–эссе. Число заданий типа «А», как правило, достигает 50—60% общего числа заданий теста. Вторыми по технологичности являются задания открытой формы «В» со свободно представляемым ответом (число, слово и т.д.), их количество достигает 25—30%. В последнее время широко используются задания типа эссе (10—15%), как правило, ответы на них конструируются в свободной форме и проверяются экспертами.

    Для удобства конструирования тестов создается банк комбини–рованых заданий, в котором они располагаются определенным образом по статистическим характеристикам. Общим подходом к созданию банка заданий является их калибровка – процесс определения устойчивых характеристик заданий, позволяющих согласно теории IRT заранее планировать надежность тестов. Одним из важнейших признаков распределения заданий в банке является содержание предмета в виде разделов, подразделов и тем. В каждом разделе (подразделе или теме) банка задания распределяются по типам тестовых форм. Каждому заданию даются полные тексты, правильный ответ, дистракторы, алгоритм решения или этапы конструирования правильного ответа. Затем приводятся тестологические характеристики качества заданий: показатели содержания, показатели использования, статистические показатели.

    Показатели содержания – номера раздела, подраздела и темы; тип трудности задания (1 – задания на достижение требования стандарта; 2 – задания, превышающие уровень требований стандарта; 3 – задания повышенной сложности; 4 – олимпиадные задания); требуемый уровень знаний, умений и навыков (1 – воспроизведение; 2 – решение по образцу; 3 – творческий уровень); указание на возможности использование в фасете.

    Показатели апробации – представления о выборке учащихся апробационного тестирования; процент верных ответов для групп учащихся с разной подготовкой тестируемых; среднее время выполнения задания.

    Статистические характеристики – результаты дистракторного анализа (как часто в качестве правильного ответа выбирался тот или иной дистрактор); показатели корреляционного анализа (для нормативно–ориентированных тестов); статистические показатели трудности и дифференцирующей способности задания.

    Для удобства работы с банком тестовых заданий в последнее время используют два вида информации для каждого задания банка:

    • стартовый набор характеристик – код темы, контролируемый элемент содержания, порядковый номер требования образовательного стандарта, авторская оценка трудности задания, уровень знаний и умений, рекомендуемое время выполнения, правильный ответ, ссылка на первоисточник, тип задания, критерии оценки выполнения задания;

    • результаты статистической обработки – число тестируемых, не давших правильный ответ, параметр трудности, распределение ответов по дистракторам, информационная функция и характеристическая кривая задания, дифференцирующая способность, парамеры трудности для пограничных групп тестируемых, точечно–бисериальные коэффициенты корреляции ответа и дистракторов, другие результаты статистической обработки [17, 136, 200].

    Для этого используется стандартизированное тестирование, благодаря которому достигается сопоставимость результатов разных массивов испытуемых и появляется возможность выражения тестовых баллов в относительных показателях для различных вариантов тестов [219]. Стандартизация (от англ. standard – типичный, нормальный) в приложении к тестированию – это унификация и приведение к единым нормам характеристик тестов, процедуры тестирования и оценивания.

    В системе тестирования используется несколько форм стандартизации:

    • типов тестовых заданий, методик их разработки и комплектования в пакеты параллельных тестов;

    • способов проверки надежности, валидности тестов, их апробации, отбраковки некачественных тестовых заданий, процедуры совершенствования структуры теста;

    • способов обработки результатов тестирования, процедуры проведения, методики количественного и качественного анализа результатов тестирования;

    • процедуры проведения тестирования, унификация инструкции, бланков, тестовых материалов, условий проведения тестирования;

    • целей тестирования и категорий испытуемых;

    • подсчета баллов по результатам тестирования.

    Процесс тестирования стандартизируется, если выполняется ряд требований:

    • инструкции к одной форме заданий даются одними и теми же словами;

    • ни одному тестируемому не дается преимуществ перед другими;

    • система подсчета баллов применяется одинаково ко всем испытуемым;

    • тестирование всех групп испытуемых проводится в одно время;

    • все испытуемые получают одинаковые по содержанию и трудности задания.

    При этом подготовка к тестированию также предусматривает ряд требований:

    • организацию контроля согласно разработанной инструкции;

    • предварительную подготовку испытуемых к тестированию;

    • создание соответствующих условий для проведения тестирования (место, техника, приборы, программно–методические материалы);

    • создание благоприятных психологических условий;

    • представление теста в эффективной форме;

    • оптимизацию системы подсчета баллов, методов их представления и интерпретации результатов.

    Кроме того, следует учитывать, что точность тестовых оценок возрастает по мере повышения однородности (гомогенности) содержания теста, когда содержание всех заданий нацелено на измерение одной и той же переменной.

    В табл. 3 приведен один из вариантов матрицы тестирования, которая позволяет не только зафиксировать общее количество баллов, полученное каждым тестируемым, но и провести качественную оценку содержания знаний, усвоенных испытуемыми.

    Таблица 3

    Матрица результатов тестирования



    Из практики применения тестов следует, что чем более массовый характер имеет тестирование, тем большее число задач оно решает, тем более ответственны процедура и результат тестирования, больше вероятность получения ошибочных выводов при использовании некачественных контрольно–оценочных материалов. Именно поэтому для массовых обследований необходимо разрабатывать и использовать качественные педагогические измерители, применять современные технологии обработки, оценивания, анализа и интерпретации результатов тестирования. Это правило создает границы применимости различных по качеству текстов: авторских претестовых заданий для текущего контроля; стандартизированных тестов для массовых проверок учебных достижений школьников; итоговой аттестации выпускников или отбора абитуриентов.

    Применение авторских тестов на локальном уровне возможно, но их тиражирование может иметь следствием получение недостоверных результатов на больших выборках испытуемых. Сегодня на уровне регионов и территорий для аттестации и определения качества образовательных учреждений, как правило, используются авторские контрольно–оценочные материалы, не позволяющие определять качество и, тем более, сравнивать показатели разных образовательных систем между собой.

    3.5. Методы шкалирования результатов тестирования

    Развитие и внедрение современных тестовых методов и технологий остро ставит вопрос необходимости совершенствования техники обработки результатов тестового контроля. Проблема надежности шкалирования результатов тестирования в педагогических измерениях так же важна, как подготовка качественного теста или техника тестирования.

    В самом широком смысле измерение сводится в конечном счете к припис^гванию чисел измеряемым объектам или событиям согласно определенным правилам. Правила устанавливают соответствие между некоторыми свойствами объектов и чисел, позволяющее сравнивать между собой эти объекты по состоянию измеряемого свойства. В зависимости от целей измерения и сопоставления тех или иных объектов выбираются различные правила, отображающие различные свойства объектов. Переменные различаются тем, насколько хорошо они могут быть измерены или, другими словами, как много измеряемой информации обеспечивает их шкала. Всякий раз при измерениях нужного свойства выбирают соответствующую измерительную шкалу. Шкала – это средство фиксации результатов измерения определенных свойств объектов путем упорядочения их в определенную числовую систему, в которой отношение между отдельными результатами выражено в соответствующих числах. Очевидно, в каждом измерении всегда присутствует некоторая ошибка, определяющая границы «количества информации», которое можно получить. Другим фактором, определяющим количество информации, содержащейся в переменной, является тип шкалы, в которой проведено измерение.

    В образовательной практике выделяют четыре основных вида шкал, получивших наиболее широкое распространение: номинальная, порядковая (ординальная), интервальная, относительная. Согласно С.С. Стивенсу, они получили следующие названия: шкала наименований, шкала порядка (ранговая шкала), интервальная шкала и шкала отношений [172]. Измерения на первых двух шкалах считаются качественными, а на двух других – количественными. Шкалы качественных измерений называют дискретными, а количественных – непрерывными. В каждой из этих шкал определены свойства чисел, приписываемых объектам. По этим признакам шкалы перечислены в таком порядке, что в каждой последующей, кроме свойств предыдущей шкалы, добавляются и новые. Поэтому чем больше порядок шкалы, тем больше арифметических действий разрешается проводить над числами, приписанными объектам на этих шкалах.

    Номинальная, или шкала наименований, самая простая, например: зачет – незачет. Номинальные переменные используются только для качественной классификации. Это означает, что данные переменные могут быть измерены только в терминах принадлежности к некоторым, существенно различным классам, при этом определить количество или упорядочить эти классы невозможно. Типичные примеры номинальных переменных – пол, национальность, цвет, город и т.д. Часто номинальные переменные называют категориальными. Шкала наименований устанавливает критерии, позволяющие распределить измеряемые объекты по состоянию измеряемого свойства на несколько классов (или категорий). При этом каждый объект должен попасть в определенный класс, в котором объектам приписывается одно и то же число. Объекты одного класса считаются одинаковыми по состоянию измеряемого свойства. Примером является дихотомическая шкала: выполнившие задание получают число 1, а невыполнившие – 0. Методы обработки таких результатов оценивания знаний называют статистикой качественных признаков. Данные, соответствующие номинальным шкалам, составляют наблюдаемые значения частот появления каждой из разновидностей изучаемой переменной. Эти результаты, как правило, используются при построении матриц результатов педагогических измерений.

    Порядковые шкалы (например, пятибалльная) – это шкалы, результаты измерений по которым невозможно сравнивать между собой. Порядковые переменные позволяют только ранжировать (упорядочить) объекты, указав, какие из них в большей или меньшей степени обладают качеством, выраженным данной переменной. Однако они не позволяют сказать на сколько больше или на сколько меньше один результат отличается от другого. Само расположение шкал – номинальная, порядковая, интервальная – является примером порядковой шкалы. В пределах порядковых шкал можно только упорядочить объекты в порядке возрастания или убывания оценок измеряемых параметров. На такой шкале оцениваются только качественные признаки объектов, например оценка А > В, или медианный объект, который по измеряемому свойству переходит за 50%. Число, приписываемое такому объекту, называется медианой и принимается за меру центральной тенденции грутты объектов [121].

    Шкала более высокого уровня называется интервальной (или шкалой равных единиц). Интервальные переменные позволяют не только упорядочить объекты измерения, но и численно выразить и сравнить различия между ними. Например, температура, измеренная в градусах Фаренгейта или Цельсия, образует интервальную шкалу. Она позволяет сказать, что температура 40 градусов выше, чем температура 30 градусов, и что увеличение температуры с 20 до 40 градусов вдвое больше увеличения температуры с 30 до 40 градусов. Интервальная шкала – количественная, можно задать разность оценок 1 – Х2 ), абсолютное значение которой трактуется как расстояние между двумя элементами множества, выраженное в определенных единицах. Для такой шкалы характерно отсутствие начала отсчета, равного нулю, но допустимы различные арифметические действия над числами. Эта шкала задает взаимное положение измеряемых объектов относительно друг друга, но не показывает расположение объектов относительно начала координат. Так, например, разности баллов 48 – 45 и 5 – 2 одинаковы, а смысл их разности может быть различным. К результатам измерений на такой шкале применимы почти все статистические операции.

    Интервальная метрическая, или нормальная, – это такая шкала, у которой задано начало отсчета. На такой шкале можно определить не только метрики (единицы измерения), как на интервальной шкале, но и понятие нормы (местоположения от начала координат). В современной теории педагогических измерений перевод «сырых» баллов («сырые» баллы дают оценки на порядковой шкале обычно в числе правильно выполненных заданий) производится на интервальную шкалу, учитывающую степень трудности выполненных заданий. Для визуализации такой шкалы можно представить уровни трудности тестовых заданий ?j  и профили ответов, соответствующих подготовленности ?i (рис. 14).



    Рис. 14. Условный вид шкалы уровней трудности тестовых заданий и уровней подготовленности испытуемых

    Шкала отношений позволяет получать самый высокий уровень измерений: допускает не только приписывание числа измеряемому объекту, но и все арифметические действия над этими числами и статистические операции, а также устанавливает равенство отношений чисел, приписываемых объектам, что вытекает из фиксированного положения нуля. Любая интервальная шкала может использоваться в качестве шкалы отношений, если в рамках проводимого измерения задать начало отсчета. Относительные переменные очень похожи на интервальные переменные. В дополнение ко всем свойствам переменных, измеренных в интервальной шкале, их характерной чертой является наличие нуля. Таким образом, для этих переменных являются обоснованными предложения типа: Х в два раза больше, чем Y. Типичными примерами шкал отношений являются измерения времени или пространства. Например, температура по Кельвину образует шкалу отношения, можно не только утверждать, что температура 200 градусов выше, чем 100 градусов, но и что она вдвое выше. Интервальные шкалы (например, шкала Цельсия) не обладают данным свойством шкалы отношения. Заметим, что в большинстве статистических процедур не делается различия между свойствами интервальных шкал и шкал отношения. На шкале отношений к полученным результатам применимы все известные понятия и методы математической статистики.

    Содержательная статистическая обработка и интерпретация результатов измерений по этим шкалам могут быть только в том случае, когда методы обработки адекватны тем шкалам, к которым отнесена исходная информация. Методологией любого исследования по измерению и оценке результатов обучения является вероятностный подход, а методикой – применение аппарата математической статистики (см. приложение 3) [20, 36, 46, 89—92, 198, 233, 229]. Как понятие качества подготовленности оценка на шкале педагогических измерений имеет два основных смысла: суждение о ценности полученного знания и приблизительную характеристику некоторой величины – подготовленности [73, 183, 204].

    Особенно важно использование различных шкал при тестировании, что, собственно, и делается при расчете сертификационных или тестовых баллов. При этом эффективность тестовых оценок зависит не только от качества теста, но и от используемых методов сравнения и интерпретации первичных («сырых») баллов. Стремление выявить истинные уровни знаний испытуемых, получить возможность сравнивать эти уровни между собой даже тогда, когда они определены по разным тестам, привело исследователей к разработке новых методов интерпретации результатов тестирования. Одной из сильных сторон тестового метода является не оценивание абсолютных результатов подготовленности, а измерение уровня учебных достижений обучающихся.

    Это особенно важно при приеме в вузы, итоговой аттестации учащихся и диагностике качества их подготовленности.

    Шкалированием принято называть комплекс вопросов, связанных с отображением на определенной шкале с единой метрикой латентных характеристик трудности всех заданий теста и выставлением каждому участнику тестирования окончательного балла, отображающего уровень его учебных достижений в заданной области знаний вне зависимости от того, в какой группе и над каким вариантом работал испытуемый.

    При исследованиях предлагается учитывать ряд педагогических гипотез статистического типа: результаты выполнения одной и той же группой испытуемых различных заданий одинакового уровня не имеют существенных различий, а наблюдаемое различие объясняется случайными причинами; результаты двукратного выполнения одной и той же группой одного и того же задания существенно различаются, эти различия нельзя объяснить только случайными причинами; результаты выполнения одних и тех же заданий учащимися городских и сельских школ существенно различаются, фактор расположения школы (в определенном социуме) влияет на успеваемость учащихся.

    Основной целью современного педагогического тестирования является надежное измерение уровня учебных достижений испытуемых в определенной области знаний. Традиционные методы тестирования (классические) используют порядковые шкалы, отличающиеся друг от друга длиной, масштабом и значением центрального индекса. Балл тестируемого определяется количеством правильно выполненных заданий А из общего числа заданий К. Тогда отношение А/К можно выразить в процентах и получить 100–балльную шкалу, называемую процентной.

    Окончательный балл участников тестирования зависит от относительных успехов каждого по сравнению с успехами других. Такие шкалы называют процентильными. Как и процентные, они имеют ранговый смысл. Недостатком этих шкал является невозможность сравнения полученных результатов между распределением результатов разных выборок тестируемых. В этих случаях требуется стандартизация измерений, избавляющая баллы от особенностей различных выборок испытуемых и позволяющая сопоставлять баллы на единой шкале. Для этого используется нормированная шкала. Она создается путем отношения всех эмпирических частот распределения первичных баллов к одному и тому же модельному распределению (центрированному и нормированному) – нормальному. Нормы – это множество показателей, которые устанавливаются эмпирически соответственно тому, как выполняет задания теста некоторая, четко определенная выборка тестируемых. Разработка и процедуры получения этих показателей составляют процесс стандартизации теста. Наиболее распространенными являются среднее арифметическое значение и стандартное отклонение по множеству индивидуальных баллов выборки стандартизации. При этом предполагается, что эмпирическое распределение баллов мало отличается от нормального [9]. Соотнесение первичного результата с нормами теста позволяет установить, соответствует ли полученный результат среднему или нет.

    К нормам предъявляют ряд требований:

    • норма должна быть дифференцированной, т.е. обучающиеся по разным программам должны сравниваться исходя из разных норм;

    • норма должна быть соответственной, отражающей реальный контингент и реальные требования, вытекающие из современной ситуации в образовании, отражать реальную подготовленность контингента и реальные требования;

    • норма должна быть репрезентативной, обеспечивающей несмещенные нормативные оценки (для ЕГЭ – оценки федеральной выборки) [195].

    Понятие нормы относительное, тесно связанное с качеством выборки, используемой для стандартизации. Поэтому формирование выборки требует особого внимания при стандартизации теста: выборка должна точно отражать категорию испытуемых, для которых предназначен тест; быть достаточно большой и сбалансированной; обеспечивать пренебрежимо малую погрешность измерений. Сохраняя репрезентативность, можно ограничиться выборкой из 200—300 испытуемых. Еще более предпочтительна стратифицированная выборка, отражающая особенности и сочетания разных признаков тестируемых (социальное положение, пол, городские, сельские, с дополнительной подготовкой и без нее и др.). Стратификация обеспечивает представление правильных пропорций страт генеральной совокупности тестируемых. Исходя из этого формирование репрезентативной выборки стандартизации теста предусматривает:

    • стратификацию выборки по наиболее важным переменным не менее чем по четырем уровням или подгруппам;

    • в каждой подгруппе число испытуемых должно быть одинаковым и не менее 100.

    С учетом возможных сочетаний переменных и оснований для стратификации объем выборки стандартизации теста во многих странах достигает 12 000—15 000 испытуемых [76].

    Наблюдаемые результаты выполнения теста дают только «сырые» баллы, не обеспечивающие решение вопросов сопоставимости. Для возможности сопоставимости необходимо произвести перевод «сырых» баллов в одну из метрических стандартных шкал при помощи математических методов и моделей, обеспечив получение тестовых баллов. В основе такого преобразования лежит стремление повысить уровень измерений на интервальной шкале, допускающей упорядочение испытуемых на шкале с фиксированной единицей измерения. Отметим, что повышение уровня измерений путем шкалирования направлено на расширение возможностей интерпретации сопоставимых тестовых баллов, и это не связано с повышением точности измерений.

    Методика перевода первичных баллов в нормализованные допускает замену оценок, выраженных в логитах, на оценки другой шкалы путем линейных преобразований, не нарушающих рейтинг учащихся на логистической шкале. Теоретической основой шкалирования результатов ЕГЭ и централизованного тестирования является современная теория моделирования и параметризации педагогических тестов на основе математических моделей их создания. Можно пользоваться однопараметрической логистической моделью Г. Раша. При этом первичные баллы обеспечивают достаточную статистику. Это означает, в частности, что все испытуемые, набравшие один и тот же первичный балл, получат практически одинаковые и окончательные тестовые баллы по 100–балльной шкале (очень небольшие отклонения от этого правила возможны только за счет непараллельности различных вариантов теста). Создать идеально параллельные тесты практически невозможно. Поэтому существуют методики выравнивания непараллельности различных вариантов теста с тем, чтобы оценки испытуемых, выполнявших разные варианты теста, не зависели от того, более трудный или более легкий вариант они выполняли [134].

    Недостатком модели Г. Раша является то, что обработка результатов тестирования позволяет оценить для каждого тестового задания только одну его характеристику – уровень трудности. Другая характеристика – коэффициент дискриминации – непосредственно не оценивается и заменяется коэффициентом точечной бисериальной корреляции.

    Можно использовать двухпараметрическую логистическую модель А. Бирнбаума, которая позволяет для каждого задания теста непосредственно оценивать и уровень трудности, и коэффициент дискриминации. Это удобно с точки зрения составления базы калиброванных заданий. Что же касается оценок уровня подготовленности испытуемых, то участники тестирования, верно выполнившие одинаковое количество заданий теста и набравшие, таким образом, один и тот же первичный балл, получают разные окончательные тестовые баллы. В этом нет никакой ошибки, результаты соответствуют сути дела, но такие «инверсии» оценок невозможно объяснить широкой аудитории пользователей. Расчет тестового балла при этом подходе производится более изощренным способом и теоретически более обоснован.

    Важно, что при таком шкалировании учитываются свойства как верно, так и неверно выполненных заданий. При этом для легких заданий:

    • за неверный ответ снимается много баллов;

    • за верный ответ добавляется мало баллов.

    Для трудных заданий:

    • за неверный снимается мало баллов;

    • за верный добавляется много баллов.

    Обе модели имеют серьезное теоретическое обоснование, однако их практическое использование в массовом тестировании имеет разный психологический эффект. Вместе с тем такое шкалирование отвечает сути массового педагогического тестирования как контрольно–оценочного процесса и согласуется с особенностями измерений в любой другой области. Отметим некоторые из них, отражающие специфику шкалирования результатов тестирования:

    • сертификационный балл учитывает не только процент верно выполненых заданий теста, но и уровень их трудности, коэффициент дискриминации, характеристики невыполненных заданий;

    • уровень трудности заданий теста и коэффициент дискриминации оцениваются после совместной обработки всех результатов тестирования.

    В общем случае не существует прямой зависимости между количеством выполненных заданий (первичных баллов) и сертификационными баллами, так как невозможно практически обеспечить полную параллельность различных вариантов одного и того же теста; по первичным баллам возможно только ранжировать учащихся, но измерять уровень их знаний нельзя. С математической точки зрения это значит, что шкала, индексами которой является число заданий (число первичных, или «сырых», баллов), является только порядковой, но не метрической, а поэтому первичные баллы являются лишь индикаторами подготовленности учащихся, а не измерителями.

    Окончательный балл получается после обработки результатов тестирования всех учащихся по одному и тому же варианту теста с учетом статистических оценок трудности всех его заданий. Для расчета сертификационного балла используется 100–балльная шкала, обладающая единой метрикой для всех вариантов теста. В частности, для пересчета на 100–балльную шкалу используют формулу


    где: t?  – коэффициент, значение которого выбирается так, чтобы возможность получения высших баллов была регламентирована; ? – среднее квадратичное отклонение подготовленности испытуемых нормативной выборки относительно среднего значения параметра ?с.в; ?i  – уровень подготовленности испытуемого [134].

    Так, например, при коэффициенте 2,5 вероятность получить 100 баллов составляет около 0,01, а при коэффициенте, равном 3, – не более 0,003. Уровень подготовленности каждого участника тестирования и трудность всех заданий теста оцениваются сначала на логистической шкале в интервале от–5 до +5 логитов.

    Начало шкалы логитов «закрепляется» репрезентативной выборкой из 1000 испытуемых, адекватно отражающих структуру генеральной выборки участников тестирования (по регионам, видам образовательных учреждений, городских – сельских и др.). После этого значения оценок в логитах и их средние квадратичные ошибки преобразуются (без деформации метрики) в 100–балльную шкалу для выдачи результатов учащимся и использования в образовательной статистике. Таким образом, сертификационный, или окончательный, тестовый балл является следствием учета не только качества верно выполненных заданий, но и характеристик трудности этих заданий, их дифференцирующей силы (способности к дискриминации уровня подготовленности). При пересчете на тестовые баллы с учетом трудности выполненных заданий следует учитывать, что:

    • невыполнение данного задания по–разному сказывается на изменении сертификационного балла в зависимости от выполнения остальных заданий;

    • верное выполнение одного и того же задания теста по–разному сказывается на росте сертификационного балла в зависимости от качеств остальных выполненных заданий;

    • труднее улучшить высокий результат, чем средний и, тем более, низкий (как в спорте: чем выше планка, тем труднее повышение результата).

    Такой балл имеет основные черты количественной меры, а поэтому позволяет проводить объективное сопоставление результатов, производить математико–статистический анализ, изучать динамику различных образовательных процессов в одних и тех же единицах измерения уровня подготовки учащихся и трудности заданий тестов. Кроме сертификационного балла участникам тестирования может быть присвоен рейтинг, указывающий на процент учащихся, получивших более низкий балл, чем у данного испытуемого. Это позволяет выпускникам оценивать свою конкурентоспособность при поступлении в вузы и участии в конкурсе. Сегодня можно с заранее заданной точностью оценить уровень учебных достижений каждого ученика, класса, школы, района, города, региона, страны с одинаковым подходом к требованиям оценивания результатов учебной деятельности.

    Все это влечет за собой ряд существенных преобразований при определении результатов обучения, в частности перевода «сырыж» баллов в шкалу перцентильных рангов и др. [76]. Появляются сопоставимость и возможность сравнения результатов, полученных испытуемыми при выполнении тестов.

    Понятно, что шкала тем лучше (т.е. тем достовернее), чем она надежнее. Один из способов сделать шкалу более достоверной – просто добавить в нее новые позиции. Однако на практике количество позиций на шкале ограничивается различными факторами (например, респонденты устали и просто не будут отвечать на большое число вопросов, полное пространство ограниченно и т.д.). Для построения надежной шкалы необходима последовательность нескольких действий.

    1. Написать вопросы – исключительно творческий процесс, когда исследователь создает как можно больше вопросов, которые, как ему кажется, всесторонне описывают контролируемое содержание. Теоретически следует выбирать вопросы, связанные с заданной концепцией измерений. В области образовательного и психологического тестирования на этой стадии конструирования шкалы обычно обращают внимание на аналогичные анкеты и опросники для того, чтобы получить максимально полное представление о концепции.

    2. Провести апробацию заданий на начальной выборке типичных респондентов и проанализировать результаты по каждому пункту для построения надежной шкалы и выявления уровня трудности заданий теста. В образовательных и психологических тестах обычно используют вопросы с ответами типа да/нет (или 1/0) – дихотомическая оценка. Надежная шкала состоит из вопросов (позиций), которые пропорционально разделяют ее на интервалы, их называют калиброванными заданиями, т.е. заданиями с известным уровнем трудности.

    3. Из первоначального теста удалить все вопросы, дающие значительные отклонения. После удаления всех вопросов, которые не согласуются со шкалой, можно остаться без достаточного количества вопросов для того, чтобы создать полностью надежную шкалу (напомним, что чем меньше вопросов, тем менее надежна шкала).

    4. Вернуться к первому действию. На практике исследователь часто несколько раз проходит через этапы создания и удаления вопросов до тех пор, пока не придет к их окончательному набору, образующему надежную шкалу.

    При построении шкалы по тесту возникают определенные проблемы, связанные с ее неустойчивостью, в том случае, если тест используется в различное время учебного года либо выполняется испытуемыми различных возрастных групп. Однако и в этих случаях можно предпринять определенные шаги, способствующие повышению устойчивости тестовых шкал. При этом необходимо предположить, что приращение оцениваемого уровня подготовки по предмету происходит равномерно на протяжении всего времени изучения предмета [201].

    В качестве таких шагов при конструировании шкалы зарубежные исследователи предлагают:

    • получить репрезентативную выборку для вычисления устойчивых оценок уровня подготовки испытуемых с известными стандартными ошибками измерения;

    • предъявить тест выборке подходящего возраста и периода обучения, объединив испытуемых выборки в одинаковые возрастные группы и разбив на трехмесячные подгруппы по периодам обучения;

    • определить средний балл для каждой подгруппы, шкалировать результаты;

    • интерполировать шкалированные результаты между соседними средними для тех «сырых» баллов, которые не наблюдались в выборке;

    • экстраполировать результаты с учетом минимального и максимального наблюдаемых баллов для установления возможных границ шкалы по тесту;

    • результаты интерполяции и экстраполяции собрать в таблицу, указывающую шкалированные эквиваленты «сырых» баллов в различных возрастных подгруппах или с учетом определенного периода обучения.

    Информатизация процедур тестирования, обработки и проверки результатов привела к созданию статистических отчетов, позволяющих оперативно получать на единой шкале оценок показатели учебных достижений по различным выборкам.

    3.6. Обоснование структуры контрольных измерительных материалов и подходов к шкалированию результатов

    Наиболее важная сфера создания теста связана с оценкой его содержательной валидности. В отличие от отбора содержания традиционных средств контроля, который в основном производится интуитивно на основании практического опыта педагога, отбор содержания теста как контрольного измерительного инструмента имеет четкую целевую направленность и при условии правильной постановки целей является серьезной заявкой на его высокое качество. Научно обоснованное планирование содержания является важнейшей предпосылкой достижения высокой валидности тестов как контрольных измерительных материалов. При этом процесс валидизации содержания включает три основных компонента: целеполагание, планирование содержания, оценку содержательной валидности экспертными и статистическими методами.

    Планирование теста начинается с целеполагания, которым результаты обучения сопрягаются с целями учебного процесса, представленными в различных таксономических системах. Образно говоря, при создании теста в сознании разработчика содержание контроля преломляется через поставленные цели измерения, и если они сформулированы правильно, то есть уверенность в высокой содержательной валидности теста [197].

    Этап целеполагания при создании валидного теста является наиболее трудным, так как от него в первую очередь зависит качество содержания теста. В процессе целеполагания решается вопрос о том, какие результаты испытуемых следует оценивать с помощью теста. При всей его кажущейся простоте на деле это зачастую оборачивается низким качеством результатов контроля и неправильными выводами о достижении целей обучения. В сложившейся практике при формулировании образовательных целей имеют место излишняя общность, расплывчатость, многообразие и неопределенность, в то время как для создания средств измерения в первую очередь необходима предварительная операцио–нализация целей.

    По мнению М.В. Кларина, операционализация должна начинаться с описания направленности контроля и планируемых результатов воздействия на ученика, прояснения характера воздействия и детализации его результатов [92]. В этой связи он выделяет ряд вопросов, решение которых с необходимостью сопутствует процессу операционализации или конкретизации как выявлению образовательных условий, создаваемых для реализации целей; латентных параметров учащихся и их способностей к усвоению нового учебного материала; качества образовательного процесса. Процесс операционализации заключается в придании содержанию целей характеристик, позволяющих отобразить цели в стандартизованных средствах измерения как по содержанию, так и по форме. В соответствии с поставленными целями каждое задание теста предназначено для проверки у испытуемых уровня владения определенными знаниями, умениями или навыками. Для конкретизации учебных целей Кларин рекомендует использовать глаголы: анализировать, вычислять, высказывать, демонстрировать, знать, интерпретировать, использовать, оценивать, понимать, преобразовывать, применять, создавать и др., а целей творческого типа – варьировать, видоизменять, модифицировать, перегруппировать, перестроить, предсказать, поставить (вопрос), синтезировать, систематизировать. Для обозначения целей в области развития устной и письменной речи – выделить, выразить (в словесной форме), записать, обозначить, подчеркнуть (не в буквальном смысле), продекламировать, произнести, прочитать, разделить (на составные части), рассказать.

    После определения целей тестирования и их конкретизации разрабатываются план и спецификация теста. При разработке плана делается примерная раскладка процентного соотношения содержания разделов и определяется необходимое число заданий по каждому разделу дисциплины исходя из важности раздела и числа часов, отведенных на его изучение в программе. Раскладку начинают с подсчета планируемого исходного числа заданий в тесте, которое затем будет неоднократно меняться в процессе работы над тестом в сторону увеличения или уменьшения. Обычно предельное число не превышает 60 заданий. Определение планируемого распределения оценок трудности заданий теста проводится на основе выделения ряда критериев.

    К примеру, для аттестационн^гх тестов ЕГЭ необходимо наличие:

    • не менее 40% легких заданий, трудность которых обеспечивает 80—90% их выполнения, допускается невысокая дифференцирующая способность;

    • 20% заданий с высокой дифференцирующей способностью вблизи критериального балла (по 10% с каждой стороны), предназначенного для отсева неаттестованных выпускников, а точки сгущения трудности заданий сосредоточены вблизи критериального балла;

    • 60% трудных заданий с высокой дифференцирующей способностью для обеспечения требования нормального распределения оценок на оси измерения для абитуриентов.

    В контрольных измерительных материалах ЕГЭ для дифференциации подготовленности и отбора абитуриентов большой удельный вес в оценке имеют задания части «С», или повышенного уровня со свободным конструированием развернутого ответа; их, как правило, не включают в аттестационную часть теста, так как для аттестации достаточно части «А» с выбором ответа из числа предложенных (закрытые задания) и «В» со свободным ответом. Повышение достоверности решений по отбору абитуриентов в вузы по профилирующим дисциплинам связывается именно с результатами выполнения части «С».

    Процесс совершенствования тестов как контрольных измерительных материалов происходит непрерывно в целях оптимизации их структуры и упрощения процедур шкалирования. Оптимизация КИМов – это процесс максимального упрощения его структуры с опорой на тематическую логику учебного материала для реализации запланированных целей и получения необходимых статистических свойств теста. Такая процедура называется тестологической оптимизацией, она предусматривает:

    • выявление оптимального числа частей и пропорций различных форм заданий в КИМах, адекватных целям тестирования;

    • выявление оптимального числа заданий, определение планируемого распределения заданий по трудности и сопоставление планируемых оценок с эмпирическими данными;

    • анализ расположения точек локализации заданий вдоль оси трудности;

    • определение оптимальной длины каждой части КИМа, компьютерное моделирование теста запланированной надежности и дифференцирующей способности.

    Путем подбора оптимального числа частей КИМа и пропорций различных по формам и трудности заданий могут быть сконструированы различные тесты. Для ЕГЭ по целевым критериям, как правило, планируются две части теста: упрощенная аттестационная, доступная для выполнения большинством выпускников, и усложненная абитуриентская часть теста, обеспечивающая высокую дифференциацию по уровням подготовленности.

    К числу направлений совершенствования КИМ можно отнести:

    • анализ эмпирических данных с целью оптимизации структуры КИМ и выбора адекватных моделей измерения и шкалирования;

    • проведение исследований по стабилизации критериального балла;

    • разработку методики анализа устойчивости шкалы;

    • проведение сравнительных исследований методов выравнивания трудности вариантов КИМ на статистике результатов различных выборок;

    • усиление связи шкалирования и оценивания с содержанием образования;

    • выделение уровней учебных достижений для оценивания на пятибалльной шкале.

    Последние требования тесно смыкаются с основными направлениями совершенствования процедур шкалирования результатов ЕГЭ:

    • адекватность статистических характеристик эмпирических данных используемым моделям педагогического измерения для корректности процедур шкалирования и выравнивания;

    • линейность преобразования первичных результатов в стобалльную шкалу и выравнивания данных по различным вариантам теста;

    • прозрачность процедуры получения шкалированных баллов для пользователей (дети, родители, преподаватели и т.д.), убеждающая их в объективности и обоснованности результатов.

    Каждый бланк ответов на задания в свободной форме проверяется двумя независимыми и специально подготовленными экспертами. В этой связи при шкалировании в качестве промежуточной используют ? –шкалу, не требующую корректной обработки нормального закона и позволяющую учитывать полито–мические данные части «С». Если оценки двух экспертов всех ответов (оцениваемых разным количеством баллов) на задания в свободной форме одного выпускника совпали, то полученные оценки считаются окончательными. В случае, если оценки двух экспертов отличаются незначительно, проводится построение компромиссной оценки, которая считается окончательной.

    Существует параметрическая модель, в которой значимость оценок эксперта зависит от двух параметров. Первый характеризует склонность эксперта к завышению или занижению оценок по сравнению со всеми остальными экспертами, а второй выражает меру непредсказуемости выставления оценок. Параметры названы соответственно: лояльность и согласованность. Исходя из этих параметров строится оценка «веса» каждого эксперта: чем ближе к нулю лояльность эксперта и выше согласованность (ниже нестабильность), тем большим является «вес» данного эксперта. Для каждой дисщипшны задается положительное число S, характеризующее максимально допустимое суммарное отклонение оценок экспертов. Для каждого j – го задания в свободной форме задано число j , характеризующее максимально допустимое различие в оценках пары экспертов. Числа S и tj задаются разработчиками КИМов на основе экспертных оценок и экспериментальных исследований [17].

    Расхождение оценок экспертов считается значительным, если имеет место хотя бы одно из следующих условий:

    • сумма модулей расхождений оценок экспертов по всем заданиям в свободной форме превосходит число S ;

    • расхождение оценок экспертов за j –e задание в свободной форме превосходит tj.

    Методика построения компромиссных оценок основана на условиях:

    • нет никакой априорной информации об экспертах;

    • невозможно провести абсолютную экспертизу качества работы каждого эксперта;

    • вся информация представляет собой набор работ, оцененных двумя, редко тремя экспертами.

    В этом случае определение влияния экспертов на оценку проводится на основе анализа всевозможных парных сравнений с учетом следующих принципов:

    • если эксперт серьезно завышает оценку в сравнении с другими экспертами либо серьезно занижает, то такая оценка учитывается меньше;

    • если эксперт проявляет несогласованность с действиями других экспертов в достаточно большом числе работ, занижает оценку в сравнении с более строгими (менее лояльными) экспертами или завышает в сравнении с более мягкими (более лояльными), то его оценки также учитываются меньше;

    • «веса» экспертов имеют смысл только внутри оцениваемой выборки.

    Для определения «веса» экспертов строится квадратная матрица, элементы которой определяются по формуле:


    где si, sj  – сумма баллов по всем заданиям части «С» по всем работам, совместно проверенным i-м и j – м экспертами; C max – максимально возможная суммарная оценка за эти задания.

    Коэффициент лояльности отражает сравнительную с другими экспертами лояльность i–го эксперта. Построчные суммы этой матрицы делятся на общее число работ, проверенных каждым экспертом, тогда формула вычисления коэффициента лояльности имеет вид


    где Ni – число работ, проверенных i-м экспертом.

    Аналогично для каждого эксперта строится коэффициент нестабильности путем сложения модулей разностей баллов за все задания, в которых он превысил оценку эксперта большей лояльности, чем он сам, и модулей разностей баллов за все задания, в которых он занизил оценку в сравнении с экспертами более низкой лояльности, чем он сам. Эта сумма делится на число проверенных им работ. Коэффициент нестабильности характеризует несогласованность данного эксперта с мнениями остальных экспертов. Формула для его вычисления выглядит следующим образом:


    где сумма берется по всем j, для которых либо li< lj и rij>0, либо li> lj и rji< 0.

    Оба эксперта, проверявших одну и ту же работу, всегда находятся в одной связной компоненте, поэтому их параметры можно между собой сравнивать, что позволяет получать компромиссную оценку для данной работы:


    где с – окончательная оценка за задание; w1 w2 – «веса» экспертов; с1, с2 – оценки, изначально выставленные экспертами.

    Исходя из этого построение компромиссной экспертной оценки следует из принципов:

    • компромиссная оценка не должна быть ниже наименьшей оценки экспертов и выше наибольшей, она должна принадлежать множеству допустимых значений оценок большинства экспертов;

    • оценки экспертов, дававших стабильно завышенные или заниженные результаты либо показывавших очень нестабильные результаты, учитываются тем меньше, чем в большей мере наблюдаются данные недостатки.

    Окончательной считается оценка, построенная как взвешенная сумма оценок двух экспертов. В большинстве случаев компромиссная оценка вычисляется путем арифметического усреднения и последующего округления.

    Если же в оценках экспертов имеют место значительные расхождения, то для проверки назначается третий эксперт. Независимая оценка третьего эксперта за решения всех заданий в этом случае считается окончательной, если она не выходит за границы интервала баллов, определенных первыми двумя экспертами.

    При шкалировании результатов единого государственного экзамена учитываются только окончательные оценки.

    Вопросы и задания

    1. Какие виды тестов используются в образовании?

    2. Чем принципиально отличаются классические тесты от контрольных измерительных материалов современного тестирования?

    3. В чем особенность конструирования тестов по методологии IRT?

    4. Перечислите основные статистические характеристики тестовых заданий.

    5. Какую информацию дает характеристическая кривая о качестве тестового задания?

    6. Что понимается под эффективностью теста?

    7. Перечислите основные принципы выделения контролируемых дидактических единиц для создания теста.

    8. Перечислите основные этапы конструирования теста.

    9. Какие формы тестовых заданий используются в ЕГЭ?

    10. Какие виды шкал используются в образовании при контроле?

    11. Чем различаются первичные и тестовые баллы?









     


    Главная | В избранное | Наш E-MAIL | Прислать материал | Нашёл ошибку | Верх