• 5.1. Формирование образовательной статистики
  • 5.2. Способы анализа и интерпретации результатов тестирования
  • 5.3. Оценивание подготовленности и личностных характеристик школьников
  • 5.4. Формы и методы отбора абитуриентов в России и за рубежом
  • Вопросы и задания
  • Глава 5

    МЕТОДЫ АНАЛИЗА РЕЗУЛЬТАТОВ ТЕСТИРОВАНИЯ

    Статистика  –  это  математическая  теория, позволяющая  познать мир через опыт.

    (В. Томпсон)

    5.1. Формирование образовательной статистики

    Последний компонент измерений – обработка результатов с целью представления их в форме, удобной для пользователей, и интерпретации согласно задачам педагогического контроля. Этап обработки результатов нередко включает преобразование первичной шкалы, построенной непосредственно по числу выполненных заданий, в другую – для повышения удобства при интерпретации результатов измерения. Всегда, когда ставится задача измерения, то имеется в виду получение истинной величины оцениваемой характеристики, которую можно определить как предел последовательности результатов ее измерения при числе измерений, стремящемся к бесконечности. Нередко истинную величину называют латентным параметром, акцентируя внимание на ее единственности для характеристики данного объекта и инвариантности относительно качества средств и методов измерения. Основываясь на изложенных выше общих сведениях, педагогическое измерение можно определить как процесс установления соответствия между оцениваемыми характеристиками обучаемых и точками эмпирической шкалы, в которой отношения между различными оценками характеристик выражены свойствами числового ряда. При педагогическом измерении обычно в качестве характеристик обучаемых выступают знания и умения, освоенные учащимися на момент выполнения теста. Роль единицы измерения играют калиброванные тестовые задания, объектом оценивания являются сами обучаемые, а результатом измерения – баллы тестируемых учеников или студентов на единой шкале оценок.

    Образовательная статистика формируется как на федеральном, так и на региональном, территориальном и школьном уровнях. Как правило, данные массового тестирования являются репрезентативными и могут обеспечить наиболее достоверную картину качества обучения по различным предметным областям и образовательным системам. Они систематизируются и выдаются в одинаковом формате для объектов наблюдения всех уровней.

    Для мониторинга и анализа учебных достижений используются одни и те же показатели:

    • общее число участников ЕГЭ по стране, региону, районам, образовательным учреждениям;

    • средние тестовые баллы ЕГЭ по регионам и территориям;

    • средние тестовые баллы ЕГЭ по пунктам проведения экзамена (ППЭ) в регионе;

    • плотность распределения учащихся, набравших соответствующий тестовый балл по России и региону;

    • доля учащихся (в %), выполнивших тестовые задания по структуре теста;

    • статистические результаты ЕГЭ по пятибалльной шкале по России и региону;

    • средние тестовые баллы по предметам ЕГЭ;

    • число участников ЕГЭ, не приступавших к выполнению заданий «С» по каждому предмету и каждой территории;

    • процент выполнения выпускниками заданий «А», «В» и «С» генеральной выборки и отдельными группами участников;

    • количество выпускников, получивших баллы в интервале от 90 до 100.

    Очень важными при многоуровневом анализе являются выбор комплекса показателей качества образовательного процесса по уровню подготовленности учащихся и обеспечение объективного и целостного представления о состоянии системы образования и ее составляющих. При этом большое значение имеют используемые методы и способы педагогического анализа результатов и их интерпретации, регулярность и периодичность тестового контроля. Суждения, выводы, доводы и оценки, сделанные в результате мониторинга, должны способствовать совершенствованию объекта.

    Мониторинговые исследования по результатам массового тестирования и ЕГЭ могут проводиться по следующим направлениям:

    1. Сравнительный анализ средних тестовых баллов выпускников разных регионов по всем предметам со средними показателями по России, средних тестовых баллов по территориям и образовательным учреждениям со средними по России и региону, по оценкам в аттестатах и на ЕГЭ, количеству заявленных медалистов и подтвердивших результаты на ЕГЭ.

    2. Содержательный анализ усвоения учебного материала по дисциплинам, включенным в ЕГЭ, по различным уровням обобщения данных и управления образованием (федеральному, региональному, территориальному, школьному).

    3. Анализ качества обучения по совокупности учебных дисциплин по видам образовательных учреждений и категориям выпускников.

    4. Тематический анализ учебных достижений по процентам выполненных тестовых заданий по различным дисциплинам, территориям, образовательным учреждениям.

    5. Определение рейтинга выпускников общеобразовательных учреждений, отдельных территорий, регионов, вузов и специальностей по уровню подготовленности абитуриентов на основе сопоставимости результатов массового тестирования.

    6. Динамический анализ качества контрольных измерительных материалов и подготовки выпускников по годам.

    7. Интерпретация результатов мониторинговых исследований и выводы о достигнутом качестве подготовленности выпускников и состоянии образовательных систем.

    В качестве объектов анализа могут быть выбраны любые массивы участников единого государственного экзамена: учащиеся, классы, школы, районы, города, регионы и все выпускники регионов–участников. Для каждой такой выборки используется соответствующий уровень обобщения статистических данных. Оценка качества подготовленности учащихся в той или иной предметной области средствами педагогического тестирования и мониторинга ориентирована на обеспечение постоянным потоком сопоставимой образовательной информации большого числа пользователей (учащиеся, учителя, родители, работники управления образованием и др.). Однако абсолютные данные в большинстве случаев не дают полного представления о качестве исследуемого объекта, более информативным является сопоставление показателей исследуемой выборки с нормами или объектами более высокого уровня обобщения результатов (парные или множественные сравнения).

    Для всестороннего анализа результатов тестового контроля данные представляются в таблицах, на графиках, гистограммах и диаграммах, наиболее полно отображающих количественные и качественные показатели исследуемых массивов участников контрольно–оценочного процесса.

    Таблицы. При статистической обработке данных тестирования результаты представляются в виде дихотомических таблиц, протоколов первичных и тестовых баллов, сводных таблиц по различным массивам испытуемых (табл. 4). За каждое выполненное задание ставится «1», за каждое невыполненное – «0».

    Таблица 4


    Примечание. Часть «А» – область закрытых заданий теста с выбором одного варианта ответа из числа предложенных; часть «В» – задания со свободным кратким ответом; часть «С» – задания, требующие конструирования развернутого ответа в свободной форме. При необходимости в протоколе могут быть отражены паспортные данные или другие сведения об участниках тестирования.

    Дихотомические таблицы дают для каждого испытуемого первичные баллы в числе выполненных заданий теста «А», «В» и «С» без учета уровня их трудности. Внизу таблицы, как правило, приводятся сводные данные о процентах выполнения каждого задания данной выборкой испытуемых.

    Сводные таблицы по разным массивам выпускников могут содержать обобщенные данные. Основное назначение таких таблиц – сравнение результатов исследуемой выборки с общероссийскими показателями. Для примера приведены результаты одного из ЕГЭ по математике выпускников нескольких школ сельских районов региона (табл. 5).

    Таблица 5 



    Чтобы оценить качество подготовленности выпускников данного района анализ проводится по распределению первичных баллов по интервалам и разделам теста в сравнении с аналогичными данными по России с указанием стандартного отклонения и вариации (табл. 6).

    Таблица 6



    В табл. 7 приведена корреляция результатов ЕГЭ по всем предметам по заданиям различного типа для всех выпускников России. Коэффициенты корреляции рассчитаны между результатами выполнения разных видов заданий, значениями первичных баллов по видам заданий и суммарными первичными и тестовыми баллами, в конечном счете они задают статистические характеристики использованного теста. Совокупность этих показателей может быть использована педагогами в качестве статистической нормы при анализе результатов конкретной исследуемой выборки.

    Таблица 7




    Такие таблицы очень информативны, они содержат сведения об учебной дисциплине, количестве заданий в тесте и их распределении по видам заданий, регионе, образовательном учреждении, классе, выполняемом варианте теста, дают первичный и тестовый баллы. Они позволяют перейти к процентам выполнения соответствующих заданий по любой выборке и проводить анализ усвоения содержания различных предметов.

    Аналогичные по формату таблицы могут быть для аудиторий, классов, школ, районов и отдельных городов региона. Информация, собранная в них, с достаточно высокой информативностью отображает результаты ЕГЭ по всем массивам выпускников. Однако работать с таблицами бывает сложно из–за их объемности и распределения нужной информации в разных таблицах, для сопоставительного анализа они не всегда пригодны, так как не обладают свойством наглядности. Поэтому для визуализации данных, проведения сравнений и оперативного анализа чаще используются графические методы.

    5.2. Способы анализа и интерпретации результатов тестирования

    Необходимость разработки методов интерпретации вызвана стремлением выявить истинные различия в уровне знаний испытуемых, сравнить результаты между собой. Это стремление продиктовано достаточно серьезной причиной, связанной с тем, что «сырые» или тестовые баллы не дают информации о реальном уровне знаний. Интерпретация результата и его отнесение к категории плохих или хороших зависят от целого ряда факторов. Прежде всего, от того, как распределились результаты остальных испытуемых, от трудности и от количества заданий в тесте. Методы многофакторного анализа результатов тестирования являются средством объективной экспертизы содержательных компонентов качества образования и личностного развития: знаний, умений, навыков, творческого опыта учебной деятельности, ценностно–смыслового отношения к обучению, ключевых компетенций и др.

    Адекватность интерпретации достигается путем сопоставления результатов анализируемой выборки или отдельного испытуемого с определенными нормами выполнения теста – множеством показателей, устанавливаемых эмпирически в процессе стандартизации теста. Соотнесение результата испытуемого с нормами выполнения позволяет установить, соответствует ли данный результат среднему или на сколько он выше или ниже среднего результата выполнения теста.

    Наиболее удобным и показательным для представления статистических данных является метод графического анализа. Парные и множественные сравнения объектов наблюдения одного и того же или разных уровней проводятся по средним первичным или тестовым баллам, по медианным значениям или процентам выполнения заданий. Между собой могут сравниваться статистические данные нескольких объектов: классы в школе, школы в районе, районы в регионе и т. д. Ниже рассматриваются методы анализа информации с помощью гистограмм, графиков, прямоугольных и радиальных диаграмм успешности выполнения тестовых заданий.

    Гистограммы. Для изображения распределения данных в широком диапазоне значений исследуемых характеристик анализируемых объектов широко используются гистограммы. Они обеспечивают наглядность распределения первичных и тестовых баллов на 100–балльной или 5–балльной шкале, позволяют сравнивать учебные достижения по различным массивам испытуемых.

    В гистограммах каждый столбик соответствует числу, проценту или доле участников, набравших соответствующий балл или балл в заданном диапазоне (диапазон баллов может быть по пяти, десяти или другому числу величины интервала). На гистограмме могут быть наглядно представлены максимальные и минимальные значения баллов исследуемой выборки; наибольшая высота столбиков показывает часто встречающиеся результаты, площади отдельных участков гистограммы дают представление о числе или доле участников, получивших отметки в том или ином диапазоне баллов. Это может быть распределение первичных баллов за весь тест (рис. 18) или за часть теста (рис. 19), тестовых баллов по любой выборке (рис. 20).

    Иногда столбики гистограмм выделяют цветом или узором, обозначая различные уровни подготовленности испытуемых. В зависимости от целей анализа может быть выбран разный шаг баллов при построении гистограмм. На гистограмме по площади столбиков можно визуально оценить долю тестируемых, получивших как минимальные баллы (неаттестованных) – низкий уровень, так и максимальные – высокий уровень, а также долю учащихся со средним уровнем и вблизи него.

    При помощи гистограмм можно проводить парные или множественные сравнения исследуемых характеристик для различных выборок испытуемых. Парные сравнения позволяют, например, учебные достижения исследуемой выборки сравнивать с данными генеральной (рис. 21) или отметки одной и той же выборки участников ЕГЭ по различным предметным областям или видам контроля (рис. 22).



    Рис. 18. Распределение первичных баллов ЕГЭ по русскому языку, Россия



    Рис. 19. Русский язык, первичные баллы за задания «С»



    Рис. 20. Распределение тестовых баллов ЕГЭ по математике



    Рис. 21. Распределение участников ЕГЭ по интервалам баллов



    Рис. 22. Сравнение отметок по предметам

    Как правило, гистограммы сопровождаются таблицами результатов, в которых могут быть указаны предметы и число участников экзамена; проценты участников, набравших соответствующий балл; можно сравнивать школьные отметки и результаты ЕГЭ по пятибалльной шкале и другие показатели.

    По математике все выпускники экспериментальных регионов распределились так: низкий уровень (0—29 баллов) – 11,8%; ниже среднего (30—50 баллов) – 42,9%; средний уровень (51– 70 баллов) – 36,6% и высокий уровень (70—100 баллов) – 8,7%. По русскому языку – соответственно 2,2%; 36,2; 53,0; 8,5%.

    На гистограммах множественные сравнения позволяют сопоставлять по выделенному свойству несколько выборок между собой по годам, категориям, типам образовательных учреждений и другим данным (рис. 23).

    Достаточно наглядно можно представлять на гистограмме (рис. 24) динамику изменений отметок по разным предметам по годам, территориям или образовательным учреждениям.

    Медианный анализ при помощи гистограмм (рис. 25) позволяет наиболее корректно сравнивать результаты, давая представление о качестве подготовки большого числа различных выборок испытуемых.



    Рис. 23. Динамика участия вузов и ссузов в ЕГЭ по годам



    Рис. 24. Сравнение отметок «4» и «5» по ЕГЭ 2003—2004 гг. в регионе



    Рис. 25. Значения медиан первичных баллов по математике разных районов

    Медианой называют среднее значение отранжированного ряда результатов (тестовых баллов), которое делит весь ряд на две равные части. Обучающиеся одной половины имеют баллы выше медианы, условно назовем ее «сильной», а учащиеся второй половины, «слабой», имеют баллы ниже медианы. Расчет медианы me при четном количестве учащихся (N = 2k) проводится по формуле


    а при нечетном (N = 2k + 1) медиана me = Хк+1 , где N – общее число объектов наблюдения, а k – их середина (половина). Медианы используют как дополнительную информацию к гистограммам распределения тестовых баллов, так как именно они позволяют в компактной форме наглядно представить и характеризовать плотность распределения баллов сильной и слабой половины учащихся.

    Линейные графики. Линейные графики достаточно хорошо иллюстрируют рейтинги различных объектов наблюдения, они удобны для оценивания рейтинга общеобразовательных учреждений разных типов, рейтинга территорий, классов в школе, выпускников, когда требуется установить их последовательность по анализируемому свойству. На линейных графиках можно проводить сравнения большого числа объектов однотипного ряда (одна зависимость), по разным уровням обобщения данных или временным интервалам.

    Такие сравнения, проведенные за несколько лет, позволяют более объективно выявлять закономерности развития образовательных систем. Для динамического мониторинга рейтинг однотипных объектов (например, регионов) за несколько лет можно представить совокупностью линейных зависимостей на одном графике (рис. 26). Как видно из графика, по результатам централизованного тестирования за ряд последних лет наблюдается стабильность значений средних тестовых баллов по регионам (указаны условные коды). В данном случае для анализа выбраны средние тестовые баллы региона, рассчитанные по сумме всех предметов и всех участников тестирования, в результате анализируются «средние тестовые баллы региона».



    Рис. 26. Рейтинг регионов по результатам централизованного тестирования (средние тестовые баллы всех участников региона по сумме всех предметов

    Это позволяет показать прогностические возможности такого подхода к оценке качества обучения в разных территориях страны, а уж затем разбираться в причинах успехов или неудач. Выбор регионов (табл. 8) сделан из формируемого ФЦТ рейтинга пошаговым смещением от самого высокого до самого низкого значения рейтинга с интервалом в 10 позиций [192].

    Таблица 8


    Динамический анализ показывает, что устойчиво обнаруживается территориальный фактор (сохранение рейтинга регионов). По всей видимости, это связанно как с особенностями систем управления, так и другими специфическими условиями и причинами для данной территории. Использование Центром тестирования в 1999 и 2000 гг. однопараметрической математической модели Г. Раша для создания КИМов давало более высокий тестовый балл и большие расхождения баллов по регионам. В какой–то степени это также могло быть связано и с малым числом участников тестирования в первые годы и неподготовленностью школьников к такого рода оценочным процедурам (нерепрезентативностью выборки). Общее снижение тестового балла в 2001—2004 гг. обусловлено не резким понижением успеваемости, а использованием КИМов и пересчетом баллов по двухпараметрической модели Бирнбаума.

    Видно, что за 2001 и 2004 гг. рейтинг регионов, рассчитанный по средним тестовым баллам совокупности всех предметов и тес–тируемьгх, практически не изменялся. Устойчивость рейтинга характерна практически для всех регионов, выбранных для анализа, что свидетельствует о правомерности сравнительного анализа. Наибольшая разность между крайними значениями средних тестовых баллов составила: 11 – в 1999 г.; 17 – в 2000 г.; 15 – в 2001 г.; 13 – в 2002 г.; 12 – в 2003 г.; 9 – в 2004 г. Снижение этой разности обусловлено как совершенствованием технологии тестового контроля, так и подготовкой школьников к независимой аттестации.

    Корректность педагогического анализа в данном случае требует не давать однозначную оценку качеству учебных достижений выпускников в этих регионах по многим причинам: разное число участников тестирования, а следовательно, несопоставимость условий контроля; нерепрезентативность выборки в условиях добровольности участия в тестировании; несовершенство тестовых материалов, процедур тестирования и методик шкалирования и др. Кроме того, следует отметить, что для эффективного функционирования контрольно–оценочной системы в учебных заведениях пока еще нет необходимого методического и технологического обеспечения, ощущается нехватка инструментальных средств контроля и анализа его результатов, контрольно–обучающих программ, математико–статистических пакетов для обработки результатов контроля и компьютерных классов с сетевым оборудованием, разная готовность педагогов к работе с тестами. Пока больше можно говорить о возможностях подобного анализа и перспективности его применения после преодоления целого ряда трудностей, связанных с развитием массового тестирования и введением единого государственного экзамена. И все же некоторые выводы можно сделать уже сейчас.

    Во–первых, разница в качестве подготовки по регионам существует, и ее можно измерять, так как тестирование проводилось в одинаковых условиях (время, КИМы, длительность работы, автоматизированная проверка, методика шкалирования), а число участников в каждом регионе было достаточным, чтобы зафиксировать общие тенденции изменений за последние годы.

    Во–вторых, интервал средних тестовых баллов между самым успешным и самым слабым регионом не является критичным, особенно в 2004 г. При всех возможных различиях обучения в разных регионах базовая составляющая в значительной степени обеспечивается на достаточном уровне в каждом из них.

    В–третьих, детальный предметный анализ показывает, что в одних регионах сильнее проявляется подготовка по гуманитарным дисциплинам, а в других – по естественно–научному циклу. Средние тестовые баллы по России в целом задают статистические нормы для критериев успешности функционирования различных образовательных систем.

    В–четвертых, в большинстве случаев нет большого разрыва между достижениями городских и сельских школ. Очевидно, что традиционные формы контроля ранее не позволяли обнаружить совокупность этих факторов.

    О качестве регионального образования по тому или иному предмету в том или ином регионе можно судить по плотности распределения учащихся, набравших соответствующие тестовые баллы, в сравнении с таковым для всех выпускников России (рис. 27).

    При этом следует учитывать, что надежность и точность педагогических измерений выше там, где больше плотность участников, а следовательно, в центральной части распределения. В интервалах баллов от 0 до 20 и от 75 до 100 могут быть значительные погрешности из–за малого числа выпускников, попадающих в эти интервалы. Однако достаточно хорошо видно, что результаты анализируемой выборки коррелируют с данными по России.

    На рис. 28 для показа возможностей линейных графиков приведен рейтинг отдельных территорий региона ЕГЭ по математике по средним значениям тестовых баллов, которые для данных объектов находятся в диапазоне от 38 до 53, а размах баллов составляет 15, почти на треть баллы слабой территории ниже, чем сильной.


    Рис. 27. Плотность распределения учащихся, набравших соответствующий тестовый балл по математике: – о– Россия; —О– регион



    Рис. 28. Математика, ЕГЭ

    Сравнительный анализ результатов массового тестирования позволяет выделять те или иные факторы, имеющие место в образовательной системе. К примеру, некоторые из факторов оказывают одинаковое влияние на результат всех участников тестирования (образовательная политика в стране, стандарты, содержание КИМов и др.), а часть из них могут носить случайный характер и оказывать разное воздействие на индивидуальный результат испытуемых. Cлучайные факторы оказывают сильное влияние на общий результат малых выборок тестируемых (рис. 29, а; лицей – 24 человека; школа – 43 человека). В силу рандомизации, при статистически достаточном числе испытуемых влияние случайных факторов на общий результат выборки исключается (рис. 29, б; Россия – более 600 тыс. человек; регион – около 40 тыс. человек; город – около 10 тыс. человек).

    Такие данные можно использовать в качестве статистической нормы (генеральная выборка). Для объективизации выводов и заключений педагогический анализ результатов массового тестирования следует проводить в сравнении с данными генеральной выборки (учащиеся страны, региона или крупного города). В этом случае при выявлении причин успехов или неудач образовательной деятельности обеспечивается большая объективность выводов, заключений и принимаемых решений.

    Метрические свойства контрольных измерительных материалов обеспечивают сопоставимость баллов, полученных при выполнении учащимися разных вариантов теста. На рис. 30 представлена в процентах доля участников ЕГЭ, выполнивших то или иное число заданий и набравших соответствующее число первичных баллов по математике по различным вариантам тестов (без учета заданий «С»). Задания «А» и «В» оценивались дихотомически, а следовательно, число выполненных заданий равно числу првич–ных баллов.

    Сравнительный анализ элементов диаграммы позволяет оценить степень равноценности трудности использованных вариантов КИМ по математике ЕГЭ. Каждый вариант выполняли 2500—3000 выщскников в различных школах региона, что полностью обеспечивает репрезентативность результатов. Видно, что максимум участников приходится на 3—6 выполненных заданий, что соответствует границе между «двойкой» и «тройкой» на шкале школьных отметок. По числу участников, выполнивших от 1 до 13 заданий, заметна существенная разница по вариантам.



    Рис. 29. Выполнение заданий теста по математике (сравнение с данными по России): а – влияние случайных факторов;

    б – рандомизация



    Рис. 30. Сравнительный анализ трудности вариантов по математике (задания «А» и «В»)

    На рис. 31 приведены результаты с учетом выполнения заданий «С», оцениваемых политомически (разные баллы за разные задания). Первичный балл при шкалировании результатов ЕГЭ рассчитывался по правилу: за каждое выполненное задание из области «А» (с выбором ответа) и «В» (со свободным ответом) учащийся получал по одному баллу, а за каждое выполненное



    Рис. 31. Сравнительный анализ трудности вариантов экзаменационных заданий ЕГЭ по математике (с учетом заданий «С»)

    задание из области «С» (со свободным конструированием ответа) – по четыре балла. Таким образом, максимальный первичный балл за весь тест равен 34. Вид кривых несколько иной и показывает, что чем лучше подготовлены учащиеся к экзамену, тем меньше зависимость их баллов от варианта теста.

    Следует таже учитывать, что технология обработки результатов ЕГЭ предполагает введение персичного балла только на первой стадии расчета, затем тестовый балл рассчитывается с учетом уровня трудности выполненных заданий. В окончательных протоколах указывается индивидуальный тестовый, который выдается выпускникам в свидетельствах ЕГЭ.

    Таким образом, сравнительная оценка вариантов тестов позволяет считать их в приемлемой степени равно трудными и анализировать степень овладения школьниками навыками решения задач различного уровня трудности. Особенно важно отметить, что предоставляется возможность оценки базового уровня знаний и умений, от которого в конечном счете зависят успехи в решении более сложных задач, а также дифференциация выпускников по уровням подготовленности в широком диапазоне баллов.

    При помощи линейных графиков, совмещенных с таблицами данных (рис. 32), можно сравнивать достижения различных школ по разным видам заданий теста, тем самым выявляя разное количество подготовленных школьников.



    Рис. 32. Средние первичные баллы по математике в разных школах за различные виды заданий

    Умения школьников решать задачи повышенного уровня достаточно хорошо коррелируют с базовыми знаниями: в школах, где учащиеся выполняли задания «В» и «С» выше средний первичный балл за задания «А». На графике наиболее слабая подготовка по математике наблюдается у школы с кодом 4, выпускники которой выполняли только задания «А», а наиболее качественная – у школы с кодом 6. Такой анализ дает представление не только о качестве знаний школьников, но и квалификации педагогов. Если ни один из учеников не выполнил ни одного задания «В» и «С», то это уже сигнал для руководства школы к изменению организации обучения.

    Все варианты стандартизированного теста, как правило, имеют одинаковую содержательную стуктуру и близкие по уровню трудности задания по указанным темам. Поэтому анализ правильных ответов по каждой выборке дает учителю ценную информацию о структуре усвоенных знаний по темам; для этого учителям необходимо анализировать проценты выполнения заданий теста (рис. 33).

    Массовое тестирование учащихся, несомненно, оказывает положительное влияние на деятельность школ. Наличие независимых оценочных процедур заставляет педагогов более строго подходить как к оцениванию знаний школьников, так и к своей дея



    Рис. 33. Процент выполнения тестовых заданий учащимися школы

    тельности, более внимательно пересматривать образовательные программы и методики обучения, использовать документацию на КИМ (спецификации, структуру демотестов, справочные данные и инструкции) при составлении рабочих программ и использовании методов контроля в текущей оценочной деятельности. Однако правильные выводы можно сделать только при сравнительном анализе, отдельно взятая зависимость в данном случае не дает учителю полной информации о качестве подготовленности школьников.

    Необходимая информация появляется только при сравнении исследуемой выборки с нормой – среднестатистическими результатами генеральной выборки или другими репрезентативными выборками (регион, город) (рис. 34). Проводя сравнение тестовых баллов и процентов выполнения заданий школьников со среднестатистическими оценками генеральной выборки, учителя получают возможность корректировать свои критерии оценивания знаний школьников в текущей работе.

    Поясним это на примере. Положим, что учащиеся исследуемой выборки одно из заданий выполнили на 40%, а второе – на 75%. Какая из тем ими усвоена лучше? Проще всего ответить – та, для которой процент выполнения выше. Действительно, ана



    Рис. 34. Множественное сравнение результатов выполнения теста

    лизируя эти данные без сопоставления с нормой, учитель делает вывод, что учащиеся усвоили вторую тему лучше, чем первую. Однако такой вывод является ложным, если на генеральной выборке процент выполнения первого задания составит 25, а второго 95.

    Это значит, что школьники исследуемой выборки хорошо усвоили именно первую тему, представленную в тесте заданиями высокого уровня трудности, и показали результат на 15 пунктов выше нормы. Задания второй темы были легкими, их на уровне генеральной выборки могли решить практически все школьники, но эта тема не была достаточно изучена (упущена) школьниками исследуемой выборки, а поэтому процент правильно выполненных заданий оказался на 20 пунктов ниже, чем на генеральной выборке. Без учета уровня трудности тестовых заданий ответить на такой вопрос невозможно. Распределение заданий теста по трудности достаточно наглядно может быть представлена графиком процентов выполнения заданий всей совокупностью испытуемых.

    В июле, на втором этапе экзамена в форме и по материалам ЕГЭ – на так называемой вузовской волне, результаты, как и следует ожидать, несколько выше, чем при аттестации основной массы выпускников. Для наглядности относительный коэффициент подготовленности абитуриенов можно получить как отношение процентов выполнения заданий теста абитуриентами к процентам его выполнения выпускниками (рис. 35).



    Рис. 35. Относительный уровень подготовленности абитуриентов по математике

    Радиальные диаграммы. Уровни трудности заданий или затруднений (успешности) учащихся представляются в виде графика, на котором по горизонтальной оси отложены номера заданий теста, а по вертикальной – проценты правильно выполненных заданий.

    Следует учитывать, что с учетом статистического веса трудности тестовых заданий гистограмма на 100–балльной шкале не имеет столь прозрачного толкования, как на шкале первичных баллов (числа выполненных заданий), она требует указания критериев оценивания. Такой график предназначен для анализа тематической структуры усвоения содержания учебной дисциплины как отдельным испытуемым, так и на уровне класса, школы, района и т.д. На различных выборках в сравнении с генеральной оценивается уровень затруднений или успешности обучения обучающихся или отдельных классов. Визуально проявляются особенности образовательного процесса, что позволяет судить об уровне содержательной подготовленности учащихся исследуемого объекта (класс, школа и т.д.). Спектр возможных сравнений на радиальных диаграммах может быть таким же широким, как и на других графиках, но, кроме того, такой способ представления информации является не только более наглядным, но и компактным. Для анализа усвоения содержания учебных дисциплин удобно пользоваться радиальными диаграммами, на которых по окружности даны номера тестовых заданий, а по радиусу – проценты правильных ответов.

    Пример множественного сравнения результатов централизованного тестирования выпускников по математике приведен для нескольких выборок одновременно (рис. 36). Выборочная совокупность выпускников, сдававших математику, составила: по России – 211 556 человек (около 17% общего числа выпускников); в регионе – 10 867 человек, или 25%, в городе – около 4000 человек, или 45%, что в достаточной степени обеспечивает репрезентативность и рандомизацию результатов. Каждая из них может быть использована в качестве нормы для определения уровня учебных достижений образовательного учреждения.

    Для больших выборок (Российская Федерация, регион, город) в силу рандомизации результатов наблюдается синхронность кривых в соответствии с уровнем трудности тестовых заданий, однако количественные данные несколько различаются. Видно, что подготовка школьников региона по математике несколько выше, чем по России в целом. Содержательные структуры учебных достижений выпускников лицея с профильной подготовкой по математике и обычной школы существенно от



    личаются как между собой, так и относительно данных России, региона и города. Такая информация полезна для педагогических коллективов при анализе «болевых точек» учебного процесса и его корректировке. Рассмотренный способ графического содержательного анализа обладает высокой степенью информативности. Еще одной его особенностью является то, что площадь, охваченная кривой на диаграмме успешности, задает в условном выражении долю знаний, усвоенных данной выборкой учащихся.

    Аналогичные диаграммы по результатам массового тестирования можно строить и анализировать по всем дисциплинам для разных категорий учащихся, а также по видам итоговой аттестации (рис. 37).



    Синхронность хода кривых отражает несколько моментов: во–первых, объективную сложность предмета; во–вторых, структуру уровней трудности тестовых заданий разных по годам тестов; в–третьих, достаточно стабильный уровень подготовки учеников по годам на данной территории; в–четвертых, близкие значения результатов по России и региону.

    Отметим, что результаты анализа структурированности знаний учащихся выпускных и других классов по результатам тестового контроля могут представлять интерес не только для учителей, но и для разработчиков тестов и методистов – организаторов ЕГЭ. На рис. 38 видно, как меняется структура трудности тестовых заданий разных по годам тестов по физике, использованных для централизованного тестирования.



    Такие и многие другие сравнения в условиях многоуровневого квалиметрического мониторинга возможны по любым территориям, выборкам школьников, учебным дисциплинам, образовательным учреждениям и другим параметрам в соответствии с целями и задачами конкретного мониторингового исследования. Сопоставление результатов обучающего тестирования за определенный промежуток времени дает возможность оценивать динамику развития конкретной группы школьников или отдельного обучаемого, раскрывает реальные возможности индивидуализации траекторий обучения отдельных учащихся на основе анализа процентов выполнения тестовых заданий и дихотомических таблиц результатов различных видов массового тестирования.

    Использование методов многофакторного анализа результатов тестирования может служить надежным средством экспертизы содержательных компонентов качества подготовки учащихся, а дополнительные процедуры педагогических измерений – средством определения корреляции личностных качеств испытуемых с качеством предметной подготовленности. В этом смысле фронтальное тестирование всех выпускников страны на едином государственном экзамене может рассматриваться как база информационного многоуровневого квалиметрического мониторинга учебных достижений и личностных характеристик выпускников. В настоящее время только формируются система, структура и содержание единого государственного экзамена, отрабатываются формы его проведения, а соответственно, в стране только создаются условия для организации нового средства управления качеством образования и образовательным процессом.

    В связи с этим появляются условия для создания целостной и комплексной общероссийской системы мониторинга качества образования, основанной на современных универсальных методах тестового контроля и открывающихся возможностях наблюдения за всей системой общего образования и ее отдельными составляющими на основе метрической образовательной информации, не зависящей от индивидуальных оценочных подходов учителя. С учетом этой важнейшей функции тестирования строится система современного многоуровневого квалиметрического мониторинга и основанная на нем система диагностики и экспертизы качества образования, вписывающихся в систему современного маркетинга образовательных услуг.

    Мониторинг качества подготовленности учащихся в той или иной предметной области средствами педагогического тестирования ориентирован, с одной стороны, на точное отражение в тестах современного содержания образования (образовательных стандартов), а с другой – на возможность измерения знаний во всем комплексе их количественных и качественных характеристик. Одной из задач такого мониторинга становится обеспечение большого числа пользователей (учащиеся, учителя, родители, работники управления образованием и др.) постоянным потоком сопоставимой информации о качестве учебных достижений школьников на основе анализа результатов тестового контроля. Развивающиеся технологии массового тестирования все заметнее начинают оказывать влияние на образовательную практику школ и деятельность органов управления образованием. Поэтому очень важной становится научно обоснованная интерпретация результатов массовых контрольно–оценочных процедур. В полной мере это относится ко всем составляющим компонентам технологии проведения ЕГЭ – от разработки КИМов, до процедуры проведения экзамена, проверки работ, обработки результатов, шкалирования и оценивания учебных достижений, их содержательного анализа.

    Для проведения содержательного анализа результатов тестирования каждую предметную область учебной деятельности будем рассматривать как информационную систему, состоящую из определенной суммы учебных элементов. Тестовые задания разрабатываются таким образом, чтобы охватить содержание каждого блока и наиболее важных учебных элементов, составляющих эти блоки. Поэтому по статистическим данным успешности решения каждого тестового задания можно определять качество усвоения не только курса в целом, но и каждого блока, а в нем – тех элементов знаний, которые запрограммированы в данном тестовом задании. При содержательном анализе результатов тестирования предметную область любой дисциплины, отраженную в системе тестовых заданий, и информационное поле ее усвоения можно классифицировать не только по указанным выше блокам, но и по структурным элементам: знание основных понятий и законов; знание процессов и классификаций; знание фактического материала; практическое применение знаний и др. Это предоставляет возможность получения подробных сведений о структуре знаний тестируемых.

    Возможное возражение по поводу объективности данного анализа можно снять за счет того, что в тестах дается достаточно большое число заданий с различным уровнем трудности, а в связи с этим наблюдается различный процент (уровень) решаемости или нерешаемости тех или иных заданий. В настоящее время уровень трудности заданий определяется заранее, учитывается при шкалировании и выставлении баллов. Кроме того, во время апробации проводится отбраковка тех тестовых заданий, которые из–за неудачной формулировки или превышения порога трудности редко выполняются испытуемыми. Таким образом, вероятность включения в тест какого–либо особо «нерешаемого» тестового задания незначительна. Во всех вариантах тестов под одним и тем же номером размещаются тестовые задания, программирующие содержание одного и того же учебного элемента (так называемые параллельные или близкие к параллельным тестовые задания), что существенно облегчает содержательный анализ и интерпретацию результатов тестирования.

    В процессе оценивания качества подготовленности обучающихся можно выявить в неявной форме тенденции в проявлении тех или иных позитивных качеств обучаемых из числа перечисленных выше. Без сомнения, сам факт правильного выполнения трудного задания без помощи и подсказки уже является свидетельством проявления позитивных качеств личности обучаемого. Если же среди выполненных верно заданий преобладают трудные, требующие упорства, то это подтверждает наличие таких качеств обучаемого, как целеустремленность, настойчивость, терпение. Таким образом, если содержание заданий допускает помимо прямой оценки и дополнительную интерпретацию, нацеленную на выявление латентных характеристик личности обучаемого, то можно получить интегральную характеристику качества его подготовленности.

    5.3. Оценивание подготовленности и личностных характеристик школьников

    В современных условиях увеличивается необходимость оценивания как подготовленности учащихся, так и ряда характеристик, определяющих степень их личностного развития: креативности, сформированности общеучебных и ключевых компетенций, опыта творческой деятельности, опыта осуществления эмоционально–ценностных отношений, опыта практической и творческой деятельности, природных способностей и профессиональной предрасположенности.

    Однако многие из этих характеристик невозможно выявить по ряду причин не только практически, но и теоретически, нет надежных измерителей даже для измерения знаний, тем более креативности, компетенций, потенциальных возможностей, навыков творчества и других способностей. Тем не менее в настоящее время по итогам тестирования количественные оценки учебных достижений, по крайней мере качественно, уже позволяют описывать и некоторые другие характеристики обучающихся, такие, как: гибкость мышления, осознанность, упорство, собранность, целеустремленность, усидчивость, мобилизация на достижение результата, развитие компетенций, навыки самоорганизации, целеполагание при обучении и аттестации.

    Начиная с 90–х годов XX в. в системе оценки качества подготовленности обучаемых и их личностных характеристик наметились изменения. Отечественными и зарубежными учеными и практиками были предложены новые методы. Естественно, что каждый из них имеет ряд достоинств и недостатков, преодоление которых побуждает находить все новые и новые подходы к оцениванию.

    1. Метод оценки индекса структурированности знаний (Method S—P lines) был предложен в 1974 г. [241]. Он позволяет не только выявлять уровень подготовки обучаемых, но и анализировать структуру их знаний. Все задания в тесте ранжированы по нарастанию трудности, а по содержанию и порядку расположения полностью воспроизводят структуру обучения. Выводы о качестве подготовки учащихся получаются довольно просто: чем меньше пробелов в ответах обучаемого на задания теста, тем лучше структура его знаний и качество подготовки по предмету. Степень отклонения индивидуальной структуры знаний от планируемой педагогом определяется подсчетом специального индекса структурированности знаний. Идеальный результат, без пробелов, имеет значение индекса, равное нулю, а при стремлении индекса к единице возникают сомнения в структурированности и качестве знаний обучаемого.

    Такого рода тесты эффективны при аттестации учебных заведений, когда речь идет о работе преподавателей. При этом, хотя уровень подготовленности сильно зависит от прилежания учащихся, структура их знаний заметно отражает особенности организации учебного процесса.

    Однако как раз по этому вопросу и возникают споры между представителями разных научных школ. Некоторые из них считают, что суждение о качестве учебных достижений как о результате обучения некорректно, так как, с их точки зрения, представление о нем должно ассоциироваться с внутренним состоянием обучающегося на момент его аттестации, в то время как результаты обучения оцениваются по внешним признакам, во внешних наблюдениях и результатах учебного процесса. Именно такой подход долгое время препятствовал развитию тестового контроля знаний.

    2. К числу новых форм можно отнести аутентичную оценку учебных достижений (Authentic assessment). Данная форма была впервые предложена в 1988 г. Archibald и Newmann [235]. Она имеет две основные особенности: во–первых, при аутентичной оценке по результатам выполнения контрольной работы делается вывод об уровне овладения учащимся учебным материалом на основе специальным образом разработанных критериальных заданий; во–вторых, учащимся предлагаются такие задания, которые могут вызвать у них интерес и представляют для них определенное смысловое значение. При таком контроле тесты составляются из большого числа критериальных заданий, вызывающих познавательный интерес у испытуемых. Время работы над тестом не ограничивается, а по результатам выполнения таких тестов делается вывод об уровне владения учебным материалом по данной дисциплине на основе специально разработанных методов оценок [228].

    3. В 1990 г. была разработана «уравновешенная» оценка учебных достижений, позволяющая оценить умения высокого уровня. Основной идеей является использование математических методов оценки уровня подготовленности и интеллектуальных способностей испытуемых по специально разработанным тестам, включающим характеристики содержания (соответствия учебным программам или содержательную валидность), включающим несколько уровней познавательной деятельности обучаемых (планируются в спецификации теста) и обеспеченных соответствующей техникой измерения (технологичность заданий для автоматизированной обработки результатов) [197].

    4. Следует также кратко затронуть более ранние математические модели, основанные на так называемой таксономии целей Б. Блума (B. Bloom) [232]. Концепция таксономии предполагала постановку целей образования относительно трех сфер психики: когнитивной, аффективной и психомоторной – путем создания содержательно–деятельностных матриц. В когнитивной сфере последовательно целями образования выделялись: формирование знания, понимания, способностей применения, анализ, синтез и оценка. В когнитивной сфере таксономия необходима для концентрации усилий на главном, обеспечения гласности достижений в совместной работе учителей и учащихся, для создания эталонов оценки результатов обучения. Таксономия позволяет конкретизировать цели учебных программ, но она не выходит за пределы традиционной схемы образования и контроля, ориентированных на передачу знаний, умений и навыков, не отражает современные достижения в области психологии обучения. Тесты, построенные по этой модели, обеспечивают высокое соответствие их содержания учебным программам, но не позволяют выявлять уровень мыслительной деятельности испытуемых.

    5. К числу новыгх форм измерителей относятся те, которые разрабатываются для оценки практической деятельности учащихся и позволяют стандартизировать процедуру оценки результатов контроля [229, 230, 234, 235]. В отдельных случаях, требующих проверки творческих способностей и выявления опыта общеучебной деятельности, уровень учебных достижений обучающихся можно выявлять различными средствами и способами контроля: при помощи заданий–эссе, предполагающих свободное конструирования ответа и позволяющих получать развернутый ответ, заданий в виде лабораторных работ или иных практических заданий, результатом выполнения которых является получение конечного материального продукта; выполнением специальным образом подобранных творческих заданий.

    6. Новые цели образования потребовали разработки новых систем измерения и оценки учебных достижений. Эти цели предполагают перенесение центра тяжести учебного процесса с формирования алгоритмов деятельности на развитие логического мышления учащихся, коммуникативности, развитие умений решать проблемы различного содержания, следовательно, и формы оценивания знаний и умений должны соответствовать технологиям обучения. Зарубежные исследователи пошли по этому пути, создав теорию параметрических методов педагогических измерений Item Response Theory – IRT ( теория конструирования и параметризации тестов). IRT является психолого – педагогическим вариантом более общей теории латентно–структурного анализа LSA (Latent Structure Analyses), в методологических подходах которой проявились и развились методы и модели IRT, получившие первоначально свое развитие в лабораториях военных ведомств США для отбора специалистов, а затем в системах оценки качества обучения и психологических исследованиях личностных характеристик [197].

    7. В современных условиях непрерывно усиливается необходимость оценивания характеристик, комплексно определяющих степень личностного развития: креативность, сформированность общеучебных и ключевых компетенций, опыт практической и творческой деятельности, осуществление эмоционально–ценностных отношений, природные способности, профессиональную предрасположенность и др. Однако не только практически, но и теоретически все это количественно измерить пока невозможно по ряду причин: нет надежных измерителей даже для измерения знаний, тем более креативности, компетенций, потенциальных возможностей, навыков творчества и других способностей.

    Тем не менее в результате широкого внедрения с начала 90–х годов контрольных измерительных материалов появились инновационные формы оценивания и формы накопления информации – портфолио, значительно расширяющие возможности по оценке деятельности учащегося [25]. Появление портфолио в первую очередь вызвано тем, что противники тестового контроля апеллируют к случайности и необоснованности одноразовой тестовой оценки. Действительно, на протяжении процесса обучения существует достаточно много возможностей для проявления позитивных качеств личности, которые не могут быть выявлены в процессе только итогового тестирования (к примеру, ЕГЭ).

    Однако по итогам тестирования количественные оценки уровня учебных достижений позволяют косвенно оценивать степень личностного развития и некоторые другие характеристики обучающихся, такие, как опыт познавательной деятельности, опыт творческой деятельности, опыт осуществления эмоционально–ценностных отношений, наличие общеобразовательных компетенций; сформированность личностных качеств, таких, как усидчивость, собранность, гибкость мышления, осознанность, упорство, собранность, целеустремленность, мобилизация на достижение результата, развитие компетенций и ценностной ориентации, навыки самоорганизации, потребности самоконтроля и самоподготовки, целеполагание при обучении и аттестации, умение мобилизоваться на достижение планируемого результата, общеобразовательных компетенций как совокупности смысловых ориентаций, знаний, умений, навыков и опыта деятельности ученика. Стремление к объективному оцениванию подготовленности обучающихся и их личностных качеств привела к пониманию того, что одноразовые педагогические измерения, даже очень высокой точности и надежности, не могут дать полного представления об их способности и готовности к дальнейшему обучению. Отсюда возникает вопрос о разработке индивидуальной накопительной (интегральной) оценки, индивидуального профиля учебных достижений или, заимствуя распространенный в мире англоязычный термин, портфолио.

    Для объективизации оценок уровня подготовленности выпускников и выявления их прогностических возможностей наметился переход к динамическим оценкам, характеризующим процесс усвоения знаний на протяжении определенного отрезка времени и позволяющим формировать образовательную информацию об учащемся. В этой связи появилась идея оценивания достижений учащегося с позиции творчества, его способностей к самостоятельной поисковой деятельности, выполнению учебных проектов, самостоятельного нахождения нового как в методике решения задач, так и в учебной информации, участия в олимпиадах и др. Таким образом, портфолио – это научно обоснованная накопительная система, сочетающая в оптимальных пропорциях оценки тестового и традиционного контроля, количественные и качественные характеристики обучающихся для более полного отображения подготовленности и прогностических возможностей личности.

    Согласно исследованиям Р. Паулсон и К. Мейер, портфолио отличается от традиционных методов тем, что обеспечивает учителя обоснованной информацией о процессе и результатах деятельности учащегося в режиме самостоятельной работы, совершенствовании его креативных способностей и умений получать собственные оценочные суждения о результатах своей деятельности [194]. Основное преимущество портфолио по сравнению с традиционными тестами состоит в том, что оно характеризует качество обучения многопланово и многомерно, с разных позиций: оценки мыслительной деятельности учащегося, его междисциплинарных умений, умений постановки проблем, решения нестандартных задач, понимания учебных предметов и овладения соответствующими навыками, упорства в достижении результата и др. Система независимого тестирования усиливает ва–лидность результатов аттестации обучающихся, задает структуру количественных показателей портфолио и создает условия для доверия пользователей к его содержанию.

    На сегодняшний день выделяют несколько видов портфолио. Процессуальный портфолио применяется для отслеживания и итогового оценивания результатов учебной деятельности учащегося, в которой отражены полученные им междисциплинарные знания, умения и навыки, приобретенные на базовом и повышенном уровнях изучения отдельных предметов. Визуализируемый портфолио применяется для подтверждения и оценки компетенций учащегося по самым ключевым вопросам, в него включаются самые лучшие завершенные работы ученика, выбранные совместно учащимся и учителем. Портфолио позволяет более полно оценивать различные умения и навыки учащихся, их активность в учебном процессе, участие в олимпиадах и конкурсах, профессиональную ориентацию и склонность к выбору будущей профессии.

    В портфолио оценка фокусируется на самостоятельной работе учащихся и включает определение уровня базовых и ключевых знаний, межпредметных умений, опыта учебной деятельности, учебных компетенций, уровня мотивации к обучению и ценностно–смыслового отношения к учебе.

    Характеризуя портфолио в целом, можно отметить, что он базируется на четко установленных критериях оценки, наиболее существенных для дальнейшего обучения. Как правило, портфо–лио содержит выборку основных работ за определенный период обучения, подтвержденных документально (сертификаты, свидетельства, грамоты, гранты), и результаты итогового контроля по завершении рассматриваемого периода обучения. Результаты выполнения работ оцениваются широким спектром контрольно–измерительных материалов и сводятся к интегральной оценке. В портфолио входят также качественные оценочные характеристики, выданные учащемуся его сверстниками, учителями и родителями. Возможны варианты определения максимального общего балла портфолио или его возможного удельного веса в суммарном образовательном рейтинге учащегося, а также порядка его исчисления. Итоговая оценка портфолио может определяться максимальным баллом какой–либо одной его составляющей или быть интегральной величиной.

    Всесторонний и объективный мониторинг учебных достижений, обеспечиваемый с помощью портфолио, открывает совершенно новые возможности аттестации выпускников и конкурсного отбора лучших из них для продолжения обучения на более высокой ступени. Задача, связанная с профориентацией, решается особенно сложно при дифференциации выпускников основной школы для перевода на так называемую профильную ступень обучения. Здесь возникают сложности различного рода, связанные с отсутствием современного инструментария.

    С одной стороны, ощущается потребность в проведении проф–ориентационной работы с помощью специальных психологических тестов, практически отсутствующих на настоящий момент в нашей стране. С другой стороны, необходимы междисциплинарные педагогические тесты для осуществления конкурсного отбора в профильные классы. По–видимому, в будущем, по мере создания эффективной системы тестирования, и профориентация будет проводиться на должном уровне соответствующими средствами и методами профориентационного тестирования. Пока же эти вопросы остаются открытыми и решаются каждым образовательным учреждением в индивидуальном порядке.

    В рекомендациях директорам школ, руководителям региональных и муниципальных управлений образованием «Цели, содержание и организация предпрофильной подготовки в выпускных классах основной школы» (Москва, 2003) указывается, что «важным нововведением, следующим из концепции профильного обучения, становятся упорядочение и перевод на более объективную, справедливую и прозрачную для общества основу вопросов приема в профильные школы и классы». Такой основой является переход от одноразовых оценок к портфолио – накопительной системе оценивания. Как показывает зарубежный опыт, всесторонний и динамический способ мониторинга качественных и количественных оценок за определенный период обучения по одной или разным предметным областям позволяет более обоснованно прогнозировать перспективы обучения. В рекомендациях по построению моделей портфолио выпускников основной школы отмечается, что результаты экзаменов, проводимых на объективной, «внешней» основе, должны стать важнейшей составляющей итоговой аттестации. Однако внешние оценки не должны быть единственными. Ибо очевидно, что нельзя пренебрегать и иными реальными образовательными достижениями ученика, полученными им в иных, не экзаменационных формах. Тем более если речь идет о выявлении объективных оснований выбора профиля обучения в ближайшем будущем.

    Идея портфолио как совокупности (портфеля) сертифицированных (документированных) индивидуальных учебных достижений, выполняющей роль индивидуальной накопительной оценки и, наряду с результатами экзаменов, определяющей образовательный рейтинг выпускников основной школы, открывает новые прогностические возможности. Однако для реализации такого подхода необходимы создание структур, механизмов и критериев для построения портфолио, разработка и апробация различных моделей портфолио, методов анализа и оценки его составляющих в соответствии с целями оценивания. Требуется разработать варианты ранжирования и сертифицирования материалов, составляющих портфолио, установить критерии их оценки, а также сроки, в течение которых индивидуальные учебные достижения являются актуальными и подлежат накоплению в портфолио, установить требования и нормы, регулирующие построение и действие портфолио, которые являются обязательными для образовательных учреждений. Все это должно обеспечить организационную и содержательную целостность двух составляющих образовательного рейтинга: итоговой аттестации и индивидуальной накопительной оценки.

    Пока еще только предлагаются различные варианты портфо–лио, позволяющие документировать оценки. По мнению создателей портфолио, нижний уровень достижений, учитываемых портфолио, может быть школьным или межшкольным в том случае, если проводятся внешняя экспертиза и сертифицирование результатов, достигнутых внутри школы или на межшкольных мероприятиях. Для образовательных сетей большого города и для сельских районов пороговым уровнем может быть принят уровень районных олимпиад, в малом городе – уровень городских олимпиад. Все достижения, показанные учащимся на уровне выше муниципального, могут давать право быть зачисленным на избранный профиль муниципального образовательного учреждения вне конкурса. В любом случае при ранжировании отсчет ведется от достижений самого высокого уровня внутри сети.

    Наряду с независимыми (внешними) оценками – дипломами олимпиад и конкурсов – могут учитываться сертификаты, полученные в учреждениях дополнительного образования, свидетельства о прохождении определенных курсов (иностранного языка, информационных технологий и др.), а оценивают их, приводя «к общему знаменателю», в соответствии с установленными критериями. При этом приоритетными являются профильные достижения, т.е. результаты, достигнутые в тех предметных областях, по которым учащийся сдает экзамены по выбору, или смежных с ними.

    Важно также определить срок актуальности учебных достижений, в течение которого они накапливаются в портфолио: последнего учебного года, двух лет или длительного срока обучения на основной ступени. Возможны разные варианты учета оценок портфолио при переходе на следующую ступень обучения:

    • результат портфолио включается в суммарный образовательный рейтинг, и зачисление ведется по рейтингу;

    • учитываются только при прочих равных условиях (относительно результатов экзаменов) в ситуации возникновения конкурса;

    • выступают приоритетным показателем (в случае равенства рейтингов у двух поступающих на старшую ступень).

    Вероятно, оценки независимого тестирования и ЕГЭ найдут свое место в портфолио. Однако здесь очень важной составляющей являются интерпретация результатов тестирования и приведение их в сопоставимый вид с другими оценками. Пока сама идея и различные модели портфолио только разрабатываются, планируются и закладываются на уровне апробации, поэтому педагогическое сообщество может и должно активно участвовать в этом процессе.

    Такие данные можно использовать в качестве статистической нормы. Для объективизации выводов и заключений педагогический анализ результатов контроля следует проводить в сравнении с данными генеральной выборки (учащиеся страны, региона или крупного города). В этом случае при выявлении причин успехов или неудач образовательной деятельности обеспечивается большая объективность выводов, заключений и принимаемых решений.

    В рамках системного подхода к созданию условий для обучения и развития личности контрольно–оценочный процесс и образовательный мониторинг по его результатам должны рассматриваться в контексте других сопутствующих действий, предполагающих постановку и решение комплекса задач по обеспечению высокой объективности результатов тестирования, среди которых можно выделить наиболее важные:

    • обучение с использованием тестовых технологий для достижения планируемых результатов в условиях внешней контрольно–оценочной системы;

    • создание независимой системы объективного оценивания качества подготовленности обучающихся, адекватной целям и задачам обучения;

    • создание системы показателей и критериев независимой оценки качества образовательного процесса и образовательных систем с помощью статистического анализа индивидуальных учебных достижений;

    • обоснование и оптимизацию в учебном процессе традиционного контроля и обучающего тестирования;

    • создание новых моделей педагогических измерений с включением заданий для проверки творческих способностей и практико–ориентированных навыков;

    • разработку и широкое использование в учебной практике адаптивного тестирования;

    • научное обоснование системы самоконтроля и самоподготовки на основе психолого–педагогических исследований отечественных ученых об индивидуализации обучения, лич–ностно ориентированном и развивающем образовании;

    • обеспечение корректного многофакторного анализа эмпирических результатов массового тестирования;

    • использование в образовательной и контрольно–оценочной деятельности педагогов современных информационных технологий для повышения эффективности педагогического труда и снижения психологических нагрузок.

    Это значит, что сама концепция оценки качества образования начинает претерпевать заметные изменения, впредь она будет затрагивать не только учащихся и их достижения, но также педагогов, образовательные учреждения и всю систему образования в целом. В последнее время уже наметилась тенденция использования результатов массового тестирования для аттестации школ и учителей, что является позитивным направлением. Однако это требует разработки соответствующих методик оценки качества образовательного процесса, а одноразовые оценки тестового контроля не могут быть единственными для заключений и выводов о качестве образовательных учреждений, подготовленности испытуемых и квалификации учителей даже по когнитивной составляющей проверок. В таких условиях вопросы, связанные с повышением эффективности использования материалов, технологий и результатов массового тестирования для оценки учебных достижений и большого спектра личностных характеристик обучающихся, качества образовательного процесса, образовательных систем и управления образованием, становятся особенно важными.

    5.4. Формы и методы отбора абитуриентов в России и за рубежом

    Во многих странах мира существует практика отбора абитуриентов, когда выпускник сдает единый экзамен, резюме рассылает по вузам, в которых хотел бы учиться, там рассматривают итоги экзамена по количеству баллов и присылают приглашение в тот или иной вуз. При этом именно тестирование является основным способом оценки подготовленности выпускников общеобразовательных учреждений и их отбора для обучения в вузах [101]. Сегодня российское общество перестраивается, переосмысливает свои ценности и приоритеты. Интеграция страны в международное сообщество приводит к необходимости приближаться к европейским, мировым стандартам в образовании и вводить более эффективную систему отбора абитуриентов.

    Объективный контроль качества знаний, умений и навыков выпускников, соответствие их подготовленности требованиям образовательных нормативных документов и требованиям конкурсного отбора при приеме в учебное заведение – одна из наиболее актуальных задач. Изменения, происходящие в российском образовании в последнее десятилетие, затронули всю систему, включая выпускные и вступительные экзамены в вузы и ссузы, а потому представляет интерес анализ систем отбора выпускников для поступления в вузы в разных странах, использующих последние достижения в области педагогических измерений.

    К таким странам можно отнести Австралию, Англию, Германию, Нидерланды, США, Францию, Японию и др. Системы экзаменов этих стран, имеющие много общего, тем не менее существенно отличаются друг от друга. Отличительной особенностью экзаменов, в основном европейских стран является ориентация содержания проверки не на воспроизведение знаний, а на их применение в новой ситуации, на объяснение теоретического и практического материала, планирование и проведение научных экспериментов. Для этого используются открытые задания, на которые нужно дать краткие или развернутые письменные ответы, а также практические и экспериментальные задания, требующие для своего решения переноса знаний из различных предметных областей.

    Самая разветвленная система отбора выпускников школ для поступления в колледжи и университеты существует в США. Американский выпускник средней школы на первом этапе выбирает не один вуз, а сразу несколько, отправляя документы с приложением сертификатов своих тестовых достижений. Вуз или вузы, которым он подходит по уровню своих учебных достижений, приглашают его на собеседование. За время обучения в школе учащиеся выполняют большое число стандартизированных тестов. При поступлении в вузы США необходимо представить документы об окончании полной средней школы и результаты одного или более общих тестов – ACT (American College Testing Program) или SAT I & II (Scholastic Assessment Test), характеристики, рекомендательные письма учителей, результаты собеседования при поступлении. Как правило, тест SAT проверяет вербальные способности и знания по математике (его сдают около 43% учащихся), а тест ACT ( сдают примерно 35% учеников) состоит из субтестов по нескольким предметам (английскому языку, математике, чтению, естествознанию и др.). Результаты тестирования SAT и ACT учитывают практически все четырехлетние вузы США. Многими из них учитываются также число кредитов, полученных при обучении в старшей школе, отметки по отдельным курсам, результаты тестирования, проводимого частными компаниями, письменные сочинения, интервью, участие во внешкольных мероприятиях и др.

    В большей степени с учебными программами связаны тесты AP (Advanced Placement), при выполнении которых требуются более глубокие знания школьных предметов. Результаты этого тестирования принимаются большинством колледжей и университетов. Для подготовки к сдаче тестов AP углубленного уровня разработаны специальные программы по 20 предметам. По ним работают около 48% американских школьников, но выполняют его только около 7% выщскников, а успешно сдают 4% [101]. Оценки по тестам должны быть не ниже установленных проходных баллов (критериев) и могут использоваться как показатели для оказания финансовой помощи. Ряд американских университетов и колледжей принимают студентов по результатам конкурса документов об окончании средней школы. Однако наиболее престижные вузы устраивают конкурсный отбор, так как число поступающих значительно превышает возможности учебных заведений.

    Для поступления в колледжи и университеты Англии учащиеся должны вначале завершить обязательное образование в 16 лет, а затем получить дополнительную углубленную подготовку по выбранной специализации. Для получения документа о завершении среднего образования – GCSE (General Certificate of Secondary Education) в^гпускники школы должны сдать экзамены по восьми предметам, получившие три наивысших балла не менее чем по пяти предметам по семибалльной шкале могут поступить в специальные классы, в которых в течение двух лет готовятся к сдаче экзаменов в университет. Подготовка в вузы осуществляется в основном по трем предметам, на каждый из которых тратится приблизительно одинаковое время. Учащиеся сами выбирают эти предметы, состоящие из одной или близких областей знаний (математика и естествознание, гуманитарные предметы). Завершая двухлетнее обучение, учащиеся сдают экзамены повышенного уровня (A–level examinations) по выбранным предметам. Для поступления в большинство вузов страны нужно успешно сдать по 2—3 предметам экзамены повышенного уровня, которые проводятся семью независимыми экзаменационными комитетами.

    Десятилетнее обязательное образование для французских учащихся в 16 лет заканчивается получением диплома коллежа (brevet de college), который выдается на основе результатов тестирования по трем основным предметам (французский язык, математика, история или география), учитываются и результаты обучения по остальным предметам. Экзамен по французской литературе является обязательным для всех. В последнее время наиболее престижные и элитные университеты Франции, а также некоторые факультеты в обычных университетах, на которые поступает наибольшее число абитуриентов, требуют сдачи дополнительного экзамена (concours), для чего необходима специальная подготовка в течение 1—2 лет. Поэтому около 85% выпускников колледжа поступают в трехлетний академический лицей для получения диплома бакалавра, дающего право поступления в вузы. Диплом бакалавра выдается по результатам письменного тестирования, проводимого в течение четырех дней, общим объемом чистого времени 25 часов. Экзаменационные работы разрабатываются специалистами 28 академий, которые объединены в четыре группы, при этом Министерство образования играет существенную роль в проведении экзаменов, определяет темы, по которым проверяется и оценивается подготовка учащихся, а также составляет расписание экзаменов и определяет процедуры их проведения.

    Для поступления в университеты Германии необходимы 13–летнее обучение в гимназии и получение диплома Abitur. Немецкая система образования отличается ранней дифференциацией учащихся по способностям на три потока: одна часть идет в 9–летнюю школу (примерно 33% обучается в основной школе, по данным 1991 г.), другая – в 10–летнюю (около 23% в реальной школе), а третья продолжает обучение на первой и второй ступенях гимназии (около 31% в гимназии). Возможен переход учащихся из одной группы в другую при соответствующих условиях. Для получения аттестата Abitur сдают четыре экзамена из обязательных 28 учебных курсов. Для поступления на наиболее популярные факультеты требуется прохождение дополнительного тестирования или собеседования. На многих факультетах университетов Германии существует лист ожидания.

    Число абитуриентов, поступающих в японские университеты, значительно превышает показатели для многих стран мира. Это объясняется тем, что профессиональная карьера в Японии сильно зависит от наличия высшего образования и от того, в каком университете оно было получено. Первая дифференциация японских учащихся начинается при поступлении в старшую среднюю школу после окончания обязательной девятилетней школы. Прием осуществляется на основе школьных отметок и результатов выполнения вступительных тестов, содержание которых ориентировано на национальные программы, но отличается для различных регионов (префектур) страны. Интересно, что результаты выполнения тестов никогда не сообщаются учащимся, они высылаются прямо в те школы, в которые учащиеся собираются поступить. Самые элитные школы, в которые поступают самые способные учащиеся, как правило, связаны с самыми престижными университетами страны, выпускники которых занимают наиболее важное положение в обществе. В связи с тем что экзамены играют основную роль при поступлении в старшую среднюю школу и университет, учащиеся и их родители очень серьезно относятся к подготовке к этим экзаменам. Более половины учащихся 7—9–го классов занимаются дополнительно после школы по двум–трем предметам. Чтобы поступить в университет, выпускник средней школы должен пройти два тура экзаменов. Первый тур экзаменов (University Entrance Center Examination – UECE), одинаковых для всей страны, учащиеся последнего года обучения сдают почти за полгода до поступления в вуз. Сдача этих экзаменов обязательна для всех государственных и некоторых частных университетов. Учащиеся должны пройти тестирование по нескольким предметам из 12. Их число определяется требованиями университета, в который они планируют поступить. Второй тур экзаменов проводится самими университетами. Данные экзамены превосходят по сложности национальные экзамены, они разрабатываются специалистами университетов и отличаются по содержанию для различных университетов и даже для отдельных факультетов одного и того же университета. Обычно абитуриенты должны сдать один–два университетских экзамена. Конкурс в университеты очень высокий, и многие из тех, кто не поступил в университет, продолжают в течение года – двух лет готовиться к сдаче этих экзаменов. Повторно сдающие экзамены обычно составляют одну треть от общего числа абитуриентов. Содержание экзаменов разрабатывается двадцатью предметными комитетами, в которые входят преподаватели университетов, рекомендованные руководством университетов. Одной из задач комитетов является контроль за соответствием содержания экзаменов национальным программам и обеспечением одинаковых стиля, формы, а также уровня трудности экзаменов по всем предметам. Представители профессиональных организаций учителей–предметников ежегодно встречаются с членами комитетов для экспертизы и обсуждения содержания, уровня трудности и формы экзаменов.

    Таким образом, анализ представленной информации показывает, что в разных странах имеются свои требования к уровню подготовки абитуриентов: в Англии требуется продемонстрировать углубленную подготовку по двум–трем предметам; во Франции – показать широту подготовки по различным областям знаний; в Германии – продемонстрировать и широту, и глубину подготовки (освоить 28 учебных курсов и сдать 4 экзамена, 2 из которых повышенного уровня); в США одной из основных целей является определение (прогнозирование) способности абитуриента обучаться в высшем учебном заведении, в других странах – оценить уровень подготовки по основным предметам.

    В России первые опыты по отбору абитуриентов независимым тестированием начались в 1990–х годах после организации Центра тестирования. В основу разработки и конструирования абитуриентских тестов заложена нормативно–ориентированная интерпретация, целью которой как раз и являются дифференциация выпускников по уровням учебных достижений и отбор наиболее подготовленных. Определенный опыт, накопленный в сфере применения тестовых технологий и материалов как для аттестации учащихся, так и для проведения вступительных испытаний в вузы, наметившиеся сдвиги в развитии теории тестирования, распространение информационных технологий тестирования, сбора, обработки и представления результатов можно рассматривать как начало формирования сферы индустриального производства и использования тестов, обеспечивающей создание в стране основ единой системы тестирования национального масштаба в виде единого государственного экзамена. При этом перевод тестовых баллов в оценку вступительных испытаний каждый вуз проводит по своим правилам, используя разные оценочные шкалы. Наметилась тенденция использования вузами контрольно–измерительных материалов и технологий централизованного тестирования для проведения вступительных испытаний непосредственно в вузах [52, 62, 106, 187].

    У нас в последние годы в ведущие вузы страны все меньше поступает выпускников из сельской местности и иногородних. Если 10 лет назад в Москве обучались 75% иногородних и 25% москвичей, то сегодня 75% москвичей и только 25% иногородних [156]. Изменить ситуацию предполагается кардинальной заменой всей контрольно–оценочной системы. Прежде всего это касается создания таких контрольных измерительных материалов (КИМ) и технологий проведения контрольно–оценочного процесса, которые позволят оценить учебные достижения выпускников средней школы на основе единых требований, дадут надежные ориентиры для организации учебного процесса и позволят обеспечить управление качеством работы всей системы образования в соответствии с современными требованиями, а также отобрать тех, кто наиболее подготовлен для обучения в вузах. Тестовые материалы для этих целей должны создаваться на основе глубоких научно–методических разработок ведущих исследовательских центров в соответствии с современными требованиями мировых стандартов на тестовую продукцию, а также с учетом требований отечественных образовательных стандартов.

    Следует отметить, что тестирование как метод конкурсного отбора абитуриентов в вузы является весьма прогрессивным и перспективным. Оно позволяет за сравнительно короткое время проверить знания выпускников по широкому спектру вопросов программы вступительных испытаний по разным предметам, обеспечивая беспристрастность, одинаковость условий испытания, равный уровень требований и оперативность обработки результатов, экономию средств вузов.

    Это в полной мере относится и к контрольно–оценочной системе – единому государственному экзамену. С точки зрения объективности оценки, технологичности и экономической эффективности, сопоставимости результатов и комфортности работы учащихся наиболее приемлемой является тестовая форма проведения ЕГЭ по большинству предметов [215]. С позиций системно–деятельностного подхода в перспективе ЕГЭ можно рассматривать как одну из ведущих систем независимой экспертизы качества подготовленности выпускников и отбора абитуриентов на всей территории страны. Предполагается, что такая система аттестации позволит решить ряд задач: обеспечит многим выпускникам доступность получения высшего образования в ведущих вузах страны; позволит на основе сопоставимости результатов массового тестирования ввести многоуровневый мониторинг качества общего образования в стране; создаст условия целенаправленной управляемости и мобильности развитиия образовательных систем.

    В этом смысле ЕГЭ – это, по сути, и выпускной в школе, и вступительный экзамен в вуз одновременно. В настоящее время формируются система, структура и содержание ЕГЭ, отрабатываются формы, материалы и технологии его проведения, методы шкалирования и форматы представления результатов. Суть эксперимента заключается в проверке возможности проведения массового экзамена централизованно по стандартизированным контрольно–измерительным материалам с автоматизированной проверкой ответов и с выдачей свидетельств государственного образца с результатами, которые засчитываются в школах на итоговой аттестации и в вузах в качестве оценок вступительных испытаний.

    Единый государственный экзамен – это экзамены по отдельным предметам, которые должны сдавать все выпускники полной общеобразовательной средней школы. Единство этих экзаменов заключается в двух особенностях: их результаты одновременно учитываются в школьном аттестате и при поступлении в вузы; при проведении этих экзаменов на всей территории России применяются однотипные задания и единая шкала оценки, позволяющая сравнивать всех учащихся по уровню подготовки. Одной из задач ЕГЭ является уход от существующей сейчас системы, когда экзамены сдаются преподавателю, который вел у выпускника занятия и фактически ставит на экзамене и оценку самому себе.

    Единый экзамен проводится в регионе по решению государственной региональной (областной, республиканской) экзаменационной комиссии в вузах и базовых школах, принимают его специальные комиссии – ГЭК, составленные из представителей районо, школьных учителей и вузовских преподавателей, которые не являются специалистами по тому предмету, по которому они проводят экзамен, и не являются сотрудниками тех базовых школ, в которых проводятся экзамены.

    На экзамен учащиеся допускаются исключительно по пропускам и документам, удостоверяющим личность. По каждому предмету учащимся для работы над тестом отводится ровно три часа. ЕГЭ по определенному предмету проводится в один и тот же день на всей территории России (согласно централизованному расписанию). Между экзаменами по разным предметам устанавливаются интервалы в два–три дня.

    Оценивается единый экзамен по каждому предмету по 100– балльной шкале. Чтобы перенести эти результаты в школьный аттестат, используется перевод тестовых баллов на традиционную шкалу «двойка—пятерка». Для отбора абитуриентов вузы самостоятельно устанавливают правила перевода баллов ЕГЭ в шкалу оценок, принятую в вузе. Следует отметить, что все большее число вузов при отборе абитуриентов пользуются 100–балльной шкалой, так как ее дифференцирующая способность значительно выше 5–балльной, что практически исключает появление полупроходного балла.

    Одним из достоинств такой системы набора является то, что сотни учащихся сельских школ за последние годы стали студентами вузов страны по результатам тестирования, что называется, по месту жительства.

    Вместе с тем, несмотря на позитивную динамику развития ЕГЭ, имеется ряд проблем, связанных с обязательностью проведения выпускных экзаменов в форме ЕГЭ, дополнительными испытаниями в вузах при отборе абитуриентов и др. [22—26]. В работах В.А. Болотова по этим проблемам главными направлениями модернизации школьного образования названы следующие:

    • разработка школьных стандартов с уменьшением числа понятий, подлежащих запоминанию, и увеличением составляющей для формирования компетентности и компетенций учащихся;

    • введение единого государственного экзамена, в содержание заданий которого была бы заложена динамика изменений требований к содержанию образования и преобразованию технологий обучения в школе;

    • введение профильного обучения в старшей школе для предоставления учащимся возможности выстраивания личной образовательной траектории;

    • совершенствование школьных учебников, в которых уменьшение информации сопровождалось бы требованием использования дополнительных материалов, развитием умений поиска информации с использованием информационных и коммуникационных технологий;

    • совершенствование системы подготовки педагогических и управленческих кадров для развития новых компетенций учителя и организационных способностей управленцев для создания ключевых элементов системы обеспечения качества образвания [23].

    Для повышения качества образования необходимо создание общероссийской системы оценки качества образования (ОСОКО), позволяющей проводить оценку как знаний обучающихся, так и деятельности образовательных учреждений, деятельности системы образования на муниципальном, региональном и федеральном уровнях. Деятельность ОСОКО должна выявить, насколько эффективна работа того или иного общеобразовательного учреждения, какой контингент учащихся приходит в школу, где она располагается и в каких условия работает, каковы ее кадровый потенциал, материально–техническое обеспечение. При создании ОСОКО важно учесть весь комплекс вопросов: от оценивания организации питания и досуга учащихся до учебно–методического и кадрового обеспечения образовательного процесса, возможности получения профессионального образования, направлений повышения его эффективности и создания условий для формирования новой морали в области оценки качества обучения и приема абитуриентов [28].

    Вопросы и задания

    1. По каким показателям возможно оценивание качества обучения с использованием результатов образовательной статистики массового тестирования?

    2. Перечислите возможные виды педагогического анализа результатов ЕГЭ.

    3. Объясните особенности представления результатов тестирования различными графическими методами.

    4. В чем заключается преимущество оценивания по методу портфолио?

    5. Какие меры способствуют объективизации результатов контроля знаний?

    6. Перечислите отличительные особенности вступительных испытаний в вузы в традиционной форме и в форме ЕГЭ.









     


    Главная | В избранное | Наш E-MAIL | Прислать материал | Нашёл ошибку | Верх