-
Вероятностные способы формирования выборочной совокупности
Строгое обоснование
выборки как модели генеральной
совокупности и степени ее репрезентативности
— все это в “полной мере осуществимо
только для
вероятностных
(случайных) выборок.
Понятие случайного
способа формирования выборочной
совокупности нельзя понимать в
обыденном значении этого слова, ибо
случайная выборка предполагает
определенные процедуры ее организации
и предъявляет социологу определенные
требования.
Существует ряд
приемов формирования выборочных
совокупностей, которые строятся по
подобию вероятностных, но для которых
нельзя строго обосновать, что выборочные
характеристики выступают оценками
соответствующих характеристик
генеральной совокупности. Такие
выборки можно назвать эмпирическими,
так как они не имеют теоретического
вероятностного обоснования.
Основная цель
выборочного исследования — сформировать
репрезентативную выборку. Для этого
необходимо обеспечить всем элементам
генеральной совокупности равные
возможности- попасть в выборку. При этих
условиях элементы генеральной совокупности
оказываются представленными в выборке
с вероятностями, которые приближаются
к их распределению в генеральной
совокупности. Объекты, которые чаще
встречаются в генеральной совокупности,
чаще будут преобладать и в выборке.
Такой результат является проявлением
действия закона больших чисел. Именно
подобные типы выборок, воспроизводящие
закон распределения генеральной
совокупности, получили название
вероятностных.
Различают следующие
виды
вероятностной выборки:
простую, систематическую и серийную
(«гнездовую»).
-
Простая вероятностная выборка.
Собственно случайная
выборка лежит в основе всех остальных
типов выборки, которые будут рассмотрены
далее.
Выборка называется
собственно
случайной,
если при извлечении выборки объема n
все возможные комбинации из n
элементов, которые могут быть получены
из генеральной совокупности объема N,
имеют равную вероятность быть извлеченными.
По определению,
при собственно случайной выборке
выполняется принцип случайности.
Отбор производится
с помощью жеребьевки, таблицы (либо
генератора) случайных чисел. Главный
принцип –
случайность,
т.е. все единицы генеральной совокупности
имеют равную вероятность попасть в
выборочную совокупность. Другие
принципы:
-
Принцип жеребьевки.
Каждый элемент генеральной совокупности
заносится на бумажку (это могут быть
фамилии, адреса, просто номера (в этом
случае выпавшие номера ставят в
соответствие с людьми в списках) и
т.д.), затем бумажки помещаются в барабан,
перемешиваются и не глядя вытаскиваются. -
Принцип таблицы
случайных
чисел.
Начиная с любого места таблицы, берем
четыре следующих друг за другом числа.
Эти числа и будут номерами людей в
списке, которых следует отобрать в
выборку (числа, превышающие численность
генеральной совокупности, опускаются). -
Принцип генератора
случайных чисел.
Это то же самое, что и таблицы случайных
чисел, только числа вырабатываются
компьютером (для этого существует
специальная программа).
Процедура
построения
простой
случайной выборки
включает
в себя следующие шаги.
-
Во-первых,
нужно получить полный список членов
генеральной совокупности и пронумеровать
этот список. Такой список, напомним,
называется основой
выборки. -
Во-вторых,
следует определить предполагаемый
объем
выборки, т.
е. ожидаемое число опрошенных. -
В-третьих,
нужно
извлечь из таблицы
случайных чисел (либо с помощью генератора
случайных чисел)
столько чисел, сколько нам требуется
выборочных единиц. Если в выборке должно
оказаться 100 человек, из таблицы
берут 100 случайных чисел. -
В-четвертых,
нужно
выбрать из списка-основы те наблюдения,
номера которых соответствуют
выписанным случайным числам1.
Различают повторную
и бесповторную
выборку.
Простая повторная
выборка.
На карточки наносятся номера
респондентов. Карточки перемешиваются.
Вслепую вынимается карточка, записывается
ее помер, затем карточка возвращается
в колоду, и карточки снова перемешиваются.
Эта операция называется повторным
отбором. Сама процедура повторной
выборки почти не используется для
социологических исследований, и возможное
дублирование единиц отбора для многих
программ социологического исследования
равносильно сокращению намеченного
объема выборки. При повторном отборе
каждый выбранный элемент возвращается
в ГС.
Простая
бесповторная выборка.
При бесповторном отборе выбранный
элемент не возвращается в ГС2.
Респонденты отбираются как и при простой
повторной выборке, но отобранные карточки
не возвращаются в колоду, а откладываются
в сторону.
Плюсом простого
случайного отбора является полное
соблюдения принципа случайности и, как
следствие – избежание систематических
ошибок.
Случайная выборка
обладает рядом недостатков, которые
затрудняют ее применение на практике.
Эти недостатки можно представить в трех
пунктах:
-
Необходимость
наличия списка элементов генеральной
совокупности. Обычно
элементами генеральной совокупности
являются люди; в этом случае
в качестве
списка могут выступать адреса, телефоны
и т.д. Трудность здесь заключается в
том, что получить такой список далеко
не всегда представляется возможным.
Следовательно, в тех случаях, когда
невозможно получить список элементов
генеральной совокупности, невозможно
проводить и случайный отбор. -
Сложность
проведения опроса.
Процедура опроса при случайном отборе
является очень громоздкой и требующей
много времени. Ведь в результате
случайного отбора исследователь
получает на выходе список фамилий
респондентов (телефонов, адресов и
т.д.), которых необходимо опросить. Иными
словами, интервьюерам приходится
«бегать» за каждым респондентом и
добиваться от него согласия ответить
на «парочку вопросов».
Осложняет дело и
то, что респондентов порой бывает не
так просто достать; в случае отсутствия
респондента его приходится посещать
по нескольку раз (по крайней мере не
менее трех раз).
Все вышеперечисленное
ведет к повышенным временным затратам
на проведение опроса. Временные затраты
можно уменьшить только благодаря
привлечению дополнительных интервьюеров,
т.е. только за счет дополнительных
денежных расходов. Помимо этого возникает
еще так называемая проблема
неответивших.
-
Сравнительно
большой объем выборки.
Для получения результатов со сравнительно
высокой степенью точности собственно
случайный отбор требует достаточно
большого объема выборки по сравнению
с другими видами отбора. Другими словами,
случайный отбор обладает меньшей
степенью точности, что, в конечном
счете, является причиной его меньшей
эффективности1.
Довольно
часто исследователь сталкивается с
ситуацией, когда временные и финансовые
затраты на осуществление простой
случайной выборки становятся неприемлемо
высокими. Наиболее разумным выходом
здесь является использование других,
«компромиссных», процедур случайного
отбора.
Часто используются различные методы
моделирования случайности.
Использование
различных типов случайного отбора
позволяет несколько сгладить некоторые
из вышеупомянутых трудностей, возникающих
при проведении собственно случайного
отбора. Например, некоторые типы
случайного отбора позволяют упростить
организацию опроса, но главное – это
то, что они увеличивают эффективность
выборки.
Так при случайном
отборе ошибка выборки контролируется
только за счет изменения объема выборки.
В рассматриваемых же нами типах случайного
отбора эффективность выборки можно
повысить за счет моделирования выборки
без увеличения ее объема.
Под моделированием
выборки понимается проведение случайного
опроса с учетом информации о генеральной
совокупности. Это означает, что по
некоторым параметрам составляется
модель генеральной совокупности для
того, чтобы уже на стадии, предшествующей
стадии случайного отбора, повысить
соответствие этих параметров в выборке
и генеральной совокупности2.
Однако модификации
случайного отбора не могут преодолеть
всех трудностей, связанных со случайной
выборкой. Это связано с тем, что все они
являются разновидностями
именно случайного отбора
и в них используется принцип случайности.
Из этого следует,
что проводить любой случайный отбор
невозможно без списка элементов
генеральной совокупности. Более того,
большинство типов случайного отбора
приводят к тем же трудностям при
организации опроса, что и при собственно
случайной выборке. Главное, чего достигают
эти модификации случайного отбора, так
это увеличения точности выборки.
Однако при формальном
сходстве с собственно случайной выборкой,
любая ее вариация есть все же некоторое
отклонение от принципа случайности.
Эти отклонения могут приводить к
систематическим ошибкам, которые
невозможны при собственно случайной
выборке. Теперь непосредственно перейдем
к рассмотрению типов случайного отбора.
2. Механическая
(или систематическая вероятностная)
выборка
— это
упрощенный вариант вероятностного
отбора. Систематическая
выборка
по качеству часто приближается к простой
случайной. Систематическая выборка,
как и простая случайная, требует полного
списка или заданного упорядочения
совокупности (различные
алфавитные списки, картотеки учреждений,
книги жильцов в домоуправлении).
Техника
осуществления систематического отбора
элементарна: сначала случайным образом
отбирается первая единица, затем отбору
подлежит каждый k-й
элемент.
Число k
в
данном случае называют шагом
выборки.
Можно,
например, отбирать каждый 25-й или каждый
200-й элемент. Чтобы определить шаг отбора,
нужно поделить известный объем
генеральной совокупности (N)
на
предполагаемый объем выборки (n).
(k)
.
Начало отбора
выбирается случайным образом в пределах
шага выборки. Например, если шаг выборки
равен 20, то начинать отбор надо с любого
числа от 1 до 20.
Не существует
никаких априорных статистических или
социологических правил для определения
объема имеющейся информации.
Единственное общее
правило
заключается в том, что чем
более статистически однородна генеральная
совокупность, тем объем выборки может
быть меньше; чем меньше информации о
характере генеральной совокупности,
тем больше должен быть объем выборки.
Пусть, например,
нужно отобрать 200 человек из 20000 владельцев
телефонов:
1)
определим шаг отбора: N/n
= 20000
: 200 = 100;
2) с помощью таблицы
случайных чисел найдем первую выборочную
единицу. Если, скажем, выпал номер
«053», то из списка владельцев телефонов
выпишем того, кто значится под этим
номером;
3) с установленным
шагом отбираем номера: 153, 253, 353, 453 и т.
д. до исчерпания списка.
Выбор величины k
зависит от характера поставленной
проблемы. Предположим, что основой
выборки является пронумерованный
список школ данного города от 1 до 100.
Если исследователя интересует соотношение
мальчиков и девочек в выпускных классах,
то достаточно взять k
=20 (п
= 5), а если исследуется профессиональная
ориентация школьников, то может оказаться
слишком большим и k
= 10 (га == 10).
Это объясняется тем, что во втором случае
поднимается более сложная задача, ее
изучение зависит от большого числа
воздействующих факторов, а значит —
больше вариаций.
Допустим, что часть
школ расположена в типичном заводском
районе. Тогда профессиональная ориентация
школьников, возможно, окажется в нем
отличной от профессиональной ориентации
в школах, расположенных в центре города.
В большинстве исследований k
берется равным 10, хотя определение
интервала чаще всего зависит от размера
генеральной совокупности и намеченного
размера выборки.
Иногда
генеральная совокупность (и соответственно
основа выборки) слишком велика либо
исследователю известен не полный список,
а лишь правило
упорядочения элементов в
генеральной совокупности. Предположим,
что мы хотим составить представление
о весе и формате книг, содержащихся в
некой библиотеке, при том, что мы не
располагаем полным каталогом, а лишь
видим, как книги расставлены на стеллажах.
При условии, что объем библиотечного
собрания нам приблизительно известен,
мы можем воспользоваться процедурой
систематического отбора и отобрать,
скажем, каждую 55-ю книгу. Очень важно
отобрать «стартовую» единицу сугубо
случайным образом.
Именно в этом пункте кроется основная
слабость
систематического отбора.
Если в способе упорядочения единиц
совокупности имеет место некая
цикличность, т. е. неизвестная
нам «система» (систематический
паттерн), а случайность в выборе «старта»
должным образом не обеспечена, то
полученная выборка может также
оказаться смещенной
(если
о систематическом паттерне мы знаем
заранее, то он не представляет собой
угрозы валидности и может быть учтен в
ходе отбора). Если воспользоваться
примером с отбором книг в библиотеке,
то легко представить себе такую
гипотетическую ситуацию: исследователь
выбирает в качестве стартовой первую
книгу
на нижней полке ближайшего стеллажа и
далее двигается с шагом 250 единиц. Если
на каждом стеллаже размещается около
500 книг, то приблизительно половина его
выборки будет взята с нижних полок.
Однако известно, что на нижних полках
многих библиотек нередко размещают
книги больших форматов — художественные
альбомы, атласы и т. п. Если в нашем
примере это правило упорядочения будет
соблюдено хотя бы в половине случаев
(т. е. половина нижних полок будет отведена
под «неформатные» издания, под так
называемые фолио), любые выборочные
оценки «направленности» библиотечного
собрания или формата представленных в
нем книг окажутся невалидными.
Аналогией
примеру с библиотечными книгами может
служить случай
систематической выборки городских
квартир. Если
в результате осуществляемого
непосредственно «в поле» интервьюерами
систематического отбора в выборке
будут сверхпредставлены квартиры,
расположенные на первых и последних
этажах, возникнет систематическая
выборочная ошибка. На первых и последних
этажах в российских городах часто живут
люди из групп, имеющих более низкий
социально-экономический статус и
соответственно ограниченные финансовые
ресурсы: квартиры, расположенные на
«крайних» этажах и соприкасающиеся с
системами коммунального водо- и
теплоснабжения, обычно стоят дешевле,
так как названные системы в России
традиционно являются источником
неприятностей и дисфункций в структуре
жизнеобеспечения.
Систематическая
выборка является экономным и удобным
способом формирования выборочной
совокупности, хотя следует учитывать
возможность систематического распределения
в списках единиц различного типа,
повторяемости в их распределении,
которая может совпадать с величиной
интервала отбора, равной k.
Проиллюстрируем
это положение. При составлении основы
выборки для опроса рабочих в одном из
цехов завода выбранный интервал k
может совпасть с числом рабочих в
бригаде, в списке которой первым окажется
бригадир. Поэтому при выборе интервала
отбора, который совпадает со скрытой
периодичностью в генеральной реальной
совокупности, выборка может оказаться
полностью смещенной. Опасность в данном
случае состоит в том, что можно отобрать
только одних бригадиров.
Таким образом,
если при систематическом отборе в
генеральной совокупности существует
какой-либо определенный порядок
размещения ее единиц (расположение их
по возрастанию или убыванию изучаемого
признака), возникает опасность
систематической ошибки.
Выборка может
оказаться смещенной в том случае, если,
например, ее основой является платежная
ведомость, в которой лица расположены
в порядке возрастания размера заработной
платы. В этом случае выборка из начала
списка приводит к занижению средней
величины заработной платы и к преуменьшению
величины средней ошибки выборки. Отбор
из конца списка приводит к
их завышению.
Возможности и
ограничения систематической выборки.
Систематическая выборка часто
применяется при проведении конкретных
социологических исследований. Этот
способ выборки лучше всего использовать
при более или менее однородной генеральной
совокупности. В связи с этим систематическая
выборка часто используется в качестве
последней, завершающей ступени отбора
в сложных выборках.
-
Стратифицированная
(районированная) выборки.
Вероятностная выборка с любой техникой
отбора (простая вероятностная,
систематическая, серийная и даже
многоступенчатая) становится
районированной, если процедурам отбора
единиц наблюдения предшествует
разделение генеральной совокупности
на однородные части.
В статистическом
смысле районирование соответствует
выделению такого числа и таких
статистически однородных групп, чтобы
колебаемость изучаемых признаков внутри
их была меньше, чем между ними. Это и
свидетельствует (с формальной стороны)
о качественном районировании.
Эта дифференциация
внутри генеральной совокупности на
качественно более однородные группы
содержательно связана с предметом
исследования.
Необходимость
районирования вызвана сложной структурой
социальных объектов.
Районирование
совокупности оказывается необходимым
во всех случаях, когда она является
неоднородной с точки зрения социальных,
экономических и других характеристик,
формирующих ее социальных объектов.
Например, чтобы
избежать совпадений цикличности, которая
могла встретиться в уже приведенных
примерах (отбор бригадиров или по
ведомостям заработной платы), можно
всех бригадиров данного цеха или лиц,
получающих одинаковую заработную
плату, выделить в отдельные группы
и в каждой из этих групп производить
случайный отбор. Такая выборка,
предусматривающая предварительное
разделение генеральной совокупности
на содержательные сходные группы
(страты), и
является примером районированной
выборки.
Так, исследуя
профессиональную ориентацию школьников
в пределах одного города, можно в одну
группу отнести 16 школ, расположенных в
заводском районе, во вторую — 20 школ,
расположенных в центральной части
города, в третью — 64 школы, расположенные
в остальных его частях, где население
в основном занято малоквалифицированным
трудом. Для опроса можно отоборать
выпускников из двух школ первой группы,
двух школ из второй группы и двух — из
третьей. Если такая группировка школ
действительно отражает различия районов
по их расположению, которые существенно
учитывать в исследовании, например
различие социально-профессиональной
структуры населения, то колеблемость
изучаемых признаков внутри каждой
группы школ должна быть меньше, чем
между группами. Тогда несмотря на
относительное уменьшение доли
представительства третьей группы
репрезентативность выборки не уменьшается.
Применительно
к стратифицированному отбору часто
высказывают все те неверные и
предрассудочные мнения, которые в начале
XX
века высказывались относительно квотной
выборки (см. ниже) и ее воображаемых
преимуществ перед случайным отбором.
В действительности стратифицированный
отбор имеет определенные практические
преимущества до тех пор, пока сохраняется
его вероятностный, случайный характер.
Как только стратифицированная выборка
превращается в более или менее специально
отобранную квотную выборку, воспроизводящую
некоторые известные пропорции генеральной
совокупности (например, 51% женщин, 30%
горожан и т. п.), любые статистические,
т. е. строгие, оценки параметров
генеральной совокупности становятся
невозможными.
Стратификацией,
строго говоря, называют процедуру, при
которой отбор осуществляют как бы
из нескольких
«параллельных» подсовокупностей,
заданных
на
одной
и той же генеральной совокупности. Это
абстрактное определение можно прояснить
с помощью примера. Пусть у нас есть
генеральная совокупность взрослых
горожан, относительно которой мы
располагаем какой-то существенной
с точки зрения исследовательских гипотез
информацией. Наличие такой предварительной
информации — необходимое
условие стратифицированного отбора.
Предположим, мы знаем, что в генеральной
совокупности 60% рабочих и 40% служащих.
Это соотношение может оказаться весьма
существенным с точки зрения наших
исследовательских гипотез, если оно
задает одну из независимых
переменных, как,
например, при изучении влияния рода
занятий на частоту посещения футбольных
матчей. Даже при отсутствии значительной
систематической погрешности небольшие
смещения в реализации случайной
выборочной процедуры могут привести к
ситуации, когда в нашей конкретной
выборке соотношение рабочих и служащих
будет существенно (на 5—7%) отклоняться
от ожидаемой «правильной» пропорции,
имеющей место в генеральной совокупности
(см. обсуждение нормальной кривой и
индуктивного статистического вывода
в гл. 8). Соответственно под угрозой
окажется точность наших оценок взаимосвязи
между главной независимой переменной
(профессиональным статусом) и интересом
к футболу. Такого рода неточность может
быть устранена при использовании еще
одной случайной выборки из генеральной
совокупности, но здесь вступают в силу
экономические соображения, так как
исследовательский бюджет обычно
ограничен. В описанной ситуации
желательно заранее обеспечить
представленность обеих интересующих
нас групп, т. е. страт,
сохранив
вероятностный характер отбора. Этого
можно добиться, если осуществить некую
независимую процедуру случайного отбора
для каждой социальной группы в отдельности
(в нашем примере для рабочих и служащих)
и затем объединить полученные случайные
подвыборки в одну (заметьте, что для
нашего примера объем подвыборки рабочих,
в согласии с заранее известной
пропорцией, будет в 1,5 раза больше объема
подвыборки служащих). Полученная в
результате выборка будет и стратифицированной
(по
профессиональному статусу), и
вероятностной.
На
практике две случайные процедуры отбора
в подвыборки-страты можно технически
объединить в одну, если мы располагаем
априорной информацией о принадлежности
каждой выборочной единицы к той или
иной страте. Для этого достаточно
вести параллельный отбор из списка-основы
в несколько подвыборок (по числу страт).
Собственно выборочная процедура может
быть и простой
случайной, и
систематической
(соответственно
мы получим либо простую, либо
систематическую стратифицированную
выборку).
Рассмотрим
эту процедуру на примере составления
систематической выборки населения,
стратифицированной по этнической
принадлежности. Пусть мы осуществляем
выборку взрослых жителей небольшого
промышленного центра, при этом полученная
выборка должна отражать существующую
этнодемографическую ситуацию: 80% русских,
10% украинцев и 10% представителей других
национальностей. Основываясь на
информации, хранящейся в паспортных
столах милиции (или на избирательных
списках), мы в идеальном случае можем
составить полный список-основу,
включающий 100000 известных административным
органам постоянных жителей. Если
предварительно мы предполагаем включить
в нашу выборку около 1000 человек, нам
нужно отобрать из картотек паспортных
столов (или избирательных списков)
каждого сотого. То есть доля генеральной
совокупности f,
включенная в выборку, составит 1/100:
f
=
объем выборки (и) / объем целевой
совокупности (N).
Выборка
объемом в 1000 человек будет включать в
себя 800 русских, 100 украинцев и 100
представителей других национальностей.
Причем шаг систематического отбора (К)
для
всех трех подсовокупностей будет равен
100.
Таким
образом, мы будем выписывать из реальных
картотек
(списков) каждого сотого русского,
каждого сотого украинца и т.п. (естественно,
украинцы и представители других
национальностей будут встречаться в
списках в среднем в 10 раз реже
русских)1.
Вес
каждой единицы (респондента) в k-й
страте
равен отношению числа таких элементов
в генеральной совокупности к объему
выборки для k-й
страты2,
т.е.:
Выборка
в описанном нами примере является
пропорциональной,
так
как она представляет все страты в той
пропорции, в которой они содержатся в
генеральной совокупности.
Другой,
более дешевый, метод заключается в
непропорциональной
стратификации, т.
е. в непропорциональном отборе из
различных подсовокупностей. Нередко
возникает необходимость сделать
«распространенные» и «редкие» страты
равно представленными
в
выборке. Если вернуться к обсуждавшемуся
выше примеру исследования городского
населения, можно, в частности, представит;
ситуацию,
когда необходимо сравнить кулинарные
предпочтения русских и украинцев.
Очевидно, не вполне корректно сравнивать
800 русских и 100 украинцев. В этом случае
можно прибегнуть к непропорциональному
систематическому отбору из названных
страт: если отбирать каждого 200-го
русского и каждого 25-го украинца, мы
получим две вполне сопоставимые, равные
по объему, — 400 и 400 человек — подвыборки
(однако эти равные подвыборки будут
непропорционально
репрезентировать
доли соответствующих подсовокупностей,
в чем можно убедиться, самостоятельно
произведя подсчеты по описанным выше
формулам).
Выбор между
пропорциональной и непропорциональной
стратификацией исследователь
осуществляет, исходя из содержательных
и экономических соображений.
Типические
группы. В
качестве типических группировок
районирования могут быть использованы
как естественные образования, так и
специально формируемые для определенного
исследования. Например, при большом
географическом разбросе выборки такими
группировками могут выступать
экономико-географические регионы
или области страны. Другим примером
такого районирования может быть
классификация городов по их
административному статусу и по
численности населения.
Группами районирования
могут выступать и идеальные образования.
Примером такого районирования является
выделение в генеральной совокупности
при исследовании отношения молодежи
к труду шести групп по содержанию труда.
Признак
районирования или расслоения.
Признак, на основании которого
производится расслоение генеральной
совокупности, называется признаком
расслоения или районирования. Районирование
может проводиться по одному или по
нескольким признакам.
Организация
районированной выборки и ее типы.
С точки зрения процедур отбора генеральная
совокупность районированной выборки
выступает как сумма типических групп.
Районированный отбор иногда называют
типическим.
Организация
районированной выборки требует
представления о характере распределения
во всей совокупности тех признаков,
которые должны быть положены в основу
образования типических групп или
выделения районов.
Неправильный выбор
признака для группировки элементов
генеральной совокупности может привести
не к повышению репрезентативности
выборочных данных, а, напротив, к ее
понижению.
Организация
районированной репрезентативной выборки
связана на практике с известными
трудностями, особенно если типические
группы неравночисленны. Математическая
статистика рекомендует в этих случаях,
чтобы размеры различных типических
групп в выборке были бы пропорциональны
средним квадрати-ческим отклонениям
соответствующих групп генеральной
совокупности. Но дисперсии, как
правило, неизвестны. Поэтому при
организации репрезентативной
районированной выборки отбор из
типических групп генеральной совокупности
производится пропорционально их размеру
(доле) в общей численности совокупности.
Комбинированная
выборка.
Прием районирования превращает любую
вероятностную выборку в комбинированную.
На основе
предварительного районирования
генеральной совокупности можно
организовать любую вероятностную
выборку из числа уже описанных: простую
случайную, систематическую (механическую)
или серийную (гнездовая, кластерная).
Из районированной
генеральной совокупности выборочная
совокупность может формироваться
при помощи или только одной процедуры
отбора (простой случайной серийной или
систематической) — это одноступенчатая
районированная выборка, или несколькими
последовательными процедурами — это
районированная многоступенчатая
выборка. В зависимости от задач
исследования и характера информации
на этих ступенях могут последовательно
комбинироваться уже описанные способы
формирования вероятностных выборок
(см. настоящую главу, 5).
Районированные
выборки не обязательно имеют строго
вероятностный характер.
Квотная выборка.
Уже описанная квотная выборка чаще
всего организуется как ступень сбора
информации на основе районированной
генеральной совокупности. Группами
расслоения обычно выступают типы
населенных пунктов. Такие выборки
попользовались при опросе читательских
аудиторий центральных газет 12.
Районированные
выборки с отбором типичных объектов.
Другим примером могут быть районированные
выборки, в которых из каждой группы
районирования производится не случайный
отбор (по схеме простой выборки,
систематической или серийной), а
выбирается один типичный объект.
В современных
социологических исследованиях
формирование выборки из типичных
объектов па основе предварительного
районирования генеральной совокупности
используется при выборе регионов,
городов, населенных пунктов, которые в
том или ином отношении являются
«типичными» для более обширной
территории. Типичными называют
объекты, которые по большинству своих
изучаемых в исследовании характеристик
приближаются к сродним показателям. В
рамках выборочного метода этот способ
выборки почти не разработан. Это касается
прежде всего расчета характеристик
выборки.
Существует трудность
определения типичного объекта с
увеличением числа интересующих
исследователя признаков: средние по
одним показателям, они не будут средними
по другим.
Таким образом,
районированная выборка при прочих
равных условиях дает более точные
результаты.
1.Гнездовая
(серийная, кластерная) выборка.
«Кластеры»
(дословно с англ. cluster
— гроздь, группа) — это естественные
группировки единиц наблюдения. Здесь
отбираются не люди, а группы. Группы
отбираются случайным образом, а внутри
них проводится сплошной опрос. Например,
в ВУЗе с большим количеством студенческих
групп отбор можно проводить путем
случайного отбора этих групп и дальнейшего
сплошного опроса в этих группах.
Сначала изучаемая
совокупность делится на взаимоисключающие
и взаимодополняющие подгруппы, называемые
кластерами. Затем с помощью вероятностного
метода выборки, такого как простая
случайная выборка, отбираются кластеры.
В выборку включаются либо все элементы
отобранного кластера, либо проводится
их отбор вероятностным методом.
Корректное
применение кластерной процедуры основано
на неукоснительном соблюдении четырех
необходимых условий:
1)
кластеры должны быть однозначно и явно
заданы: каждый член генеральной
совокупности должен принадлежать к
одному
(и
только одному) кластеру;
2) число членов
генеральной совокупности, входящих в
каждый кластер, должно быть известно
или поддаваться оценке с приемлемой
степенью точности;
3) кластеры должны
быть не слишком велики и географически
компактны, иначе кластерная выборка
теряет всякий финансовый смысл;
4) выбор кластеров
должен быть осуществлен таким способом,
который минимизирует рост выборочной
ошибки (последний процесс, в свою
очередь, является неизбежным следствием
кластеризации).
Серийная выборка
может организовываться по схемам простой
случайной и систематической выборок.
Наконец, она может формироваться после
предварительного районирования
генеральной совокупности.
В первых двух
случаях к информации о генеральной
совокупности — основе выборки —
предъявляются те же требования, что и
для всех вероятностных выборок: размещение
элементов генеральной совокупности
(серий) не должно быть каким-либо образом
систематизировано. Серийная выборка
может быть использована, например,
для изучения семьи, выпускных классов
школ в репрезентативных локальных
исследованиях или в качестве последней
ступени комбинированной выборки в
географических точках, включенных
в выборку.
Основное различие
между кластерной и стратифицированной
выборкой
состоит в том, что в первом случае
используются только отобранные подгруппы
(кластеры), в то время как в стратифицированной
выборке все подгруппы (слои) используются
для дальнейшего отбора. Эти методы
преследуют разные цели. Цель кластерной
выборки — увеличить эффективность
выборки, уменьшив затраты на ее проведение.
Цель стратифицированной выборки —
увеличение точности. По однородности
и неоднородности критерии формирования
кластеров прямо противоположны критериям
формирования слоев. Элементы кластера
должны быть максимально разнородны, а
сами кластеры — как можно более
однородными. В идеале каждый кластер
должен представлять собой небольшую
модель генеральной совокупности. При
кластерной выборке основа выборочного
наблюдения необходима только для
кластеров, которые вошли в выборку.
Главное достоинство
этого типа отбора в том, что он гораздо
проще в организационном плане.
Действительно, гораздо проще выбрать
несколько групп и опросить их целиком,
чем бегать за каждым респондентом. Это
дает нам выигрыш в средствах и во времени.
Но при этом
необходимо следить, чтобы количество
групп в генеральной совокупности было
достаточно большим, иначе ни о каком
принципе случайности не может быть и
речи. Более того, возможны перекосы
из-за того, что на момент опроса не
удается застать всех членов группы. К
тому же объем выборки при гнездовом
отборе обычно больше, чем при случайном
отборе.
В
принципе можно показать, что рост
выборочной ошибки для кластерной
выборки (в сравнении с простой случайной)
является функцией двух
нерешенных проблем
— величины кластеров
и гомогенности
(гетерогенности) исследуемого
признака внутри каждого кластера
Распространенная
форма кластерной выборки — территориальная
выборка
(area sampling), в
которой кластеры состоят из географических
территорий, таких как округа, жилые
районы или кварталы. Если отбор основных
элементов проводится в один этап
(например, исследователь выбирает
некоторые кварталы, а затем все семьи,
живущие в этих кварталах, включаются в
выборку), такой выборочный метод
называется одноступенчатой территориальной
выборкой. Если отбор основных элементов
проводится в два (или больше) этапа
(исследователь выбирает кварталы, а
затем в каждом таком квартале отбирает
семьи, которые будут включены в выборку),
такой метод называется двухступенчатой
(или многоступенчатой) территориальной
выборкой. Отличительная черта
одноступенчатой территориальной выборки
заключается в том, что все семьи из
выбранных кварталов (или географических
регионов) включаются в выборку.
Метод маршрутного
опроса (как вариация территориальной
выборки).
Этот метод социологи часто используют,
когда единицей наблюдения выступает
семья.
В выборочную
совокупность, например, намечено включить
определенное число случайно отобранных
семей уили
квартир.
На карте города или населенного пункта
нумеруются все улицы. С помощью таблицы
случайных чисел отбираются большие
числа, которые позволят идентифицировать
семьи или квартиры, попавшие в выборку.
Каждое большое число рассматривается
как состоящее из трех компонентов:
первые две или три цифры в нем указывают
на номер улицы, следующая цифра — номер
дома, последняя цифра — номер квартиры
в выбранном доме.
Например, число
42—25—3 указывает на квартиру № 3 (можно
этой же цифре приписать все десятки в
пределах сотни: или 13, или 23 и т. д.) дома
№
25 (возможно также 125, если улицы очень
длинны) на 42-й улице.
Организация
серийной выборки методом маршрутного
опроса наиболее приспособлена к городам,
где преобладают отдельные квартиры,
или к населенным пунктам, где еще
сохраняется частное домовладение
(в последнем случае отпадает необходимость
выбирать номер квартиры).
Случайная (вероятностная) выборка — это выборка, для которой каждый элемент генеральной совокупности имеет определенную, заранее заданную вероятность быть отобранным. Это позволяет исследователю рассчитать, насколько правильно выборка отражает генеральную совокупность, из которой она выделена (спроектирована). Такую выборку иногда называют еще случайной.
Вероятностные методы включают:
- простой случайный отбор,
- систематический отбор,
- кластерный отбор,
- стратифицированный отбор.
Реализовать случайную выборку можно двумя приемами: лотерейным методом и с помощью таблицы случайных чисел. С помощью случайной выборки строится подавляющее большинство телефонных опросов и опросов на основе избирательных списков. Для построения такой выборки необходимо иметь полный список всех элементов генеральной совокупности.
Простой случайный отбор
Простой случайный отбор предполагает, что вероятность быть включенным в выборку известна и является одинаковой для всех единиц совокупности. Он реализуется двумя методами:
- отбор вслепую (другое название — метод лотереи или жребия),
- отбор не вслепую (происходит с помощью таблицы случайных чисел).
Итак, в одном случае вы осуществляете свой выбор не глядя, в другом — все осознавая, но для того, чтобы самому не вмешаться и ничего не испортить, обращаетесь к специальным таблицам.
Кроме того, простой случайный отбор подразделяется на две разновидности уже по другому критерию, а именно — возвращению или невозвращению лотерейного шара (вместо него может быть фамилия респондента) обратно в корзину. В этом случае выделяют:
- случайный повторный (с возвращением) отбор,
- случайный бесповторный (без возвращения) отбор.
В чем сходство и различие двух классификаций? В первом случае — вслепую/не вслепую — ученый мог смотреть на то, как осуществляется отбор, хотя никак не мог ему помешать (если отбор проводился вслепую), или выбор осуществляли не его руки, вынимающие из корзины шар, а таблица случайных чисел. Во втором случае — повторный/бесповторный — дело заключается не в исследователе (если отбор проводился не вслепую), а в лотерейном шаре: его либо возвращают для нового выбора, либо не возвращают и продолжают процесс без него.
Соединив оба членения простого случайного метода в декартову систему координат, получим четыре модальности.
Сразу оговоримся, что получившаяся схема не является в строгом смысле изображением логического квадрата, с помощью которого принято показывать отношения совместимости, эквивалентности, противоположности (контрарности), частичной совместимости (субконтрарности), подчинения и противоречивости суждений. В нашей схеме лишь некоторые квадраты дают новый тип случайного отбора или свидетельствуют о том, что данная комбинация действий осуществима. При использовании метода выборки вслепую единицы генеральной совокупности (фамилии, названия или просто номера из списка) можно вносить в карточки, а карточки в перемешанном виде поместить в какую-то непрозрачную емкость (ящик, коробку). Из этой емкости кто-то случайным образом вытягивает число карточек, определяемое объемом выборки. После каждого вытягивания и регистрации карточки ее можно возвращать, а можно не возвращать назад. В первом случае говорят о повторном, во втором — о бесповторном отборе. Их комбинация дает два квадрата, имеющих реальное содержание: можно вслепую выбирать из корзины шары и возвращать их для нового выбора, а можно их откладывать в сторону. Однако выборка не вслепую предполагает использование таблицы случайных чисел. Возвращать в нее выбранный номер невозможно, стало быть, образуемые вдоль этой оси квадраты не являются реальными.
Предлагаемая схема выполняет скорее мнемоническую функцию, помогая лучше запомнить материал. Можно также считать, что она имеет демонстративный смысл, но никак не логический. Она придумана для того, чтобы внести какую-то ясность в типологию разновидностей простого случайного отбора.
Вероятностную выборку целесообразно применять только при наличии соответствующих условий. Первое условие осуществления вероятностной выборки — наличие полного списка всех элементов генеральной совокупности (отсутствие или недоступность которого чаще всего и препятствует ее реализации) от 1 до N, где N — общее число всех элементов. Если же он имеется, то производится нумерация, после чего можно использовать вышеописанные методики. При использовании лотерейного метода (или метода жребия) жетоны с номерами всех элементов помещают в урну, тщательно перемешивают и извлекают последовательно п жетонов, где n — число элементов выборочной совокупности. Элементы генеральной совокупности, имеющие номера, оказавшиеся на извлеченных жетонах, будут составлять выборочную совокупность. Это довольно трудоемкая и продолжительная (при больших размерах выборки) операция, к тому же достаточно трудоемкая, поскольку «для обеспечения равного шанса выбора требуется тщательное перемешивание жетонов» после каждой выемки очередного номера.
Второе условие вероятностной выборки — хорошая перемешанность элементов генеральной совокупности. Если выборка элементов производится из ящика, то его содержимое следует тщательно перемешать и уже после этого брать карточки случайным образом. Только при таких условиях все они имеют одинаковую вероятность попасть в выборку. Часто для образования случайной выборки элементы генеральной совокупности предварительно нумеруются, а каждый номер записывается на отдельной карточке. В результате получается пачка карточек, число которых совпадает с объемом генеральной совокупности. После тщательного перемешивания из этой пачки берут по одной карточке. Объект (респондент), имеющий одинаковый номер с карточкой, считается попавшим в выборку. При этом возможны два принципиально различных способа образования выборочной совокупности.
Первый — вынутая карточка после фиксации ее номера возвращается в пачку, после чего карточки снова тщательно перемешиваются. Повторяя такие выборки по одной карточке, можно образовать выборочную совокупность любого объема. Выборочная совокупность, образованная по такой схеме, получила название случайной возвратной выборки.
Второй— каждая вынутая карточка после ее записи обратно не возвращается. Повторяя по такой схеме выборки по одной карточке, можно получить выборочную совокупность любого заданного объема. Выборочную совокупность, образованную по данной схеме называют случайной безвозвратной выборкой. Она возможна лишь в том случае, если из тщательно перемешанной пачки сразу берут нужное число карточек.
Заметим, что различие между случайными выборками с возвратом и без возврата стирается, если они составляют незначительную часть большой генеральной совокупности.
Однако при большом объеме генеральной совокупности этот метод оказывается очень трудоемким, и поэтому гораздо удобнее пользоваться таблицей случайных чисел. Она доказала свою эффективность при формировании равновероятностной выборки из больших совокупностей.
Систематический отбор
Систематический отбор является вторым по научной значимости, но первым по популярности употребления видом простого случайного отбора. Его называют еще механическим отбором и считают упрощенным вариантом простого случайного отбора.
Примером служат разного рода квартирные выборки: выбираются улицы, на которых интервьюер проводит квартирный опрос. Квартиры выбираются по определенной схеме (крайняя квартира справа от лестницы на последнем этаже первого подъезда и т.д.).
Если под рукой таблицы случайных чисел нет, а генсовокупность относительно невелика14, то можно воспользоваться алфавитным списком, например, персонала предприятия (картотека всегда есть в отделе кадров) или избирательного участка (при опросе по месту жительства). Процедура систематического отбора проста: количество единиц генеральной совокупности, предположим 2000 работников предприятия, делится на количество анкет, скажем 200, и определяется шаг выборки. Он предполагает, что, начиная с любого номера из списка, опрашивается каждый десятый (2000:200 = 10). В формализованном виде данная процедура выглядит так. Из пронумерованного списка через равные интервалы £ отбирается заданное число респондентов. При этом шаг выборки к рассчитывается по простой формуле:
K = N / n
где N — численность генеральной совокупности, n — численность выборочной совокупности.
Таким образом, шаг выборки, а его еще называют «интервалом скачка» или просто «интервалом», — это математический показатель, рассчитанный как отношение объема генеральной совокупности к объему выборки. Он показывает, сколько номеров в списке фамилий людей, вошедших в генеральную совокупность, надо пропустить (через сколько перешагнуть), чтобы в итоге получить список выборочной совокупности. Буквально шаг выборки озная чает расстояние между соседними фамилиями респондентов, из меренное количеством отбракованных фамилий из списка генеральной совокупности.
Другой пример. Предположим, что нам нужно спроектировать выборку численностью 100 из списка 5000 студентов какого-то вуза. Если мы намерены использовать систематическую выборку, то должны вначале рассчитать интервал выборки делением числа элементов в списке на размер выборки. В данном случае, разделив 5000 имен на требуемый размер выборки 100 ед., мы получим интервал (шаг) выборки 50. Так что мы будем систематически двигаться по списку и отбирать каждого пятидесятого студента (отобрав таким образом 100 имен). Определение того места в списке, с которого мы начнем, проводится случайным образом, по таблице случайных чисел (это называется случайным стартом). Таким образом, если случайно выбрана точка старта под номером 31, то в выборку будут включены студенты, стоящие под номерами 31, 81, 131, 181 и т.д.
Итак, в основу систематической выборки положены не вероятностные процедуры, а алфавитные списки, картотеки, схемы, которые обеспечивают равновероятное попадание в выборку всех единиц генеральной совокупности.
Несмотря на свои преимущества, систематическая выборка может иногда иметь своим результатом предубежденную выборку. Такая ситуация возникает, например, когда элементы размещены в списке, ранжированном по каким-то характеристикам. В этой ситуации определение места начала случайного отбора будет влиять на средние характеристики всей выборки. Например, если студенты расставлены в списке в соответствии со средним оценочным баллом от высшего к низшему, систематическая выборка, включающая студентов, стоящих в списке под номерами 1,51,101, будет иметь более низкий средний балл, чем выборка, включающая студентов под номерами 50, 100 и 150. Каждая новая выборка будет давать другой средний балл, который представляет собой предубежденную картину студенческой популяции.
Районированная и стратифицированная выборки
Если генеральная совокупность велика, а такое в эмпирическом исследовании случается очень часто, то приходится разделять обследуемую совокупность на более или менее однородные части, а затем осуществлять отбор единиц внутри этих частей. Такую раздробленную на части выборку правильнее всего было бы называть расслоенной. Однако в русском языке подобный термин не утвердился, видимо, как не соответствующий нормам правильного произношения.
Поскольку в отечественной социологии очень много иностранных слов — и это правильно с точки зрения унификации научной терминологии, приведения ее к международным стандартам, — то слову «расслоенная» попытались найти эквивалент. В числе претендентов оказались две наилучшие кандидатуры, а именно термины «районированная» и «стратифицированная».
В русском языке первое слово явно тяготеет к географическому языковому ареалу и обозначает территориальную зону. Поскольку генеральную совокупность, особенно очень большую, например население всей страны, можно разбивать в том числе и по региональному признаку, в отечественной литературе утвердился термин «районированная выборка». Но наряду с тем генеральную совокупность можно расслаивать и по стратам (полу, возрасту, доходам и т.д.), получая в качестве критерия уже не географический район, а социальную группу.
В итоге сложилась практика различения двух разновидностей расслоенной выборки. Если деление происходит по стратам (социальным группам), то выборку именуют стратифицированной, если по экономико-географическим районам, то районированной.
В литературе (да и в маркетинговой практике) два термина — районированная и стратифицированная выборки — нередко считаются эквивалентными. Происходит это потому, что в основе той и другой лежит одна и та же процедура расслоения, а расслаивать в социологии можно двояко: либо по социальным группам (тогда речь идет о социальной структуре и стратификации как ее частном виде), либо по географическим районам. Когда объединяют оба понятия в одно, как правило, дают обобщающее определение подобной выборки, например, такое:
Районированная выборка — вид выборки, при котором отбору предшествует процедура районирования (расслоения, стратификации), т.е. разделения исходной совокупности на статистически или качественно однородные подсовокупности, называемые слоями, стратами или типичными группами. Отбор единиц, который может носить как случайный, так и направленный характер, производится независимо из каждого слоя, поэтому районированная выборка равносильна ряду выборок, извлеченных из меньших совокупностей-страт.
В этом определении исходное понятие «районированная выборка» без ущерба для дела можно заменить на «стратифицированную выборку». Таким образом, одинаково правильно будет как разделять одну выборку на две самостоятельные разновидности, районированную и стратифицированную, так и подавать их как единое целое. За единство двух приемов выступает практика социологических исследований. Оказывается, в крупномасштабных проектах социологи начинают с районированной выборки, а затем переходят на стратифицированную. Так, например, в обследованиях Центра «Социо-Экспресс» Института социологии РАН в основе построения районированной выборки лежат десять экономико-географических зон, в каждой из которых выделяются крупные города (численностью свыше 500 тыс. населения), средние города (50-500 тыс.), малые города (до 50 тыс.) или поселки городского типа, а также сельские населенные пункты. Внутри отобранных городов респондентов отбирают случайным методом. Репрезентативность контролируется по региональным пропорциям численности населения, пропорциям между городским и сельским населением, пропорциям между населением указанных типов населенных пунктов.
В международной практике не используется русское слово «район» как географическая зона (ареал, регион, часть территории), поэтому здесь не встретишь и термина «районированная выборка». Вместо него употребляют термин «стратифицированная выборка», подразумевая, что, разбивая единое целое на части, не обязательно точно указывать, что они собой представляют — группы или районы.
В таком случае стратифицированная выборка (stratified sampling) — вероятностная выборка, обеспечивающая равномерное представительство в выборочной совокупности различных частей, типов, групп и слоев населения.
В английском языке слово «стратификация» мало чем отличается от слов «расслоение», «разделение», «разбиение». Это социологи придали стратификации социальный смысл, а в геологии, откуда мы позаимствовали термин, стратификация означает вертикальное расслоение земли на однородные пласты. Ни классов, ни доходов, ни социальных групп здесь нет.
Надо учитывать и другой нюанс. Дело в том, что в зарубежных словарях, прежде всего американских и главным образом ведущих, все, что связано с территориальным признаком, в том числе и расслоение по районам, относится к квотной выборке. К примеру, в знаменитом Оксфордском словаре социологии на термин «stratified sampling» стоит отсылка: см. sampling. Открываем с. 576—577 и читаем о том, что в случае стратифицированной вероятностной {random) выборки речь идет о разбиении совокупности на подгруппы, т.е. страты, например мужчин и женщин, а о районированной выборке в нашем понимании не говорится ни слова. Близкий к районам термин «local areas» употребляется Гордоном Маршаллом (а он считается знатоком в этом деле) только в связи: 1) с первой стадией многоступенчатого отбора, 2) с квотной выборкой.
Возвращаясь от лингвистических тонкостей к методическим, подчеркнем вот еще что: отбор единиц, который может носить как случайный, так и направленный характер, производится независимо из каждого слоя или района, поэтому районированно-стратифицированная выборка (если можно так выразиться) равносильна ряду выборок, извлеченных из меньших совокупностей-страт (районов).
Стратифицированная случайная выборка (в узком значении) основана на выборке по каждой страте отдельно. Это повышает точность результатов либо уменьшает время, силы и стоимость исследования, допуская меньшие размеры выборки при заданном уровне точности. Например, известно, что бедность наиболее часто встречается среди пожилых, безработных и в монородительских семьях. Исследуя проблемы бедности, можно с равным успехом выбрать в качестве объекта любую из трех страт. В отобранных районах или стратах выбор единиц обследования проводится по вероятностному методу.
Основная цель всякого расслоения — повышение точности выборочных оценок. Слои выделяются таким образом, чтобы дисперсия изучаемых переменных внутри слоев была значительно меньше, чем между ними. При расслоении вариация между слоями не входит в среднюю ошибку выборки, а компенсируется самой процедурой выделения слоев. Поэтому расслоение позволяет добиться более высокой степени точности оценок по сравнению с простым случайным отбором. Если каждый слой представляет собой статистически однородную группу, то для любого из них даже выборка малого объема позволит получить достаточно точные оценки, которые, будучи объединены, дадут хорошую оценку для всей совокупности.
Различают стратификацию одномерную и многомерную в зависимости от того, один или несколько признаков положены в основу разделения совокупности. Эти признаки должны иметь тесную связь с изучаемыми переменными, от их выбора в высокой степени зависит эффективность расслоения.
Гнездовая выборка
Противоположность районированной и стратифицированной выборке составляет гнездовая выборка.
Гнездовая выборка — вид выборки, при котором отбираемые объекты представляют собой группы или гнезда (кластеры) более мелких единиц. Гнездом называют единицу отбора высшей ступени, состоящую из более мелких единиц низшей ступени. В выборку могут быть включены как все единицы низшего уровня, так и их часть. Число единиц, образующих гнездо, называют его размером.
В качестве гнезд выступают населенные пункты, районы, дома, подъезды, предприятия, цехи, бригады.
Гнездовой отбор обладает большими организационными преимуществами — проще осуществлять отбор и обследование нескольких компактных групп, чем десятков или сотен отдельных единиц. Технические преимущества гнездового отбора особенно ощутимы при построении территориальной выборки. Отбор небольшого числа территориальных сегментов (населенных пунктов, районов, жилых кварталов и т.п.), затем выборочный или сплошной опрос проживающего в них населения существенно уменьшают стоимость исследования и сроки проведения.
Процедурно такой метод применить легче, чем вероятностный либо районированный. Проблемы, которые возникают здесь, связаны с определением величины гнезда, количеством гнезд, которые надо обследовать, их размещением в генеральной совокупности.
Основные рекомендации при выборе гнезд сводятся к тому, чтобы различия между гнездами были бы по возможности более неоднородными. Это правило прямо противоположно основному принципу расслоения, в соответствии с которым выигрыш в точности тем больше, чем более однородными будут выделенные слои. Другая рекомендация касается выбора размера гнезд: большое число малых гнезд предпочтительнее малого числа крупных.
Группировка наблюдений
Группировка наблюдений
При большом числе наблюдений, $n>80$, статистический материал, помещённый в таблицу, трудно обозрим. Поэтому составляется группировка. Это делается так: Находится
- размах выборки,
- шаг выборки,
- интервалы { разбиение на интервалы } ,
- центры интервалов,
- абсолютные частоты,
- относительные частоты.
- Чтобы найти размах выборки надо найти максимальные и минимальные значения вариант. Разность между ними называется размахом выборки $x_ { max } -x_ { min } =Delta $.
- Определим шаг выборки. Для этого надо разделить $Delta $ на $k$ – частей, где $k$ должно быть не более $20div 25$ и не менее $6div 10$. Обычно $6div 10leqslant kleqslant 20div 25$. Иногда $k$ считают по формуле $log _2 n+1approx k$, где $n$ – объём выборки. Шаг выборки вычисляется по формуле $h=frac { Delta } { k } $.
- Разбить на интервалы шириной $h$ по формуле $[x_i ,,,x_i +h)$.
- Найти центры интервалов по формуле $x_i =frac { x_i +x_ { i+1 } } { 2 } $.
- Найти абсолютные частоты. Для этого нужно подсчитать число выборочных значений $n_i $ величины $X$, попадающей в каждый интервал. Существует контроль $sum { n_i =n } $.
- Подсчитать относительные частоты по формуле $W_i =frac { n_i } { n } $.
- Выписать полученные интервалы или центры интервалов, выборочные значения и относительные частоты в таблицу.
- Представить выборку графически. Графическим представлением является полигон и гистограмма.
Полигон и гистограмма
Определение Полигоном абсолютных частот называют ломаную линию, отрезки которой соединяют точки $( { x_1 ,n_1 } ),( { x_2 ,n_2 } ),( { x_3 ,n_3 } )ldots ( { x_k ,n_k } )$.
На оси абсцисс откладывают варианты $x_i $, на оси ординат – соответствующие им частоты $n_i $.
Определение Полигоном относительных частот называют ломаную линию, отрезки которой соединяют точки $( { x_1 ,w_1 } ),( { x_2 ,w_2 } ),( { x_3 ,w_3 } )ldots ( { x_k ,w_k } )$. Для построения полигона относительных частот на оси $OX$ откладывают варианты $x_i $, а на оси ординат соответствующие им относительные частоты $w_i $. Точки $( { x_i ,w_i } )$ соединяют прямыми и получают полигон относительных частот.
Определение Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями служат интервалы длиной $h$, а высотами являются плотности частоты $frac { n_i } { h } $. Площадь гистограммы частот равна сумме всех частот, т. е. объёму выборки.
Определение Гистограммой относительных частот называют ступенчатую фигуру, состоящую из прямоугольников с основаниями длиной $h$ и высотами $frac { W_i } { h } $ { плотность относительных частот } . Площадь гистограммы равна сумме всех относительных частот, т. е. 1
Замечание Полигон и гистограмма строятся для того, чтобы получить представление о форме функции плотности распределения.
Пример группировки
Составить группировку и представить её графически, разбив на шесть интервалов
$mathbf { 16,,,, } mathbf { 17,,,, } mathbf { 9,,,, } mathbf { 13,,,, } mathbf { 21,,,, } mathbf { 11,,,, } mathbf { 7,,,, } mathbf { 19,,,, } mathbf { 5,,,, } mathbf { 20 } $
$mathbf { 17,,,, } mathbf { 5,,,,7,,,, } mathbf { 18,,,, } mathbf { 11,,,, } mathbf { 4,,,,6,,,, } mathbf { 22,,,,21,,,, } mathbf { -1 } $
$mathbf { 15,,,, } mathbf { 22,,,, } mathbf { 19,,,, } mathbf { 23,,,, } mathbf { 15 } $
Объём выборки $n=25$
1) $x_ { max } =23,x_ { min } =-1,Delta =x_ { max } -x_ { min } =23+1=24$.
2) Разделим $Delta $ на шесть частей $h=frac { 24 } { 6 } =4$.
Вывод Будем иметь шесть интервалов, ширина интервала $h=4$.
3) Найдём выборочные значения $n_i $ в каждом интервале. Контроль $sum { n_i =n } $
4) Подсчитаем относительные частоты $ W_i =frac { n_i } { n } $
5) Подсчитаем плотность относительных частот $ f( x )=frac { W_i } { h } . $
6) Строим полигон и гистограмму.
Занесем полученные значения в таблицу.
begin{array} { |l|l|l|l|l|l|l| } hline №& Интервал& Выборочные~частоты~ n_i & x_i -центр~интервала& W_i =frac { n_i } { n } & f( x )=frac { W_i } { h } & frac { n_i } { h } \ hline 1& [ -1,3 ]& 1& 1& 0,04& 0,01& 0,25 \ hline 2& ( 3,7 ]& 6& 5& 0,24& 0,06& 1,5 \ hline 3& ( 7,11 ]& 3& 9& 0,12& 0,03& 0,75 \ hline 4& ( 11,15 ]& 3& 13& 0,12& 0,03& 0,75 \ hline 5& ( 15,19 ]& 6& 17& 0,24& 0,06& 1,5 \ hline 6& ( 19,23 ]& 6& 21& 0,24& 0,06& 1,5 \ hline sum & & sum { n_i =n } =25& & sum { W_i =1 } & &\ hline end{array}
Гистограмма частот n$_ { i } $
полигон частот $n_i $ для средины интервалов
Гистограмма плотности частот $frac { n_i } { h } $
Гистограмма плотности относительных частот $frac { W_i } { h } $
Эта величина носит вероятностный характер.
По полученной гистограмме выдвигается гипотеза о равномерном распределении.
Авторы статьи — А.М. Степанов, социолог отдела аналитических и социологических исследований, М.В. Иванов, начальник отдела аналитических и социологических исследований МАУ «ИРСИ».
Параметры расчета выборочной совокупности
Вне
зависимости от метода расчета выборки нужно помнить о ключевых параметрах,
влияющих на объем выборочной совокупности. Таких параметров мы выделим три –
это общий объём, однородность и абсолютная
ошибка.
Общий
объем генеральной совокупности. Чем больше изучаемая генеральная
совокупность, тем больший объем выборки нам может понадобиться для
репрезентативного исследования. Однако это утверждение касается лишь определенного
числового диапазона! Увеличение выборки идет не пропорционально увеличению
генеральной совокупности. Ведь если речь пойдет о генеральной совокупности как о
малочисленной величине, исчисляемой десятками и сотнями единиц, то
целесообразно предположить, что чем больше будет объем выборки, тем точнее
данные. В идеале можно и нужно стремиться, чтобы в таком случае выборка
составляла не менее 50%, а то и 2/3 изучаемой генеральной совокупности. Если же
(а чаще всего это так и есть) мы имеем дело с генеральными совокупностями,
исчисляемыми десятками, сотнями тысяч и миллионами (например, население
крупного города, региона, страны), то, конечно же, мы не будем опрашивать ни
50%, ни 25%, ни 10%. Нам понадобится значительно меньшее число участников
опроса (респондентов). Стоит отметить, что при сравнении выборки при объеме
генеральной совокупности в 100 тысяч и 1 миллион человек, разница в объеме
выборки может составить всего несколько десятков респондентов (см. таблицу).
+ В этих случаях достаточным
будет более 50% от объема выборки.
Источник: Мангейм
Дж.Б., Рич Р.К. Политология:
Методы исследования. – М., 1997. С.517.
Однородность генеральной совокупности.
В данном случае речь идёт об однородности признаков у единиц генеральной
совокупности. То есть чем более схожи между собой единицы генеральной
совокупности, тем меньше потребуется объем выборки для представления
репрезентативных результатов исследования. Причем под однородностью
рассматриваемых признаков мы можем понимать и социально-демографические
характеристики (пол, возраст, уровень образования, район проживания, социальное
положение), ценностные и социально-политические ориентации, культурно-языковые
различия, материальный достаток и т.д.
Размер ошибки (погрешности) выборки. Задачи
и характер исследования определяют допустимый размер погрешности полученных
данных. Самым оптимальным и часто используемым вариантом при расчете выборки
является ошибка в 5%, она позволяет получить данные с высокой степенью
репрезентативности и при этом не затратить много ресурсов на опрос излишнего
числа респондентов. Для прикладного
исследования нормальной будет выборка с ошибкой 4–5%. Ошибка выборки,
рассчитываемой ВЦИОМ, ФОМ (для федеральных исследований),
находится на уровне не ниже 2,5%. Стандартные
выборки МАУ ИРСИ по г. Ярославлю
обеспечивает ошибку выборки в диапазоне от 3,6
до 4,8%. Если говорить простым языком о том, что собой представляет ошибка
выборки в 5%, то можно представить, что в случае проведения 100 одинаковых
исследований по одной и той же теме и с одинаковым объемом выборки в 95 случаях
из 100 результаты исследования будут совпадать с мнением всей генеральной
совокупности. Однако в определенных случаях требуется снижение ошибки выборки,
которое чаще всего производится посредством наращивания объема выборочной
совокупности.
В
зависимости от имеющихся ресурсов и задач исследования для формирования выборки
существует несколько способов. В первую очередь нужно понимать, что отбор единиц
в выборочную совокупность может происходить как случайным образом, так и
неслучайным. Случайной или вероятностной выборкой можно назвать
только ту выборочную совокупность, в которой соблюдается принцип равной
вероятности для каждой единицы генеральной совокупности попасть в выборку.
Такой способ формирования выборки наиболее актуален для небольшого объема
генеральной совокупности, поскольку при изучении больших групп принцип равной
вероятности для всех элементов генеральной совокупности соблюсти крайне
затруднительно или нецелесообразно, с точки зрения высоких затрат ресурсов.
Для соблюдения принципа равной
вероятности случайной выборки зачастую используют механический отбор, такой
отбор возможен только при наличии полного списка единиц генеральной
совокупности, которые можно упорядочить по определенному признаку. В рамках
механического отбора из списка выбирается случайным образом первый элемент,
который служит отправной точкой, и каждый последующий выбирается через
определенный шаг. Размер шага определяется частным размера генеральной
совокупности и размера предполагаемой выборки K(шаг) = N(генеральная совокупность)/n(выборочная совокупность).
Другим
способом для соблюдения принципа случайности в выборке может быть стратифицированный (районированный) отбор.
Данный метод полезен в случае неоднородной генеральной совокупности и
подразумевает разделение единиц генеральной совокупности, на более мелкие
группы по определенным признакам. Внутри каждой выделенной группы производится
отбор единиц в выборочную совокупность случайным образом или при помощи
механического отбора. Наиболее корректно использовать этот метод в том случае,
когда в результате разделения на группы по выбранным признакам внутри каждой
группы образуется небольшое количество единиц, или когда существует полный
список единиц каждой выделенной группы, что позволяет в дальнейшем отборе соблюсти
принцип равной возможности для каждой единицы попасть в выборку.
Кластерный (гнездовой) отбор
является еще одним методом при формировании случайной выборки, в рамках данного
метода производиться случайным образом отбор целых групп (кластеров) из генеральной
совокупности. Впоследствии производится отбор единиц из кластеров в выборочную
совокупность, в зависимости от объема кластера это могут быть как и все единицы
кластера, так и часть из них, отобранная случайным образом. Например, в случае
отбора по территориальному признаку кластером могут служить населенные пункты,
отобранные в случайном порядке. В зависимости от количества населения
производится опрос всех жителей или только жителей, отобранных случайным
образом. При наличии полного списка единиц в каждом кластере возможен отбор
единиц с применением механического отбора.
В
исследованиях, где в качестве генеральной совокупности выступают тысячи или
даже миллионы людей, наиболее удобно использовать выборки с неслучайным
отбором, где отбор производится по заранее заготовленной схеме или стихийным
образом. Стихийная выборка подразумевает опрос по принципу «всех подряд» из
наиболее доступных респондентов. Здесь, как правило, производится опрос
наиболее удобных для интервьюера респондентов. Зачастую стихийная выборка
страдает слабой репрезентативностью по причине несоответствия некоторых
признаков выборочной совокупности признакам генеральной. Происходит это
вследствие упущения в ходе исследования некоторых значимых категорий
респондентов, которые являются труднодоступными для интервьюера. Поэтому данный
способ формирования выборки может использоваться в условиях ограниченности
ресурсов.
Наиболее
предпочтительным выглядит вариант с использованием квотной выборки. Суть данного метода сводится к тому, чтобы
выделить несколько интересующих социальных групп по признакам, обусловленным
задачами исследования. Далее необходимо рассчитать объем респондентов для
опроса в каждой группе, то есть объем квоты для каждой группы, руководствуясь
сохранением пропорций признаков генеральной
совокупности в выборке. На примере гендерной характеристики можем представить,
что если в генеральной совокупности соотношение женщин и мужчин 55% на 45%, то именно
такое же соотношение женщин и мужчин должно быть в рамках выборочной
совокупности.
Аналогичным
образом составляются квоты и по другим
признакам. Целью данного подхода является максимальное повторение в рамках
выборки свойств и особенностей генеральной совокупности. Иногда для упрощения
поиска респондентов, подходящих под критерии отбора, может использоваться метод
«снежного кома». Особенность
«снежного кома» во многом объясняется названием метода и подразумевает поиск
контактов подходящих для опроса людей у респондентов, уже участвовавших в
опросе. Как правило, это выглядит следующим образом: по завершении опроса
интервьюер интересуется у респондента, нет ли среди его друзей и знакомых,
подходящих под параметры исследования, и просит дать контакты подходящих людей.
Данная процедура повторяется до тех пор, пока не будет опрошено необходимое
количество респондентов. Основной минус данного метода отбора респондентов заключается
в предъявлении высоких требований к коммуникативным навыкам интервьюеров,
поскольку контакты родственников и друзей являются персональными данными, и многие
респонденты отказываются их давать, особенно если интервьюеру не удается
расположить собеседника к себе.
Еще
одним методом отбора для построения неслучайной выборки является метод основного массива, который
подразумевает отбор единиц, имеющих наибольшую удельную значимость, по мнению
исследователя; и если существует возможность, то отбирается абсолютное
большинство единиц из генеральной совокупности. Данный метод может быть
полезен, когда объектом для изучения являются узкая категория людей, специалисты
той или иной отрасли. В случае необходимости проведения опроса, например среди
медработников в регионе, отбирается несколько наиболее крупных медицинских
учреждений как имеющих наибольший вес, и проводится опрос медработников данных
учреждений. Но если количество медучреждений не столь велико, и возможен охват
абсолютного большинства медработников, то проводится опрос более 50%
медицинских работников региона.
Существует
еще несколько вариантов составления выборочной совокупности, некоторые методы являются
комбинированием уже перечисленных, но хотелось бы рассмотреть применение
наиболее оптимальных методов построения выборки на примере населения г.
Ярославля. Золотым стандартом, на наш взгляд, при проведении исследования, где
в качестве генеральной совокупности выступают все жители Ярославля, является
применение квотной выборки. Мы используем при расчете квот трехмерное распределение,
а именно распределение по половому признаку, возрасту и району проживания, что
позволяет в рамках выборочной совокупности повторить пропорции генеральной
совокупности по указанным признакам. Такой подход позволяет учесть мнение всех
категорий жителей Ярославля: мужчин и женщин, молодежи, работающего населения,
пенсионеров, жителей всех районов города. При этом сохраняется удельная
значимость каждой из указанных категорий так же, как в генеральной
совокупности. Как это выглядит? Например,
если в Ярославле в Дзержинском районе проживает гораздо больше жителей города,
чем в Кировском районе города, то мнение жителей Дзержинского района имеют
гораздо большее влияние на формирование мнения всего населения города, чем мнение
жителей Кировского района. Наша задача состоит в том, чтобы сохранить подобную пропорциональность
генеральной совокупности в рамках выборки. Если говорить о конкретных цифрах,
то для репрезентативных результатов мнения жителей города с населением более
чем 600 тыс. при использовании квотной выборки и соблюдением ошибки не более 5%
достаточно опросить 400 человек. В случае, когда проблема исследования носит
более дифференцированный характер, и предполагается, что данная проблема может
затрагивать различные категории жителей по-разному, целесообразно расширить объем
выборки до 500-600 человек.
В
случае, когда проблема исследования носит общий или даже глобальный характер, и
предполагается, что дифференциация по полу и возрасту, району проживания вряд
ли может серьезно оказывать влияние на мнение респондента, может использоваться
метод стихийной выборки. Метод
стихийного отбора позволяет существенно сократить время и ресурсы на проведение
исследования, однако в таком случае рекомендуется расширить объем выборки до
600, а в некоторых случаях до 750 или даже 1000 человек, чтобы минимизировать вероятность
потери какой-либо категории респондентов в процессе проведения опроса.
Использование
случайных методов формирования выборки для проведения опроса среди населения
достаточно крупного города выглядит нерационально и порой даже нереалистично. Ведь
жители Ярославля в качестве генеральной совокупности есть величина непостоянная, поскольку ежедневно
жители города как приезжают, так и покидают город, и в таких условия обеспечить
принцип равного шанса попадания в выборку для всех жителей Ярославля
проблематично. Использование механического отбора требует полного списка всех
жителей Ярославля с контактными данными, получение которого не представляется
возможным в силу федерального закона «О персональных данных», а также выглядит
нецелесообразным ввиду высокой трудоемкости процесса и больших временных затрат
на построение выборки.
Подводя
итог, хочется сказать о том, что грамотно составленная выборка на сегодняшний
день — это ключ к оперативному получению достоверной и актуальной информации,
которая поможет в принятии правильных управленческих решений. Главное достоинство
использования выборки — это, конечно же, экономия времени и трудовых ресурсов.
Получаемая информация с течением времени
и в зависимости от происходящих процессов в обществе может быстро терять
актуальность и уже не отражать полной картины социальной реальности, что в свою
очередь может повлечь принятие ошибочных решений. Отсюда можно сделать вывод о
том, что исследование, задачей которого является получение объективной
информации о текущем положении дел, проведенное в кротчайшие сроки с
использованием грамотно составленной выборки, даст более актуальную информацию
и объективную картину, чем исследование с большим охватом опроса в 6, 10, 15 и более тысяч человек. Исследование с
бОльшим охватом респондентов требует бОльшего времени для проведения опроса, за
этот период положение дел может значительно измениться, и ответы, полученные в
начале исследования, могут к его окончанию стать устаревшими и неактуальными; как
итог — будет потерян весь смысл такого исследования.
Желаете получить достоверную,
актуальную и надежную информацию по вашей проблеме в результате проведения
социологического исследования? Специалисты МАУ ИРСИ помогут вам в этом!