Выборочный метод: определение и истоки
Задача построения выборки возникает
всякий раз, когда необходимо собрать
информацию о некоторой группе или
большой совокупности людей. Выборку в
той или иной форме используют в
ориентированных на «жесткие»
статистические методы опросах, в
исследованиях политических и культурных
элит и даже при отборе «случаев» для
включенного наблюдения и качественного
анализа.
Статистические (или квазистатистические)
обследования населения и ресурсов,
судя по всему, зародились одновременно
с первыми формами централизованной
социальной и политической организации:
развитые аграрные общества и древние
города-государства нуждались в такой
информации и использовали ее при решении
разнообразнейших управленческих задач
—от фискальной политики до
строительства общественных бань. Эти
обследования иногда принимали форму
сплошных переписей населения. (Об одной
такой переписи, имевшей, правда, самые
печальные последствия, рассказывает
нам книга пророка Самуила: когда
царь Давид (Xв. до н. э.)
осуществил перепись населения древнего
Израиля, в стране разразилась страшная
эпидемия (2Цар.
24).Однако значительно чаще приходилось
довольствоваться сведениями о какой-то
части совокупности: об урожайности
судили по пробному обмолоту, о партии
товара —по образцу,
а о прихожанах —по их
духовному наставнику.
Выборка —это
подмножество заданной совокупности
(популяции), позволяющее делать более
или менее точные выводы относительно
совокупности в целом. Зачем нужно
строить выборки? Прежде всего, из
практических соображений, так как
выборкаэкономит силы и средстваисследователей. Проведение полномасштабной
переписи или сплошного опроса населения
требует значительных финансовых и
трудовых затрат, которые к тому же могут
пропасть впустую в случае, если в
разработке методики исследования были
допущены принципиальные просчеты.
Другая причина заинтересованности в
выборках связана с тем, что выборочная
процедура представляет собой удобную
и экономичную форму индуктивного
вывода1.Третья
причина заключается в том, что эта
процедура реализует фундаментальныйпринцип рандомизации,т. е. случайного
отбора (от англ.random—
случайный, выбранный наугад).
Представление о том, что отбор наблюдений
должен носить случайный, непредумышленный
характер, в общем соответствует нашему
интуитивному знанию об условиях
вынесения объективного и непредвзятого
суждения. Однако стро-
1Напомним, что под индуктивным
выводом обычно понимают рассуждение
по схеме «от частных наблюдений
—к общей эмпирической закономерности».
гая, т. е. математико-статистическая,
теория случайной выборки вплоть до
конца XIX —начала
XXвв. не пользовалась популярностью
в среде профессиональных статистиков.
Многим исследователям казалось, что в
основе отбора должна лежать не «игра
случая», а поиск типичных, характерных
наблюдений. Это убеждение препятствовало
применению в массовых обследованиях
методов теории вероятности, достигшей
высочайшего уровня развития уже в
XVIII— первой половине XIXвв. Применимость выборочного метода
для изучения случайно распределенных
признаков, например дохода или размера
семьи, была впервые обоснована в работах
норвежца А. Киэра, англичан А. Боули и
К. Пирсона, а также русского статистика
А. И. Чупрова2.
Следующим принципиально важным шагом
в развитии выборочного метода стала
осуществленная Р. Фишером разработка
техники рандомизациив эксперименте
и выборочном наблюдении3. О роли
рандомизации в планировании эксперимента
говорится в главе 4.Что
же касается выборочного обследования,
то оно часто используется как «замена»
экспериментального метода. Нельзя
провести эксперимент, в котором людям
в случайном порядке присваиваются
определенные значения переменных «пол»
или «цвет кожи». Однако применение
выборочного метода и статистического
анализа, как мы увидим в дальнейшем,
позволяет справляться с этими ограничениями
и делать выводы о взаимосвязях между
самыми разными переменными, включая
вышеупомянутые. Но для того, чтобы такие
выводы были обоснованы, нужно устранить
любое систематическое влияние
«посторонних», смешивающих факторов
на изучаемые переменные. Единственным
средством для достижения этой цели
является абсолютно случайный характер
отбора наблюдений. Лишьравенство
шансов попадания в выборку для каждого
наблюдения,т. е. отбор «наугад»,
гарантирует от намеренных или ненамеренных
искажений. Пусть, например, в ходе опроса
мы изучаем влияние пола и рода занятий
респондента на его отношение к
планированию семьи и ограничению
рождаемости. Если используемая нами
выборочная процедура ведет к тому,
что работающие женщины имеют несколько
меньшие шансы стать респондентами, чем
домохозяйки и пенсионерки (последних,
как известно, проще застать дома), наши
результаты наверняка окажутся смещенными.
Поэтому наилучшей моделью отбора
считается вероятностная, или случайная,
выборка4,в которой
строго соблюдаетсяпринцип равенства
шансов попадания в выборку и для всех
единиц изучаемой совокупности, и для
любых последовательностей таких
единиц.
Именно с рассмотрения разных подходов
к построению вероятностной выборки
мы и начнем наше обсуждение, чтобы в
дальнейшем перейти к не столь совершенным
видам целевого,т. е. не основанного
на вероятностях отбора, и их роли в
практике социологических исследований.
Выше мы определили, что такое выборка.
Сейчас нам необходимо строго определить
еще несколько элементарных понятий.
Переписьюназывают процедуру
2Более детальные
сведения о развитии выборочного метода
можно найти, в частности, в интересной
и доступной книге:Дружинин Н. К.Выборочное наблюдение и эксперимент.
М.: Статистика,
1979.
3 См.:
Fisher R. A.
The Design of Experiment. 3rd
ed. L.: Oliver &
Boyd, 1942.
4В дальнейшем мы
будем использовать термины «случайная
выборка» и «вероятностная выборка»
как взаимозаменяемые.
сбора информации о каждом члене изучаемой
группы или популяции. Все члены
интересующей исследователя группы
(популяции) составляют генеральную
совокупность. Выборочная процедураобеспечивает обоснованность и
«законность» выводов о генеральной
совокупности, сделанных на основании
небольшой выборки.
Типы вероятностных выборок и их
реализация
Первым шагом в построении любой модели
отбора, включая вероятностную, является
определение генеральной совокупности.Решение этой задачи далеко не всегда
бывает очевидным. Прежде всего, генеральная
совокупность, т. е. множество интересующих
социолога объектов исследования, может
быть задана и описана лишь на основе
каких-то содержательных представлений.
Если, например, нас интересуют политические
пристрастия избирателей, естественно
включить в генеральную совокупность
лишь тех, кто уже достиг 18-летнего
возраста. Изучение факторов, влияющих
на формирование семейного бюджета
горожан, потребует иного определения
генеральной совокупности: интересующая
исследователя популяция в данном случае
будет состоять из городских семей.
Полезно также помнить о том, что идеальная
генеральная совокупность,задаваемая
теоретическим описанием предмета
исследования, почти никогда не будет
полностью совпадать среальной
совокупностью.Реальная генеральная
совокупность подвержена постоянным
колебаниям: «взрослое население города
Воронежа на 00час
15ноября 1996года»
будет отличаться от «взрослого населения
города Воронежа на 00час
16ноября 1996года».
Некоторые люди за день уедут из города,
попадут в больницу, некоторые
—вернутся домой из командировки
и т. п. Поэтому столь важно при описании
изучавшейся в исследовании генеральной
совокупности указывать время и место
проведения исследования. Следует
также помнить, что идеальная генеральная
совокупность — это
теоретическая абстракция, более или
менее совпадающая с реальной совокупностью.
Выборка осуществляется из реальной
популяции, переход от которой к
идеальной совокупности обеспечивается
не только правилами статистического
вывода, но и некоторой долей теоретического
воображения.
Если исследователь построил выборку,
которая представляет интересующую его
совокупность с приемлемой степенью
точности, то полученная выборка является
репрезентативной(представительной).
В противоположном случае можно говорить
о наличии существеннойвыборочной
ошибки.Более строго выборочную ошибку
определяют какрасхождение между
оценкой некоторого показателя, получаемой
на основании исследования выборки, и
истинным значением этого показателя
в генеральной совокупности.
К счастью, существуют точные методы для
учета и оценки случайной выборочной
ошибки, связанной с не носящими
систематического характера колебаниями
изучаемой переменной в разных подвыборках
из одной и той же генеральной
совокупности. Подробнее эти методы мы
будем обсуждать ниже (в частности,
формулы для расчета случайной ошибки
выборки будут рассмотрены в главе
8).Значительно более серьезную
проблему создает наличиесистематических
смещений,возникающих в результатенарушения случайного характера
выборочной процедуры.Результаты
такого «не вполне случайного» отбо-
paмогут выглядеть более
или менее правдоподобно, однако сами
по себе они никогда не позволят обнаружить
смещение или оценить его величину.
Последнее утверждение можно
проиллюстрировать на примере классического
опыта с рулеткой. Если нам скажут, что
вчера десять раз подряд выпало «красное»,
мы сможем назвать такую серию событий
крайне маловероятной. Однако этот
субъективно подозрительный результат
сам по себе не дает оснований для каких-то
суждений о величине и характере ошибок,
порождаемых выборочной процедурой, т.
е. об исправности механизма самой
рулетки.
Систематическая ошибка выборки не
обязательно является результатом злого
умысла. Например, в США во время войны
во Вьетнаме (до введения контрактной
системы набора на армейскую службу)
правительство проводило специальные
лотереи для отбора призывников. Фактически
случайно отбирались даты рождения: все
годные к несению строевой службы юноши,
родившиеся в день, который определялся
в ходе такого «розыгрыша», призывались
в армию. В 1970г. результаты
отбора были подвергнуты острой критике.
Проведенное специальной комиссией
расследование показало, что в выборочной
процедуре действительно присутствовало
смещение. Билетики с напечатанными
датами были заключены в специальные
капсулы, которые затем опускали в
лотерейный барабан в порядке следования
месяцев, начиная с января. Из-за
недостаточного перемешивания капсул
внутри барабана капсулы с ноябрьскими
и декабрьскими датами концентрировались
в верхней части и, естественно, выпадали
с заметно большей частотой5.
Самым знаменитым примером смещенной
выборочной процедуры в истории социологии
стал предвыборный опрос, проведенный
американским журналом «TheLiteraryDigest»
в 1936г. Результаты опроса
показывали, что Ф. Д. Рузвельт получит
40,9%голосов и уступит президентское
кресло республиканцу А. Ф. Лэндону. В
действительности Рузвельт получил
60,2%голосов избирателей. Расхождение
в 19,3%в значительной
степени объяснялось характером выборочной
процедуры. Дело в том, что на практикедля построения любой выборки используют
какой-то список всех членов изучаемой
совокупности, называемый основой
выборки.В опросе, проведенном «TheLiteraryDigest»,
в качестве основы выборки использовались
телефонные справочники, а также
регистрационные списки владельцев
автомобилей6. Во второй половине
1930-х гг. такие списки включали в себя
почти исключительно представителей
экономически благополучных классов.
Беднейшие слои населения, избирательная
активность которых, кстати, существенно
увеличилась в годы Великой Депрессии,
оказались недостаточно представлены
в выборке, что и послужило причиной
столь значительной ошибки. (Интересно
отметить, что объем выборки в описываемом
случае был просто огромным
—свыше двух миллионов человек!)
Существует несколько типов вероятностной
выборки, различающихся характером
выборочной процедуры. Мы рассмотрим
лишь пять: простую случайную,
систематическую, стратифицированную,
кластерную и многоступенчатую.
Процедура построения простой случайной
выборкивключает в себя следующие
шаги.
5
RouncefieldM., HolmesP.
Practical Statistics. Basingstoke: Macmillan Education Ltd,
1989. P. 122.
6 Galiup
G. A. Guide to Public Opinion Polls.
Princeton: Princeton University Press,1948.
Таблица |
|||||||||||
Номер |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
|
1 |
98 |
08 |
62 |
48 |
26 |
45 |
24 |
02 |
84 |
04 |
|
2 |
33 |
18 |
51 |
62 |
32 |
41 |
94 |
15 |
09 |
49 |
|
3 |
80 |
95 |
10 |
04 |
06 |
96 |
38 |
27 |
07 |
74 |
|
4 |
79 |
75 |
24 |
91 |
40 |
71 |
96 |
12 |
82 |
96 |
|
5 |
18 |
63 |
33 |
25 |
37 |
98 |
14 |
50 |
65 |
71 |
|
6 |
74 |
02 |
94 |
39 |
02 |
77 |
.55 |
73 |
22 |
70 |
|
7 |
54 |
17 |
84 |
56 |
11 |
80 |
99 |
33 |
71 |
43 |
|
8 |
11. |
66 |
44 |
98 |
83 |
52 |
07 |
98 |
48 |
27 |
|
9 |
48 |
32 |
47 |
79 |
28 |
31 |
24 |
96 |
47 |
10 |
|
10 |
69 |
07 |
49 |
41 |
38 |
87 |
63 |
79 |
19 |
76 |
|
11 |
09 |
18 |
82 |
00 |
97 |
32 |
82 |
53 |
95 |
27 |
|
12 |
90 |
04 |
58 |
54 |
97 |
51 |
98 |
15 |
06 |
54 |
|
13 |
73 |
18 |
95 |
02 |
07 |
47 |
67 |
72 |
52 |
69 |
|
14 |
75 |
76 |
87 |
64 |
90 |
220 |
97 |
18 |
17 |
49 |
|
15 |
67 |
35 |
86 |
33 |
26 |
50 |
10 |
39 |
42 |
61 |
Во-первых, нужно получить полный список
членов генеральной совокупности и
пронумеровать этот список. Такой список,
напомним, называется основой выборки.
Во-вторых, следует определить предполагаемый
объем выборки,т. е. ожидаемое
число опрошенных.
В-третьих,нужно извлечь изтаблицы
случайных чисел(см.табл.
7.7)столько чисел, сколько нам
требуется выборочных единиц. Если в
выборке должно оказаться
100человек, из таблицы берут
100случайных чисел.
В-четвертых,нужно выбрать из
списка-основы (см. выше) те наблюдения,
номера которых соответствуют
выписанным случайным числам8.
Прежде чем мы перейдем к обсуждению
возникающих на этом пути практических
затруднений, рассмотрим упрощенный
пример реализации описанной процедуры.
Пусть нам предстоит построить случайную
выборку объемом в 12человек
из совокупности, содержащей
60членов. Можно предположить, что
мы хотим оценить калорийность ежедневного
рациона питания 60студентов-социологов, обучающихся на
втором курсе университета, чтобы
исследовать возможное влияние
энергетической ценности рациона на
академическую успеваемость. Для этого
можно пронаблюдать за питанием небольшой
выборки, состоящей из двенадцати
студентов. В качестве основы выборки
мы используем список всех60студентов. Присвоим всем студентам в
списке двузначные номера—от
«01»
7 Составлено
на основе
таблицы: Appendix С:
Random Numbers // Zeiler R. A., Carmines
E. G. Statistical Analysis of Social
Data. Chicago: Rand McNally, 1978.
P. 364—367.
8Здесь и далее речь
идет о случайнойбезвозвратнойвыборке, так как выборка свозвращениемотобранной единицы в совокупность на
каждом шаге отбора не очень удобна
практически (хотя и обладает рядом
статистических преимуществ).
до «60» (если бы максимальный номер в
списке был трехзначным, мы бы присваивали
трехзначные номера, используя нули в
отсутствующих разрядах—
например, «067», «003»). Далее нам
предстоит последовательно выписать
двенадцать двузначных чисел из
таблицы случайных чисел (см.табл.
7.7).Отметим, что таблицы случайных
чисел фактически состоят изслучайных
цифр, которые обычно сгруппированы
для удобства в блоки, состоящие из
двузначных либо пятизначных чисел.
Объединение цифр в последовательности
и блоки условно и не имеет особого
статистического смысла. Поэтому в
случаях, когда нужны, например трехзначные
числа, а таблица состоит из пятизначных,
пользуются каким-то несложным правилом,
скажем, используют только три первые
цифры каждого пятизначного числа, а
оставшиеся две игнорируют. Соответственно
двузначные числа можно объединять.
Чтобы решить, с какого места в таблице
начинать отсчет номеров, достаточно
задаться произвольными номерами строки
и столбца. В нашем примере мы начнем
с пересечения второй строки и третьего
столбца. Первым номером в нашем списке
окажется 51.Далее можно
двигаться по любому правилу: подряд,
через строку, через два столбца и т. п.
Мы будем выписывать нужные нам двенадцать
двузначных номеров подряд по строке,
двигаясь по горизонтали и переходя при
необходимости на следующую строку.
Если при этом будут попадаться числа,
превосходящие по величине самый большой
номер в нашем списке (60),мы будем их пропускать. То же относится
и к повторяющимся числам. В результате
мы получим последовательность:
51, 32, 41, 15, 09, 49, 10, 04, 06, 38, 27, 07.
Нам остается выписать из списка-основы
фамилии, стоящие под этими номерами.
Если вы располагаете персональным
компьютером, то вместо таблицы можно
воспользоваться «генератором случайных
чисел», имеющимся в большинстве
статистических программ.
Простая случайная выборка —это не только наглядное воплощение идеи
случайного отбора, но и своего родаэталон,с которым сравниваются
другие вероятностные процедуры.
Здесь необходимо заметить, что вопреки
часто высказываемому и неверному
мнению простую случайную выборку не
следует рассматривать как самую
примитивную форму вероятностного
отбора. Напротив, более сложные модели
случайных выборок используют в тех
случаях, когда простую нельзя применить
из-за практических или финансовых
ограничений. О качестве этих более
сложных процедур отбора также судят
посредством сравнения с простой случайной
выборкой.
Самые очевидные ограничения для
использования простой выборки возникают
в случае большого объема генеральной
совокупности. Прежде всего исследователь
сталкивается с проблемами поиска полной
и несмещенной основы выборки.При обследованиях небольших групп и
первичных коллективов эти проблемы
обычно легко решаются: достаточно
воспользоваться членскими списками,
списками личного состава и т. п., внеся
в них необходимые уточнения. В
широкомасштабных опросах общественного
мнения и социологических обследованиях
чаще применяют другие основы:
переписные листы, списки избирателей,
домовые книги, карточки паспортных
столов милиции (а также картотеки РЭУ,
ДЭЗ и т. п.), нехозяйственные книги
сельских советов. Все эти «готовые»
основы выборки обладают определенными
преимуществами и не-
достатками9. Решая практическую
задачу планирования выборочного
исследования, социолог обычно
оценивает возможные основы по нескольким
параметрам.
Во-первых,списки, пригодные для
составления основы выборки, могут
храниться либо централизованно, либо
децентрализованно, «вразброс», в
различных территориальных органах
власти, статистических учреждениях и
т. п. Естественно, что в первом случае
затраты на получение доступа к основе
будут значительно ниже, чем во втором.
Фактически при децентрализованном
хранении исследователь должен
самостоятельно составить единый
список-основу, собрав необходимые данные
в результате обхода (или объезда) всех
соответствующих институций.
Во-вторых,используемые в качестве
основы выборки списки могут обладать
различной степенью точности. Точность
списка, в свою очередь, зависит от его
полноты, частоты его обновления. Эти
качества (полнота списка и высокая
частота его пересмотра) редко
встречаются одновременно. Как правило,самыми полными оказываются именно те
основы, которые реже всего обновляются.
Таковы, конечно, данные переписей или
эпизодически составляемые именные
распределительные списки (типа списков
на получение приватизационных чеков).
К сожалению, чем больше времени отделяет
планируемое вами исследование от
последней переписи, тем больше вероятность
возникновения ошибок и смещений в основе
выборки.
Очень существенными достоинствами
обладают списки паспортных столов
милиции, жилищно-эксплуатационных
контор и других местных административных
органов.
Качество основы выборки оценивают уже
на стадии планирования исследования.
Особое внимание уделяют таким потенциальным
угрозам валидности, как неполнота
выборочной основы, «склеивание» единиц
отбора, «пустые» элементы в списке.
Онеполноте говорят в тех случаях,
когда список, используемый для
построения выборки, не содержит в себе
некоторые единицы, безусловно
относящиеся к целевой совокупности.
Например, списки жильцов могут не
содержать сведений о тех жильцах, которые
еще не зарегистрировались по новому
месту жительства. В некоторых случаях
проблему неполной основы можно решить
за счет использованиядополнительных
основ.В нашем примере со списками
жильцов такой дополнительной основой
могут стать «листки при-бытия-убытия»,
которые хранятся в паспортных столах
отделений милиции (с помощью последних
ведется учет прописки граждан). Примером
«склеивания» может служить ситуация,
когда генеральная совокупность,
определяемая объектом исследования,
состоит из индивидов, а реальной основой
отбора служит список квартир или
домовладений, содержащий лишь сведения
об ответственных квартиросъемщиках
либо о собственниках недвижимости.
«Пустые» элементы в основе выборки
встречаются в тех случаях, когда исходный
список содержит имена или адреса, за
которыми не стоят реально существующие
(или практически доступные) выборочные
единицы. Эта проблема часто возникает
9В отечественной
литературе сравнительный анализ разных
основ и их применения в конкретных
исследованиях осуществлен, например,
в книге:Арутюнян Ю. В., Дроби-жева Л.
М., Кондратьев В. С., Сусоколов А. А.Этносоциология: цели, методы и некоторые
результаты исследования. М.: Наука,
1984.Гл. IV.
при использовании устаревших списков,
содержащих информацию о временно
уехавших, выбывших, умерших и т. п.10
Описанные выше трудности составления
валидной,т. е. соответствующей
объекту исследования (целевой
совокупности), основы выборки носят и
статистический, и «экономический»
характер. Довольно часто исследователь
сталкивается с ситуацией, когда
временные и финансовые затраты на
осуществление простой случайной выборки
становятся неприемлемо высокими.
Наиболее разумным выходом здесь
является использование других,
«компромиссных», процедур случайного
отбора.
Систематическаявыборка по качеству
часто приближается к простой случайной.
Систематическая выборка, как и простая
случайная, требует полного списка или
заданного упорядочения совокупности
(см. ниже). Техника осуществления
систематического отбора элементарна:
сначала случайным образом отбирается
первая единица, затем отбору подлежит
каждыйk-й.элемент.
Числоkв данном случае
называютшагом отбора.Можно,
например, отбирать каждый 25-й или каждый
200-й элемент. Чтобы определить шаг отбора,
нужно поделить известный объем
генеральной совокупности(N)на предполагаемый объем выборки(п).
Пусть, например, нужно отобрать
200человек из 20000владельцев телефонов:
1)определим шаг отбора:N/n
= 20000 : 200 = 100;
2)с помощью таблицы
случайных чисел найдем первую выборочную
единицу. Если, скажем, выпал номер
«053», то из списка владельцев телефонов
выпишем того, кто значится под этим
номером;
3)с установленным шагом
отбираем номера: 153, 253, 353, 453и т. д. до исчерпания списка.
Иногда генеральная совокупность (и
соответственно основа выборки) слишком
велика либо исследователю известен не
полный список, а лишь правило упорядочения
элементовв генеральной совокупности.
Предположим, что мы хотим составить
представление о весе и формате книг,
содержащихся в некой библиотеке, при
том, что мы не располагаем полным
каталогом, а лишь видим, как книги
расставлены на стеллажах. При условии,
что объем библиотечного собрания нам
приблизительно известен, мы можем
воспользоваться процедурой
систематического отбора и отобрать,
скажем, каждую 55-ю книгу. Очень важно
отобрать «стартовую» единицу сугубо
случайным образом. Именно в этом пункте
кроется основная слабость систематического
отбора. Если в способе упорядочения
единиц совокупности имеет место некая
цикличность, т. е.неизвестная нам
«система»(систематический паттерн),
а случайность в выборе «старта» должным
образом не обеспечена, то полученная
выборка может также оказатьсясмещенной(если о систематическом
паттерне мы знаем заранее, то он не
представляет собой угрозы валидности
и может быть учтен в ходе отбора). Если
воспользоваться примером с отбором
книг в библиотеке, то легко представить
себе такую гипотетическую ситуацию:
исследователь выбирает в качестве
стартовой первуюкнигу на нижней
полке ближайшего стеллажа и далее
двигается с шагом 250единиц. Если на каждом стеллаже размещается
около 500книг, то
приблизительно половина его выборки
будет взята с нижних
10Подробнее об
источниках смещений в основе выборки
и некоторых способах борьбы со смещениями
см.:Kish L.Surveysampling.
N. Y.: J. Wiley,
1965. P. 53—59.
полок. Однако известно, что на нижних
полках многих библиотек нередко
размещают книги больших форматов
—художественные альбомы, атласы
и т. п. Если в нашем примере это правило
упорядочения будет соблюдено хотя бы
в половине случаев (т. е. половина нижних
полок будет отведена под «неформатные»
издания, под так называемые фолио), любые
выборочные оценки «направленности»
библиотечного собрания или формата
представленных в нем книг окажутся
невалидными.Аналогией примеру с
библиотечными книгами может служить
случай систематической выборки городских
квартир. Если в результате осуществляемого
непосредственно «в поле» интервьюерами
систематического отбора в выборке
будут сверхпредставлены квартиры,
расположенные на первых и последних
этажах, возникнет систематическая
выборочная ошибка. На первых и последних
этажах в российских городах часто живут
люди из групп, имеющих более низкий
социально-экономический статус и
соответственно ограниченные финансовые
ресурсы: квартиры, расположенные на
«крайних» этажах и соприкасающиеся с
системами коммунального водо- и
теплоснабжения, обычно стоят дешевле,
так как названные системы в России
традиционно являются источником
неприятностей и дисфункций в структуре
жизнеобеспечения.
Стратифицированный отбори
соответственно стратифицированная
выборка используются в тех случаях,
когда из каких-то содержательных
соображений важно обеспечить
представительность вероятностной
выборки по каким-то конкретнымважным
для исследовательских целей критериям.В литературе существует определенная
путаница вокруг проблемы стратификации
(«стра-та» —это социальная,
возрастная или иная группа, буквально
«слой»).
Применительно к стратифицированному
отбору часто высказывают все те неверные
и предрассудочные мнения, которые в
начале XXвека высказывались
относительно квотной выборки (см. ниже)
и ее воображаемых преимуществ перед
случайным отбором. В действительности
стратифицированный отбор имеет
определенные практические преимущества
до тех пор, пока сохраняется его
вероятностный, случайный характер. Как
только стратифицированная выборка
превращается в более или менее специально
отобранную квотную выборку, воспроизводящую
некоторые известные пропорции генеральной
совокупности (например, 51%женщин, 30%горожан и т.
п.), любые статистические, т. е. строгие,
оценки параметров генеральной совокупности
становятся невозможными.
Стратификацией, строго говоря, называют
процедуру, при которой отбор осуществляют
как бы из нескольких «параллельных»
подсовокупностей,заданных на одной
и той же генеральной совокупности. Это
абстрактное определение можно прояснить
с помощью примера. Пусть у нас есть
генеральная совокупность взрослых
горожан, относительно которой мы
располагаем какой-то существенной
с точки зрения исследовательских гипотез
информацией. Наличие такойпредварительной
информации —необходимое условие стратифицированного
отбора. Предположим, мы знаем, что в
генеральной совокупности60%рабочих и 40%служащих. Это
соотношение может оказаться весьма
существенным с точки зрения наших
исследовательских гипотез, если оно
задает одну изнезависимых переменных,как, например, при изучении влияния рода
занятий на частоту посещения футбольных
матчей. Даже при отсутствии значительной
систематической погрешности небольшие
смещения в реализации случайной
выборочной процедуры могут привести к
ситуации, когда в нашей конкретной
выборке соотношение рабочих и служащих
будет существенно
(на
5—7%)
отклоняться от ожидаемой «правильной»
пропорции, имеющей место в генеральной
совокупности (см. обсуждение нормальной
кривой и индуктивного статистического
вывода в гл.
8).
Соответственно под угрозой окажется
точность наших оценок взаимосвязи между
главной независимой переменной
(профессиональным статусом) и интересом
к футболу. Такого рода неточность может
быть устранена при использовании еще
одной случайной выборки из генеральной
совокупности, но здесь вступают в силу
экономические соображения, так как
исследовательский бюджет обычно
ограничен. В описанной ситуации
желательно заранее обеспечить
представленность обеих интересующих
нас групп, т. е. страт,
сохранив вероятностный характер отбора.
Этого можно добиться, если осуществить
некую независимую процедуру случайного
отбора для каждой социальной группы в
отдельности (в нашем примере для рабочих
и служащих) и затем
объединить
полученные случайные подвыборки в одну
(заметьте, что для нашего примера
объем подвыборки рабочих, в согласии с
заранее известной пропорцией, будет
в
1,5 раза
больше объема подвыборки служащих).
Полученная в результате выборка будет
и стратифицированной
(по профессиональному статусу), и
вероятностной.
На практике две
случайные процедуры отбора в
подвыборки-страты можно технически
объединить в одну, если мы располагаем
априорной информацией о принадлежности
каждой выборочной единицы к той или
иной страте. Для этого достаточно
вести параллельный отбор из списка-основы
в несколько подвы-борок (по числу страт).
Собственно выборочная процедура может
быть и простой
случайной,
и систематической
(соответственно мы получим либо простую,
либо систематическую стратифицированную
выборку).
Рассмотрим эту
процедуру на примере составления
систематической выборки населения,
стратифицированной по этнической
принадлежности. Пусть мы осуществляем
выборку взрослых жителей небольшого
промышленного центра, при этом
полученная выборка должна отражать
существующую этнодемографическую
ситуацию:
80% русских,
10% украинцев
и 10%
представителей других национальностей.
Основываясь на информации, хранящейся
в паспортных столах милиции (или на
избирательных списках), мы в идеальном
случае можем составить полный
список-основу, включающий
100000 известных
административным органам постоянных
жителей. Если предварительно мы
предполагаем включить в нашу выборку
около
1000 человек,
нам нужно отобрать из картотек паспортных
столов (или избирательных списков)
каждого сотого. То есть доля генеральной
совокупности f,
включенная в выборку, составит 1/100:
f =
объем выборки (n)
/ объем
целевой совокупности (N).
Выборка объемом в
1000 человек
будет включать в себя
800 русских,
100 украинцев
и
100
представителей других национальностей.
Причем шаг систематического отбора (К)
для всех трех подсовокупностей будет
равен 100.
Социальные исследования 2 (2017) 60-75
Журнал “Социальные исследования”
Алгоритмы формирования выборки социологического опроса Фархад Назипович Ильясов *
3 Независимый исследователь, кандидат философских наук по специальности «прикладная социология»
О СТАТЬЕ
АННОТАЦИЯ
Прохождение статьи: Поступила: 21.11.2017 Принята: 14.12.2017 Опубликована онлайн: 28.12.2017_
Ключевые слова:
виды выборки; алгоритмы
отбора; репрезентативность
В статье уточняются термины, связанные с понятиями выборки и репрезентативности. Описывается классификация выборок, принятая в социологии. Предлагается и описывается классификация выборок по месту нахождения респондента и по методу контакта с ним.
1. Введение
Проблема выборки в социальных обследованиях имеет очень большое значение, тем не менее, эта тема остается не в полной мере разработанной и проясненной. Особенно это касается не-вероятностных, рандомных выборок (англ. random sample). Ред Бейкер с коллегами отмечают: «В отличие от вероятностной выборки, нет единого основания, которое позволило бы адекватно классифицировать и описать все виды не-вероятностных выборок. Невероятностные выборки представляет собой набор, коллекцию методов, и трудно, если не невозможно, описать особенности и алгоритмы, применяемые во всех видах не-вероятностных выборок» [Baker et al., 2013: 3].
#
E-mail: iliassov.farkhad@yahoo.com
© 2017 Автор ISSN 2500-0020
Journal of Social Research
Целью настоящей статьи является уточнение имеющихся классификаций и описаний алгоритмов отбора в социальных исследованиях.
2. Уточнение понятий
Генеральная совокупность – группа, выбранная в качестве объекта исследования. В соответствии с задачами исследования, генеральная совокупность выбирается по двум и более признакам. Однако, даже, если для выделения группы выбраны два «целевых» признака, например: 1. «все население определенной страны», 2. «в возрасте 18+», то выделяются еще и дополнительные репрезентирующие признаки. Это могут быть пол, возраст, образование, социальное положение, национальность, место расположения, детность, брачность, религиозность и т.д.
Генеральные совокупности, формируемые респондентами – это совокупности респондентов, находящихся по своей воле, и в силу сходной детерминации поведения, в определенных местах или осуществляющих определенные онлайн-контакты. Это могут быть:
■ торговые центры, зрелищные заведения, точки общепита;
■ место работы, учебы;
■ лечебные учреждения;
■ контакты через базы данных, панели, онлайн-опросных компаний;
■ аудитории определенных сайтов.
Выборка, выборочная совокупность – часть генеральной совокупности, отобранная для первичных измерений. Первичные измерения в социологии это измерение свойств первичного объекта измерения – отдельных респондентов, через измерение свойств которых измеряются свойства изучаемой группы (выборки). Конечный объект измерения в отдельном социологическом исследовании – это специфическая группа, выборка или генеральная совокупность.
Репрезентативность выборки – это её свойства точно отражать исследуемые характеристики генеральной совокупности. Строго говоря, репрезентативность -это не единое, общее свойство всей выборочной совокупности, а это характер распределения ответов на тот или иной конкретный вопрос анкеты. То есть репрезентативным являются распределение ответов на определенный вопрос.
Характер рассеяния разных свойств респондентов в генеральной совокупности может быть различным, оттого в одном опросе уровень репрезентативности ответов может быть различным по разным вопросам. Порой используют не совсем корректное выражение «репрезентативный опрос», на самом деле имея в виду репрезентативность выборки, либо репрезентативность результатов опроса, тогда как сам опрос – это процесс сбора эмпирической информации.
Иногда репрезентативной называют выборку, которая по социально-демографическим характеристикам опрошенных воспроизводит генеральную совокупность, при этом репрезентативность ответов на содержательные вопросы может оставаться неизвестной. Порой под репрезентативной понимают выборку, которая с точки зрения теории математической статистики, «должна быть» репрезентативной. Однако в данном случае речь идет только о гипотезе, которая, как правило, сохраняет статус непроверяемой.
Репрезентативность выборки может определяться только эмпирически:
■ сравнением социально-демографических параметров выборки и генеральной совокупности;
■ сравнением с результатами повторного опроса;
■ измерением репрезентативности результатов массового опроса методом анализа повторных подвыборок, подробнее см.: [Ильясов, 2011].
Параметры выборки – определение объема выборки и того, какие параметры генеральной совокупности должна репрезентировать выборка. Это могут быть пол, возраст, доход, профессия, социальное положение, обладание определенными предметами, потребление определенных товаров и т.д.
Проектирование выборки – разработка алгоритма отбора и определение количества опрашиваемых респондентов.
Формирование выборки – реализация алгоритма отбора. Целью формирования выборки часто является создание репрезентативной выборки.
Ошибка выборки. Как отмечал Геннадий Батыгин: «Практически ошибка выборки определяется путем сравнения известных характеристик генеральной совокупности с выборочными средними. …В качестве контрольных параметров обычно применяются социально-демографические признаки» [Батыгин, 2008: 149]. Важно указать – показатель «статистическая погрешность», описываемый в
терминах доверительного интервала и уровня доверия, является теоретическим понятием математической статистики и никак не характеризует реальную выборочную совокупность. О доверительном интервале и статистической погрешности подробнее см., например: [Антонов, 2013]. Также некорректными следует признать построения, основанные на идее нормального распределения, т.к. нет социологического свойства, относительного которого были бы получены достоверные эмпирические данные, подтверждающие нормальное распределение величин его свойств.
Удобная выборка (англ. convenience sampling) – это виды выборок, в которых отбор осуществляется в генеральных совокупностях, формируемых респондентами.
Размер, объем выборки – количество отбираемых респондентов. Как указывается в известном издании: «Выборочный метод не дает универсального решения относительно необходимого в каждом конкретном случае объема выборки, обязательного соотношения объемов генеральной и выборочной совокупностей» [Рабочая книга…, 1977: 266]. На практике размер выборки определяется эмпирически, исходя из результатов анализа ранее проведенных опросов. Следует указать, что, как известно, так называемый «расчет объема выборки по специальной формуле», основанный на показателе дисперсии величин некоторого свойства (признака), возможен только при известности дисперсии в генеральной совокупности, однако если дисперсия известна, опрос проводить не имеет смысла.
Квотное задание – сформулированное для конкретного интервьюера на основе параметров выборки, задание опросить конкретное число лиц с определенными свойствами, признаками. Это может быть, например, число женщин и число мужчин заданного возраста.
Тип отбора респондентов – при самом общем подходе можно выделить следующие типы отборов:
1. рандомный (называемый также вероятностным или случайным);
2. эмпирический, основанный на опыте предыдущих отборов;
3. стихийный, отбор первого попавшегося респондента, номера телефона и т.д.
4. произвольный, отбор по «эмоциональному основанию».
В первом случае отбор основан на строгом алгоритме с использованием основы выборки, таблицы или генератора случайных чисел. Во втором случае речь
идет об использовании алгоритмов отбора, эмпирически показавших свою возможность обеспечивать репрезентативность выборки. В третьем и четвертом случаях строго алгоритма отбора нет, и вопрос репрезентативности может оставаться открытым.
В настоящем тексте используется термин «рандомная», чтобы не применять многозначное слово «случайная» и не совсем точное «вероятностная» (отбор основан на вероятности, однако производится случайным образом).
Шаг, ступень выборки – элемент алгоритма отбора.
3. Виды выборок
Выражение «виды выборки» используется в разных смыслах, например:
1. техническое задание на отбор респондентов, параметры отбора, квотное задание;
2. метод, алгоритм, критерий, стратегия отбора;
3. этап, шаг отбора.
Соответственно, классификации выборок отражают многозначный характер этого понятия, описывая, как правило, один или два ключевых критерия, подхода, алгоритма.
В литературе выделяются, в частности, следующие виды выборок:
■ гнездовая;
■ квотная (пропорциональная);
■ кластерная;
■ удобная (конформная1);
■ маршрутная;
■ «уличный отбор»
■ районированная (типическая);
■ серийная;
■ снежного кома2;
■ стратифицированная (расслоенная), и др.
1 Подробнее см.: [Рогозин, 2008].
2 Модификацией является «выборка, направляемая респондентом».
Более подробно о классификации видов выборок см., например: [Рабочая книга…, 1977: 258-297; Могильчак, 2015; ДМ, 2016].
Понятия «квотная, кластерная, районированная, стратифицированная» являются в определенной мере сходными и обозначают выделение некоторых непересекающихся групп, страт по отдельным основаниям, определяемым исследователем.
Иногда стратами называют разные подвыборки, формируемые в рамках одного исследования из двух или более сравниваемых генеральных совокупностей, к их числу относятся:
■ группы, имеющие существенные социальные различия, например, сельское и городское население;
■ группы, различающие по однородности распределения, дисперсии исследуемого показателя, подробнее см., например: [Чуриков, 2007].
Сходными являются также понятия гнездовой и серийной выборки, они обозначают процесс выбора групп (семья, школьный класс, подразделение в организации), подлежащих сплошному опросу.
Не во всех случаях термин выборка обозначает алгоритм отбора респондентов. А в тех случаях, когда речь идет об алгоритмах отбора, указывается, как правило, лишь один или два алгоритма, в соответствии с которыми виду выборки дается наименование. По сути, указание вида выборки, обычно представляет собой лишь маркирование, обозначение некоторого концепта. Основная проблема в понимании вида выборки – это нередкое отсутствие описания полного алгоритма отбора. В виду указанного обстоятельства названия видов выборок в большей мере представляют собой метафоры, в которые исследователи вкладывает некоторое, порой не до конца раскрываемое содержание.
4. Рандомный, случайный отбор
С точки зрения теории статистики, случайный выбор – это выбор одного варианта из нескольких равновозможных. Рандомный, статистически случайный отбор – это алгоритм отбора респондентов, при котором каждая из единиц генеральной совокупности имеет равные шансы, одинаковую вероятность, попасть в выборку. При рандомном отборе есть возможность посчитать теоретическую
вероятность попадания каждого респондента в выборку, потому она называется также вероятностной. Более подробно о рандомных (вероятностных, случайных) выборках см., например: [Чуриков, 2007].
Надо заметить, использование рандомного, вероятностного отбора не гарантирует репрезентативность выборки. Репрезентативность в данном случае -это просто предположение, вытекающее из теории математической статистики, некоторая априорная предпосылка, которая может реализоваться в конкретном отборе, а может и не реализоваться.
Рандомной может считаться, например, выборка, в которой основой выборки является полный список всех единиц генеральной совокупности. Это может быть список избирателей, список адресов, список работников организации и т.д. В соответствии с принятым объемом выборки, отбор может осуществляться через определенный интервал, шаг выборки. Рандомный отбор может быть осуществлен с помощью компьютерной программы, с использованием генератора случайных чисел. В программу вносятся два показателя – размер генеральной совокупности и размер выборки. Эта процедура реализуема и с использованием известных статистических пакетов.
В варианте с территориальной выборкой рандомность обеспечивается случайным выбором каждого элемента на каждом шаге выборки.
Из выборок, которые могут считаться рандомными, довольно распространенными становятся выборки с использованием таких основ выборки как списки стационарных и мобильных, домашних и корпоративных телефонов.
5. Эмпирические выборки
На практике алгоритм строго рандомного отбора реализовать сложно. Потому все чаще используются так называемые «эмпирические» выборки, под которыми понимаются различные совокупности алгоритмов рандомного и «стихийного», «произвольного» отбора, которые, как ожидается исследователем, обеспечивают репрезентативность. Эмпирическими они называются потому, что оптимальный алгоритм отбора в них определяется эмпирически, через апробацию тех или иных алгоритмов и нахождения наиболее точного, оптимального.
Эмпирические выборки также называют не-вероятностными, неслучайными. Однако они называются не-вероятностными, строго говоря, не потому, что не
осуществляется рандомный отбор, а лишь потому, что вероятность попадания каждой единицы отбора в выборку неизвестна.
Иногда эмпирические выборки оценивают как не имеющие теоретического обоснования. Например, Ред Бейкер с коллегами отмечают: «Мы полагаем неприемлемыми для формулирования статистических выводов и предположений, используемые без теоретического обоснования методы сбора данных и сформулированные на их основе оценки» [Baker et al., 2013]. Однако теория лишь обобщает экспериментальные данные, а именно эмпирические данные являются основой позитивной науки. Критерием научности, как известно, является совпадение результатов повторяемых, воспроизводимых эмпирических процедур. Если проводится некая эмпирическая процедура, с хорошо прописанными алгоритмами действий, в итоге которой получается воспроизводимый и повторяемый результат, то этот результат может считаться научным. Например, феномен времени в физике не имеет признанного теоретического обоснования, однако это не делает неприемлемыми эмпирические данные и оценки, полученные на основе измерения времени (длительности).
Большинство выборок представляют собой некий алгоритм -последовательность определенных действий, шагов (ступеней), направленных на нахождение и отбор респондентов. Такие выборки называются многоступенчатыми. При этом нередко выборка представляет собой комбинацию различных видов отбора, такая выборка называется комбинированной. Значительная часть эмпирических выборок содержат в себе элементы рандомного и стихийного отбора.
Таким образом, в реальности эмпирическая выборка часто представляет собой алгоритм, состоящий из нескольких неоднородных, последовательных процедур отбора, имеющих рандомный, не строго рандомный и «стихийный» характер. Иными словами, на практике часто используется многоступенчатая, комбинированная выборка, использующая рандомные и стихийные принципы отбора.
Как представляется акцент на количестве ступеней и на комбинации методов отбора, как классифицирующих признаках, в некоторой степени заслоняет собой основную цель выборки – нахождение и отбор респондентов.
Каждая из эмпирических выборок представляет собой алгоритм отбора, состоящий из двух элементов:
1. алгоритм поиска локации респондента, либо выбор способа контакта с ним;
2. алгоритм отбора респондентов по заданным признакам в месте локации, либо через выбранный способ контакта.
Соответственно, можно выделить два основания для классификации видов выборок, алгоритмов отбора:
1. если контакт очный, непосредственный – это отбор по месту расположения, локация респондента;
2. если контакт опосредованный, дистанционный – это отбор по способу контакта с респондентом.
6. Эмпирические виды выборок по месту нахождения респондента
По основанию локации респондентов можно выделить следующие основные эмпирические виды выборок:
1. По месту жительства, см. рис. 1;
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
2. По место работы или учебы, см. рис. 2;
3. По локации в городе – на улице, площади;
4. По месту приобретения товаров и услуг.
Объектом исследования в случае выборки по месту жительства могут являться генеральные совокупности – территориальные общности разного уровня: страна, область, город, район. Построение выборки начинается с локации нужного масштаба. Определяется размер и параметры выборки. Алгоритм формирования выборки по месту жительства респондента приведен на рис. 1. На первых пяти ступенях отбора, от региона до наименования улицы, отбор может производиться либо рандомным образом, либо отбираются типичные на взгляд исследователя локации, соответствующие целям изучения.
Для каждой из ступеней отбора могут формироваться свои квоты. Они могут быть пропорциональными – отражать социально-демографические и иные
пропорции генеральной совокупности, т.е. воспроизводить структуру генеральной совокупности.
Квоты могут быть «аналитическими», т.е. соответствовать аналитическому плану исследования. Они создаются таким образом, чтобы минимальная, запланированная для анализа группа, была не менее 30-40 респондентов. Например, это может быть группа: женщины, возраст 40-45 лет, доход средний, с определенным видом поведения. Различные случаи выделения квот, страт, см., например:[Могильчак, 2015: 39-53].
Рис. 1. Алгоритм формирования выборки по месту жительства респондентов
Свойства
Локации
респондента
1. Регион Респондент
Ф Л
2. Район в регионе 13. Потребление
Ф Л
3. Поселение 12. Поведение
Ф Л
4. Район в поселении 11. Образование
Ф Л
5. Название улицы 10. Доход
Ф Л
6. № дома 9. Возраст
Ф Л
7. № квартиры 8. Пол
До интервьюера эти квоты доводятся в виде квотного задания, в котором указывается, сколько человек с определенными социально-демографическими и иными свойствами он должен опросить.
В случае отбора по месту жительства, см. рис. 1, внутри последней ступени локации (домохозяйства) в начале опроса может производиться рандомный выбор респондента (например, по ближайшему дню рождения) между двумя или более респондентами, соответствующими квотному заданию. После выполнения квотного задания по отдельным позициям, далее отбор производится только в соответствии с квотным заданием.
Рис. 2. Алгоритм формирования выборки по месту работы респондентов
Свойства респондента
1. Отрасль экономики Респондент
Ф Ф
2. Регион 11. Зарплата
Ф Ф
3. Населенный пункт 10. Возраст
Ф Ф
4. Организация 9. Пол
Ф Ф
5. Управление, цех 8. Квалификация
Ф Ф
6. Отдел, бригада 7. Профессия
Алгоритм уличного отбора во многом совпадает с алгоритмом отбора по месту жительства, только здесь конечной, опросной точкой является место на улице. Как
Локации и структуры
правило, уличный опрос проводится на основе квотных заданий. На первом этапе, до выбора квот, респонденту дается задание отбирать для опроса проводящих мимо респондентов через определенный шаг, например, каждого пятого. Этот этап отбора можно считать рандомным. На втором этапе респондент отбирает в соответствии с недобранными квотами, например, только мужчин среднего возраста. Этот этап отбора можно полагать стихийным.
Опыт проведения уличных опросов показывает, что, при правильной организации, они могут обеспечивать высокий уровень репрезентативности.
Аналогичным алгоритму отбора по месту работы, см. рис. 2, является алгоритм отбора по месту учебы.
Выборки по месту приобретения товаров и услуг обычно формируются в рамках исследований потребительского поведения, измерения продвинутости брендов и т.д. Такая выборка может считаться частным случаем выборки по локации в городе. В данном случае речь идет о генеральных совокупностях, формируемых респондентами. Подобные выборки репрезентируют то место скопления потребителей, где проводится опрос. В этих условиях может решаться обратная задача выборки, см., пример: [Ильясов, 2016].
8. Выборки по способу контакта с респондентом
По основанию типа дистанционного контакта с респондентом можно выделить следующие основные виды выборок:
1. рандомный или стихийный отбор респондентов из списка номеров стационарных и мобильных телефонов в домохозяйствах и организациях;
2. само-отбор (англ. self-selection sampling) – участие в опросе респондентов по собственной инициативе, в ответ на предложение принять участие в онлайн опросе, размещенное на определенных сайтах.
3. рандомный отбор респондентов в опросных веб-панелях (англ. web panels), в базах данных лиц, выразивших ранее желание принимать участие в опросах;
4. отбор из основы выборки (базы данных) респондентов для рассылки анкет обычной или электронной почтой.
В случае выборки, создаваемой на основе списка телефонов, она может быть репрезентативной при соблюдении следующих условий:
■ генеральная совокупность имеет высокий охват телефонной связью;
■ список является полным;
■ производится рандомный отбор.
В случае выборки само-отбора, осуществляемой посетителями сайтов, выборка может рассматриваться как репрезентативная только относительно аудитории этих сайтов. Выборка само-отбора имеет признаки стихийной. Однако, она может рассматриваться как эмпирическая, в случае, если результаты онлайн опроса согласуются с результатами другого опроса, определенными как репрезентативные. Подробнее о выборке само-отбора см., например: [Bethlehem, 2008].
Упорядоченным вариантом выборки само-отбора является выборки из вэб-панелей, состав которых формируется за счет предшествующего само-отбора. Респонденты сами откликаются на объявления с предложениями включиться в панель, регистрируются на соответствующем сайте, указывает свои соц-дем характеристики, потребительские и иные особенности. Веб-панели создаются организациями, специализированными на формировании этих панелей и проводящих интернет опросы с оплатой ответов респондентам.
Организация, для которой проводится опрос, формулирует техническое задание на опрос, в котором указываются свойства, признаки и квоты (пропорции), по которым должна формироваться выборка. В этом случае выборка может быть репрезентативной относительно самой веб-панели. Репрезентативность же самой веб-панели может быть неизвестной. Она может быть проверена с помощью контрольных вопросов, использованных ранее в опросах, репрезентативность которых является достоверной.
Существуют также репрезентативные веб панели, например, голландская веб панель LISS (www.lissdata.nl) состоит из 5 000 домашних хозяйств, состоящих из 8 000 человек. Панель основана на реальной рандомной (вероятностной) выборке домохозяйств, взятых из реестра населения Статистического управления Нидерландов [Stoop et al., 2012: 17].
Репрезентативность почтового опроса зависит от репрезентативности основы выборки. Популярность этого вида отбора (и опроса) в последнее время уменьшается.
Литература
Антонов Г. В. Выборочный метод в социологических исследованиях // Научный диалог. 2013. №11. С. 96-109.
Батыгин Г. С. Лекции по методологии социологических исследований. М.: РУДН. 2008. – 368 с.
Ильясов Ф. Н. Репрезентативность результатов опроса в маркетинговом исследовании // Социологические исследования. 2011. № 3. С. 112-116.
Ильясов Ф. Н. Обратная задача выборки и мотивация на рынке Форекс // Социальные исследования. 2016. №2. С. 49-59.
Могильчак Елена Львовна Выборочный метод в эмпирическом социологическом исследовании. Екатеринбург: УрФУ. 2015. – 120 с.
Рабочая книга социолога. М.: Наука. 1977. – 511 с.
Рогозин Д. М. Конформная выборка в торговых центрах // Социологический журнал. 2008. №1. С. 22-48.
Чуриков А. Случайные и неслучайные выборки в социологических исследованиях // Социальная реальность. 2007. №4. С. 89-109.
Alvi, Mohsin Hassan. A Manual for Selecting Sampling Techniques in Research. MPRA Paper No. 70218, posted 25 March 2016. Available online: https://mpra.ub.uni-muenchen.de/70218/ (Accessed: 2017.12.02)
Baker R., Brick J. M., Bates N. A., Battaglia M., Couper M. P., Dever J. A., Gile K. J., Tourangeau R. Report of the AAPOR task force on non-probability sampling. June 2013. Available online: http://www.aapor.org/AAPOR Main/media/MainSiteFiles/NPS TF Report Final 7 revised FNL 6 22 13.pdf (Accessed: 2017.12.02)
Bethlehem, Jelke. How accurate are self-selection web surveys. The Hague/Heerlen: Statistics Netherlands. 2008. Available online: https://peilingpraktijken.nl/wp-
content/uploads/2014/06/bethlehem04.pdf (Accessed: 2017.12.02)
Stoop, Ineke and Harrison, Eric. Classification of Surveys. In: Handbook of Survey Methodology for the Social Sciences. Ed. Gideon L. New York: Springer Science + Business Media. 2012. P. 7-21.
Algorithms for sampling a sociological survey
Farkhad Nazipovich Iliassov *
* – An independent researcher. PhD in «Applied Sociology» Email : iliassov.farkhad@yahoo.com
Abstract
The article clarifies the terms associated with the concepts of sampling and representativeness. The classification of samplings, adopted in sociology, is described. The classification of samplings according to the location of the respondent and the method of contact with him is proposed and described.
Keywords: types of sample; sampling algorithms, representativeness
References
Antonov G. V. Vyborochnyi metod v sotsiologicheskikh issledovaniyakh. Nauchnyi dialog. 2013. No. 11. P. 96-109.
Batygin G. S. Lektsii po metodologii sotsiologicheskikh issledovanii [Lectures on the methodology of sociological research], Moscow: RUDN. 2008. 368 p.
Iliassov F. N. Reprezentativnost’ rezul’tatov oprosa v marketingovom issledovanii. Sotsiologicheskie issledovaniya [Sotsiologicheskie Issledovaniia]. 2011. No. 3. P. 112-116.
Iliassov F. N. Obratnaya zadacha vyborki i motivatsiya na rynke Foreks. Sotsial’nye issledovaniya [Journal of Social Research]. 2016. No.2. P. 49-59.
Mogil’chak Elena L’vovna Vyborochnyi metod v empiricheskom sotsiologicheskom issledovanii [Sampling method in an empirical sociological study], Ekaterinburg: UrFU. 2015. 120 p.
Rabochaya kniga sotsiologa [Working book of a sociologist], Moscow: Nauka. 1977. 511 p.
Rogozin D. M. Konformnaya vyborka v torgovykh tsentrakh. Sotsiologicheskii zhurnal. 2008. No. 1. P. 22-48.
Churikov A. Sluchainye i nesluchainye vyborki v sotsiologicheskikh issledovaniyakh. Sotsial’naya real’nost’. 2007. No. 4. P. 89-109.
Alvi, Mohsin Hassan. A Manual for Selecting Sampling Techniques in Research. MPRA Paper No. 70218, posted 25 March 2016. Available online: https://mpra.ub.uni-muenchen.de/70218/ (Accessed: 2017.12.02)
Baker R., Brick J. M., Bates N. A., Battaglia M., Couper M. P., Dever J. A., Gile K. J., Tourangeau R. Report of the AAPOR task force on non-probability sampling. June 2013. Available online: http://www.aapor.org/AAPOR Main/media/MainSiteFiles/NPS TF Report Final 7 revised FNL 6 22 13.pdf (Accessed: 2017.12.02)
Bethlehem, Jelke. How accurate are self-selection web surveys. The Hague /Heerlen: Statistics Netherlands. 2008. Available online: https://peilingpraktijken.nl/wp-
content/uploads/2014/06/bethlehem04.pdf (Accessed: 2017.12.02)
Stoop, Ineke and Harrison, Eric. Classification of Surveys. In: Handbook of Survey Methodology for the Social Sciences. Ed. Gideon L. New York: Springer Science + Business Media. 2012. P. 7-21.
Авторы статьи — А.М. Степанов, социолог отдела аналитических и социологических исследований, М.В. Иванов, начальник отдела аналитических и социологических исследований МАУ «ИРСИ».
Параметры расчета выборочной совокупности
Вне
зависимости от метода расчета выборки нужно помнить о ключевых параметрах,
влияющих на объем выборочной совокупности. Таких параметров мы выделим три –
это общий объём, однородность и абсолютная
ошибка.
Общий
объем генеральной совокупности. Чем больше изучаемая генеральная
совокупность, тем больший объем выборки нам может понадобиться для
репрезентативного исследования. Однако это утверждение касается лишь определенного
числового диапазона! Увеличение выборки идет не пропорционально увеличению
генеральной совокупности. Ведь если речь пойдет о генеральной совокупности как о
малочисленной величине, исчисляемой десятками и сотнями единиц, то
целесообразно предположить, что чем больше будет объем выборки, тем точнее
данные. В идеале можно и нужно стремиться, чтобы в таком случае выборка
составляла не менее 50%, а то и 2/3 изучаемой генеральной совокупности. Если же
(а чаще всего это так и есть) мы имеем дело с генеральными совокупностями,
исчисляемыми десятками, сотнями тысяч и миллионами (например, население
крупного города, региона, страны), то, конечно же, мы не будем опрашивать ни
50%, ни 25%, ни 10%. Нам понадобится значительно меньшее число участников
опроса (респондентов). Стоит отметить, что при сравнении выборки при объеме
генеральной совокупности в 100 тысяч и 1 миллион человек, разница в объеме
выборки может составить всего несколько десятков респондентов (см. таблицу).
+ В этих случаях достаточным
будет более 50% от объема выборки.
Источник: Мангейм
Дж.Б., Рич Р.К. Политология:
Методы исследования. – М., 1997. С.517.
Однородность генеральной совокупности.
В данном случае речь идёт об однородности признаков у единиц генеральной
совокупности. То есть чем более схожи между собой единицы генеральной
совокупности, тем меньше потребуется объем выборки для представления
репрезентативных результатов исследования. Причем под однородностью
рассматриваемых признаков мы можем понимать и социально-демографические
характеристики (пол, возраст, уровень образования, район проживания, социальное
положение), ценностные и социально-политические ориентации, культурно-языковые
различия, материальный достаток и т.д.
Размер ошибки (погрешности) выборки. Задачи
и характер исследования определяют допустимый размер погрешности полученных
данных. Самым оптимальным и часто используемым вариантом при расчете выборки
является ошибка в 5%, она позволяет получить данные с высокой степенью
репрезентативности и при этом не затратить много ресурсов на опрос излишнего
числа респондентов. Для прикладного
исследования нормальной будет выборка с ошибкой 4–5%. Ошибка выборки,
рассчитываемой ВЦИОМ, ФОМ (для федеральных исследований),
находится на уровне не ниже 2,5%. Стандартные
выборки МАУ ИРСИ по г. Ярославлю
обеспечивает ошибку выборки в диапазоне от 3,6
до 4,8%. Если говорить простым языком о том, что собой представляет ошибка
выборки в 5%, то можно представить, что в случае проведения 100 одинаковых
исследований по одной и той же теме и с одинаковым объемом выборки в 95 случаях
из 100 результаты исследования будут совпадать с мнением всей генеральной
совокупности. Однако в определенных случаях требуется снижение ошибки выборки,
которое чаще всего производится посредством наращивания объема выборочной
совокупности.
В
зависимости от имеющихся ресурсов и задач исследования для формирования выборки
существует несколько способов. В первую очередь нужно понимать, что отбор единиц
в выборочную совокупность может происходить как случайным образом, так и
неслучайным. Случайной или вероятностной выборкой можно назвать
только ту выборочную совокупность, в которой соблюдается принцип равной
вероятности для каждой единицы генеральной совокупности попасть в выборку.
Такой способ формирования выборки наиболее актуален для небольшого объема
генеральной совокупности, поскольку при изучении больших групп принцип равной
вероятности для всех элементов генеральной совокупности соблюсти крайне
затруднительно или нецелесообразно, с точки зрения высоких затрат ресурсов.
Для соблюдения принципа равной
вероятности случайной выборки зачастую используют механический отбор, такой
отбор возможен только при наличии полного списка единиц генеральной
совокупности, которые можно упорядочить по определенному признаку. В рамках
механического отбора из списка выбирается случайным образом первый элемент,
который служит отправной точкой, и каждый последующий выбирается через
определенный шаг. Размер шага определяется частным размера генеральной
совокупности и размера предполагаемой выборки K(шаг) = N(генеральная совокупность)/n(выборочная совокупность).
Другим
способом для соблюдения принципа случайности в выборке может быть стратифицированный (районированный) отбор.
Данный метод полезен в случае неоднородной генеральной совокупности и
подразумевает разделение единиц генеральной совокупности, на более мелкие
группы по определенным признакам. Внутри каждой выделенной группы производится
отбор единиц в выборочную совокупность случайным образом или при помощи
механического отбора. Наиболее корректно использовать этот метод в том случае,
когда в результате разделения на группы по выбранным признакам внутри каждой
группы образуется небольшое количество единиц, или когда существует полный
список единиц каждой выделенной группы, что позволяет в дальнейшем отборе соблюсти
принцип равной возможности для каждой единицы попасть в выборку.
Кластерный (гнездовой) отбор
является еще одним методом при формировании случайной выборки, в рамках данного
метода производиться случайным образом отбор целых групп (кластеров) из генеральной
совокупности. Впоследствии производится отбор единиц из кластеров в выборочную
совокупность, в зависимости от объема кластера это могут быть как и все единицы
кластера, так и часть из них, отобранная случайным образом. Например, в случае
отбора по территориальному признаку кластером могут служить населенные пункты,
отобранные в случайном порядке. В зависимости от количества населения
производится опрос всех жителей или только жителей, отобранных случайным
образом. При наличии полного списка единиц в каждом кластере возможен отбор
единиц с применением механического отбора.
В
исследованиях, где в качестве генеральной совокупности выступают тысячи или
даже миллионы людей, наиболее удобно использовать выборки с неслучайным
отбором, где отбор производится по заранее заготовленной схеме или стихийным
образом. Стихийная выборка подразумевает опрос по принципу «всех подряд» из
наиболее доступных респондентов. Здесь, как правило, производится опрос
наиболее удобных для интервьюера респондентов. Зачастую стихийная выборка
страдает слабой репрезентативностью по причине несоответствия некоторых
признаков выборочной совокупности признакам генеральной. Происходит это
вследствие упущения в ходе исследования некоторых значимых категорий
респондентов, которые являются труднодоступными для интервьюера. Поэтому данный
способ формирования выборки может использоваться в условиях ограниченности
ресурсов.
Наиболее
предпочтительным выглядит вариант с использованием квотной выборки. Суть данного метода сводится к тому, чтобы
выделить несколько интересующих социальных групп по признакам, обусловленным
задачами исследования. Далее необходимо рассчитать объем респондентов для
опроса в каждой группе, то есть объем квоты для каждой группы, руководствуясь
сохранением пропорций признаков генеральной
совокупности в выборке. На примере гендерной характеристики можем представить,
что если в генеральной совокупности соотношение женщин и мужчин 55% на 45%, то именно
такое же соотношение женщин и мужчин должно быть в рамках выборочной
совокупности.
Аналогичным
образом составляются квоты и по другим
признакам. Целью данного подхода является максимальное повторение в рамках
выборки свойств и особенностей генеральной совокупности. Иногда для упрощения
поиска респондентов, подходящих под критерии отбора, может использоваться метод
«снежного кома». Особенность
«снежного кома» во многом объясняется названием метода и подразумевает поиск
контактов подходящих для опроса людей у респондентов, уже участвовавших в
опросе. Как правило, это выглядит следующим образом: по завершении опроса
интервьюер интересуется у респондента, нет ли среди его друзей и знакомых,
подходящих под параметры исследования, и просит дать контакты подходящих людей.
Данная процедура повторяется до тех пор, пока не будет опрошено необходимое
количество респондентов. Основной минус данного метода отбора респондентов заключается
в предъявлении высоких требований к коммуникативным навыкам интервьюеров,
поскольку контакты родственников и друзей являются персональными данными, и многие
респонденты отказываются их давать, особенно если интервьюеру не удается
расположить собеседника к себе.
Еще
одним методом отбора для построения неслучайной выборки является метод основного массива, который
подразумевает отбор единиц, имеющих наибольшую удельную значимость, по мнению
исследователя; и если существует возможность, то отбирается абсолютное
большинство единиц из генеральной совокупности. Данный метод может быть
полезен, когда объектом для изучения являются узкая категория людей, специалисты
той или иной отрасли. В случае необходимости проведения опроса, например среди
медработников в регионе, отбирается несколько наиболее крупных медицинских
учреждений как имеющих наибольший вес, и проводится опрос медработников данных
учреждений. Но если количество медучреждений не столь велико, и возможен охват
абсолютного большинства медработников, то проводится опрос более 50%
медицинских работников региона.
Существует
еще несколько вариантов составления выборочной совокупности, некоторые методы являются
комбинированием уже перечисленных, но хотелось бы рассмотреть применение
наиболее оптимальных методов построения выборки на примере населения г.
Ярославля. Золотым стандартом, на наш взгляд, при проведении исследования, где
в качестве генеральной совокупности выступают все жители Ярославля, является
применение квотной выборки. Мы используем при расчете квот трехмерное распределение,
а именно распределение по половому признаку, возрасту и району проживания, что
позволяет в рамках выборочной совокупности повторить пропорции генеральной
совокупности по указанным признакам. Такой подход позволяет учесть мнение всех
категорий жителей Ярославля: мужчин и женщин, молодежи, работающего населения,
пенсионеров, жителей всех районов города. При этом сохраняется удельная
значимость каждой из указанных категорий так же, как в генеральной
совокупности. Как это выглядит? Например,
если в Ярославле в Дзержинском районе проживает гораздо больше жителей города,
чем в Кировском районе города, то мнение жителей Дзержинского района имеют
гораздо большее влияние на формирование мнения всего населения города, чем мнение
жителей Кировского района. Наша задача состоит в том, чтобы сохранить подобную пропорциональность
генеральной совокупности в рамках выборки. Если говорить о конкретных цифрах,
то для репрезентативных результатов мнения жителей города с населением более
чем 600 тыс. при использовании квотной выборки и соблюдением ошибки не более 5%
достаточно опросить 400 человек. В случае, когда проблема исследования носит
более дифференцированный характер, и предполагается, что данная проблема может
затрагивать различные категории жителей по-разному, целесообразно расширить объем
выборки до 500-600 человек.
В
случае, когда проблема исследования носит общий или даже глобальный характер, и
предполагается, что дифференциация по полу и возрасту, району проживания вряд
ли может серьезно оказывать влияние на мнение респондента, может использоваться
метод стихийной выборки. Метод
стихийного отбора позволяет существенно сократить время и ресурсы на проведение
исследования, однако в таком случае рекомендуется расширить объем выборки до
600, а в некоторых случаях до 750 или даже 1000 человек, чтобы минимизировать вероятность
потери какой-либо категории респондентов в процессе проведения опроса.
Использование
случайных методов формирования выборки для проведения опроса среди населения
достаточно крупного города выглядит нерационально и порой даже нереалистично. Ведь
жители Ярославля в качестве генеральной совокупности есть величина непостоянная, поскольку ежедневно
жители города как приезжают, так и покидают город, и в таких условия обеспечить
принцип равного шанса попадания в выборку для всех жителей Ярославля
проблематично. Использование механического отбора требует полного списка всех
жителей Ярославля с контактными данными, получение которого не представляется
возможным в силу федерального закона «О персональных данных», а также выглядит
нецелесообразным ввиду высокой трудоемкости процесса и больших временных затрат
на построение выборки.
Подводя
итог, хочется сказать о том, что грамотно составленная выборка на сегодняшний
день — это ключ к оперативному получению достоверной и актуальной информации,
которая поможет в принятии правильных управленческих решений. Главное достоинство
использования выборки — это, конечно же, экономия времени и трудовых ресурсов.
Получаемая информация с течением времени
и в зависимости от происходящих процессов в обществе может быстро терять
актуальность и уже не отражать полной картины социальной реальности, что в свою
очередь может повлечь принятие ошибочных решений. Отсюда можно сделать вывод о
том, что исследование, задачей которого является получение объективной
информации о текущем положении дел, проведенное в кротчайшие сроки с
использованием грамотно составленной выборки, даст более актуальную информацию
и объективную картину, чем исследование с большим охватом опроса в 6, 10, 15 и более тысяч человек. Исследование с
бОльшим охватом респондентов требует бОльшего времени для проведения опроса, за
этот период положение дел может значительно измениться, и ответы, полученные в
начале исследования, могут к его окончанию стать устаревшими и неактуальными; как
итог — будет потерян весь смысл такого исследования.
Желаете получить достоверную,
актуальную и надежную информацию по вашей проблеме в результате проведения
социологического исследования? Специалисты МАУ ИРСИ помогут вам в этом!
Контрольная работа
Социология
Тема: «Выборка в социологическом исследовании»
Содержание
Введение
1. Выборочный метод в социологических исследованиях
1.1 Зачем нужна выборка
1.2 Основные понятия и типы выборочного метода. Репрезентативность
2. Планирование и проведение выборки
2.1 План выборочного наблюдения
2.2 Проведение выборочного наблюдения
Заключение
Список использованных источников
Введение
Задача построения выборки возникает всякий раз, когда необходимо собрать информацию о некоторой группе или большой совокупности людей. Практически ни одно исследование, даже при самых идеальных условиях (безбрежный финансовый бюджет, согласие заказчика с длительными сроками его проведения, относительная простота цели и задач), не опирается на стопроцентное изучение генеральной совокупности. И подавляющее большинство исследований представляет собой стратегии ex ungue leonem («по когтю льва») – аналитические выводы о социальном целом, основанные на изучении только лишь части целого.
1. Выборочный метод в социологических исследованиях
Большинство социологических исследований носит не сплошной, а выборочный характер: по строгим правилам отбирается определенное количество людей, отражающих по социально-демографическим признакам структуру изучаемого объекта. Такое исследование именуется выборочным.
Выборочное обследование представляет собой способ систематического сбора данных о поведении и установках людей посредством опроса специально подобранной группы респондентов, дающих информацию о себе и своем мнении. Оно является более экономичным и не менее надежным методом, чем сплошное исследование, хотя требует более изощренной методики и техники.
1.1 Зачем нужна выборка
Причина заинтересованности в выборках связана с тем, что выборочная процедура представляет собой удобную и экономичную форму индуктивного вывода, т.е. рассуждения по схеме «от частных наблюдений – к общей эмпирической закономерности». Также эта процедура реализует фундаментальный принцип рандомизации, т.е. случайного отбора (от англ. random — случайный, выбранный наугад).
Правильная выборка – залог успеха и необходимая предпосылка любого опроса, если это не общенациональная перепись населения. Если социолог неправильно составил выборочную совокупность, т.е. группу людей, которую собирается опросить, результаты исследования окажутся неверными, а потому и никому не нужными. Ярким примером служит ошибка в 1936 году известного американского журнала «The Literary Digest»: с большим перевесом голосов (60:40) победа была предсказана кандидату от республиканской партии А. Ландону. Однако когда выборы состоялись, он потерпел сокрушительное поражение – проиграл Франклину Д. Рузвельту практически с тем же результатом, с которым должен был победить. Доверие читателей к «The Literary Digest» было серьезно подорвано, вскоре журнал перестал выходить. Такой оказалась цена методической ошибки, произошедшей при использовании смещенной выборки: почтовые открытки рассылались людям, чьи имена были извлечены из двух источников: телефонных справочников и списков регистрации автомобилей. И хотя прежде этот метод отбора не слишком отличался от других методов, совсем по-другому обстояло дело теперь, после Великой депрессии в 1936 г., когда менее состоятельные избиратели, наиболее вероятная опора Рузвельта, не могли позволить себе иметь телефон, не говоря уж об автомобиле. Таким образом, выборка, использовавшаяся в опросе, организованном «Дайджест», была смещена в сторону тех, кто, скорее всего, должен был выступать за республиканцев, и при этом еще удивительно, что у Рузвельта оказался такой хороший результат.
1.2 Основные понятия и типы выборочного метода. Репрезентативность
При построении социологической выборки используется множество специальных терминов, в том числе два важнейших – генеральная и выборочная совокупности.
Совокупность, из которой отбираются варианты для совместного изучения, называется генеральной, а отобранная из генеральной совокупности часть ее членов носит название выборки, или выборочной совокупности.
Выборкой называется совокупность элементов объекта социологического исследования, подлежащая непосредственному изучению. Выборка как способ или процесс действия – это отбор объектов генеральной совокупности в выборочную. Выборка должна наилучшим образом репрезентировать объект исследования (генеральную совокупность).
Генеральная совокупность- это множество элементов, которые являются объектом данного исследования. Так, если объектом изучения выступает трудоспособное население страны, то генеральная совокупность представляет собой всех женщин в возрасте 16-54 лет и мужчин в возрасте 16-59 лет. Примерами генеральных совокупностей являются также все жители Москвы (10,6 млн. человек по данным переписи 2002 года), мужчины-москвичи (4,9 млн. человек по данным переписи 2002 года) и т.д.
Выборочная совокупность- уменьшенная модель генеральной совокупности. Иначе говоря, это множество людей, которых социолог опрашивает. В выборку, или выборочную совокупность, входят только те, кого социолог намеревается непосредственно опросить. Так, например, предметом его исследования выступает экономическая активность пенсионеров. Все пенсионеры – пожилые люди в возрасте старше 55 (женщины) и 60 (мужчины) лет – будут составлять генеральную совокупность. По специальным формулам социолог рассчитал, что ему достаточно опросить 2,5 тыс. пенсионеров. Это и станет его выборочной совокупностью Социология.
Репрезентативная выборка- это такая выборка, в которой все основные признаки генеральной совокупности, из которой извлечена данная выборка, представлены приблизительно в той же пропорции или с той же частотой, с которой данный признак выступает в этой генеральной совокупности. Таким образом, если 50% всех законодательных органов штатов собираются лишь раз в два года, приблизительно половина состава репрезентативной выборки законодательных органов штатов должна быть такого типа. Если 30% избирателей Пенсильвании принадлежат к “синим воротничкам”, около 30% репрезентативной выборки для этих избирателей (а не 100%, как в приведенном выше примере) должны быть из числа “синих воротничков”. И если 2% всех студентов колледжей являются спортсменами, приблизительно та же самая часть репрезентативной выборки студентов колледжей должна приходиться на спортсменов. Иными словами, репрезентативная выборка представляет собой микрокосм, меньшую по размеру, но точную модель генеральной совокупности, которую она должна отражать.
Репрезентативность обеспечивается двумя классами достаточно строго формализованных процедур: 1) дизайном выборки (стратегией и процедурами ее формирования), который определяется характеристиками генеральной совокупности и целями исследования; 2) расчетом ее минимального объема, который при выбранном дизайне способен обеспечить приемлемую точность результатов.
Как только социолог определился с тем, кого он хочет опросить, он определил основу выборки. После чего решается вопрос о типе выборки.
Типами выборки называются основные разновидности статистической выборки: случайная (вероятностная) и неслучайная (невероятностная). Вместо термина «тип выборки» часто употребляют слова «вид» и «разновидность», что также правильно. Тип выборки говорит о том, как люди попадают в выборочную совокупность, объем выборки сообщает о том, какое их количество туда попало.
Метод выборки – способ построения того типа выборки, название которого этот метод носит, например метод вероятностной выборки. В социологии методом называют основной способ сбора, обработки или анализа данных; правила и процедуры, с помощью которых устанавливается связь между фактами, гипотезами и теориями.
Вероятностные выборки
Случайная (вероятностная) выборка- это выборка, для которой каждый элемент генеральной совокупности имеет определенную, заранее заданную вероятность быть отобранным. Это позволяет исследователю рассчитать, насколько правильно выборка отражает генеральную совокупность, из которой она выделена (спроектирована). Такую выборку иногда называют еще случайной. С помощью случайной выборки строится подавляющее большинство телефонных опросов и опросов на основе избирательных списков. Для построения такой выборки необходимо иметь полный список всех элементов генеральной совокупности.
Вероятностные методы включают:
1) Случайная выборка (простой случайный отбор)
Такая выборка предполагает однородность генеральной совокупности, одинаковую вероятность доступности всех элементов, наличие полного списка всех элементов. При отборе элементов, как правило, используется таблица случайных чисел.
2) Механическая (систематическая) выборка – разновидность случайной выборки, упорядоченная по какому-либо признаку (алфавитный порядок, номер телефона, дата рождения и т.д.). Первый элемент отбирается случайно, затем, с шагом `n’ отбирается каждый `k’-ый элемент. Размер генеральной совокупности, при этом – N=n*k
3) Стратифицированная (районированная) применяется в случае неоднородности генеральной совокупности. Генеральная совокупность разбивается на группы (страты). В каждой страте отбор осуществляется случайным или механическим образом.
4) Серийная (гнездовая или кластерная) выборка
При серийной выборке единицами отбора выступают не сами объекты, а группы (кластеры или гнёзда). Группы отбираются случайным образом. Объекты внутри групп обследуются сплошняком.
Невероятностные выборки
Отбор в такой выборке осуществляется не по принципам случайности, а по субъективным критериям – доступности, типичности, равного представительства и т.д.
1) Квотная выборка
Изначально выделяется некоторое количество групп объектов (например, мужчины в возрасте 20-30 лет, 31-45 лет и 46-60 лет; лица с доходом до 30 тысяч рублей, с доходом от 30 до 60 тысяч рублей и с доходом свыше 60 тысяч рублей). Для каждой группы задается количество объектов, которые должны быть обследованы. Количество объектов, которые должны попасть в каждую из групп, задается, чаще всего, либо пропорционально заранее известной доле группы в генеральной совокупности, либо одинаковым для каждой группы. Внутри групп объекты отбираются произвольно. Квотные выборки используются в маркетинговых исследованиях достаточно часто.
2) Метод снежного кома
Выборка строится следующим образом: у каждого респондента, начиная с первого, просятся контакты его друзей, коллег, знакомых, которые подходили бы под условия отбора и могли бы принять участие в исследовании. Таким образом, за исключением первого шага, выборка формируется с участием самих объектов исследования. Метод часто применяется, когда необходимо найти и опросить труднодоступные группы респондентов (например, респондентов, имеющих высокий доход, респондентов, принадлежащих к одной профессиональной группе, респондентов, имеющих какие-либо схожие хобби/увлечения и т.д.).
3) Стихийная выборка
Опрашиваются наиболее доступные респонденты. Типичные примеры стихийных выборок – опросы в газетах/журналах, анкеты, отданные респондентам на самозаполнение, большинство интернет-опросов. Размер и состав стихийных выборок заранее не известен, и определяется только одним параметром – активностью респондентов.
4) Выборка типичных случаев
Отбираются единицы генеральной совокупности, обладающие средним (типичным) значением признака. При этом возникает проблема выбора признака и определения его типичного значения.
Таким образом, выборочный метод имеет очевидные преимущества перед сплошным изучением генеральной совокупности, так как сокращает объем работы (за счет уменьшения числа наблюдений), позволяет экономить силы и средства, получать информацию о таких совокупностях, полное обследование которых практически невозможно или нецелесообразно. Но происходит все это только в том случае, если соблюдаются научные правила выборочного исследования. Лишь равенство шансов попадания в выборку для каждого наблюдения, т.е. отбор «наугад», гарантирует от намеренных или ненамеренных искажений.
Показано, что в той степени, в какой выборка является репрезентативной, выводы, основанные на изучении этой выборки, можно без всяких опасений считать применимыми к исходной совокупности.
При сравнении типов выборки можно сказать, что по содержательным критериям невероятностная выборка не хуже вероятностной, а может быть, и лучше. Ее недостатки: невозможность установить степень репрезентативности и более высокая стоимость (с точки зрения затрат она обычно превосходит вероятностную на несколько порядков). Но есть и преимущества – более глубокое, качественное и всестороннее раскрытие предмета по сравнению с вероятностной.
2. Планирование и проведение выборки
Составление выборки – процесс выбора единиц (людей, организаций и т.п.) из интересующей социолога генеральной совокупности с таким условием, чтобы, проведя свое исследование, ученый мог обобщить полученные результаты снова на всю генеральную совокупность, из которой осуществлялась выборка.
2.1 План выборочного наблюдения
Процесс составления плана выборочного наблюдения состоит из четырёх этапов.
1. Определение изучаемой совокупности
Составление плана выборочного наблюдения начинается с определения изучаемой совокупности, т. е. совокупности элементов или объектов, обладающих информацией, которую желает получить исследователь, и о которой нужно сделать заключение. Изучаемая совокупность должна быть точно определена иначе исследование будет в лучшем случае не эффективно, а в худшем – послужит основой для неправильных выводов.
2. Определение основы выборочного метода
Основа выборочного наблюдения представляет собой элементы, из которых состоит изучаемая совокупность. Обычно это перечень инструкций или список элементов для определения изучаемой совокупности. Примерами основы выборочного наблюдения могут служить телефонные справочники, справочники ассоциаций, содержащие перечень компаний, занятых в данной отрасли.
Зачастую можно составить перечень элементов совокупности, допустив ошибки, выявить и устранить которые возможно, по меньшей мере, тремя способами: 1) пересмотр основы выборки. Если в этом качестве использовался телефонный справочник, совокупность семей можно пересмотреть после проверки достоверности информации, приведенной в телефонном справочнике данного района; 2) устранение ошибки основы выборки после тщательного отбора респондентов на этапе сбора данных с целью исключения неподходящих элементов; 3) откорректировать собранные данные с помощью системы весовых коэффициентов.
3. Определение метода проведения отбора элементов связан с принятием некоторых сопутствующих решений. Исследователь должен сделать выбор между байесовым и традиционным подходом к отбору, повторной и бесповторной выборкой, а также вероятностным и детерминированным выборочным методом.
Баейсов подход – метод отбора элементов, в соответствии с которым элементы выбираются последовательно; собирается детальная информация о параметрах совокупности, полученная в результате предыдущих исследований, а также о затратах и возможных последствиях, связанных с принятием неправильных решений.
При повторной выборке исследователь выбирает элемент из основы выборки и получает необходимую информацию. Затем элемент возвращают в основу выборки; элемент можно неоднократно включать в выборку. При бесповторной выборке элемент генеральной совокупности, выбранные для включения в выборку, удаляется из основы выборки и, следовательно, не может использоваться вновь.
4. Определение объема выборки
Объем выборки – количество элементов совокупности, которые нужно изучить.
Объем выборки определяется четырьмя факторами. Первый – число групп и подгрупп, анализ которых следует провести. Второй – ценность информации, которую должно предоставить исследование, и требуемая точность результатов. Третий фактор – стоимость выборки: следует провести анализ затрат и выгод. Если стоимость выборки низка, оправдано формирование большей по объему выборки. Четвертый фактор – разброс значений совокупности. Если все члены совокупности придерживаются единого мнения, вполне достаточно выборки из одного человека. По мере возрастания разброса мнения должен увеличиваться и объем выборки.
Для расчета объема выборки можно использовать следующую формулу:
n = (0.25t?N)/(A?N+0.25t?),
где – объем выборки
N – объем ГС
А – предельная ошибка выборки
t? – число, определяемое по специальной таблице, учитывающей доверительный интервал и предельную ошибку.
2.2 Проведение выборочного наблюдения
Для успешного проведения выборочного наблюдения необходимо досконально определить его план с точки зрения совокупности, инструментария, единиц, метода осуществления и объема выборки. Если единицами выборки являются семьи (домохозяйства), необходимо сформулировать рабочее понятие семьи. Следует описать процедуры для случаев, когда в квартире никто не живет, и в случае повторных звонков респондентам, которых не было дома. Каждое решение, предусмотренное планом выборочного наблюдения, должно подкрепляться соответствующей детальной информацией.
Пример: выборочное наблюдение для Министерства туризма
Цель телефонного опроса, проводимого для Министерства туризма штата Флорида, – это изучение поведения жителей штата, находящихся в туристических поездках. Семьи стратифицировали по месту по месту проживания на северный, центральный и южный район Флориды. Для отбора этих семей использовали случайный компьютерный набор телефонных номеров. Из каждой семьи выбирались кандидаты, соответствующие четырем критериям: 1) возраст 25 лет или старше; 2) проживает во Флориде как минимум 7 месяцев в году; 3) прожил во Флориде, по меньшей мере, два года; 4) получал водительские права во Флориде.
Для отбора одного респондента из каждой семьи воспользовались методом случайных чисел, чтобы получить представительную выборку из индивидуумов, отвечающих заданным критериям. Перечислены все члены семьи, соответствующие четырем критериям, из них выбран тот, кто следующим отпразднует свой день рождение. Для установления контакта с этим человеком потребовался ряд повторных звонков. Определены следующие этапы формирования плана выборочного наблюдения:
1. Изучаемая совокупность: совершеннолетие, отвечающее четырем критериям (элемент совокупности) в семье с работающим телефоном (единица выборки) в штате Флорида (территория) в период проведения опроса (время).
2. Основа выборки: компьютерная программа, случайным образом генерирующая номера телефонов.
3. Единица выборки: номера работающих телефонов.
4. Метод проведения выборочного наблюдения: стратифицированная выборка. Изучаемую совокупность распределили по географическому признаку на три района Флориды: северный, центральный и южный.
5. Объем выборки: 868.
6. Осуществление: поделить выборку на слои; воспользоваться компьютером для произвольного набора телефонных номеров; перечислить всех членов семьи, соответствующих четырем критериям; выбрать одного члена семьи методом следующего дня рождения.
Составление выборки – сложная процедура, включающая множество действий и этапов, на каждом из которых социолог может допустить ошибку. Ранняя ошибка порождает последующие, нарастает снежный ком искаженной информации, который способен парализовать исследование или свести его ценность к нулю. Именно поэтому важным является умение преодолевать все эти трудности, неожиданности и неприятности.
Заключение
Можно сделать вывод, что правильно произведенная выборка довольно хорошо представляет или репрезентирует структуру и состояние генеральной совокупности. Однако полного совпадения выборочных данных с данными обработки генеральной совокупности, как правило, не бывает. В этом и заключается недостаток выборочного метода, на фоне которого видны преимущества сплошного описания генеральной совокупности. Ввиду неполного отображения выборкой статистических характеристик генеральной совокупности перед исследователем возникает важная задача: во-первых, учитывать и соблюдать те условия, при которых выборка наилучшим образом репрезентирует генеральную совокупность, а во-вторых, в каждом конкретном случае устанавливать, с какой уверенностью можно перенести результаты выборочного наблюдения на всю генеральную совокупность, из которой выборка взята.
Выявлено, что типами выборки называются основные разновидности статистической выборки: случайная (вероятностная) и неслучайная (невероятностная). Лишь равенство шансов попадания в выборку для каждого наблюдения, т.е. отбор «наугад», гарантирует от намеренных или ненамеренных искажений. Поэтому наилучшей моделью отбора считается вероятностная выборка, в которой строго соблюдается принцип равенства шансов попадания в выборку и для всех единиц изучаемой совокупности, и для любых последовательностей таких единиц.
Показаны этапы планирования и проведения выборки, их сложность и правильная реализация.
выборка респондент статистический
Список использованных источников
1. Добреньков В.И., Кравченко А.И. Методы социологического исследования: Учебник. – М.: ИНФРА-М, 2004. – С. 84-85.
2. Социология. Основы общей теории: Учебник для вузов/ Отв. ред. академик РАН Г. В. Осипов, действительный член РАЕН Л.Н. Москвичев. – М.: Норма, 2003. – С. 735-736.
3. Мангейм Дж.Б., Рич Р.К. Политология: Методы исследования. – М.: Изд-во «Весь мир», 1997. – С. 154-156.
4. Количественные маркетинговые исследования, 2009. URL: http://www.fdfgroup.ru/?id=189
5. Малхорта, Нэреш К. Маркетинговые исследования. Практическое руководство, 3-е издание: Пер. с англ. – М.: Издательский дом «Вильяме», 2002. – С. 412-417.
Автор: Игopь Cтанислaвович Бepeзин, консультант по маркетинговым стратегиям, президент Гильдии мapкетoлoгов (г. Моcква).
Опрос и анкетирование являются ведущими, универсальными методами проведения социологических и маркетинговых исследований. Чаше всего, когда говорят о маркетинговом исследовании — сборе первичной информации, имеют в виду именно опрос или анкетирование, предполагающие прямое выяснение, непредвзятого мнения достаточно многочисленной группы респондентов.
Массовым считается опрос, в ходе которого путем личной беседы сотрудника исследовательской компании — интервьюера с носителями информации (респондентами), состоящей из нескольких десятков коротких вопросов, изучаются мнения нескольких сотен (тысяч) человек. Под анкетированием понимают безличную форму общения исследователей с носителями информации, при которой респонденты самостоятельно отвечают на вопросы анкеты, следуя содержащейся в ней инструкции и не вступая в непосредственный контакт с интервьюерами.
Конечной целью анкетирования и массового опроса является получение данных, характеризующих так называемую генеральную совокупность. Генеральная совокупность — это все представители какой-либо группы, носители какого-либо важного признака, например:
- все российские избиратели;
- все потенциальные потребители пива, проживающие в Перми;
- все подростки (12-16 лет) Поволжского региона;
- все учителя физики и химии, работающие в средних школах;
- все домохозяйства, имеющие доход от 500 до 1 500 долл. в месяц;
- все компании, занимающиеся розничной торговлей в Самаре и т. д.
Чтобы опросить десятки или сотни тысяч, а тем более — миллионы человек (компаний), из которых может состоять генеральная совокупность, нужны сотни или даже тысячи интервьюеров. На проведение подобного исследования могут понадобиться десятки, если не сотни миллионов долларов и не менее полугода напряженной работы. Такое возможно только при переписи населения (проводящейся не чаще одного раза в 10 лет).
Однако в маркетинге этого и не требуется. Достаточно того, чтобы относительно небольшая выборка (от нескольких сотен до нескольких тысяч представителей) репрезентировала (выразила) мнение генеральной совокупности. Как такое возможно? На каком основании можно распространять данные, полученные от небольшой группы людей, на существенно (в десятки и сотни раз) большую группу? На основании гипотезы о том, что на поведение, знания, отношение потребителей к компании, товару, услуге или отдельных их компонентов оказывают влияние социально-демографические характеристики самих потребителей.
Иными словами, большинство представителей четко определенной социально-демографический группы будут сходным образом реагировать на внешние, в данном случае — рыночные стимулы: товар, цену, упаковку, рекламу и т. д. Нет никакой необходимости опрашивать всех представителей этой группы, поскольку ее мнение (с допустимой погрешностью) может представить (репрезентировать) небольшая выборка из ее представителей.
Способы построения выборки
Существуют две группы методов построения выборки, в той или иной степени реализующих репрезентацию мнений и позиций генеральной совокупности: вероятностные и детерминированные.
Первая группа методов (вероятностные) базируется на использовании теории вероятности. В основе ее применения лежит постулат, что репрезентация будет достигнута в случае, если каждой единице генеральной совокупности обеспечено равновероятное попадание в выборку. Например, если генеральной совокупностью является все взрослое (16-85 лет) население города (200 тыс. человек), то каждому жителю должна быть обеспечена вероятность стать участником исследования(попасть в выборку), равная 1 / 200 000. В противном случае выборка будет не случайной, а смещенной, т. е. менее репрезентативной.
Реализовать это можно в случае, если все элементы генеральной совокупности могут быть тем или иным образом пронумерованы, а затем эти номера будут выбраны в определенной последовательности — «по воле случая». Например, в Москве около 2 500 средних школ, каждая из которых имеет свой номер. Мы могли бы выбрать наугад 100 номеров и провести опрос 100 директоров (завучей, учителей физики, классных руководителей 11-х классов и т. п.) в этих школах.
Эти 100 номеров мы можем выбрать с помощью таблицы или «генератора случайных чисел» (есть такая специальная компьютерная программа), а также с помощью «барабана» но принципу того, как это делается при проведении лотереи. Такие способы построения выборки называются «простой случайной выборкой». Каждый ее элемент отбирается независимо и имеет равную вероятность попасть в выборку.
Мы могли бы выбрать наугад любое число от 1 до 25, например — 12, а затем взять в выборку школы с номерами: 12, 37, 62, 87, 112, 137 и т. д. Такой метод построения называемся «систематической выборкой», первый элемент которой выбирается произвольно, а затем выбирают каждый i-й элемент.
Мы также могли бы сначала разделить эти школы на несколько страт (возможно, и пересекающихся), например, на школы физико-математические, спортивные, лингвистические и гуманитарные, а затем произвести случайную или систематическую выборку (по 20-30 школ) из каждой страты. Такой метод построения называется «стратифицированной выборкой».
Разновидностью стратифицированной выборки является «маршрутная выборка», суть реализации которой состоит в следующем. Город делится на 20-40 «секторов» по числу интервьюеров, задействованных и исследовании. Каждый интервьюер получает один сектор, маршрут обследования «своего» сектора и инструкцию по реализации простой случайной выборки. Например такую: «Начать обход с улицы Баумана, с дома № 2, третьего подъезда, второго этажа сверху, первой квартиры слева. Затем — дом № 4, второй подъезд, третий этаж, вторая квартира справа… Потом — переулок Комсомольский, нечетная сторона… Потом — тупик Коммунизма… и т. д.»
Наконец, мы могли бы разделить генеральную совокупность на непересекающиеся кластеры, к примеру, по муниципальным районам (их в Москве 125, и в каждом в среднем по 20 школ). Затем случайным образом выбрать пять районов и произвести обследование всех школ данного муниципального района. Такой метод построения называется «кластерной выборкой».
Тем не менее у вероятностных методов построения выборки есть один весьма существенный недостаток. Каждый из них исходит из предположения о том, что все элементы генеральной совокупности являются равнодоступными: и в «техническом» смысле (у всех есть телефон для телефонного опроса или доступ в Интернет), и в «психологическом», т. е. все респонденты с примерно равной вероятностью согласятся или откажутся принимать участие в исследовании. Однако это не так.
Граждане с относительно высокими доходами менее доступны для исследователей, чем те, чьи доходы невысоки. И нет никакой силы, которая могла бы заставить этих люден отвечать им вопросы социологов или маркетологов. Поэтому все выборки всегда смещены в сторону средне- и малообеспеченных групп населения. Во всех без исключения странах мира.
Менее образованные граждане идут на контакт с социологами менее охотно, чем лица с высшим образованием. Поэтому в большинстве выборок доля хорошо образованных граждан как правило существенно выше, чем в генеральной совокупности.
Никто из сотрудников исследовательских компаний не желает общаться с бомжами, алкоголиками, наркоманами, психо- и социопатами и прочими маргиналами. У руководителя исследования нет решительно никаких возможностей заставить своих сотрудников делать это. А между прочим, к этим группам в России по взвешенным оценкам относится от 12 до 15% жителей. Следовательно, любая выборка смещена в сторону «вменяемых» граждан.
Некоторые граждане боятся отвечать на вопросы, даже самые невинные. Таких людей немного, но они есть. А вот способов заставить их участвовать в опросе нет.
Наконец, есть люди, которые просто не желают участвовать в исследовании. У них есть время, они ничего не боятся, они все понимают, но на вопросы отвечать отказываются. И точка.
Таким образом, все выборки в маркетинге и социологии являются смещенными в сторону средне- и малообеспеченных, более образованных, контактных и вменяемых граждан. Они и репрезентируют общее мнение генеральной совокупности. Все исследователи рынка прекрасно это знают.
Преодолеть наложенные выше проблемы можно с помощью метода «квот», относящегося к детерминированным методам, при котором априори обеспечивается пропорциональное представительство носителей существенных признаков (пол, возраст, доход, образование и т. п.) генеральной совокупности в выборке.
Это наиболее эффективный, на наш взгляд, метод проведения массовых опросов. При его использовании существенно облегчается задача поиска корреляционных связей, сравнения различных типов (групп) потребителей между собой и экстраполяции выявленных закономерностей на генеральную совокупность.
Единственная, но весьма существенная трудность при реализации него метода состоит в том, что не всегда доподлинно известно распределение всех важных параметров в самой генеральной совокупности. В этом случае исследователь или консультант исследовательского проекта должен взять на себя смелость распределить квоты по своему усмотрению, в соответствии со своим видением, пониманием рынка.
Задача достижения строгой репрезентативности не всегда является важной. Иногда целесообразно воспользоваться существенно более простыми в реализации детерминированными методами:
- нерепрезентативным, или произвольным, когда опрашивают того, кто «попался под руку» интервьюеру и согласился участвовать в опросе. Естественно, этот метод дает крайне ненадежные результаты. А вдруг под руку попадется рота солдат или команда баскетболисток! Однако его использование допустимо в исследованиях, носящих поисковый характер, не требующих большой точности, при проведении «пилотажа» анкеты. «Произвольность» можно компенсировать большим объемом выборки, из которой затем можно будет попробовать отобрать необходимое число «подходящих» анкет и составить уже из них репрезентативную в каких-то отношениях выборку;
- поверхностным — когда отбор осуществляется по самым общим признакам, задаваемым исследователем интервьюерам в виде не очень строгого задания;
- «воронки» — когда сначала отбираются наиболее «контактные», а затем среди них — наиболее «компетентные», подходящие респонденты;
- «концентрации» — на представителях отдельных, сопоставимых сегментов рынка, среди которых проводят «сплошной» опрос. Например, школьный 11 «А» класс может представлять всех старшеклассников школы или даже города как «обычный», «типичный класс»;
- «снежного кома» — когда начальная группа подбирается случайным образом, а дальнейший отбор ведется из кандидатов, указанных первыми респондентами, и т. д.
Достоверность и погрешности измерений
Под «достоверностью», уровнем достоверности понимают показатель вероятности того, что истинное значение изучаемого параметра генеральной совокупности попадет в доверительный интервал. Чем выше задаваемый уровень достоверности, тем больше должна быть выборка. Под доверительным интервалом понимают диапазон, в который попадет истинное значение изучаемого параметра генеральной совокупности при данном уровне достоверности. Чем он меньше, тем больше должна быть выборка.
К примеру, общероссийская городская выборка (14-65 лет) в 1 200 респондентов имеет доверительный интервал 4 процентных пункта при уровне достоверности 0,95. При ее проведении 15% участников опроса заявили, что за последние три месяца были в кинотеатре хотя бы один раз.
Эти данные позволяют нам утверждать с заданным уровнем достоверности, что от 11 до 19% жителей российских городов в возрасте от 14 до 65 лет были в кинотеатре хотя бы один раз за последние три месяца. Иными словами, можно сказать, что все значения между 11 и 19% в данном случае находятся в пределах «допустимой статистической погрешности». Если бы мы хотели задать доверительный интервал в 2 процентных пункта, то выборку (при прочих равных условиях) пришлось бы увеличить примерно в четыре раза.
Со стороны уровня достоверности эти данные означают, что если бы было проведено 100 независимых измерении (опросов) по 1200 респондентов в каждом, то в 95 из них значение доли ответов на вопрос о посещении кинотеатра не вышло бы за пределы доверительного интервала (в этом конкретном случае — 11-19%). А в пяти исследованиях или бы получены значения, выходящие за пределы доверительного интервала. Если бы нас устраивала достоверность на уровне 0,9, то опросить можно было бы 200 человек. Если нам нужна достоверность на уровне 0,99, то пришлось бы опросить более 10 тыс. человек.
Оптимальный размер выборки
Вот одна из формул расчета необходимого объема выборки, используемая при известном среднем отклонении (дисперсии) и заданных уровнях достоверности и точности:
N = (g2 * z2) / d2
где: N — искомый объем выборки; g — дисперсия признака, ожидаемое среднее отклонение получаемых результатов от ожидаемого среднего значения; z — коэффициент уровня достоверности (2 — для 0,95, 3 — для 0,99); d — уровень точности.
Допустим, мы изучаем поведение покупателей в продовольственном магазине, в частности, мы хотим определить среднюю сумму чека. Из бесед с владельцем магазина мы узнаем, что она может быть в районе 500-700 руб., а среднее отклонение (g) может составить 200 руб. В ходе опроса мы хотели бы определить среднее значение с точностью (d) до 20 руб. при уровне достоверности (z) в 0,95. Подставляем значения формулу и получаем:
40000 * 4 / 400 = 400.
То есть нам достаточно опросить 400 покупателей. Если бы мы хотели узнать среднюю сумму чека с точностью до 10 руб.. то нам пришлось бы опросить 1600 покупателей. Если бы при этом мы хотели получить уровень достоверности в 0,99, то количество покупателей, которых необходимо опросить, составило бы 3 500 человек. И наоборот: если нас устроила бы точность ±50 руб., то нам достаточно было бы опросить в заданных условиях всего 65 человек.
Практическое использование этой и других формул, которые здесь не будут приводиться, весьма затруднено следующими обстоятельствами:
- Что делать, если мы не знаем даже приблизительно «ожидаемую среднюю» и среднюю дисперсию признака?
- Что делать, если в анкете у нас 10 вопросов, по которым ожидаются различные средние, с различными средними дисперсиями?
- Как быть в случае использования номинальных шкал?
- Как быть в случае, если один вопрос предполагает два или три варианта ответа и т. д. и т. п.?
- Для простых альтернативных вопросов по принципу «да/нет» используются одни формулы, для более сложных — другие.
- Формулы необходимо корректировать в зависимости от количества столбцов в таблице «факторных распределении», а также в зависимости от распределения ответов (10 на 90 — это одно, а 45 на 55 — совсем другое дело).
- Одни формулы учитывают размер генеральной совокупности, а другие (как приведенная выше) — нет. Есть много иных нюансов.
На практике сначала определяют количество респондентов, которое исследователи предполагают опросить с учетом временных и финансовых ограничений, задают уровень достоверности (обычно — 0,95), а затем уже рассчитывают доверительный интервал.
Определение необходимого и достаточного объема выборки происходит на основе опыта и неформальных «конвенций» исследователей между собой. Считается, и это многократно проверено на практике, что опрос 30-50 представителей конкретной, «узкой» социально-демографической группы населения, например «ярославских замужних женщин в возрасте 30-45 лет, имеющих одного ребенка, высшее образование и совокупный семейный доход в пределах от 1 500 до 3 000 долл. в месяц», можно распространять на всю эту группу, и допустимая ошибка (доверительный интервал) не превысит 4 процентных пунктов при уровне достоверности около 0,95.
Однако полученные данные нельзя распространять, например, на незамужних женщин того же возраста, имеющих такой же доход и уровень образования. А также на женщин, имеющих иной доход, возраст или уровень образования. И уж тем более — на мужчин.
Таким образом, если в задачу исследователя входит получение информации о мнениях, знаниях, поведении или отношении к некой проблеме всех ярославских женщин, и при этом все перечисленные выше социально-демографические факторы являются значимыми, необходимо построить такую выборку, в которой были бы представлены все «узко определенные» группы. В данном случае — две группы по семейному положению, три — по наличию и количеству детей, три возрастные, три доходные, две образовательные. Итого 108 групп, в каждой из которых должно быть не менее 30 представительниц. Всего — более 3 000 респондентов.
На самом деле едва ли найдется вопрос или проблема, на которые все пять факторов будут оказывать взаимное перекрестное воздействие. В большинстве случаев вполне можно было бы обойтись опросом 400-600 респонденток, а затем провести попарный (а не перекрестный) факторный анализ. То есть отдельно исследовать влияние факторов «возраст», «образование», «доход», «семейное положение», «дети». При этом выборка каждый раз разбивалась бы на две-три группы, наполнение которых было бы не меньше 100-150 респондентов.
Репрезентативная выборка, представляющая все население России, должна состоять из 3 600-9 000 человек и 180 групп (два пола, три возраста, два образовательных уровня, три доходные группы, пять типов поселений). Доверительный интервал будет в пределах ±3 процентных пункта. Это означает, что, к примеру, если 30% (12% или 45%) наших респондентов заявили, что регулярно употребляют в пищу майонез, то долю потребителей майонеза в России можно оценить в 27-33% (9-15 или 42-48% соответственно).
Размер выборки практически не зависит от размера генеральной совокупности. И в мегаполисе с населением более миллиона человек, и в уездном городе с населением в 35 тыс. человек для построения выборки, репрезентативной по одинаковому числу параметров, потребуется опросить одинаковое число респондентов.
От чего действительно зависит размер выборки — так это от числа параметров, по которым мы желаем добиться репрезентативности. Если нас устраивает репрезентативность только по полу и возрасту, то выборки в 400 человек в одном населенном пункте будет более чем достаточно. Если параметров три, количество респондентов придется увеличить до 600. Добиться репрезентативности выборки одновременно по пяти параметрам: полу, возрасту, доходу, образованию, сфере профессиональной деятельности — можно лишь на выборке из 1 000 — 1 200 человек в одном населенном пункте.