-
Понятие
о выборочном наблюдении -
Методы,
виды и способы отбора единиц из
генеральной совокупности -
Понятие
ошибки репрезентативности, виды ошибок
репрезентативности -
Определение
необходимой (оптимальной) численности
выборки -
Распространение
результатов выборочного наблюдения
на генеральную совокупность
-
Понятие
о выборочном наблюдении
Выборочным
наблюдением
понимается такое несплошное наблюдение,
при котором статистическому обследованию
подвергаются единицы изучаемой
совокупности, отобранные случайным
способом.
Цель
выборочного наблюдения
состоит
в том, чтобы по характеристикам отобранной
части единиц (выборка) судить о
характеристиках всей совокупности
(генеральная).
Основные
причины,
по
которым во многих случаях выборочному
наблюдению отдается предпочтение
перед
сплошным наблюдением, следующие.
Преимущества
выборочного наблюдения:
-
Достижение
большей точности результатов обследования
благодаря сокращению ошибок регистрации
(за счет работы более квалифицированных
участников) -
Экономия
трудовых и денежных средств и времени
в результате сокращения объема
работы -
Возможность
детального обследования каждой единицы
наблюдения за счет расширения
программы наблюдения -
Сведение
к минимуму уничтожения и приведения в
негодность обследуемых единиц
совокупности -
Уточнение
результатов сплошного наблюдения
Вся
совокупность единиц, из которой
осуществляется отбор, называется
генеральной
совокупностью,
а
единицы, отобранные для непосредственного
наблюдения, представляют собой
выборочную
совокупность,
или
просто выборку.
В
статистике принято строго различать
параметры
и свойства
ген. сов и их оценки по выборочным данным.
С этой целью принята следующая система
обозначений: генеральные параметры
обозначаются греческими буквами,
выборочные показатели, которые
рассматриваются как оценки генеральных
параметров — латинскими буквами:
|
Показатели |
Генеральные параметры |
Выборочные показатели |
|
Объем |
N |
n |
|
Среднее |
|
|
|
Доля |
p=M/N M |
w=m/n m |
|
Доля |
q |
1-w |
|
Дисперсия |
|
|
|
Дисперсия |
|
|
В
связи с вышесказанным можно выделить
следующие задачи
выборочного
наблюдения:
-
определение
границ генеральной совокупности; -
разработка
программы наблюдения и инструкций; -
определение
основы для проведения выборки – списка
единиц генеральной совокупности,
сведений об их размещении и т.д.; -
установление
допустимого размера погрешности и
определение объема выборки; -
определение
вида выборочного наблюдения; -
установление
сроков проведения наблюдения; -
определение
потребности в кадрах для проведения
выборочного наблюдения и их подготовка; -
оценка
точности и достоверности данных выборки,
определение порядка их распространения
на генеральную совокупность.
Основные
этапы выборочного наблюдения:
-
определение
цели, задач и составление программы
наблюдения; -
анализ
информационных источников, используемых
для выделения генеральной совокупности
объектов наблюдения (основы выборки); -
формирование
генеральной совокупности для проведения
выборочного обследования; -
разработка
методологии формирования выборочной
совокупности, включающей выбор
способа отбора, определение необходимого
объема выборки, этапов отбора единиц
из генеральной совокупности,
планирование и проведение пробной
выборки; -
формирование
выборки; -
сбор
данных на основе разработанной программы; -
анализ
полученных результатов и расчет основных
характеристик выборочной совокупности; -
расчет
ошибок выборки и распространение ее
результатов на генеральную совокупность.
-
Методы,
виды и способы отбора единиц из
генеральной совокупности
В
теории выборочного наблюдения разработаны
различные методы, способы и виды отбора
единиц из генеральной совокупности.
Методы
отбора
-
Повторный
— каждая единица, отобранная в случайном
порядке, после обследования возвращается
в генеральную совокупность и в последующем
отборе может снова попасть в выборку.
При таком отборе вероятность попасть
в выборку для каждой единицы генеральной
совокупности не меняется независимо
от числа отобранных единиц -
Бесповторный
— каждая единица, отобранная и случайном
порядке, после обследования в
генеральную совокупность не
возвращается. Вероятность попасть в
выборку для каждой единицы генеральной
совокупности увеличивается по мере
производства отбора
Так
как бесповторный отбор охватывает все
новые и новые совокупности, а повторный
отбор на всем протяжении одну и ту же
совокупность, бесповторный отбор дает
более точные результаты, чем повторный.
Виды
отбора:
-
Индивидуальный-
в выборочную совокупность отбирают
отдельные единицы генеральной
совокупности. -
Групповой
— в выборочную совокупность отбираются
качественно однородные группы
или серии изучаемых единиц -
Комбинированный
— (происходит сочетание первого и второго
видов отбора.
По
способу отбора (способу формирования)
выборки единиц из генеральной совокупности
распространены следующие виды выборочного
наблюдения:
-
простая
случайная выборка (собственно-случайная); -
типическая
(стратифицированная); -
серийная
(гнездовая); -
механическая;
-
комбинированная;
Простая
случайная выборка
(собственно-случайная) есть отбор единиц
из генеральной совокупности путем
случайного отбора, но при условии
вероятности выбора любой единицы из
генеральной совокупности. Отбор
проводится методом жеребьевки или по
таблице случайных чисел.
Типическая
(стратифицированная) выборка предполагает
разделение неоднородной генеральной
совокупности на типологические или
районированные группы по какому-либо
существенному признаку, после чего из
каждой группы производится случайный
отбор единиц.
Для
серийной
(гнездовой)
выборки характерно то, что генеральная
совокупность первоначально разбивается
на определенные равновеликие или
неравновеликие серии (единицы внутри
серий связаны по определенному признаку),
из которых путем случайного отбора
отбираются серии и затем внутри отобранных
серий проводится сплошное наблюдение.
Механическая
выборка
представляет собой отбор единиц через
равные промежутки (по алфавиту, через
временные промежутки, по пространственному
способу и т.д.). При проведении механического
отбора генеральная совокупность
разбивается на равные по численности
группы, из которых затем отбирается по
одной единице.
Комбинированная
выборка основана на сочетании нескольких
способов выборки.
Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
О размере выборки и статистической ошибке измерений подробно написано в статье «Выборка. Размер – не главное. Или главное» . В этой статье будет рассмотрено второе требование к выборке, также обеспечивающее качество исследования – репрезентативность.
Согласно теории выборочного метода, неоднократно подтвержденной практикой, опрашивать всех нет необходимости, а можно опросить лишь часть группы, которая может быть в тысячи раз меньше. Эта маленькая часть называется выборкой (или выборочной совокупностью), а большая группа, которую она представляет, называется генеральной совокупностью.
При этом если выборка сформирована правильно, выводы, полученные на основе изучения выборки, могут быть перенесены и на генеральную совокупность. Например, если в выборке женщины значимо чаще, чем мужчины, пользуются дезодорантами, то делается вывод, что и в генеральной совокупности (например, в исследованном городе) присутствует такая закономерность. Процесс переноса выводов с выборки на генеральную совокупность называется генерализацией. А свойство выборки отражать характеристики генеральной совокупности называется репрезентативностью. Для более комфортного запоминания термина на рис.1. приведены иллюстрации, когда выборка отражает свойства генеральной совокупности и когда свойства выборки отличаются от свойств генеральной совокупности.


Рис.1. Иллюстративные примеры соответствия (несоответствия) свойств генеральной совокупности и выборки
Не стоит путать понятие репрезентативности с такими понятиями как валидность и релевантность, хотя они тоже относятся к характеристикам качества исследования. В социальных науках валидность понимается довольно широко, но чаще всего – как обоснованность. Понятие валидности относится не к выборке, а к исследовательской методике. Методика или измерение (анкета, блок вопросов, тест) считается валидным, если фиксирует именно то понятие или свойство, которое планируется измерить. Например, если мы захотим оценить уровень лояльности клиента к магазину и выберем для этого лишь показатель частоты посещения магазина, валидность этого подхода будет неполной: возможно, респондент часто заходит в магазин только из-за банкомата, который там установлен. Валидная методика в данном примере должна включать и другие показатели: предпочтение магазина, суммы покупок в этом и других магазинах, готовность переключиться на другие магазины, готовность рекомендовать магазин и др.
При установлении валидности решающую роль играет обоснование и последующая проверка гипотезы релевантности, то есть соответствия измеряемых параметров характеристикам исследуемого объекта. Житейский пример нерелевантности – измерять уровень счастья человека количеством денег у него (хотя, наверное, не все с этим согласятся). Очевидный пример нерелевантности – попытка измерить массу тела по его температуре.
Но вернемся к понятию репрезентативности. В то время как точность измерений зависит от размера выборки, размер выборки не гарантирует ее репрезентативности. Репрезентативность выборки главным образом обеспечивается способом отбора ее участников (респондентов). Примером явного нарушения репрезентативности может послужить шутка о том, что интернет-опрос показал, что 100% людей пользуется интернетом.
Можно выделить несколько вариантов нарушения репрезентативности выборки: когда опрошены не те люди и когда опрошено слишком много (или мало) определенных людей (например, женщин намного больше, чем мужчин). Кроме того, чем меньше размер выборки, тем меньше вероятность того, что она будет репрезентативной. Например, допустим, 1% населения мог бы заинтересоваться новой услугой. Это 1 из 100 людей. Если размер выборки составляет всего 60 человек, то в вашей выборке может отсутствовать человек, который, скорее всего, будет заинтересован в услуге. Ваша выборка менее репрезентативна, потому что она меньше. Ваши результаты будут разными в зависимости от того, содержит ли ваша выборка одного из этих людей или нет. Пример репрезентативной и нерепрезентативной выборки показан на рис.2.

Рис.2. Пример репрезентативной и нерепрезентативной выборки
На рис.3 показана та же по составу генеральная совокупность, но с другим расположением объектов внутри круга.

Рис.3. Пример репрезентативной и нерепрезентативной выборки при другом расположении объектов генеральной совокупности
Говоря простым языком, репрезентативная выборка – это такая выборка, в которой представлены все подгруппы, важные для исследования. Помимо этого, характер распределения рассматриваемых параметров в выборке должен быть таким же, как в генеральной совокупности.
Простой случайный отбор респондентов представляется оптимальным способом формирования репрезентативной выборки. Поскольку в этом случае у любого представителя генеральной совокупности одинаковая вероятность попасть в выборку, в нее попадут люди с разными характеристиками пропорционально их долям в генеральной совокупности. В итоге выборка будет представлять собой нечто вроде уменьшенной копии генеральной совокупности.
Случайность отбора респондентов в выборку обеспечивается разными способами. Например, для телефонного опроса жителей города берется база данных всех телефонных номеров, и номера респондентов случайным образом выбираются компьютером (с использованием генератора случайных чисел). При уличном опросе интервьюеров распределяют по случайно выбранным точкам и инструктируют опрашивать каждого N-ного прохожего.
Наглядным примером репрезентативной выборки может служить пицца. Если целая пицца – это генеральная совокупность, которую мы хотим изучить, то кусок пиццы – это выборка. Как правило, достаточно одного куска пиццы, чтобы судить обо всей пицце (при условии, что ингредиенты равномерно распределены по ее поверхности). Таким образом, кусок пиццы пиццы на рис.4 – это репрезентативная выборка из пиццы.

Рис.4. Наглядный пример репрезентативной выборки (пицца)
Важно отметить, что не любой кусок пиццы будет репрезентативной выборкой. Разные способы получения куска пиццы могут принципиально повлиять на качество исследования и выводы, которые будут получены при анализе каждого варианта выборки (рис.4)
(рисунок в сушильной камере, готовится к публикации)
Рис.5. Наглядный пример формирования репрезентативной и нерепрезентативной выборки.
Еще один показательный пример формирования репрезентативной выборки – кастрюля, содержимое которой мы должны узнать (допустим, там скрывается борщ). Мы только один раз можем зачерпнуть из кастрюли ложкой (провести исследование). В нашем примере ложка – это выборка, а содержимое кастрюли – генеральная совокупность.
Если мы зачерпнем сверху, то придем к выводу, что в кастрюле бульон. Если снизу – решим, что в кастрюле мясо. Зачерпнув где-то посередине, мы получим картошку или капусту. В любом из трех случаев выводы будут неверны. Чтобы получить достоверный результат, нам стоит хорошенько перемешать содержимое кастрюли, перед тем как пробовать его. Перемешивание в данном случае – аналог процедуры простого случайного отбора, поскольку оно предоставляет всем ингредиентам примерно равную вероятность попадания в ложку-выборку (или тарелку-выборку).

Рис.6. Борщ как модель, демонстрирующая репрезентативность выборки.
В реальности применить простой случайный отбор респондентов не всегда удается в полной мере. Например, мы можем абсолютно корректно отобрать в выборку нужное количество номеров домашних телефонов случайным образом, но при их прозвоне выяснится, что дозвониться и поговорить удается преимущественно с пенсионерами, а «поймать» дома молодежь и работающих людей получается плохо.
Возвращаясь к примеру с борщом, если у нас вместо кастрюли – огромный ресторанный котел, а в руках все та же обычная ложка, перемешивание будет неэффективным. Чтобы решить задачу, потребуются иные подходы. Например, мы можем теоретически разделить глубину котла на несколько слоев и постараться зачерпнуть содержимое из каждого слоя (из случайного места слоя: не только в центре, но и по краям). Таким образом, наша итоговая выборка будет состоять уже из нескольких выборок и при этом адекватно отражать содержимое всех слоев котла. Подобные альтернативные подходы называются типами выборки, которых придумано достаточно много для того, чтобы максимизировать репрезентативность выборки в сложных условиях реального мира.
Последствия нарушения репрезентативности выборки: некорректные выводы исследования, выброшенный на ветер бюджет исследования, финансовые потери вследствие применения неправильных выводов. Вы можете выбрать валидную исследовательскую методику, рассчитать объем выборки, обеспечивающий приемлемую точность измерений, но, если выборка исследования нерепрезентативна, получить достоверную информацию не удастся.
ПРИМЕРЫ НАРУШЕНИЯ РЕПРЕЗЕНТАТИВНОСТИ ВЫБОРКИ
ПРЕДВЫБОРНЫЙ ОПРОС
Самым известным примером нарушения репрезентативности выборки является история провала американского журнала «Литературный дайджест».
В 1936 году журнал в очередной раз провел почтовый опрос общественного мнения о вероятных результатах грядущих президентских выборов в США. До 1936 года опрос всегда правильно предсказывал победителя. Опрос 1936 года показал, что победителем с большим отрывом станет кандидат от республиканцев, но в итоге победителем оказался представитель демократов.
Таким образом, гигантская выборка (около 2,4 млн. человек) не обеспечила достоверных результатов. В чем же заключалась причина ошибки?
Называются две основные причины провала: смещение при формировании выборки и смещение вследствие отказа респондентов от участия в опросе.
Прежде всего, журнал включил своих подписчиков в список для рассылки анкет и, желая расширить выборку, использовал два других доступных тогда списка граждан: зарегистрированных автовладельцев и пользователей телефонов. Во времена Великой Депрессии представители этих групп отличались от остального населения более высоким доходом, как и подписчики самого журнала. Таким образом, полученная база для рассылки не являлась корректным отражением структуры населения США.
Вторая проблема с опросом заключалась в том, что из 10 миллионов человек, чьи имена были в первоначальном списке рассылки, только 2,4 миллиона ответили на опрос. Вероятно, высокий процент отказов был связан с тем, что опрос проводился по почте. Уже в те времена американцы относились к почтовым рассылкам как к спаму. Таким образом, размер выборки составил примерно одну четверть от того, что первоначально планировалось. Когда доля ответивших низка (как это было в данном случае), считается, что исследование страдает от необъективности ответов.
У этой истории две морали: Большая, но неправильно сформированная выборка гораздо хуже маленькой, но правильно сформированной выборки. При проведении опроса не упускайте из внимания смещение отбора и смещение в результате отказов.
СИСТЕМАТИЧЕСКАЯ ОШИБКА ВЫЖИВШЕГО
Пример из военной практики. Во Вторую мировую войну американские военные столкнулись со следующей проблемой. Не все американские бомбардировщики после задания возвращались на базу. На вернувшихся самолетах оставалось множество пробоин от выстрелов противника, но распределены они были неравномерно: больше всего на фюзеляже и прочих частях, меньше в топливной системе и гораздо меньше — в двигателе. Командованию казалось логичным, что в наиболее поврежденных местах нужно установить больше брони.
Привлеченный к решению задачи математик возразил: данные как раз показывают, что самолет, получивший пробоины в этих местах, еще может вернуться на базу. А самолет, которому попали в бензобак или двигатель, выходит из строя и не возвращается. Поэтому укреплять следует те места, которые у вернувшихся самолетов повреждены меньше всего.

Рис .7. Пробоины на вернувшихся самолётах.
Получившие повреждения в других местах не смогли вернуться на базу
Эта задача служит примером нарушения репрезентативности выборки, когда в нее включены не те респонденты: в данном случае, вернувшиеся самолеты, в то время как не вернувшиеся проигнорированы.
Применительно к маркетинговым исследованиям, эта ситуация подобна следующей. При опросе клиентов бизнеса будет ошибкой опрашивать только текущих клиентов и не опрашивать потерянных клиентов (а какие «пробоины» получили они?).
НЕПРАВИЛЬНЫЕ МЕСТА ОПРОСА
При опросе посетителей ТРЦ важно правильно расставить интервьюеров. Например, если поставить интервьюеров только у главного входа, в выборку не попадут посетители, приехавшие в ТРЦ на автомобиле и попавшие в него через парковку. Как следствие, выводы, полученные на собранных данных, будут корректны только для той части посетителей, которые приходят в ТРЦ пешком, а значит, делают меньше покупок, не покупают габаритные товары, живут ближе к ТРЦ, чем приезжающие на автомобиле.
ОТСУТСТВИЕ КВОТИРОВАНИЯ
Другой пример. Бывает, что в разных районах города сбор анкет идет с разной скоростью: где-то (например, в центре города) большой пешеходный поток и у людей есть время на участие в опросе (отдыхающие, в отпуске, офисные сотрудники на обеде), а на окраинах либо мало людей на улицах, либо все спешат на работу и отказываются участвовать. В результате, если не ограничивать доли районов, в выборке будут преобладать люди из центрального района, которые могут значимо отличаться от остальных людей родом занятий, уровнем дохода и образования, уровнем осведомленности о магазинах и др. Таким образом, собранная выборка уже не будет репрезентативной по отношению к населению всего города.
ОНЛАЙН-ОПРОСЫ (ОНЛАЙН-ПАНЕЛИ)
Несмотря на многие положительные стороны онлайн-опросов, такие как экономичность, оперативность сбора информации, удобство ее обработки и т. д., некоторые их особенности напрямую угрожают репрезентативности исследования:
Во-первых, участники онлайн-опросов – это, как правило, активные пользователи интернета, хорошо в нем разбирающиеся и больше подверженные влиянию интернет-культуры, чем обычные люди.
Во-вторых, люди, у которых есть время и желание регулярно участвовать в онлайн-опросах за небольшое вознаграждение, скорее всего, значительно отличаются от остальных людей как по социально-демографическим, так и по психографическим характеристикам.
В-третьих, профессиональное участие в опросах приводит к так называемой профессиональной деформации, когда ответы респондентов на вопросы новых исследований обусловлены предыдущим опытом, но не жизненным, а опытом участия в других опросах.
Таким образом, в данном случае возникает та ситуация, когда опрашиваются не те люди, хотя по формальным характеристикам они подходят под описание целевой аудитории.
ВЫВОДЫ
Итак, чтобы получить достаточно точные данные об интересующей нас группе людей, необязательно опрашивать их всех, благодаря свойству репрезентативности выборки.
«Чем больше, тем лучше» – неправильный подход к формированию выборки.
Небольшая репрезентативная выборка лучше большой, но нерепрезентативной выборки. Применительно к выборке не стоит пугаться слова «случайная». Это вовсе не значит, что в исследовании будут получены случайные результаты. Напротив, случайный подход к формированию выборки делает ее максимально похожей на генеральную совокупность, а значит, репрезентативной.
При проектировании выборки следует учитывать опасность смещения структуры выборки вследствие особенностей сбора информации и других условий.
Вы можете подписаться на уведомления о новых материалах СканМаркет
Репрезентативность — важнейшее свойство данных, используемых для построения аналитических моделей. Независимо от того, в какой предметной области и какими методами производятся выборочные исследования, отсутствие репрезентативности выборки приводит к некорректным результатам. В статье рассказываем подробнее об этом важном свойстве.
Репрезентативность — важнейшее свойство данных, используемых для построения аналитических моделей. Оно отражает способность данных представлять зависимости и закономерности исследуемой предметной области, которые должна обнаружить и научиться воспроизводить построенная модель. Иными словами, репрезентативность показывает, содержат ли анализируемые данные достаточно информации для построения качественной модели, а так же, может ли эта информация быть использована алгоритмом построения модели.
Репрезентативность генеральной совокупности отражает способность совокупности описывать существенные свойства, зависимости и закономерности объектов, процессов и явлений предметной области. Она достигается за счёт правильной организации сбора и консолидации первичных данных.
Репрезентативность выборки описывает способность выборочных данных отражать структурные свойства совокупности, из которой они были извлечены. Т.е. даёт ответ на вопрос: можно ли в исследовании заменить совокупность на выборку без значимого ухудшения результатов анализа. Репрезентативность выборки достигается с помощью правильного выбора метода сэмплинга.
Таким образом, репрезентативность выборки касается только воспроизведения характеристик совокупности. Если сама исходная совокупность плохо представляет предметную область, то, даже если полученная из неё выборка будет репрезентативной, построить на её основе корректную с точки зрения предметной области модель невозможно.
Например, пусть компания собирается вывести на рынок новый продукт. При этом она хочет провести маркетинговые исследования в виде опроса клиентов о желаемых характеристиках и параметрах продукта. Число клиентов компании насчитывает сотни тысяч человек (генеральная совокупность), поэтому опросить их всех не представляется возможным физически, не является целесообразным экономически.
Поэтому компания формирует выборку клиентов для проведения опроса. Если мнение клиентов из выборки отражает мнение большинства клиентов и может быть использовано для принятия решений о параметрах и характеристиках нового продукта, то такая выборка будет репрезентативной.
Независимо от того, в какой предметной области и какими методами производятся выборочные исследования, отсутствие репрезентативности выборки приводит к некорректным результатам. Поэтому в процессе анализа необходимо убедиться, что сформированная выборка репрезентативна.
Таким образом, репрезентативная выборка — это такая выборка, в которой представлены все подгруппы, важные для исследования. Помимо этого, характер распределения рассматриваемых параметров в выборке должен быть таким же, как в генеральной совокупности.
Особенно важным является обеспечение репрезентативности в машинном обучении, для построения моделей классификации и регрессии используется несколько выборок: обучающая, тестовая и валидационная, которые тем или иным способом отбираются из исходного набора данных. И все эти выборки должны быть репрезентативными.
Обеспечение репрезентативности
В основе построения репрезентативной выборки лежит правильный выбор используемого алгоритма сэмплинга. При этом размер выборки, хотя и является важным, сам по себе не гарантирует ее репрезентативности. Например, интернет-опрос может показать, что 100% людей пользуется интернетом, хотя это не соответствует действительности (т.е. репрезентативность нарушена).
Выделяют качественную (структурную) и количественную репрезентативность.
Рисунок 1. Количественная и качественная репрезентативность
Качественная репрезентативность
Качественная репрезентативность показывает, что все группы, присутствующие в совокупности, будут представлены и в выборке. Для этого каждый элемент совокупности должен иметь равную вероятность, быть выбранным, а сама выборка должна производиться из однородных групп.
Наиболее оптимальным способом формирования репрезентативной выборки является простой случайный сэмплинг, поскольку в этом случае у любого представителя генеральной совокупности будет одинаковая вероятность попасть в выборку.
Например, при формировании выборки клиентов для опроса, в нее попадут люди из различных социальных групп пропорционально их долям в генеральной совокупности. В результате, выборка будет представлять собой уменьшенную копию генеральной совокупности.
Случайность отбора респондентов в выборку может обеспечивается различными методами. Например, для опроса клиентов берутся номера клиентских карт, которые случайным образом отбираются компьютерной программой с использованием генератора случайных чисел.
Однако, на практике применить простой случайный сэмплинг не всегда представляется возможным. Это связано с тем, что генеральная совокупность может быть неоднородной и будет содержать группы объектов.
Например, если опрос будет проводиться по телефону, то большинство откликов будет получено от пенсионеров, как людей менее занятых и более склонных идти на контакт. Очевидно, что если опрос проводится о продукте, ориентированном на молодёжь, то ценность мнения пенсионеров вряд ли будет высокой.
Чтобы решить эту проблему, можно использовать случайный стратифицированный сэмплинг, когда исходная совокупность сначала разделяется на слои (страты) по некоторому признаку. Например, клиенты могут быть стратифицированы по возрасту. Тогда страты могут быть сформированы пропорционально доле объектов в группах, что позволит уменьшить или увеличить долю той или иной группы, сохранив репрезентативность.
Другой вариант — использовать кластерный (групповой) сэмплинг, когда клиенты предварительно разбиваются на качественно однородные группы — кластеры, и отбор производится из каждого кластера независимо. При этом вероятность отбора может быть одинаковой для всех кластеров, или различной. Можно некоторые кластеры вообще исключить из отбора. В нашем примере клиенты могут быть разбиты на кластеры по социальному статусу — студенты, работающие, пенсионеры, военнослужащие и т.д. Таким образом, долю, пенсионеров в выборке, можно уменьшить или совсем исключить.
Количественная репрезентативность
Количественная репрезентативность показывает, является ли достаточным число элементов выборки для представления характеристик генеральной совокупности с заданной погрешностью. Например, при неизвестной величине генеральной совокупности, когда результат отражается в виде показателя относительной доли, число элементов выборки, обеспечивающее количественную репрезентативность, может быть вычислено по формуле:
n=frac{t^{2}cdot pcdot q}{Delta ^{2}}
где t — доверительный коэффициент, показывающий, какова вероятность того, что размеры показателя не будут выходить за границы предельной ошибки, p — доля единиц наблюдения, обладающих изучаемым признаком, q=1−p — доля единиц наблюдения, не обладающих изучаемым признаков, Δ — допустимая ошибка выборки.
Например, одним из показателей качества кредитного портфеля банка является доля заёмщиков, допустивших просрочку. Предельная ошибка, которую можно допустить, чтобы разброс значений показателя не превышал разумные границы, Δ=5% . При этом показатель может принимать значения 25% ±5%, т.е. от 20% до 30%. Допуская t=2, что обеспечивает 95% вероятность, получаем
n=frac{2^{2}cdot 0,25cdot 0,75}{0,05^{2}}=300 заёмщиков.
Если же показатель — не относительная средняя величина просроченной задолженности по всем клиентам, то число наблюдений будет:
n=frac{t^{2}cdot sigma ^{2}}{Delta ^{2}}
где sigma ^{2} — среднеквадратическое отклонение значений исследуемого признака.
Если используется выборка без возврата и размер генеральной совокупности известен, то для определения необходимого размера случайной выборки при использования относительных величин (долей) применяется формула:
n=frac{t^{2}cdot pcdot qcdot N}{Delta ^{2}cdot N+t^{2}cdot pcdot q}
где N — число наблюдений генеральной совокупности. Для средних значений исследуемой величины формула примет вид:
n=frac{t^{2}cdot sigma ^{2}cdot N^{2}}{Delta ^{2}cdot N^{2}+t^{2}cdot sigma ^{2}}
Тогда, в предыдущем примере, положив число клиентов N=500, получим:
n=frac{2^{2}cdot 0,25cdot 0,75cdot 500}{0,05^{2}cdot 500+2^{2}cdot 0,25cdot 0,75}approx 188 клиентов.
Таким образом, необходимый объем выборки при безвозвратном отборе меньше, чем при возвратном (соответственнo, 188 и 300).
В целом, число наблюдений, требуемое для получения репрезентативной выборки, изменяется обратно пропорционально квадрату допустимой ошибки.
Методы оценки репрезентативности
Формально, выборку называют репрезентативной, когда результат оценки определенного параметра по данной выборке совпадает с результатом, оцененным по генеральной совокупности с учетом допустимой погрешности (ошибки репрезентативности). Если выборочная оценка отличается от оценки по генеральной совокупности более, чем на заданный уровень погрешности, то такая выборка считается нерепрезентативной.
Репрезентативность оценивается по отдельным параметрам выборки и совокупности. При этом выборка может оказаться репрезентативной по одним параметрам и нерепрезентативной по другим. Поэтому говорить о репрезентативности как о дихотомическом свойстве выборки (репрезентативна или нерепрезентативна) было бы не верно: выборка может одни параметры генеральной совокупности воспроизводить более точно, а другие — менее. Поэтому правильнее говорить о мере репрезентативности определённой выборки по конкретным параметрам.
Основным моментом в определении репрезентативности выборки является обоснование погрешности, в пределах которой выборка признается репрезентативной. Одна и та же выборка может быть достаточно репрезентативной для одной задачи и недостаточно для другой. Кроме этого, нужно проверять репрезентативность выборки по параметрам, имеющим существенное значение для предметной области исследования. Например, в маркетинговых исследованиях для анализа клиентов важны пол, возрасту, образование и пр.
Следует отметить, что далеко не все задачи бизнес-аналитики требуют строгого статистического подтверждения репрезентативности выборок. Как правило, это задачи точного прогнозирования. Что касается обычных задач, связанных, например, с определением предпочтений действующих и потенциальных клиентов, то они решаются охватом типичной клиентуры, которую можно найти непосредственно в торговых центрах.
Статистические методы
Данные, полученные в результате выборочных обследований, являются реализациями случайных величин (возраст, стаж работы, доход и т.д.). Обычно, на практике считают, что выборка является репрезентативной, если её статистические параметры (среднее значение, дисперсия, среднеквадратичное отклонение и т.д.) отличаются от параметров совокупности не более, чем на 5%.
Однако, данный подход применим только при условии, что вся генеральная совокупность известна и для неё можно вычислить статистические характеристики. Но на практике такое встречается редко, поскольку часть потенциально интересных для исследования объектов оказывается недоступной для наблюдения.
В этом случае прибегают к формированию двух независимых выборок, вычисляют и сравнивают их характеристики, и если они совпадают (не различаются значимо), то выборки считаются репрезентативными. В теоретическом плане такой подход является достаточно привлекательным, однако, на практике сложно реализуем. Во-первых, формирование нескольких выборок ведёт к дополнительным затратам, а во-вторых, если параметры выборок значимо различаются, то невозможно сказать, какая из них репрезентативна.
Для сравнения двух выборок используются два вида критериев: непараметрические и параметрические. Первые не используют в расчётах значений параметров статистических распределений, а оперируют частотами и рангами. К числу наиболее популярных непараметрических критериев можно отнести критерий Уилкоксона и U-критерий Манна-Уитни. Второй рекомендуется использовать, если число наблюдений превышает 30. К числу популярных параметрических критериев относится t-критерий Стьюдента, критерий однородности Смирнова, Q-критерий Розенбаума и др.
Нестатистические методы
Статистические методы оценки репрезентативности выборочных данных, хотя и являются строго обоснованными, но довольно сложны в использовании (особенно для пользователей, не имеющих достаточной математической подготовки). Кроме этого они могут иметь ограничения (например, независимость выборок), удовлетворить которым достаточно сложно.
Статистические подходы к оценке репрезентативности выборок имеет смысл использовать, если для анализа данных используются статистические методы. Методы машинного обучения, которые является эвристическими и в большинстве случаев не обеспечивают точного и единственного решения, вообще говоря, не нуждаются в точной оценке репрезентативности обучающих выборок. Поэтому в них используются свои техники для определения того, насколько обучающая или тестовая выборка хорошо представляют исходную совокупность.
Ещё одной особенностью выборок, используемых в машинном обучении, является то, что объём исходной совокупности, из которой формируются обучающее, тестовое, а при необходимости, и валидационное множество, известен, поскольку данные содержатся в консолидированных таблицах источника данных.
Обычно нестатистические меры репрезентативности используют расстояния между векторами наблюдений в пространстве признаков. Рассмотрим, например, такой показатель как индекс ближайшего соседа (Nearest Neighbours Index — NNI). Предположим, что выборка включает n ближайших соседей внутри некоторой области пространства признаков. Вычислим величину, представляющую собой среднее расстояние между i-м объектом и всеми остальными объектами в выборке (области соседства):
overline{D}_{sample}=frac{1}{n}sumlimits_{i=1}^{n}D_{i}
где D_i — расстояние от i-го объекта до остальных объектов выборки, n — число объектов выборки.
Затем вычислим величину:
overline{D}_{total}=sqrt{frac{D_{_{total}}}{N}}
где D_{_{total}} — общее расстояние по всей совокупности, N — число наблюдений совокупности.
Тогда индекс ближайшего соседа будет:
NNI=frac{overline{D}_{sample}}{overline{D}_{total}}
Если значение данного показателя близко к 1, то точки выборки имеют равномерное пространственное распределение. Если меньше 1, то пространственное распределение точек неоднородно. Если NNI больше 1, то имеет место значительная дисперсия значений внутри выборки.
Очевидно, что наилучшим вариантом с точки зрения репрезентативности будет первый случай, когда пространственное распределение точек данных в совокупности и выборке примерно одинаковое. Второй случай показывает, что внутри выборки могут присутствовать некоторое локальные особенности, нехарактерные для всей совокупности.
В литературе можно найти больше количество разнообразных алгоритмов и методов оценки репрезентативности выборок для машинного обучения, разработанных для различных предметных областей исследования и типов задач анализа. Большинство их них являются эвристическими и не гарантируют получения наилучшего результата. Поэтому самым надёжным критерием репрезентативности выборки, на основе которой строилась определённая обучаемая модель, является точность и обобщающая способность самой модели.
Ремонт выборки
Возникает вопрос: а что делать в ситуации, когда аналитику доступна только выборка «как есть», а её репрезентативность неудовлетворительная? При этом доступ к генеральной совокупности для формирования более репрезентативной выборки у него отсутствует (например, из-за проблем с сетью, невозможности повторных исследований из-за высоких затрат и т.д.). В этом случае улучшить ситуацию может специальная процедура, которая называется «ремонт выборки».
Все действия аналитика, связанные с репрезентативностью, можно разделить на два этапа: контроль и ремонт.
- Контроль выборки — процедура сравнения генеральной совокупности и выборки, выявление степени их расхождения, обнаружение причин отклонений и разработка возможных способов их устранения.
- Ремонт выборки — процесс устранения расхождения генеральной совокупности и выборки.
Контроль и ремонт выборки рассматриваются как обязательные этапы любого выборочного исследования. Хотя, некоторые авторы не разделяют эти два этапа, а включают ремонт в общую процедуру контроля выборки. Ряд вопросов, связанных с контролем выборки был рассмотрен выше.
Основной целью ремонта является повышение качества выборки в смысле отражения ею зависимостей и закономерностей исследуемых процессов и явлений, которые требуется обнаружить в процессе анализа. При этом не следует путать ремонт выборки с повышением качества данных вообще.
Ремонт выборки, обычно, включает следующие задачи:
- Коррекция выборки. Заключается в замене ранее выбранных объектов совокупности. Коррекция может потребоваться, например, если в выборке произошло искажение распределения объектов относительно исходной совокупности, например, получился избыток пенсионеров, мужчин, женщин или людей с определённым уровнем образования. Замена может быть произвольной (например, следующий клиент по списку) или эквивалентной (подыскивается клиент с теми же параметрами — пенсионера меняем на пенсионера и т.д.).
- Расширение основы выборки. Позволяет включить в выборку большее разнообразие наблюдений. Основа выборки — это подмножество элементов генеральной совокупности, из которого будет формироваться выборка. Использование основы выборки позволяет сделать отбор более целевым, исключив обработку данных, не относящихся к задаче анализа, лучше сфокусироваться на целевой группе. В анализе клиентской базы основой выборки могут быть только мужчины, только женщины, люди в возрасте от 30 до 60 и т.д. Если выборка получилась недостаточно репрезентативной, то решить проблему можно расширяя границы основы выборки. Например, если изначально основой выборки являлась только люди пенсионного возраста, то при необходимости она может быть расширена и на людей предпенсионного возраста.
- Взвешивание. При взвешивании объектам выборки могут присваиваться весовые коэффициенты, которые могут учитываться в алгоритме анализа. Например, повышенные весовые коэффициенты могут присваиваться клиентам, которые наиболее активно пользовались услугами компании (купили товаров и услуг на сумму выше некоторого порога). Логично предположить, что мнение таких клиентов будет более значимым.
Следует отметить, что единого, строго обоснованного подхода к ремонту выборок, вообще говоря, не существует, хотя в литературе можно встретить некоторые общие рекомендации. В большинстве практических случаев аналитику приходится самостоятельно выбирать, какие преобразования следует применить к выборке для повышения её репрезентативности.
Другие материалы по теме:
Обработка пропусков в данных
Loginom Data Quality. Очистка клиентских данных. Деморолик
Содержание
- Пример об ошибке репрезентативности
- Ошибки статистического наблюдения и основные приёмы их устранения
- Репрезентативность — что это за процесс? Ошибка репрезентативности
- Репрезентативность — что это?
- Другие определения
- Репрезентативная выборка
- Вероятностная выборка
- Вероятностные выборки
- Выборка потребителей
- Размер выборки
- Понятие ошибки репрезентативности
- Виды ошибок
- Преднамеренные и непреднамеренные ошибки репрезентативности
- Валидность, надежность, репрезентативность. Расчет ошибок
- Репрезентативные системы
Пример об ошибке репрезентативности
Лекция 4.1 Выборочный метод
К настоящему времени Вы заработали баллов: 0 из 0 возможных.
ГЕНЕРАЛЬНАЯ И ВЫБОРОЧНАЯ СОВОКУПНОСТЬ
Генеральная совокупность — вся подлежащая изучению совокупность объектов (наблюдений).
Генеральная совокупность носит гипотетический характер. Она представляет собой совокупность всех мыслимых наблюдений, которые могли бы быть произведены при данных условиях. Даже если бы у нас была возможность провести сплошное исследование всей совокупности признака, все равно в нее не попали бы объекты, которое по какой то причине отсутствуют на текущий момент, но должны были существовать при данных условиях.
Та часть объектов, которая отобрана для непосредственного изучения, называется выборочной совокупностьюили выборкой
Сущность выборочного метода
Сущность выборочного метода состоит в том, чтобы по некоторой части генеральной совокупности выносить суждение о её свойствах в целом
Чтобы по данным выборки иметь возможность судить о генеральной совокупности, она должна быть репрезентативной(представительной).
Репрезентативная выборка сохраняет и повторяет структуру генеральной совокупности.
Если две выборки взяты из одной генеральной совокупности, то разница в получаемых оценках (например, средних) будет носить случайный характер, как следствие ошибки репрезентативности
Ошибка репрезентативности возникает по причине того, что мы исследуем не всю совокупность, а только её части (выборки). Мы получаем случайную комбинацию элементов из генеральной совокупности.
Для того, чтобы минимизировать различия однородных (взятых из одной генеральной совокупности) выборок необходимо правильным образом их формировать.
Наилучшим способом формирования репрезентативной выборки является случайный отбор элементов из генеральной совокупности без расчленения на части или группы (случайная выборка).
Пример об ошибке репрезентативности
Рассмотрим следующий пример.
Исследователь задался вопросом: «существуют ли различия в эмпатических способностях между психологами и педагогами?». Для того чтобы это прояснить он набрал две группы испытуемых в соответствии с их профессиональной деятельностью и предложил им заполнить опросник на эмпатические способности. Далее, он рассчитал среднее значение в каждой группе.
В группе психологов среднее составило 23,4 балла, а в группе педагогов 21,1. Таким образом, разница в средних между группами составила2,3 балла (23,4 — 21,1 = 2,3).
Если бы представители этих профессий не отличались по изучаемому признаку, тогда разница в средних равнялась бы нулю.
Однако, можно ли считать эту разницу в 2,3 балла достаточной, чтобы судить о реальных различиях между группами? Может сложится так, что психологи и педагоги по эмпатии в реальности не отличаются (выборки однородны), а разница в 2,3 балла, полученная исследователем носит случайный характер, как ошибка репрезентативности.
Таким образом, мы можем сформулировать две гипотезы:
Гипотезы являются альтернативами по отношению к друг другу. Принятие одной из них как верной влечет за собой исключение «истинности» другой.
СТАТИСТИЧЕСКАЯ ГИПОТЕЗА
Статистическая гипотеза – это любое предположение о виде или параметрах неизвестного закона распределения (закона распределения генеральной совокупности)
В статистике принято формулировать пару гипотез. Первая гипотеза называется нулевой, а вторая – альтернативной.
| Нулевая гипотеза Н0 | Альтернативная гипотеза Н1 |
| 1. 1. Является проверяемой 2. Обычно гипотеза об отсутствии явления (например, различий или зависимости) | Является логическим отрицанием нулевой |
| Поскольку нулевая гипотеза является проверяемой, то её можно отвергать и принимать | Альтернативную гипотезу принимают как следствие отрицания нулевой гипотезы |
пример:
· Н0 (нулевая): Женщины не отличаются от мужчин по среднему уровню развития эмпатических способностей (средние значения равны)
· Н1 (альтернативная): Средний уровень эмпатических способностей выше у женщин по сравнению с мужчинами
пример:
· Н0 (нулевая): Линейная корреляция между самооценкой и тревожностью равна 0
· Н1 (альтернативная): Самооценка отрицательно связана с тревожностью (линейная корреляция меньше нуля / чем выше самооценка, тем ниже тревожность и наоборот)
Вопрос:Какая из двух формулировок соответствует нулевой гипотезе Н0?
· А) между психологами и педагогами нет различий по среднему уровню выраженности эмпатии
· Б) между психологами и педагогами есть различия по среднему уровню выраженности эмпатии
Статистический критерий
Правило, по которому нулевая гипотеза отвергается или принимается, называется статистическим критерием.
Статистика – это специально составленная выборочная характеристика (распределение), у которой есть критическое значение такое, что если верна нулевая гипотеза, то вероятность (α) того, что случайная величина превысит это критическое значение, мала (Кремер Н.Ш., 2004).
Критическое значение делит распределение «нулевой гипотезы» на две области: область допустимых значений и область критических значений
Таким образом, критические значения позволяют исследователю либо принять, либо отвергнуть нулевую гипотезу.
В математической статистике можно подбирать критические значение для разных альфа-уровней (уровней значимости). Чаще всего:
1. Критическое значение, которое выделяет критическую область с вероятностью α
Источник
Ошибки статистического наблюдения и основные приёмы их устранения
Всякое статистическое наблюдение должно быть полным и достоверным. Однако по ряду причин степень точности данных может быть различной.
Все ошибки наблюдения подразделяются на два вида:
Ошибки регистрации возникают вследствие неправильного установления фактов в процессе наблюдения или неправильной их записи.
Ошибки регистрации могут возникать как при сплошном наблюдении, так и при несплошном и имеют следующие виды:
Случайные ошибки – это ошибки, которые возникают в результате небрежной описки или невнимательного отношения регистратора при заполнении формуляра (ошибки в подсчёте).
Систематические ошибки – это ошибки, которые искажают сведения по каждой отдельной единице наблюдения в одном и том же направлении.
Систематические ошибки делятся на:
Преднамеренные ошибки (сознательные, тенденциозные ошибки), возникающие в результате сознательного искажения статистической информации. К ним относятся: приписки, неправильные сведения об объёме выпущенной продукции, об остатках сырья и материалов и т. д.
Непреднамеренные ошибки – это ошибки, которые возникают в результате случайных причин, т.е. неумышленно (неисправность измерительных приборов, невнимательность регистратора и т.д.).
Ошибки репрезентативности свойственны несплошному наблюдению. Они возникают в результате выборочного наблюдения, когда отобранная часть единиц совокупности недостаточно полно отражает состав всей изучаемой совокупности.
Ошибки репрезентативности (так же, как и ошибки регистрации) могут быть случайными и систематическими.
Случайные ошибки оцениваются с помощью математических методов.
Систематические ошибки – это отклонения, которые возникают в результате случайного отбора единиц изучаемой совокупности. Их размеры не поддаются количественной оценке.
Для выявления и устранения допущенных при регистрации ошибок применяются следующие методы:
а) внешний контроль;
б) логический контроль;
в) счётный контроль.
При внешнем контроле проверяется: правильность оформления документов; наличие всех необходимых записей, которые предусмотрены инструкцией и т.д.
Логический контроль заключается в проверке ответов на вопросы программы наблюдения путём сопоставления полученных данных с другими источниками.
Сущность счётного (арифметического) контроля заключается в счётной проверке всех итоговых показателей, которые содержатся в отчётности или формуляре исследования. Задачей такого контроля является исправление итогов и отдельных числовых показателей.
В ряде случаев, при счётном контроле данных статистического наблюдения применяется метод балансовой увязки показателей (наличие на начало отчётного периода плюс поступления минус расход должно быть равно наличию на конец отчётного периода). Такой метод применяют: при проверках поголовья скота, при учёте поступления и расхода сырья и материалов и т.д.
Указанные методы проверки достоверности статистического наблюдения позволяют сократить до минимального значения допуск ошибок.
Источник
Репрезентативность — что это за процесс? Ошибка репрезентативности
Понятие репрезентативности часто встречается в статистических отчетностях и при подготовке выступлений и докладов. Пожалуй, без нее трудно представить себе какой-либо из видов подачи информации на обозрение.
Репрезентативность — что это?
Репрезентативность отражает, насколько выбранные объекты или части соответствуют содержанию и смыслу совокупности данных, из которой они были выбраны.
Другие определения
Понятие репрезентативности можно раскрывать в разных контекстах. Но по своему смыслу репрезентативность – это соответствие черт и свойств выбранных единиц из общей совокупности, которые точно отражают характеристики всей генеральной базы данных в целом.
Также репрезентативность информации определяют как способность выборочных данных представить параметры и свойства совокупности, важные с точки зрения проводимого исследования.
Репрезентативная выборка
Принцип формирования выборки заключается в избрании наиболее важных и точно отображающих свойства общей совокупности данных. Для этого используются различные методы, которые позволяют получать точные результаты и общее представление о генеральной совокупности, используя только выборочные материалы, описывающие качества всех данных.
Таким образом, нет необходимости изучать весь материал, а достаточно рассмотреть выборочную репрезентативность. Что это? Это выборка отдельных данных для того, чтобы иметь понятие об общей массе информации.
Их в зависимости от способа различают как вероятностные и невероятностные. Вероятностная – это выборка, которая производится путем вычисления наиболее важных и интересных данных, являющихся в дальнейшем представителями генеральной совокупности. Это обдуманный выбор или случайная выборка, тем не менее, обоснованная своим содержанием.
Невероятностная – это одна из разновидностей случайной выборки, составляющаяся по принципу обычной лотереи. В таком случае не учитывается мнение того, кто составляет такую выборку. Используется лишь слепой жребий.
Вероятностная выборка
Вероятностные выборки также могут подразделяться на несколько видов:
- Одна из самых простых и понятных принципов – это нерепрезентативная выборка. К примеру, такой способ часто используется при проведении социальных опросов. При этом участники опроса не выбираются из толпы по каким-либо определенным признакам, и получение информации производится у первых 50 людей, принявших участие в нём.
- Преднамеренные выборки отличаются тем, что имеют ряд требований и условий при отборе, однако все же полагаются на случайное совпадение, не преследуя своей целью достижение хорошей статистики.
- Выборка на основании квот – это еще одна из вариаций невероятностной выборки, которая часто используется для исследования больших совокупностей данных. Для нее используется множество условий и норм. Подбираются объекты, которые должны им соответствовать. То есть на примере социального опроса можно предположить, что опрошены будут 100 человек, но только мнение некоторого числа людей, которые будут соответствовать установленным требованиям, будут учтены при составлении статистического отчета.
Вероятностные выборки
Для вероятностных выборок исчисляется ряд параметров, которым объекты в выборке будут соответствовать, и среди них разными способами могут избираться именно те факты и данные, которые будут представлены как репрезентативность данных выборки. Такими способами вычисления нужных данных могут быть:
- Простая случайная выборка. Заключается в том, что среди выбранного сегмента совершенно случайным методом лотереи выбирается необходимое количество данных, которые будут являться репрезентативной выборкой.
- Систематическая и случайная выборка дает возможность составить систему вычисления необходимых данных на основе случайно выбранного сегмента. Таким образом, если первое случайное число, которое указывает на порядковый номер данных, выбранных из общей совокупности, будет 5, то последующими данными, которые будут выбраны, могут стать, например, 15, 25, 35 и так далее. Этот пример наглядно объясняет, что даже случайный выбор может основываться на систематических вычислениях необходимых исходных данных.
Выборка потребителей
Осмысленная выборка – это способ, который заключается в рассмотрении каждого отдельного сегмента, и на основании его оценки составляется совокупность, отражающая характеристики и свойства общей базы данных. Таким образом набирается большее количество данных, соответствующих требованиям репрезентативной выборки. Можно легко отобрать некоторое количество вариантов, которые не войдут в общее число, не потеряв при этом качество отобранных данных, представляющих общую совокупность. Таким способом определяется репрезентативность результатов исследования.
Размер выборки
Не последний вопрос, который необходимо решить, – это размер выборки для репрезентативного представления генеральной совокупности. Размер выборки не всегда зависит от количества исходников в генеральной совокупности. Однако репрезентативность выборочной совокупности напрямую зависит от того, на сколько сегментов должен быть в итоге разделён результат. Чем больше таких сегментов, тем больше данных попадает в результативную выборку. Если результаты требуют общего обозначения и не требуют конкретики, тогда, соответственно, выборка становится меньше, поскольку, не вдаваясь в детали, информация излагается более поверхностно, а значит, ее прочтение будет общим.
Понятие ошибки репрезентативности
Ошибка репрезентативности – это конкретные расхождения между характеристиками генеральной совокупности и выборочных данных. При проведении любого выборочного исследования невозможно получить абсолютно точные данные, как при полном исследовании генеральных совокупностей и выборки, представленной лишь частью сведений и параметров, тогда как более детальное изучение возможно только при исследовании всей совокупности. Таким образом, неизбежны некоторые погрешности и ошибки.
Виды ошибок
Различают некоторые ошибки, которые возникают при составлении репрезентативной выборки:
- Систематические.
- Случайные.
- Преднамеренные.
- Непреднамеренные.
- Стандартные.
- Предельные.
Основанием для появления случайных ошибок может быть несплошной характер исследования общей совокупности. Обычно случайная ошибка репрезентативности имеет незначительный размер и характер.
Систематические ошибки между тем возникают при нарушении правил отбора данных из общей совокупности.
Средняя ошибка – это разница между усредненными значениями выборки и основной совокупностью. Она не зависит от количества единиц в выборке. Она обратно пропорциональна объему выборки. Тогда чем больше объем, тем меньше значение средней ошибки.
Предельная ошибка – это наибольшая возможная разница между усредненными значениями сделанной выборки и общей совокупностью. Такая ошибка охарактеризовывается как максимум вероятных ошибок при заданных условиях их появления.
Преднамеренные и непреднамеренные ошибки репрезентативности
Ошибки смещения данных бывают преднамеренными и непреднамеренными.
Тогда причинами появления преднамеренных ошибок является подход к подбору данных по методу определения тенденций. Непреднамеренные ошибки возникают еще на стадии подготовки выборочного наблюдения, формирования репрезентативной выборки. Для недопущения подобных ошибок необходимо создать хорошую основу для выборки, составляющей списки единиц отбора. Она должна полностью соответствовать целям проведения выборки, быть достоверной, охватывающей все аспекты исследования.
Валидность, надежность, репрезентативность. Расчет ошибок
Расчет ошибки репрезентативности (Мм) средней арифметической величины (М).
Среднее квадратическое отклонение: численность выборки (>30).
Ошибка репрезентативности (Мр) и относительная величина (Р): численность выборки (n>30).
В том случае, когда приходится изучать совокупность, где количество выборки мало и составляет меньше 30 единиц, тогда число наблюдений станет меньше на одну единицу.
Величина ошибки прямо порциональна объему выборки. Репрезентативность информации и вычисление степени возможности составления точного прогноза отражает определенная величина предельной ошибки.
Репрезентативные системы
Не только в процессе оценки подачи информации используется репрезентативная выборка, но и сам человек, получающий информацию, использует репрезентативные системы. Таким образом, мозг обрабатывает некоторое количество информации, создавая репрезентативную выборку из всего потока информации, чтобы качественно и быстро оценить подаваемые данные и понять суть вопроса. Ответить на вопрос: «Репрезентативность — что это?» — в масштабах человеческого сознания довольно просто. Для этого мозг использует все подвластные органы чувств, в зависимости от того, какую именно информацию необходимо вычленить из общего потока. Таким образом, различают:
- Визуальную репрезентативную систему, где задействуются органы зрительного восприятия глаза. Люди, часто использующие подобную систему, называются визуалами. С помощью этой системы человек обрабатывает информацию, поступающую в виде изображений.
- Аудиальная репрезентативная система. Главный орган, который используется – это слух. Информация, подаваемая в виде звуковых файлов или речи, обрабатываются именно этой системой. Люди, лучше воспринимающие информацию на слух, называются аудиалами.
- Кинестетическая репрезентативная система представляет собой обработку потока информации, путем восприятия его с помощью обонятельных и осязательных каналов.
- Дигитальная репрезентативная система используется вместе с другими как средство получения информации извне. Это субъективно-логическое восприятие и осмысление полученных данных.
Итак, репрезентативность — что это? Простая выборка из множества или неотъемлемая процедура при обработке информации? Однозначно можно сказать, что репрезентативность во многом определяет наше восприятие потоков данных, помогая вычленить из него наиболее веские и значимые.
Источник



























