Составные индексы используются в социальной и экологической областях для представления сложной информации из множества индикаторов в виде единого показателя, который может измерять прогресс в достижении цели и облегчать принятие решений. Инструмент Вычислить составной индекс поддерживает три основных этапа процесса создания индекса: стандартизацию входных переменных до общей шкалы (предварительная обработка), объединение переменных в единую индексную переменную (комбинация) и пересчет результирующего индекса до значимых значений (постобработка).
Разработка индекса
Создание соответствующего индекса зависит от тщательного рассмотрения вопроса, на который пытается ответить индекс, выбора переменной и применяемых методов. Полезно проконсультироваться с экспертами в предметной области и конечными пользователями.
При разработке индекса учитывайте следующее:
- Следует ли структурировать переменные по подиндексам. Концепция, которую измеряет индекс, может быть представлена несколькими измерениями. Например, индекс уязвимости может состоять из параметров жилья, транспорта и дохода, каждая из которых включает в себя множество переменных. Вы можете создать подиндексы для представления каждого измерения, запустив инструмент несколько раз. Это может повысить интерпретируемость и, в зависимости от используемых методов, также может изменить результаты индекса.
- Как выбирать переменные. Наилучшей практикой является сокращение количества входных переменных при сохранении достаточного количества для сбора необходимой информации для индекса. Большое количество входных переменных может привести к трудностям при интерпретации индекса. Кроме того, если несколько переменных относятся к одной и той же области, например, средний доход и бедность, влияние этой области для расчета индекса может быть чрезмерным в результате. Если это влияние является непреднамеренным, это называется непреднамеренным взвешиванием.
Узнайте больше о передовой практике и важных соображениях при создании соответствующего индекса
Задание весов для переменных
Переменные может быть назначен вес, чтобы отобразить относительную важность каждого фактора, влияющего на индекс. По умолчанию для всех весов установлено 1, что означает, что у всех переменных одинаковый вес. Однако может быть важным обозначить различия в относительном вкладе той или иной переменной по сравнению с другими. Изменяя вес одной из переменных на 2 и сохраняя веса остальных равными 1, вы обозначаете, что переменная должна считаться в два раза более важной, чем другие, по ее вкладу в конечный индекс.
Вы также можете использовать веса, которые суммируются до 1. Например, если используются три переменные и одну из них следует считать в два раза более важной, чем две другие, вы можете использовать значения весов 0,5, 0,25 и 0,25.
Если переменные объединяются по среднему значению, веса применяются путем умножения каждой переменной на ее относительный вес. Если веса объединяются по среднему геометрическому, то веса применяются путем возведения каждой переменной в степень ее относительного веса.
Веса оказывают значительное влияние на итоговый индекс. Независимо от того, сохраняете ли вы равные веса или изменяете их в пользу некоторых переменных, использование весов добавляет анализу субъективность. Кроме того, вы можете непреднамеренно взвешивать данные из-за корреляции и различий в дисперсии между переменными.
Предварительная обработка переменных
Чтобы создать соответствующий индекс, переменные должны быть в совместимой шкале. Для достижения этой цели в инструменте доступны опции предварительной обработки, которые приводят различные входные переменные к общей шкале измерений, чтобы их можно было соответствующим образом комбинировать. Вы также можете обратить значения переменных таким образом, чтобы высокие значения в каждой переменной совпадали друг с другом.
Предварительная обработка переменных для обращения значений
Рассмотрите значимость низких и высоких значений в каждой переменной и убедитесь, что они согласуются друг с другом. Например, в индексе социальной уязвимости районы с более низкими средними доходами более уязвимы, а районы с низким процентом людей, не имеющих страховки, менее уязвимы; направление этих переменных противоположно в контексте цели индекса.
Обратная величина переменной вычисляется путем умножения каждого значения на -1 и пересчета поля в пределах исходного диапазона переменной.
Предварительная обработка переменных для приведения к одинаковой шкале
Инструмент включает в себя несколько вариантов пересчета переменных с использованием параметра Метод пересчета и объединения переменных. Параметры Объединить значения (среднее пересчитанных значений) и Составные разности (геометрическое среднее пересчитанных значений) выполняют пересчет с использованием минимальных и максимальных значений. Опция Объединить ранги (среднее процентилей) выполняет пересчет с использованием процентилей. Опция Выделить крайние значения (количество значений выше 90-го процентиля) выполняет пересчет с использованием двоичных значений. Выбранный параметр будет применен ко всем переменным, и в выходных данных будут представлены итоговые пересчитанные поля. Доступны следующие опции:
Минимум-максимум - переменные пересчитываются от 0 до 1 с использованием минимального и максимального значений каждой переменной. Этот метод является самым простым, поскольку он сохраняет распределение входных переменных и выполняет пересчет по шкале от 0 до 1, которую легко интерпретировать.
В этом методе применяется следующая формула:
Поскольку этот метод сохраняет распределение переменных, на него могут влиять искаженные распределения и выбросы. Например, если есть один выброс с очень высоким значением, этот выброс получит значение 1, но остальные значения будут похожими и близкими к нулю. Из-за меньшей вариабельности предварительно обработанной переменной, она может оказывать меньшее влияние на результирующий индекс.
Этот метод также зависит от минимальных и максимальных значений во входных данных, что делает его менее подходящим для сравнения индексов за несколько периодов времени, когда минимальные и максимальные значения переменной могут изменяться с каждым временным шагом.
Процентиль - переменные преобразуются в процентили от 0 до 1. Этот метод может оказаться полезным, когда ранги каждой переменной важнее их фактических значений. Он также устойчив к выбросам и искаженным распределениям, поскольку переменные преобразуются в равномерное распределение.
Существуют различные определения процентилей. В этом методе применяется следующая формула:
,
где R - порядковый ранг (в случае связей используется минимальное значение ранга), N - количество значений, а P - итоговый процентиль.
Процентили обозначают положение значения относительно других значений внутри переменной. Например, хотя разница в доходе между 50000 и 60000 долларов может быть несущественной, разница в процентилях может быть большой, если существует множество объектов со значениями между ними.
Флаг по порогу (бинарный) - переменная преобразуется в двоичные значения (0, 1), которые показывают, находится ли значение выше или ниже указанного порогового значения. Этот метод удобен, когда важно выделить определенные значения, а изменение значений не играет роли.
На этот метод не влияют выбросы во входных переменных, но информация об уровне интервала в каждой входной переменной теряется, поскольку каждая переменная преобразуется в двоичную форму (0, 1).
- Необработанные - используются исходные значения переменных. Этот метод следует использовать только в том случае, если все переменные находятся в сопоставимой шкале. Например, используйте этот метод, когда все переменные являются стандартными единицами измерения, такими как проценты или доли на миллион. Этот метод также может быть полезен, когда стандартизация или преобразование переменных уже произошло.
Объединение переменных
Как только переменные предварительно обработаны в соответствии с общей шкалой, они агрегируются для создания единого значения. Опция Объединить пересчитанные значения (среднее пересчитанных значений) параметра Метод пересчета и объединения переменных выполняет агрегацию по среднему значению. Метод Составные пересчитанные значения (геометрическое среднее пересчитанных значений) выполняет агрегацию по среднему геометрическому значению. Метод Выделить крайние значения (количество значений выше 90-го процентиля) выполняет агрегацию по сумме.
Сумма и Среднее значение являются аддитивными методами. Среднее геометрическое - это мультипликативный метод.
Аддитивные методы
Методы комбинирования Сумма и Среднее относительно просты для интерпретации и часто используются различными индексами. Эти методы практически идентичны; они приводят к распределениям одинаковой формы, отличающейся только в шкале, а итоговая карта индексов будет выглядеть одинаково. Отличаются только значения.
Эти методы позволяют использовать высокие значения одной переменной для компенсации низких значений другой переменной.
Мультипликативные методы
Мультипликативные методы имеют то преимущество, что они не позволяют высоким значениям одной переменной компенсировать низкие значения другой переменной; чтобы значение индекса было высоким, несколько переменных должны иметь высокие значения.
Среднее геометрическое похоже на умножение. Индекс, использующий среднее геометрическое значение, позволяет получить такую же карту, что и индекс, использующий умножение для объединения переменных, поскольку распределение имеет ту же форму, отличаются только значения.
Постобработка индекса
Как только переменные предварительно обработаны и объединены в необработанный индекс, последующая обработка может помочь сделать индекс более понятным.
Обращение значений индекса
Изучите назначение индекса и определите, соответствуют ли высокие значения индекса вашим намерениям. Обращение значений индекса приведет к тому, что высокие значения в исходном индексе станут низкими значениями в конечном индексе, и наоборот.
Пересчет индекса с использованием минимального и максимального значений
Использование минимальных и максимальных значений для пересчета индекса меняет диапазон выходного индекса. Эта опция может быть легче для интерпретации, независимо от используемых методов предварительной обработки и комбинирования. Например, укажите Минимальное значение 0 и Максимальное значение 100, чтобы пересчитать необработанный индекс до этого диапазона. В этой опции применяется следующая формула:
где x - исходное значение, min(x) - минимальное значение, найденное в индексе, max(x) - максимальное значение, найденное в индексе, a - указанное минимальное значение, b - указанное максимальное значение, а x' - пересчитанное значение.
Интерпретация результатов
Индексный слой отображает распределение значений индекса после любого необязательного пересчета или обращения. Слой предоставляет непрерывную картограмму, которую можно использовать для оценки результатов индексации. Вы можете использовать карту для оценки высоких и низких значений индекса, сохраняя распределение индекса и любые выбросы.
Слой также включает следующие поля, которые можно использовать для исследования результатов:
- Поле процентиля, которое указывает относительные позиции (ранги) между значениями индекса. Используйте это поле, чтобы узнать, как местоположения связаны друг с другом на основе их ранга, а не фактических различий в индексах.
- Поле с индексом, разделенным на пять равных интервальных классов.
- Поле с индексом, разделенным на пять равных классов квантиля.
- Поле с индексом, разделенным на шесть классов стандартного отклонения. Используйте это поле, чтобы изучить, как значение индекса в каждом местоположении связано со средним значением индекса, а также определить местоположения с чрезвычайно высокими и низкими значениями индекса.
Дополнительные ресурсы
Дополнительную информацию смотрите в Руководстве по созданию составных индикаторов: методология и руководство пользователя, выпущенном Организацией экономического сотрудничества и развития.