コンポジット インデックスは、社会分野と環境分野にわたって使用され、複数のインデックスから成る複雑な情報を単一インデックスとして表し、目標に向けた進捗状況を計測し、意思決定を容易にします。 コンポジット インデックスの計算 (Calculate Composite Index) ツールは、インデックス作成プロセスの次の 3 つの主要な手順をサポートします: 入力変数を共通のスケールに標準化する (前処理)、変数を単一のインデックス変数に結合する (組み合わせ)、結果のインデックスを意味のある値にスケール処理する (後処理)。
インデックスの設計
適切なインデックスを作成できるかどうかは、インデックスが答えようとしている問題、変数の選択、および適用される方法の注意深い検討によって決まります。 該当分野の専門家やエンド ユーザーに相談することが有効です。
インデックスの設計時に、以下の事項について考慮します。
- 変数をサブインデックスに構造化するかどうか。 インデックスが計測する概念は、複数の次元で表すことができます。 たとえば、脆弱性インデックスは、住宅、交通、収入の各ドメインで構成され、それぞれが複数の変数で構成されます。 ツールを複数回実行することで、各ディメンションを表すサブインデックスを構築できます。 これは解釈の可能性を広げることができ、使用する方法に応じてインデックスの結果が変わることもあります。
- 変数の選択方法。 ベスト プラクティスは、インデックスに必要な重要な情報の取得に十分な入力変数の数を確保しながら、その数を減らすことです。 入力変数の数が多いと、インデックスの解釈が難しくなる可能性があります。 さらに、収入の中央値と貧困など、複数の変数が同じドメインに関連する場合、このドメインの影響が得られたインデックスに過剰に表れる可能性があります。 この影響が意図的でない場合、これは意図しない重み付けとして知られています。
変数の重みの設定
各要素がインデックスに寄与するにあたり、その相対的な重要度を表すために、変数が重み付けされます。 デフォルトではすべての加重は 1 に設定され、各変数の加重は均等になります。 ただし、場合によっては、他の変数と比較した変数の相対的な寄与の違いを示すことが重要です。 変数の 1 つを重み 2 に変更し、他の変数を 1 のままにすることで、その変数が、最終的なインデックスへの寄与において他の変数の 2 倍重要であるとみなされる必要があることを示します。
合計が 1 になる重みを使用することもできます。 たとえば、3 つの変数が使用され、1 つの変数が他の 2 つよりも 2 倍重要であるとみなされる必要がある場合は、0.5、0.25、および 0.25 の重み値を使用できます。
変数が平均値によって結合される場合は、各変数にそれぞれの重みを乗算することで重みが適用されます。 重みが平均値によって結合される場合は、各変数をそれぞれの重みで累乗することで重みが適用されます。
重みは、結果として得られるインデックスに大きく影響します。 同じ重みを維持する場合も、変数を優先するように重みを変更する場合も、重みを使用すると解析に主観的な要素が加わります。 さらに、変数間の相関や分散の差により、意図せず重み付けを行っている場合があります。
変数の事前処理
適切なインデックスを作成するには、変数が互換性のある縮尺である必要があります。 そのために、さまざまな入力変数を共通の計測縮尺に統一する事前処理オプションをツールで使用できるので、変数を適切に組み合わせることができます。 また、変数を反転して、各変数の高い値の意味を相互に一致させることもできます。
変数の方向を反転する事前処理
各変数の低い値と高い値の意味を検討し、それらが相互に一致していることを確認します。 たとえば、社会的脆弱性インデックスでは、収入の中央値が低い場所ほど脆弱性が高くなりますが、保険に加入していない人の割合が低い場所では脆弱性が低くなります。これらの変数の方向は、インデックスの目的のコンテキストでは逆です。
変数の逆数は、各値に -1 を乗算し、変数の元の範囲間でフィールドをスケール処理して算出されます。
同じ縮尺を使用するよう変数を事前処理
このツールには、[変数のスケール方法と結合方法] パラメーターを使用して変数をスケール処理するための複数のオプションがあります。 [値の結合 (スケール処理済みの値の平均値)] および [複合的な差異 (スケール処理済みの値の幾何学的平均値)] オプションは、最小値と最大値を使用してスケール処理します。 [ランクの結合 (パーセンタイルの平均値)] オプションは、パーセンタイルを使用してスケール処理します。 [極値のハイライト表示 (90 番目のパーセンタイルを超える値の数)] オプションは、バイナリ値を使用してスケール処理します。 選択したオプションはすべての変数に適用され、その結果スケール処理された結果のフィールドが出力に提供されます。 次のオプションを利用できます。
[最小値-最大値] - 変数は、各変数の最小値と最大値を使用して 0 から 1 の間でスケール処理されます。 この方法は、入力変数の分布を保持し、解釈しやすい 0 から 1 の縮尺にスケール処理するので、最も単純です。
この方法は次の式を適用します。
この方法では、変数の分布が保持されるので、分布の偏りや外れ値の影響を受ける可能性があります。 たとえば、非常に高い値を持つ外れ値が 1 つある場合、その外れ値は 1 の値を受け取りますが、残りの値は類似しゼロに近い値になります。 前処理された変数はばらつきが小さくなったため、この変数が結果のインデックスに与える影響は小さくなる可能性があります。
この方法は、入力データの最小値と最大値にも依存するので、変数の最小値と最大値が時間ステップごとに変化する可能性がある場合、複数の期間にわたるインデックスの比較にはあまり適していません。
[パーセンタイル] - 変数は 0 ~ 1 のパーセンタイルに変換されます。 この方法は、各変数のランクが実際の値よりも重要な場合に役立ちます。 また、変数が一様分布に変換されるので、外れ値や傾斜分布に対しても堅牢です。
パーセンタイルにはさまざまな定義があります。 この方法は次の式を使用します。
ここで、R は等級ランク (同点の場合は最小ランク値を使用)、N は値の数、P は結果のパーセンタイルです。
パーセンタイルは、変数内の他の値に対する値の位置を示します。 たとえば、収入 50,000 ドルと収入 60,000 ドルの差はそれほど大きくないかもしれませんが、その間の値を持つフィーチャが多数あると、パーセンタイルの差は大きくなる可能性があります。
[閾値によるフラグ (バイナリ)] - 変数はバイナリ値 (0, 1) に変換され、値が指定された閾値を上回るか下回るかを示します。 この方法は、特定の値を強調することが重要であり、値のばらつきが問題ではない場合に便利です。
この方法は入力変数の外れ値の影響を受けませんが、各変数がバイナリ (0, 1) 形式に変換されるため、各入力変数の間隔レベル情報は失われます。
- [未処理] - 変数の元の値が使用されます。 この方法は、すべての変数が同じ縮尺にある場合のみ使用してください。 たとえば、すべての変数がパーセンテージや百万分率などの標準単位である場合、この方法を使用します。 この方法は、変数の標準化または座標変換がすでに行われている場合にも便利です。
変数の組み合わせ
変数が事前処理されて共通の縮尺に揃うと、変数が集約されて 1 つの値が作成されます。 [変数のスケール方法と結合方法] パラメーターの [値の結合 (スケール処理済みの値の平均値)] オプションは、平均値によって集約されます。 [スケール処理済みの値の複合 (スケール処理済みの値の幾何学的平均値)] は、幾何学的平均値によって集約されます。 [極値のハイライト表示 (90 番目のパーセンタイルを超える値の数)] は、合計値によって集約されます。
[合計値] と [平均値] は加算法です。 [幾何学的平均値] は乗算法です。
加算法
[合計値] と [平均値] を組み合わせた方法は、解釈が比較的簡単で、一般的にさまざまなインデックスで使用されます。 方法はほぼ同じです。縮尺が異なるだけで同じ形状の分布が得られ、結果のインデックス マップは同じように見えます。 値が異なるだけです。
これらの方法では、ある変数の高い値を別の変数の低い値で補正することができます。
乗算法
乗算法には、ある変数の高い値が別の変数の低い値を補正できないという利点があります。インデックス値を高くするには、複数の変数の値が高くなければなりません。
幾何学的平均値は乗算に似ています。 幾何学的平均を使用したインデックスは、分布が同じ形状で値のみが異なるので、乗算を使用して変数を結合したインデックスと同じマップになります。
インデックスの事後処理
変数が事前処理されて未処理のインデックスに結合されると、事後処理によってインデックスがより理解しやすくなる場合があります。
インデックスの反転
インデックスの目的を考慮し、高いインデックス値が意図どおりかどうかを評価します。 インデックスを反転すると、未処理のインデックスの高い値が最終的なインデックスでは低い値になり、逆も同様になります。
最小値と最大値を使用したインデックスのスケール処理
最小値と最大値を使用してインデックスをスケール処理すると、出力インデックスの範囲が変わります。 このオプションは、使用される事前処理や組み合わせ方法に関係なく、解釈が容易になる可能性があります。 たとえば、[最小値] の値が 0 で [最大値] の値が 100 を指定して、未処理のインデックスをこの範囲にスケール処理します。 このオプションは次の式を使用します。
ここで、x は元の値、min(x) はインデックスで検出された最小値、max(x) はインデックスで検出された最大値、a は指定された最小値、b は指定された最大値、x' はスケール処理された値です。
結果の解析
インデックス レイヤーには、オプションのスケール処理後または反転後のインデックス値の分布が表示されます。 このレイヤーは、インデックスの結果の評価に使用できる連続コロプレス マップを提供します。 マップを使用して、インデックスの分布と外れ値を維持しながら、インデックス値の上限と下限を評価できます。
このレイヤーには、結果を探索するために使用する以下のフィールドが含まれます。
- インデックス値間の相対的な位置 (ランク) を示すパーセンタイル フィールド。 このフィールドを使用し、実際のインデックスの差ではなく、ランクに基づいて位置が相互にどのように関連しているかを探索できます。
- インデックスを 5 つの等間隔クラスに分類したフィールド。
- インデックスを 5 つの分位クラスに分類したフィールド。
- インデックスを 6 つの標準偏差クラスに分類したフィールド。 このフィールドを使用し、各位置のインデックス値と平均インデックス値との関係を調べ、インデックス値が極端に高いまたは低い位置を特定します。
参考資料
さらに詳しい情報は、経済協力開発機構の「Handbook on Constructing Composite Indicators: Methodology and User Guide」をご参照ください。