データの価値を測る予測困難度とは？ vol.1

最新論文を再現結果付きで紹介します。

概要

本記事では、データセットの各サンプルの予測困難度を定量化する技術を紹介します。具体的には、予測深度（Prediction Depth）[1] を紹介します。この予測深度はNeurIPS2021に採択されているGoogle社の論文“Deep Learning Through the Lens of Example Difficulty”で紹介されている手法になります。

問題の背景

近年、データセットの各データの価値に注目が集まっています。最近のAutoML機能含め、データの価値を考慮せずに学習をおこなうことが多いです。データの価値を区別せずに学習をおこなうと精度改善が頭打ちになる場合があります。

このデータの価値については様々な考え方があります。例えば、サンプルレベルに複雑性、データセットレベルでは多様性という概念[2] があります。

複雑性：NLPにおける長文や、画像認識における複数のオブジェクトが写る画像など多様性：あるクラス中の出現頻度が低いサンプル、別クラスと間違いそうなサンプル

データの価値の貢献

データの価値を定量化することで、データの価値が高いものからアノテーションをする優先順位付けに役立ちます。また、データの価値が低い画像を取り除く（学習の影響を小さくする）ことで、精度が改善する可能性があります。

本題

本コラムではデータセットを分析し、画像の予測困難度の定量化手法を紹介します。また、紹介する手法の再現実装をおこないました。この手法が発展することで、データ分析、予測精度改善がより発展することを期待します。

予測困難度とは

予測困難度とは、予測する難しさを指します。今回紹介する手法はどちらも、学習した深層モデルとデータセットが与えられた時、どの入力の予測が難しいのかをランキングします。

予測困難度の活用方法

３つの場面でそれぞれ活用できます。

1. データセットの探索

そもそも画像データセットにはテーブルデータのような属性が含まれていないため、画像データセットの探索は、可視化する軸が少なく難しいです。ユーザは、予測困難度から難易度別にデータセットの全体的な分布を理解し、出現頻度の低いサンプルなど整理できます。

2. データの分析

他クラスと間違えやすい画像やノイジーな画像が調べられます。モデルのバイアス傾向が分かります。

3. 学習方法の改善

カリキュラム学習で予測困難度の低いサンプルから学習する戦略に活用することができます。

予測困難度の定量化手法、予測深度とは

冒頭で紹介したように予測困難度は予測深度から定量化することが可能です。Google社が提案した予測深度 prediction depth (PD)[1] は、各層の特徴空間でk-近傍分類をおこない、最終層の予測結果と各層の予測結果の一貫性の度合いを深度として表しています。この指標の背景には、多層ニューラルネットワークの学習は簡単なサンプルから１層目で特徴が分離され、難しいサンプルほど、最終層で分離される特性をもとに作られた指標です。具体的には、学習済みモデルに対して、各層の特徴量空間でk-近傍分類をおこない、予測ラベルを求めます。最終層の予測ラベル結果と各層が一貫しているほど、予測深度は小さく、一貫していないほど予測深度が大きくなります。

実装した所感としては、モデルの層が深く、データセットのサイズが大きいほど、予測深度を算出するのに計算時間がかかりました。

再現実装の実験設定 CIFAR-10のデータセット[6]を用いて、ResNet18を学習させました。予測深度の計算には全層を使わず、入力層、2層目、4層目、6層目、8層目、最終層を用いました。

予測困難度と不確実性の関係

予測困難度が高い、つまり予測深度が大きいサンプルは分類が難しく、精度が悪いことが期待されます。そこで、予測困難度が高いと確信度は低く、エントロピーが高くなることを確認しました。

図の横軸は予測深度を示し、縦軸は確信度とエントロピーを指します。予測深度が深くなるほど、確信度の低いサンプルが含まれていることがわかります。

予測困難度を活用したデータセットの探索

予測困難度を全体的に探索することで、データセットの全体的な分布が見えてきます。

予測深度指標と画像データとの関係

予測深度が小さいと背景が黒緑色で鳥の色味も写る角度も似たような画像が多かったです。予測深度が大きくなるにつれ、背景色がカラフルになり、鳥の写り方にも多様性が増していきました。 CIFAR-10のテストデータに含まれる全クラスの予測深度を図の上部に示しました。難しい画像と易しい画像が少なく、ほどほどに複雑な画像が多く含まれていることがわかります。