ガイド付きデータセット選択

ASCMO-DYNAMICには、データセットのカテゴリ分け(トレーニングデータセット、検証データセット、テストデータセットのいずれのデータセットとして使用するか)を推奨する機能があります。一般的にこの作業は、データセットの数が多いと非常に困難なものとなります。Guided Dataset Selection(ガイド付きデータセット選択)の機能は、この振り分け作業を補助し、優れたモデル(過剰適合のない優れた汎化性を持つモデル)が作成されるようにします。ここでは「ハウスドルフ距離」(Hausdorff distance)に基づく各データセットの順序付けが行われます。

「ハウスドルフ距離」は、あるデータセットの全データポイントから他の全データセットのデータポイントまでの最大ユークリッド距離です。

ガイダンスに従ってデータセット選択を行うには、メインウィンドウから Data Guided Dataset Selection を選択するか、"Manage Datasets" ウィンドウ(Data Manage Datasets)で Guided Dataset Selection をクリックします。

この処理においては、最初にルックバック長が尋ねられます。距離を計算する際に、ルックバック長までの一連のデータポイントを用いて勾配が考慮されます。

次に、各データセットが重要度(正規化ハウスドルフ距離)に従ってソートされます。第1のソートステップにおいてユーザーは、いくつのデータセットをトレーニングデータセットとして選択するかを決定することができます。距離0のデータセットは、モデルトレーニングに新しい情報を与えません。過剰適合を防ぐため、新しい情報を含むデータセットのうちのいくつかは、検証データセットとして残しておく必要があります。第2のソートステップにおいては、残りのデータセットがもう一度ソートされ、第1ステップと同様に、ここでは検証データセットが表示されます。それ以外の残りのデータセットはすべてテストデータセットになります。

ソートが終了すると、プロジェクト内のデータセットのカテゴリが新たに設定され、モデルトレーニングを新たに実行する必要が生じます。

参照

ガイド付きデータセット選択を行う

Guided Dataset Selection - Settings

Guided Dataset Selection

データセットを管理する

Manage Datasets