機械学習

Amazon SageMaker（以下SaSageMaker）の組み込みアルゴリズムであるBlazingTextで学習したモデルを使って、推論エンドポイントによる推論を行います。その際にインスタンスを立ち上げるエンドポイントタイプとともに、サーバレスエンドポイントタイプでも実行します。

Amazon SageMaker(以下SageMaker)には、たくさんの組み込みアルゴリズムがあります。その中のテキスト処理で使われるアルゴリズムの一つにBlazingTextというものがあります。今回はBlazingTextを使ってWordベクトルを得るためのモデルを学習させます。

機械学習には"Garbage in, garbage out.“という言葉があります。トレーニングデータが悪ければ、そこから作成されたモデルも悪くなる、ということですが、機械学習にとって学習データというものは重要な要素です。今回はspaCyによって出力されたテキストのベクトルデータを、Feature Storeに保存し、Amazon SageMakerのプラットフォームで管理できるようにしたいと思います。

Word2Vecなどのアルゴリズムで単語ベクトル用のモデルを学習する際などに、テキストデータを1行1文のテキストデータに変換したいケースがあります。そこで、段落単位になっているデータからspaCyを使って1行1文のデータに変換します。その際に実行環境としてAmazon SageMaker Processingを使います。

機械学習にとって、前処理は学習処理と並んで重要な要素です。現実世界で発生するデータは機械学習でそのまま使えるデータということはほとんどありません。なので、前処理をして学習に使用できるようにする必要があります。今回はAWSが提供している、Amazon SageMaker Processing(以下Processing)を使ってデータの前処理をする方法について書きます。

Amazon SageMaker BlazingText（推論編）

Amazon SageMaker BlazingText（学習編）

Amazon SageMaker Feature Storeに特徴量を保存する

Amazon SageMaker Processing & spaCyで、段落のテキストを1行1文のデータに前処理する

Amazon SageMaker Processingで前処理を行う