spaCy

Amazon SageMaker Feature Storeに特徴量を保存する

Daisuke Asada

機械学習には"Garbage in, garbage out.“という言葉があります。トレーニングデータが悪ければ、そこから作成されたモデルも悪くなる、ということですが、機械学習にとって学習データというものは重要な要素です。今回はspaCyによって出力されたテキストのベクトルデータを、Feature Storeに保存し、Amazon SageMakerのプラットフォームで管理できるようにしたいと思います。

Amazon SageMaker Processing & spaCyで、段落のテキストを1行1文のデータに前処理する

Daisuke Asada

Word2Vecなどのアルゴリズムで単語ベクトル用のモデルを学習する際などに、テキストデータを1行1文のテキストデータに変換したいケースがあります。そこで、段落単位になっているデータからspaCyを使って1行1文のデータに変換します。その際に実行環境としてAmazon SageMaker Processingを使います。