GoogleのMachine Learningの学習サイト和訳

AIの勉強として、GoogleのMachine Learningのサイトを見て勉強しているのですが、全部英語なので理解がてら翻訳で書いていきます。

機械学習とはなにか？

機会学習のシステムは、入力値をどうやって混ぜ合わせて、まだ見たことがないデータを予測することを学習します。

用語集

Label：ラベル
ラベルはyを予測するにあたっての真の事象です。
基本線形回帰における変数yです。

Features:特徴
特徴や、データを描画する入力値です。
基本線形回帰における、{x1、x2・・・・xn}変数です。

Example：例
xで、データの実体です。

Labeled example：ラベル付けされた例
特徴で(x,y)です。モデルを学習するのに使います。

Unlabelede example:ラベル付けされていない例
特徴で(x,?)です。新しいデータを予測するのに使います。

Model:モデル
モデルはからy’を予測するためのマップです。
学習した内部のパラメータによって定義されます。

モデルは特徴とラベルとの間の関係を定義します。
例として、スパムフィルターモデルはス確かな特徴をパムと関連付けます。

モデルの２つのフェーズをハイライトしましょう。

トレーニング(Traigning)：
トレーニングはモデルを構築まあは学習することを意味します。
それは、ラベル付けされた例をモデルに見せることで、特徴とラベルの間の関係を徐々に学習することを可能にします。

推論(Inference)：
推論は、訓練したモデルをラベル付けされていない例に適用することを意味します。
それは、学習されたモデルを使って有用な予測y’を作成します。
例として、
推論の間に、ラベル付けされていない例のための住宅価格の中央値を予測することができます。

回帰(regression) vs 分類(classification)

回帰モデルは連続した値を予測します。
例えば、回帰モデルは以下のような回答を予測します。

・　カリフォルニアの住宅価格は？
・　ユーザの広告のクリック率の予測は？

分類モデルは、離散的な値を予測します。
例として、分類モデルは以下のような問題の回答の予測を作成します。

・　電子メールメッセージはスパムかそうでないか
・　この画像は犬か、猫か、ハムスターか

学習の監修

以下のオプションを探索してみましょう。

電子メールがスパムかそうでないかを予測するために、監修された機械学習のモデルを開発するのを監修します。
以下のどの文章が正解でしょうか？

・　いくつかの例に適用したラベルはあてにならない。

正解
その通りです。どうやってデータの信頼性をチェックするかは重要です。このデータセットのラベルは電子メールのユーザから来ていて、電子メールをスパムとマークしています。
多くのユーザが全ての疑わしい電子メールをスパムとマークしているわけではなく、私達は電子メールがスパムであるかどうかを知るのに苦労します。
それに加えて、スパマーは意図的に間違ったラベルを提供することで私達のモデルを汚染します。

・　ラベル付けされていない例をモデルを訓練するのに使用します。

不正解
私達はラベル付された例をモデルを学習するのに使用します。
私達は訓電されたモデルを、ラベル付けされていない例がスパムかそうでないかを判定するのに対して使用します。

・　サブジェクトのヘッダーに含まれる語句はよいラベルになります

不正解
サブジェクトのヘッダに含まれる語句は素晴らしい特徴ですが、よいラベルではありません。

・　スパムにもスパムでないのにもマークされていない電子メールはラベル付けされていない例である。

正解
なぜなら私達のラベルはスパムかそうでないかの値を含んでいて、全てのスパムかそうでないかをマークされていない電子メールはラベル付されていない例です。

特徴とラベル

以下の選択を調べてみましょう。

オンラインの靴店は、ユーザに対して最適化した靴をおすすめするように監督した機械学習モデルを想定としています。
それで、そのモデルは正しいペアの靴をマーティーと、別の靴のペアをジャネットに対しておすすめします。
以下のどの選択肢が正しいでしょうか。

・　靴の美しさは使える特徴です。

間違いです。
良い特徴は、具体的で定量化できるものです。美しさは、よい特徴となるにはかなり漠然としたコンセプトです。
美しさはおそらく正しく具体的な特徴であるスタイルや色を混ぜ合わせたものです。
スタイルや色は美しさと比べるとよい特徴といえるでしょう。

・　靴のサイズは使える特徴です。

正解です。
靴のサイズは定量的なシグナルで、それはユーザがおすすめされた靴を気に入るかどうかに対して強い影響があります。
例えば、マーティーがサイズ9の靴を着ている場合、モデルは7サイズの靴をおすすめします。

・　ユーザの好みの靴は使えるラベルです。

違います。
好みは観測できず、定量化出来ないメトリクスです。
私達ができることは、観測できる好みの代理的なメトリクスを探すことです。

・　ユーザがクリックした靴の説明は有用なラベルです。

正解です。
ユーザは多分彼らが好みの靴に対してより多くを知りたいと望んでいます。
ユーザのクリックは、白髪って、観測でき、定量化できるメトリクスで、よいトレーニングのためのラベルになりえます。