アルパカ科全体を打ち負かした新しい Meta AI セルフアライメント手法は、手作業によるラベル付けデータをほとんど必要としません

巴比特_

2023-08-19 05:06:43

元のソース: Qubit

データに手動でラベルを付けることが緊急に必要ですか?

Mata の新しいメソッドは、わずかな量のシードデータを使用して、高品質の 命令追従 (命令追従) 言語モデルを構築します。

言い換えれば、大規模な言語モデルでは微調整のために人間がラベルを付けた大量の指示データが必要ですが、今回のモデルは Web コーパス内のラベルのないテキストから指示を自動的に推測できるようになりました。

そして、自分で生成した指導データを使って、自社制作・販売と同等の学習を行うことができます。

そして、この方法でトレーニングされたモデルは、Alpaca ベンチマークテストにおいて、オープンソースの Alpaca とその一連の派生モデルを上回りました。

LeCun氏は、この研究はモデルの自己整合性の点でセンセーショナルだったとツイートした:

ネチズンの文でそれを要約すると、次のようになります。

アルパカは自ら訓練を始めました。

この 2 つの文を要約すると次のようになります。

元々は命令>応答データセット（手動ラベル付けが必要）が必要でしたが、現在は応答>命令の「逆モデル」を単純にトレーニングするだけで済みます。任意のテキストを自由に指示データセットに変換できます。

別のネチズンは魂の拷問を行った。

これが超知性への道のように見えると思うのは私だけでしょうか?高品質の外部データを追加することなく、ますます賢くなる LLM を取得できれば、これは自己改善型のクローズドシステムになります。おそらく、信号を提供するために必要なのは強化学習システムだけで、残りは LLM 自身の反復で実行できます。

アルパカ: データを使用してクジラを訓練しました

このスケーラブルな新しい手法は 命令逆変換 と呼ばれ、Mata 氏はこの手法でトレーニングされたモデルを Humpback (ザトウクジラ、ザトウクジラとも呼ばれる) と名付けました。

（研究者らは、ラクダの背中との関係からこの名前が付けられたと述べており、クジラのサイズが大きいほど模型のスケールも大きくなる）

ザトウクジラをトレーニングするステップは、少量のラベル付きデータから開始し、言語モデルを使用してラベルのないテキストに対応する命令を生成し、候補トレーニングデータを形成するだけです。次に、モデルを使用してデータ品質を評価し、再トレーニング用の高品質データを選択します。その後、モデルをさらに改善するためにこのプロセスが繰り返されます。

上図の通り、用意する必要がある「材料」は以下の通りです。

ベースモデル - LLaMa
Open Assistant データセットの 3200 例で構成される シードデータ (シードデータ)。各例には命令と対応する出力が含まれます。
ClueWeb コーパスから、重複排除、フィルタリング、および潜在的に低品質の段落が除去された 502K のラベルなしテキスト (ラベルなしデータ) が削除されました。

ラベル付きの例とコーパスソースが利用可能になり、次のステップは 自己拡張 ステージです。

研究者らは、シードデータを使用して基本モデル LLaMa を微調整し、命令予測モデル を取得しました。次に、この命令予測モデルを使用して、ラベルのないテキストの候補命令を推測します。次に、候補の命令とテキスト (命令と出力のペア) を候補 強化トレーニングデータ として結合します。これは、上図の拡張データ A です。

ただし、ラベルなしテキスト自体の品質にばらつきがあり、生成される命令候補にもノイズが含まれるため、A のデータを直接学習に使用することはできません。

したがって、モデルを使用してデータ品質を予測し、トレーニング用に高品質のサンプルを選択するという、重要な 自己キュレート ステップが必要です。

具体的には、研究者らはシードデータのみを微調整した指示モデルを使用して候補データをスコアリングしました。得点は5点満点で、得点の高いものが次回の候補データとして選出されます。

モデルの命令予測の品質を向上させるために、研究者は候補データを使用してモデルを反復トレーニングしました。反復トレーニングでは、データの品質はますます向上します。

さらに、シードデータと拡張データを組み合わせてモデルを微調整する場合、これら 2 つのデータソースを区別するために異なるシステムヒントタグも使用します。

※シードデータ活用ヒント「AIアシスタント風に答える」。

「Web 検索から得た知識を使って回答してください」というプロンプトを使用してデータをフィルタリングします。

2 回の反復を経て、オーブンから取り出したばかりの最終モデルが完成します。

2 種類のトレーニングデータを結合します: 1+1>2

研究者らの分析結果を見てみましょう。

** **###### △ シードデータと拡張データの命令の多様性。内側の円は共通語根動詞、外側の円はそれに対応する普通名詞です。

上の図は、8% のシードデータと 13% の拡張データ統計を含む命令の多様性を示しています。

強化されたデータの多様性はロングテール部分でより強力であり、強化されたデータは既存の人為的にラベル付けされたシードデータを補完し、シードデータに現れないタイプを補完することが直感的にわかります。

次に、研究者らは 3 つの拡張データセットを比較しました。拡張データ、すべて (自己管理なし)、

、データ量は少なくても高品質

実験では、データセットは小さくなりますが、トレーニングデータの品質が向上することでモデルのパフォーマンスも向上することが観察されました。

** **###### △ 自己フィルタリングを使用して、さまざまなデータサイズと品質の自己拡張データを評価します。 y 軸は、所定のデータサイズと品質で LLaMa 7B を微調整した場合の text-davinci-003 による勝率を表します。

(text-davinci-003、強化学習を使用して人間が作成した命令データ、出力、モデル応答、および人間の好みに基づいて微調整された GPT-3 ベースの命令追従モデル)

最後に、Alpaca リーダーボードの結果を見てみましょう。 Humpback は、抽出されたデータに依存せずに他の方法を大幅に上回り、独自のモデルとの差を縮めます。

非蒸留 (非蒸留) は、いかなる形式の監視としても外部モデルに依存しないトレーニングモデルを指します。蒸留 (蒸留) は、トレーニングプロセス中に、より強力な外部モデルを導入することを指します。外部モデルから抽出したデータを使用する; 独自とは、独自のデータと技術を使用してトレーニングされたモデルを指します。

** **###### △ text-davinci-003 の勝率との比較