大型モデルもオープンソース化アリ！市販のTongyi Qianwen 7Bに基づいて、画像を読み取り、オブジェクトを認識できます。

2023-08-26 08:03:47

出典: 量子ビット

アリのオープンソース大規模モデルと新しいモデル~

Tongyi Qianwen-7B (Qwen-7B) に続き、Alibaba Cloud は 大規模ビジュアル言語モデル Qwen-VL をリリースしました。これはオンラインになるとすぐに直接オープンソース化されます。

具体的には、Qwen-VL は、Tongyi Qianwen-7B をベースにしたマルチモーダル大規模モデルで、画像、テキスト、検出フレームなどの複数の入力をサポートし、テキストに加えて検出フレームの出力もサポートします。

たとえば、🌰 質問と回答の形式で Arnia の写真を入力すると、Qwen-VL-Chat は写真の内容を要約するだけでなく、写真内の Arnia の位置を特定することもできます。

Qwen-VLは、テスト課題において「六角戦士」の強さを実証し、4種類のマルチモーダル課題（ゼロショットキャプション/VQA/DocVQA/グラウンディング）の標準英語評価においてSOTAを達成しました。

オープンソースのニュースが出るとすぐに、大きな注目を集めました。

具体的なパフォーマンスを見てみましょう〜

中国のオープンドメインポジショニングをサポートする初の一般モデル

Qwen-VLシリーズモデル全体の特徴を見てみましょう。

多言語ダイアログ: 多言語ダイアログをサポートし、画像内の中国語と英語両方の長文認識をエンドツーエンドでサポートします。 *複数画像インターリーブダイアログ：複数画像の入力と比較をサポート、画像の質問と回答の指定、複数画像の文献作成など。
中国語のオープンドメイン測位をサポートする初の汎用モデル: 検出フレームは中国語のオープンドメイン言語表現を通じてマークされます。つまり、画面内でターゲットオブジェクトを正確に見つけることができます。
きめ細かい認識と理解: 他のオープンソース LVLM (大規模視覚言語モデル) で使用される 224 解像度と比較して、Qwen-VL は初のオープンソース 448 解像度 LVLM モデルです。解像度が高くなると、きめ細かいテキスト認識、文書の質問応答、および検出ボックスの注釈が向上します。

シナリオに関しては、Qwen-VL は知識質問応答、画像質問応答、文書質問応答、きめ細かい視覚的位置決めなどのシナリオで使用できます。

例えば、中国語が理解できない外国人の友人が病院に診察に行き、頭と二つの大きな地図を前にして、該当する科への行き方が分からない場合、地図を直接投げることができます。 Qwen-VL に質問し、画像情報を翻訳者として追跡させます。

複数画像の入力と比較をテストしてみましょう。

彼はアルニアを認識しませんでしたが、彼の感情的な判断は確かに非常に正確でした（手動の犬の頭）。

視覚的な位置決め能力の点では、絵が非常に複雑でキャラクターが多い場合でも、Qwen-VL は要件に応じてハルクとスパイダーマンを正確に見つけることができます。

技術的な詳細に関しては、Qwen-VL はベース言語モデルとして Qwen-7B を使用し、モデルアーキテクチャにビジュアルエンコーダー ViT を導入し、位置認識ビジュアル言語アダプターを介して 2 つを接続するため、モデルはビジュアル信号入力をサポートします。。

具体的なトレーニングプロセスは 3 つのステップに分かれています。

事前トレーニング: ビジュアルエンコーダーとビジュアル言語アダプターのみを最適化し、言語モデルをフリーズします。大規模な画像とテキストのペアデータを使用する場合、入力画像の解像度は 224x224 です。
マルチタスク事前トレーニング: マルチタスク共同事前トレーニング用に、VQA、テキスト VQA、リファレンス理解などの高解像度 (448x448) マルチタスク視覚言語データを導入します。
監視付き微調整: ビジュアルエンコーダーをフリーズし、言語モデルとアダプターを最適化します。プロンプト調整にダイアログインタラクションデータを使用して、インタラクティブ機能を備えた最終的な Qwen-VL-Chat モデルを取得します。

研究者らは、マルチモーダルタスクの 4 つのカテゴリ (ゼロショットキャプション/VQA/DocVQA/グラウンディング) における標準的な英語評価で Qwen-VL をテストしました。

結果は、Qwen-VL が同じサイズのオープンソース LVLM よりも最良の結果を達成していることを示しています。