This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
大型モデルもオープンソース化アリ!市販のTongyi Qianwen 7Bに基づいて、画像を読み取り、オブジェクトを認識できます。
出典: 量子ビット
Tongyi Qianwen-7B (Qwen-7B) に続き、Alibaba Cloud は 大規模ビジュアル言語モデル Qwen-VL をリリースしました。これはオンラインになるとすぐに直接オープンソース化されます。
たとえば、🌰 質問と回答の形式で Arnia の写真を入力すると、Qwen-VL-Chat は写真の内容を要約するだけでなく、写真内の Arnia の位置を特定することもできます。
中国のオープンドメインポジショニングをサポートする初の一般モデル
Qwen-VLシリーズモデル全体の特徴を見てみましょう。
シナリオに関しては、Qwen-VL は知識質問応答、画像質問応答、文書質問応答、きめ細かい視覚的位置決めなどのシナリオで使用できます。
例えば、中国語が理解できない外国人の友人が病院に診察に行き、頭と二つの大きな地図を前にして、該当する科への行き方が分からない場合、地図を直接投げることができます。 Qwen-VL に質問し、画像情報を翻訳者として追跡させます。
視覚的な位置決め能力の点では、絵が非常に複雑でキャラクターが多い場合でも、Qwen-VL は要件に応じてハルクとスパイダーマンを正確に見つけることができます。
研究者らは、マルチモーダル タスクの 4 つのカテゴリ (ゼロショット キャプション/VQA/DocVQA/グラウンディング) における標準的な英語評価で Qwen-VL をテストしました。
さらに、研究者らは GPT-4 スコアリング メカニズムに基づいてテスト セット TouchStone を構築しました。
Qwen-VL に興味がある場合は、Modak Community と Huggingface にデモがあり、直接試すことができます。リンクは記事の最後にあります~
Qwen-VLは研究者や開発者の二次開発をサポートしており、商用利用も可能ですが、商用利用の場合は事前にアンケート申請が必要となりますので注意してください。
プロジェクトリンク:
-チャット
用紙のアドレス: