ChatGPTに「画像処理能力」が備わる マイクロソフトの研究グループが開発

   
↓はてなブックマークで応援お願いします!
このエントリーをはてなブックマークに追加

現行のChatGPTは画像の入出力に対応していませんが、新システム”Visual ChatGPT”によってユーザーはテキストだけでなく画像を通してChatGPTに質問したりタスクを与えることができるようになります。

マイクロソフトの研究グループが同システムの開発を下記のように報告しています。

目次

人とAIが画像を介して対話する未来

OpenAIによる大規模言語モデル搭載チャットボットChatGPTは、複数の分野やドメインにわたって卓越した会話能力や推論力を持つことが注目されています。しかし、ChatGPTは言語によって訓練され、画像を処理することや生成することは現在(2023年3月9日)できません。一方、Vision TransformerやStable DiffusionなどのVisual Foundation Models(ビジュアル基盤モデル)は、重要な視覚理解や生成能力を持っています。ただし、1ラウンドで入力・出力の特定のタスクを完結するのが通常の機能です。

この課題を解決するため、マイクロソフトの研究グループはVisual ChatGPTというシステムを構築しました。
Visual ChatGPTには、異なるVisual Foundation Modelsが組み合わされており、ユーザーがChatGPTと画像を通して対話する世界を実現します。Visual ChatGPTの特徴は以下の通りです。

1)言語だけでなく画像も送信/受信できる。

2)画像を使用した複雑な質問やタスク命令を多数のステップで可能。

3)フィードバックや修正のリクエストも扱う。

研究グループは、Visual ChatGPTの論文とシステムを公開しています(記事下部に記載)。

Visual ChatGPTの強み

Visual ChatGPTは、言語フォーマット以外でChatGPTとやり取りできるオープンシステムです。今回のプロジェクトでは、Visual Foundation Modelsを使用して、さまざまなタスクをステップバイステップで解決できるように、慎重な設計が行われています。
下記画像でわかるように、実験によって、Visual ChatGPTが多様なタスクに対して優れたポテンシャルを誇っていることが確認されています。

デモの様子。ユーザーが例示したイラストをもとに、精細な絵を描き、指示に従って編集(左)。絵の中にいる動物を犬から猫に変換するなどのタスクも行う(右)。

一方、Visual ChatGPTには課題が残っています。

続きを読むには無料会員登録が必要です。


※ログイン/初回登録後、下記ボタンを押してください。

    記事をご覧いただきありがとうございます。

    ・サイトや記事へのフィードバック
    ・文献調査のご依頼
    ・広告配信のご依頼
    ・AI人材の雇用相談
    ・AI開発のご相談

    など、何かありましたら、ご連絡ください。

    業界/カテゴリー

    PAGE TOP