★AIDB会員限定Discordを開設いたしました!
会員登録/ログインの上、マイページをご覧ください。
---
---
結論としては、GPT-4で訓練したハイレベルな画像キャプショナーが「人間が自然に使用する言葉」で説明文を理解できるのがポイントとのことです。
@ James Betker et al., “Improving Image Generation with Better Captions”

従来の画像生成AIは、テキストに含まれるユーザーの指示を読み取るのが難しいのが大きな課題でした。
画像生成AIに上手く意図を伝えるためのプロンプト技術がユーザー間でシェアされてきましたが、複雑な体系になっていました。
そこでOpenAIなどの研究者らは、高度な画像キャプションに特化した訓練データでモデルの学習を行い、プロンプトに従う能力を向上させました。その結果生まれたのがDALL-E 3です。
※本稿は論文の簡単な紹介記事です。
DALL-E 3のフレームワーク
フレームワークは以下のとおりです。
■サポートのお願い
AIDBを便利だと思っていただける方に、任意の金額でサポートしていただけますと幸いです。
オリジナル記事の新着はSNSから