Appleが開発 スマホに特化したマルチモーダルLLM『Ferret UI』

「スマホ画面上のオブジェクトを理解するの...
Read More

時系列分析におけるLLMの可能性について

Microsoftなどの研究者らは、LL...
Read More

ChatGPTと実際に交わされた会話の世界最大規模データセット「WildChat」

コーネル大学などの研究者らは、ChatG...
Read More

LLMは制御工学でどれほど能力があるか Claude 3、GPT-4、Gemini Ultraでの実験結果

イリノイ大学など複数機関の研究グループが...
Read More

画像認識

Appleが開発 スマホに特化したマルチモーダルLLM『Ferret UI』
マルチモーダルLLMに心の目を与える『Visualization-of-Thought』プロンプティングが空間推論タスク性能を向上させる
Appleが開発、スマホのスクリーンを理解してユーザーと対話できる『ReALM』端末上で動く軽量モデル
GPT-4Vで画像分析する際、画像に「ドットマトリックス」を重ねるだけで認識精度が大きく向上
マルチモーダルLLMの技術や開発トレンド、26種類のモデル例を網羅的にまとめた報告
JPモルガンの研究者らは、企業のドキュメントをLLMで読み込むモデル『DocLLM』を発表しました。
視覚・テキスト・音声そして行動データを処理するマルチモーダルLLM「Unified-IO 2」を開発したと報告されています。
Gemini Pro 対 GPT-4V、画像認識能力でどちらが優秀なのか

業界/カテゴリー

PAGE TOP