GPT-4VなどマルチモーダルLLMの制限や応用を論文調査しました

こんにちは、AI製品開発グループ の太田です。

この記事では画像やテキストのマルチモーダルな大規模言語モデル(LLM:Large Language Model) についてご紹介します。

GPT-4VがOpenAIから発表されて2ヶ月が経ち、Azureからも動画のインプットに対応したGPT-4Vが提供されることが発表されました。 今後、さらにLLMが活発になると思います。

そこで、今回はこれからGPT-4Vで様々な検証を進めるにあたって、そもそもどういった活用方法があり、課題は何かを理解するための資料を作成しました。

どういった取り組みがあるのかもコンパクトにまとめていますので、GPT-4Vがビジネスの観点でどういったユースケースに活用できそうか議論する際の参考にしていただけると幸いです。

speakerdeck.com

また、同じくAITC)若本がMicrosoft Researchが公開したGPT-4Vに関する論文を簡潔にまとめています。私の資料を補足する内容になっていますので、こちらも閲覧していただければと思います。

tech.isid.co.jp

こちらの資料はAITCで週一で開催しているTechTalkと呼ばれる勉強会の中で発表したものになります。

勉強会では、過去のプロジェクトや今後の提案活動に向けて、どういったことがGPT-4Vの応用先として考えられるか議論されました。また、動画や画像をどう管理するのか、アプリケーション化への懸念点なども議論もあり、有意義な勉強会になりました。

まとめ

マルチモーダルLLMの最近の動向について、応用事例観点で紹介させていただきました。 今後もAITCはLLMに関して、積極的に製品開発・技術支援をしていきます。

ご相談を希望される方は、お気軽にこちらのお問い合わせフォームからご連絡ください。

AITCお問い合わせフォーム

筆者
AI製品開発グループ
太田