マルチモーダル RAG 入門《図表・画像を含む文書を扱う RAG の基礎からAgentic RAG・VQA 型 RAG まで》【提携セミナー】

マルチモーダル RAG 入門《図表・画像を含む文書を扱う RAG の基礎からAgentic RAG・VQA 型 RAG まで》【提携セミナー】

開催日時 2026/7/16 (木) 10:30-16:30 *途中、お昼休みや小休憩を挟みます。
担当講師

新納 浩幸 氏

開催場所

【会場受講】[東京・大井町]きゅりあん 4階研修室

定員 -
受講費 50,600円(税込(消費税10%)、資料付)

 

マルチモーダル RAG 入門

 

《図表・画像を含む文書を扱う RAG の基礎からAgentic RAG・VQA 型 RAG まで》

 

【提携セミナー】

主催:株式会社情報機構

 


 

★技術文書や文献を対象とする上でネックとなる、図表や画像・グラフ等の重要情報を反映させることができるマルチモーダルRAGの実践法について、RAGの基本および実装・構築方法から整理し解説します。

 

セミナーポイント

生成 AI の実務応用が広がる中で、外部文書を参照しながら回答を生成する RAG(Retrieval-Augmented Generation)は中核技術として注目されています。しかし、従来の RAG の多くはテキスト中心であり、実際の業務文書に多く含まれる図表、グラフ、写真、スキャン画像などを十分に扱えないという課題がありました。技術文書、論文、マニュアル、医療文書などでは、むしろ図や表に重要な情報が含まれていることも多く、こうした文書を適切に扱うにはマルチモーダル RAG の理解が不可欠です。

 

本セミナーでは、まず通常のテキストベースの RAG の基本を整理した上で、画像のテキスト化、テキストと画像の同一ベクトル空間への埋め込み、ColPali を用いたページ画像検索、さらに LangGraph を利用した MMA-RAG まで、マルチモーダル RAG の主要な考え方と実装方法を体系的に解説します。実際に動作するコード例を通して、現在の技術動向と実装上の勘所を理解できる内容です。

 

◆ 受講後、習得できること

  • テキストベース RAG の基礎知識と基本的な実装方法
  • マルチモーダル RAG の代表的なアプローチとその違い
  • 画像を含む PDF 文書を対象とした RAG システム構築の進め方
  • ColPali や VLM を利用した最新のマルチモーダル検索・回答生成の考え方
  • LangGraph を用いた MMA-RAG の基礎的な実装イメージ

 

◆ 受講対象

  • RAG の基礎を理解した上で、マルチモーダル RAG へ発展させたい方
  • 図表や画像を含む PDF 文書を対象とした検索・QA システムを構築したい方
  • 社内文書、技術文書、論文、医療文書などを対象とした生成 AI 活用を検討している方
  • ColPali や VLM を用いた最新の文書検索技術を知りたい方
  • LangGraph を用いた Agentic RAG や MMA-RAG に関心のある方

 

担当講師

茨城大学 工学部 情報工学科 教授  新納 浩幸 氏

 

※希望者は講師との名刺交換が可能です。

 

【ご略歴】
1985年 東京工業大学理学部情報科学科卒業。
1987年 同大学大学院理工学研究科情報科学専攻修士課程修了。
同年 富士ゼロックス、翌年松下電器を経て、1993年茨城大学工学部助手。
2015年 同学部教授。現在に至る。

【ご専門】
自然言語処理、機械学習、統計学

【主な著書】
『 LLMのファインチューニングとRAG 』
オーム社 2024年5月22日 (ISBN: 427423195X)

 

セミナープログラム(予定)

(1) RAG の全体像
RAG は、大規模言語モデル(LLM)に外部知識を組み合わせて応答を生成する手法です。本講演の導入として、RAG の基本的な考え方と、なぜ現在これが重要なのかを解説します。

 

(1-1) RAG が必要とされる背景
(1-2) 検索と生成の役割分担
(1-3) テキストベース RAG からマルチモーダル RAG への流れ

 

(2) テキストベースの RAG
まずは最も基本となるテキストベースの RAG を一から実装し、RAG システムの標準的な構成を理解します。

 

(2-1) データベースの元になるテキストの準備
(2-2) チャンクの切り出し
(2-3) チャンクのベクトル化
(2-4) FAISS によるインデックスの作成
(2-5) 検索器の作成
(2-6) プロンプトの作成
(2-7) LLM による回答生成
(2-8) 全体の RAG システムの実装

 

(3) Responses API の file search による RAG
近年は商用 LLM の API を利用することで、比較的容易に実用的な RAG を実現できます。ここでは OpenAI の Responses API の file search を利用した RAG の構築法を解説します。

 

(3-1) file search によるデータベースの構築
(3-2) file search を用いた回答生成
(3-3) file search をマルチモーダル RAG へ拡張する際の考え方

 

(4) マルチモーダル RAG とは何か
実際の文書には、図、表、グラフ、写真などが多く含まれます。こうした非テキスト情報を扱うためのマルチモーダル RAG の考え方と、その必要性を整理します。

 

(4-1) テキストだけでは不十分な理由
(4-2) マルチモーダル文書を扱う際の基本課題
(4-3) 標準的なマルチモーダル RAG の代表的アプローチ

 

(5) PDF 文書から画像を抽出する処理
マルチモーダル RAG を実現するには、まず PDF 文書内のテキスト、図、表、ページ画像を適切に取り出す必要があります。ここではその前処理を解説します。

 

(5-1) PDF 解析パイプラインの設定
(5-2) PDF 文書から Docling 文書への変換
(5-3) ページごとの出力ディレクトリとページ画像の生成
(5-4) 文書要素(テキスト・図・表)の走査とページへの振り分け
(5-5) 全ページ情報の保存と実行例

 

(6) 画像のテキスト化によるマルチモーダル RAG
標準的アプローチは、画像を説明文へ変換し、そのテキストを通常の RAG に組み込む方法です。比較的理解しやすく実装しやすい方法として解説します。

 

(6-1) 画像のテキスト化のプロンプト設計
(6-2) 画像のテキスト化の実行
(6-3) 生成した画像説明文の保存
(6-4) テキスト化結果を用いた RAG の構築

 

(7) テキストと画像を同一ベクトル空間に埋め込むマルチモーダル RAG
別の標準的アプローチとして、テキストと画像を同じ埋め込み空間に配置し、検索対象として統合的に扱う方法があります。クロスモーダル検索の基本を実装を通して解説します。

 

(7-1) このアプローチで解くべきタスク
(7-2) 元データのダウンロードとテキスト・画像の収集
(7-3) クロスモーダル埋め込みモデルによるテキストのベクトル化
(7-4) クロスモーダル埋め込みモデルによる画像のベクトル化
(7-5) ベクトル集合からのインデックス作成
(7-6) VLM による回答生成

 

(8) ColPali を利用したマルチモーダル RAG
ColPali は PDF 文書の各ページを画像として扱い、レイアウトや図表の位置関係を保持したまま検索するアプローチです。近年注目されているページ画像ベース検索を解説します。

 

(8-1) ColPali によるページ画像検索
(8-2) ColPali によるマルチモーダル RAG の処理の流れ
(8-3) PDF 文書の各ページの画像化
(8-4) 各ページ画像の ColPali による行列表現への変換
(8-5) クエリの ColPali による行列表現への変換
(8-6) クエリとページ画像の類似度計算と検索
(8-7) 検索ページとクエリを VLM に入力した回答生成

 

(9) MMA-RAG(Multimodal Agentic RAG)
マルチモーダル RAG にエージェント的な制御を組み合わせることで、検索・判定・再試行を含むより柔軟なシステムが実現できます。ここでは LangGraph を利用した MMA-RAG を解説します。

 

(9-1) LangGraph について最低限知っておくべきこと
(9-2) LangGraph の簡単な実装例
(9-3) 検索結果を順次利用する MMA-RAG の考え方
(9-4) State の設定
(9-5) 各ノードの処理
(9-6) add_conditional_edges による分岐
(9-7) route_after_judge の条件(accept / retry / exhausted)
(9-8) 外部 LLM の利用
(9-9) 外部ループによる拡張

 

(10) VQA を中核としたマルチモーダル RAG
RAG の役割を検索そのものではなく、VQA を補助する形で使う考え方もあります。ここでは医療画像を例として、VQA 型マルチモーダル RAG を解説します。

 

(10-1) VQA 型マルチモーダル RAG の位置づけ
(10-2) 医療画像に対する画像検索
(10-3) BiomedCLIP による医療画像データベースの作成
(10-4) 類似医療画像の検索
(10-5) MedGemma の利用
(10-6) VQA へのプロンプト設計

 

 <質疑応答>

 

公開セミナーの次回開催予定

開催日

2026年7月16日(木) 10:30-16:30 *途中、お昼休みや小休憩を挟みます。

 

開催場所

【会場受講】[東京・大井町]きゅりあん 4階研修室

 

受講料

【会場受講】:1名50,600円(税込(消費税10%)、資料付)
*1社2名以上同時申込の場合、1名につき39,600円

 

*学校法人割引;学生、教員のご参加は受講料50%割引。

 

備考

会場(対面)セミナーご受講に関する各種案内(必ずご確認の上、お申込みください。)

 

●配布資料は、印刷したものを当日会場にてお渡しいたします。

 

●当日会場でセミナー費用等の現金支払はできません。
●昼食やお飲み物の提供もございませんので、各自ご用意いただけましたら幸いです。
●講義中の携帯電話・スマートフォンでの通話や音を発する操作はご遠慮ください。
●講義中のパソコン使用は、講義の支障や他の方のご迷惑となる場合がありますので、極力お控えください。場合により、使用をお断りすることがございますので、予めご了承ください(パソコン実習講座を除きます。)
●講座で使用する資料や配信動画は著作物であり、無断での録音・録画・複写・転載・配布・上映・販売などは禁止いたします。また、申込者以外の受講・動画視聴は固くお断りいたします(代理受講ご希望の際は、開催前日までに弊社までご連絡お願いします)。

 

お申し込み方法

★下のセミナー参加申込ボタンより、必要事項をご記入の上お申し込みください。

 

おすすめのセミナー情報

製造業eラーニングTech e-L講座リスト

製造業向けeラーニングライブラリ

アイアール技術者教育研究所の講師紹介

製造業の新入社員教育サービス

技術者育成プログラム策定の無料相談受付中

スモールステップ・スパイラル型の技術者教育

技術の超キホン

機械設計マスターへの道

生産技術のツボ

早わかり電気回路・電子回路

早わかり電気回路・電子回路

品質保証塾

機械製図道場

スぺシャルコンテンツ
Special Contents

導入・活用事例

テキスト/教材の制作・販売