［技術解説］LLMの性能を引き出す技術：RAG、ファインチューニング、プロンプトエンジニアリングの使い分け

2025-05-06

はじめに

　近年、大規模言語モデル（LLM）の進化は目覚ましいものがありますが、特定のタスクやドメインにおいてその性能を最大限に引き出すためには、さらなる最適化が不可欠です。本稿では、AIモデル、特にLLMの応答品質や精度を向上させるための主要な3つのアプローチ、RAG（Retrieval Augmented Generation）、ファインチューニング（Fine-tuning）、そしてプロンプトエンジニアリング（Prompt Engineering）について、IBM TechnologyのYoutube動画をもとに解説します。

引用元記事

タイトル: RAG vs Fine-Tuning vs Prompt Engineering: Optimizing AI Models
発行元: IBM Technology
発行日: 2025年4月14日
URL: https://www.youtube.com/watch?v=zYGDpG-pTho

・本稿中の画像に関しては特に明示がない場合、引用元記事より引用しております。
・記載されている情報は、投稿日までに確認された内容となります。正確な情報に関しては、各種公式HPを参照するようお願い致します。
・内容に関してはあくまで執筆者の認識であり、誤っている場合があります。引用元記事を確認するようお願い致します。

要点

　本稿で解説するAIモデル最適化の3つの主要なアプローチの要点は以下の通りです。

RAG (Retrieval Augmented Generation):
- 外部の最新情報やドメイン固有情報を検索（Retrieval）し、その情報をプロンプトに追加（Augmented）して、LLMに応答を生成（Generation）させる手法です。
- ベクトル埋め込みを利用して、質問と文書の意味的な類似性に基づき情報を検索します。
- 最新性やドメイン固有性が重要な場合に特に有効ですが、検索ステップによるレイテンシや、ベクトルデータベースの構築・維持にコストがかかります。
ファインチューニング (Fine-tuning):
- 既存の事前学習済みモデルに対し、特定のタスクやドメインに特化したデータセットを用いて追加学習を行う手法です。
- モデル内部の重み（パラメータ）を調整することで、専門知識をモデルに組み込みます。
- 深い専門知識が要求されるタスクや、推論時の速度が重要な場合に有効です。しかし、高品質な教師データの準備、計算コスト、メンテナンスの手間、そして破滅的忘却（汎用能力の低下）のリスクが伴います。
プロンプトエンジニアリング (Prompt Engineering):
- モデルへの入力（プロンプト）を工夫することで、モデルの応答品質を向上させる手法です。
- モデルの構造や学習データを変更せず、指示の明確化、文脈の付与、出力形式の指定などを行います。
- インフラ変更が不要で、即時性が高い点がメリットですが、効果的なプロンプト作成には試行錯誤が必要であり、モデルが元々持っていない知識を追加することはできません。
組み合わせ:
- これらの手法は排他的ではなく、組み合わせて使用することで、それぞれの利点を活かし、欠点を補うことが可能です。

詳細解説

　ここでは、RAG、ファインチューニング、プロンプトエンジニアリングのそれぞれについて、技術的な側面をより深く掘り下げて解説します。

RAG (Retrieval Augmented Generation)

　RAGは、LLMが持つ知識を外部の情報ソースで補強するアプローチです。LLMの学習データに含まれていない最新情報や、社内文書のような特定のドメイン知識を応答に反映させたい場合に強力な選択肢となります。

検索 (Retrieval):
- ユーザーからのクエリ（質問）が入力されると、RAGシステムはまず、関連する情報を含む可能性のある文書群（コーパス）を検索します。このコーパスは、Webページ、社内ドキュメント、データベースなど、様々な形式の情報源から構築されます。
- 検索の核心技術はベクトル埋め込み（Vector Embeddings）です。クエリとコーパス内の各文書は、それぞれの意味内容を捉えた高次元のベクトル表現に変換されます。この変換には、Sentence-BERTやSimCSEのような事前学習済みモデルがよく利用されます。
- 変換されたベクトルを用いて、クエリベクトルと意味的に類似度が高い（例: コサイン類似度が高い）文書ベクトルを特定します。これにより、キーワードの一致だけでなく、文脈的に関連性の高い情報を効率的に見つけ出すことができます。例えば、「昨四半期の収益成長率は？」というクエリに対し、「第4四半期の業績」や「四半期売上高」といったキーワードを含まない文書でも、意味が近ければ検索対象となります。
- 検索された文書ベクトルは、ベクトルデータベース（例: Pinecone、 Milvus、 Chroma DB）に格納され、高速な類似性検索を実現します。
補強 (Augmentation):
- 検索ステップで見つかった関連性の高い文書の内容（あるいはその要約）を、元のクエリに追加・結合します。これにより、LLMに対する指示がより具体的で、情報に基づいたものになります。
生成 (Generation):
- 補強されたプロンプトがLLMに入力され、LLMはこの豊富な文脈情報を基に応答を生成します。これにより、LLM単体では答えられなかった質問や、より正確で具体的な情報に基づいた応答が可能になります。

技術的ポイントと考慮事項:
- ベクトル化モデルの選定: タスクや言語に合わせて適切な埋め込みモデルを選ぶことが重要です。
- チャンキング: 長い文書をどのように分割（チャンキング）してベクトル化するかが、検索精度に影響します。適切なチャンクサイズやオーバーラップの設定が必要です。
- ベクトルデータベースの選定と運用: データ量、クエリの頻度、求められる検索速度、スケーラビリティなどを考慮してベクトルデータベースを選定し、インデックス構築や運用を行う必要があります。
- レイテンシ: 検索ステップが加わるため、LLM単体へのクエリよりも応答に時間がかかります。リアルタイム性が重要なアプリケーションでは、検索速度の最適化が課題となります。
- コスト: ベクトルデータベースのインフラコスト、文書のベクトル化処理コストがかかります。

ファインチューニング (Fine-tuning)

　ファインチューニングは、汎用的な大規模言語モデルを特定のタスクや知識ドメインに適応させるための強力な手法です。基盤となるモデルの能力を活用しつつ、専門性を高めることができます。

プロセス:
- 事前学習済みモデルの選択: まず、目的に合った基盤モデル（Foundation Model）を選びます。モデルのサイズ、アーキテクチャ、ライセンスなどを考慮します。
- 特化データセットの準備: ファインチューニングの質は、使用するデータセットに大きく依存します。特定のタスク（例: 要約、質問応答、感情分析）やドメイン（例: 医療、法律、金融）に合わせた、高品質な教師データ（入力と期待される出力のペア）を大量に準備する必要があります。
- 追加学習: 準備したデータセットを用いて、事前学習済みモデルの重み（パラメータ）を微調整します。通常、元の学習率よりも小さい学習率を設定し、バックプロパゲーションによってモデルの予測と目標出力との誤差を最小化するように学習を進めます。
- 評価: ファインチューニング後のモデルの性能を、評価用データセットを用いて検証します。

技術的ポイントと考慮事項:
- データ品質と量: ノイズが少なく、タスクの多様性をカバーする十分な量のデータが必要です。データ拡張（Data Augmentation）などのテクニックも有効です。
- 計算リソース: ファインチューニングには、特に大規模なモデルの場合、大量のGPUと計算時間が必要です。クラウドサービスや専用ハードウェアの利用が一般的です。
- 破滅的忘却 (Catastrophic Forgetting): 特化データセットで学習する過程で、モデルが元々持っていた汎用的な知識や能力を失ってしまうリスクがあります。これを軽減するための手法（例: EWC – Elastic Weight Consolidation、 LwF – Learning without Forgetting）も研究されています。
- メンテナンス: 元の基盤モデルが更新された場合や、ドメイン知識が変化した場合、再度ファインチューニングを行う必要があります。RAGのように動的に知識を追加することはできません。
- 推論速度: ファインチューニングされたモデルは、知識が内部パラメータに組み込まれているため、RAGのように外部検索を行う必要がなく、推論（応答生成）時の速度は一般的に高速です。

プロンプトエンジニアリング (Prompt Engineering)

　プロンプトエンジニアリングは、LLMの能力を最大限に引き出すための「対話術」とも言える技術です。モデル自体や学習データを変更することなく、入力（プロンプト）の設計によって出力品質を制御します。

主要なテクニック:
- 明確な指示 (Clear Instructions): モデルに何をしてほしいのかを具体的に、曖昧さなく伝えます。「この文章を要約して」よりも「この技術文書の主要な発見を3つの箇条書きで要約して」の方が良い結果を得やすくなります。
- 文脈の提供 (Contextual Information): 応答に必要な背景情報や制約条件をプロンプトに含めます。「顧客からの問い合わせメールに返信して」よりも「以下の顧客からの製品Xに関する問い合わせメールに対し、丁寧な言葉遣いで、在庫状況を確認してから返信する旨を伝えてください：[メール本文]」のように具体化します。
- 役割の指定 (Role Prompting): モデルに特定の役割（例: 「あなたは経験豊富なソフトウェアエンジニアです」）を演じさせることで、その役割に適した知識やトーンでの応答を促します。
- Few-Shot Learning: プロンプト内にいくつかの例（入力と期待される出力のペア）を示すことで、モデルにタスクのパターンを学習させ、より正確な応答を生成させます（例: Zero-Shot, One-Shot, Few-Shot）。
- 思考連鎖 (Chain-of-Thought, CoT): 複雑な問題に対して、段階的に考えさせるような指示（例: 「ステップバイステップで考えてください」）を与えることで、推論プロセスを改善し、より正確な結論に導きます。
- 出力形式の指定 (Output Formatting): JSON、Markdown、箇条書きなど、望ましい出力形式を具体的に指示します。

技術的ポイントと考慮事項:
- 試行錯誤: 最適なプロンプトを見つけるには、多くの場合、繰り返し試行錯誤が必要です。様々な表現やテクニックを試し、結果を評価するプロセスが重要になります。
- モデル依存性: あるモデルで効果的だったプロンプトが、別のモデルではうまく機能しないことがあります。モデルの特性を理解する必要があります。
- 知識の限界: プロンプトエンジニアリングは、モデルが既に持っている知識や能力を引き出すための技術であり、モデルが知らない情報（学習データに含まれない最新情報や専門知識）を新たに追加することはできません。情報の鮮度や正確性が重要な場合は、RAGとの組み合わせが有効です。
- 即時性と低コスト: インフラの変更や追加学習が不要なため、すぐに試せてコストも低いという大きな利点があります。

手法の組み合わせ

　RAG、ファインチューニング、プロンプトエンジニアリングは、それぞれ独立したアプローチですが、実際にはこれらを戦略的に組み合わせることで、より高度なAIシステムを構築できます。

例: 法律相談AIシステム
- RAG: 最新の判例や法令データベースを検索し、関連情報を取得します。
- ファインチューニング: 法律分野の専門用語や特有の論理構造を理解するようにモデルを調整します。さらに、特定の法律事務所の過去の事例や内部ポリシーでファインチューニングすることも考えられます。
- プロンプトエンジニアリング: ユーザーからの質問の意図を正確に把握し、法的文書として適切な形式（引用の明記、免責事項の付与など）で応答を生成するように指示します。

　このように、プロンプトエンジニアリングで柔軟性と即時性を確保しつつ、RAGで知識の鮮度と網羅性を高め、ファインチューニングで深いドメイン専門知識を埋め込む、といった使い分けと組み合わせが可能です。プロジェクトの要件、利用可能なリソース、求める精度、メンテナンス性などを総合的に評価し、最適な手法またはその組み合わせを選択することが重要です。