ドキュメント前処理とチャンク化戦略｜生成AI・検索精度アップの秘訣

import tiktoken

def chunk_text(text, max_tokens, model_name="gpt-3.5-turbo"):
    enc = tiktoken.encoding_for_model(model_name)
    sentences = text.split("。")  # 日本語の文末で区切る簡単な方法
    chunks = []
    current_chunk = ""
    current_tokens = 0

    for sentence in sentences:
        if not sentence.strip():
            continue
        sentence_with_period = sentence + "。"
        sentence_tokens = len(enc.encode(sentence_with_period))
        if current_tokens + sentence_tokens > max_tokens:
            chunks.append(current_chunk)
            current_chunk = sentence_with_period
            current_tokens = sentence_tokens
        else:
            current_chunk += sentence_with_period
            current_tokens += sentence_tokens
    if current_chunk:
        chunks.append(current_chunk)
    return chunks

# 使い方
text = "これはテスト用の日本語文章です。とても長いドキュメントだと仮定してください。AIモデルのトークン制限を意識して分割します。"
chunks = chunk_text(text, max_tokens=50)
for idx, chunk in enumerate(chunks):
    print(f"チャンク{idx+1}: {chunk}")

ShelledCamAndroid

Related Posts

2024年最新！C/C++で始めるllama.cppによるLLM推論入門ガイド

マルチモーダルRAGシステムの設計 (필요 지식: 基本的なRAGシステム構築経験, マルチモーダル埋め込み技術の基礎知識)

ベクトル検索におけるセキュリティとアクセス制御 (필요 지식: ベクトル検索エンジンの運用経験, セキュリティ基礎知識)

目次

ドキュメント前処理の重要性と基本概念

💡 実践的なヒント

意味的に一貫したチャンク化戦略の設計

文単位・段落単位・トピック単位の違い

過度な分割による文脈断片化の落とし穴

文脈保持の工夫：メタデータ付与

意味的一貫性を保つテクニック

💡 実践的なヒント

トークン数制限に基づくチャンク化の実装と注意点

トークン数カウントしながらチャンクを作る方法

トークン制限超過時の対処法

ベストプラクティスまとめ

💡 実践的なヒント

日本語形態素解析の課題と対策

日本語形態素解析の難しさ

代表的な形態素解析ツールと選定基準

辞書カスタマイズと前処理の重要性

辞書カスタマイズ例

チャンク化への応用

💡 実践的なヒント

前処理での重要情報保持とノイズ除去のバランス

ストップワード除去のリスクと注意点

💡 実践的なヒント

応用事例：効率的な情報検索システムと生成AIへの応用

1. FAQ検索システムの高度化

2. 法務文書の自動要約

3. 生成AIによるドキュメント自動分類

💡 応用のコツ

まとめ

📚 参考資料と追加学習

公式ドキュメント

チュートリアル

便利なツール

コミュニティ

🔗 関連トピック

テキスト正規化とクリーニング手法

トークナイゼーションの実践

NLPにおけるチャンク化戦略の種類

メタデータ付与と管理

📈 次のステップ

Tags

Shelled AI (日本)