プロジェクト

全般

プロフィール

バグ #246

未完了

埋め込みベクトル生成とテキスト処理サービス実装

Redmine Admin さんが3日前に追加. 3日前に更新.

ステータス:
新規
優先度:
高め
担当者:
-
開始日:
2025-06-04
期日:
進捗率:

0%

予定工数:

説明

作業内容

テキストからベクトル埋め込みを生成するサービスを実装し、テキストの効率的な処理とインデックス化機能を構築します。

詳細タスク

  1. 埋め込みベクトル生成サービスの実装

    • /api/services/embedding/index.js - メインサービスモジュール
    • 複数モデル対応(オープンソースモデル優先)
    • バッチ処理機能
    • キャッシュ機構
  2. テキスト前処理パイプラインの実装

    • /api/services/text/preprocessor.js - テキスト正規化
    • /api/services/text/tokenizer.js - トークン化
    • /api/services/text/cleaner.js - 不要要素除去
    • 多言語対応(日本語・英語優先)
  3. チャンキング機能の実装

    • /api/services/text/chunker.js - テキスト分割
    • 複数チャンキング戦略実装:
      • 固定サイズチャンキング
      • 段落ベースチャンキング
      • セマンティックチャンキング
    • オーバーラップ制御
    • メタデータ保持
  4. インデックス管理機能の実装

    • /api/services/index/manager.js - インデックス管理
    • バッチインデックス更新
    • 増分更新
    • 優先度ベース更新
  5. テスト用スクリプトの作成

    • 埋め込み生成テスト
    • チャンキングテスト
    • パフォーマンス測定

技術的指示

  • Node.js の TensorFlow.js または ONNX Runtime を使用
  • 埋め込みモデルは all-MiniLM-L6-v2 または同等品を使用
  • バッチ処理は効率性とメモリ使用量のバランスを考慮
  • エラーハンドリングを徹底し、失敗した処理の再試行機能を実装
  • キャッシュはRedisを活用
  • 処理の進捗状況を追跡・報告する機能を実装

成果物

  • 埋め込みベクトル生成サービス
  • テキスト前処理パイプライン
  • チャンキング機能
  • インデックス管理機能
  • テストスクリプト
  • パフォーマンスレポート

参考リソース

  • sentence-transformers ドキュメント
  • TensorFlow.js または ONNX Runtime ドキュメント
  • RAG システムでのチャンキング戦略ベストプラクティス

他の形式にエクスポート: Atom PDF