LLM学習データのPII自動検出:PresidioとPythonで作る監査対応パイプライン
大規模言語モデル(LLM)の学習データに含まれる個人情報(PII)を自動検出し、コンプライアンスを遵守したデータ処理パイプラインを構築する具体的な技術と手法を学べます。
LLMやRAGの学習データに含まれる個人情報(PII)を、Microsoft Presidioを用いて自動検出し削除する実践手法を解説。日本語特有の誤検知対策から監査ログの実装まで、コンプライアンス要件を満たすPythonコードを完全網羅。