業務効率化を進める中で、ObsidianとAIを連携させてドキュメント解析を行える環境を構築しました。PDFの解析はスムーズにいきましたが、エクセル(xlsx)の解析で少しハマったので、その解決までのプロセスを記録します。
1. 構築した環境
Hardware: Mac Studio M4 Max (36GB RAM)
Software: Obsidian v1.28.2
Plugins:
Omnisearch: ローカルファイルの全文検索エンジン
Text Extractor: バイナリファイル(PDF/Excel)からテキストを抽出するエンジン
AI Bridge:
mcp/obsidian-local(Model Context Protocol経由でAIがVaultにアクセス)
2. 発生した問題
特定のディレクトリ(doc_test)に配置したエクセルファイルが、物理的には存在するのにAI(Omnisearch)から見えず、検索結果が「0 results」になるという「サイレントな失敗」が発生しました。
3. デバッグと解決のステップ
ステップ1:インデックス対象の有効化
まず、Omnisearchがエクセルを読み取るように設定を確認しました。
Documents content indexing をオンに設定。これにより、
.docxや.xlsxがスキャン対象に含まれます。
ステップ2:キャッシュのクリアと再起動
設定変更を反映させるため、以下の「インフラの再デプロイ」に近い作業を実施しました。
設定画面の Danger Zone にある Clear cache data を実行。
その後、Obsidianアプリ自体を再起動。これによりインデックスDBがゼロから再構築されます。
ステップ3:OCRと言語設定の最適化
Text Extractor側で日本語を正しく認識させるため、言語設定に jpn を追加し、システムのOCRを利用するように設定しました。
4. 最終的な成果
疎通確認の結果、AIがエクセルの中身を完璧に把握できるようになりました。
複数シートの認識: エクセル内の「k8sまとめ」「Dockerまとめ」「Linux_DBまとめ」といった個別のタブ構造をAIが自動で識別しました。
論理構造の解析: 単なるテキスト抽出にとどまらず、シート間の関連性や詳細な項目(リソース種類、概要、自己検証結果など)をリストアップして回答できるようになりました。
5. エンジニアとしての振り返り
バイナリファイル(Excel)をAIに読ませる場合、プラグインによるテキスト抽出の「インデックス更新」がボトルネックになりやすいことが分かりました。
一度開通してしまえば、**「エクセルをフォルダに放り込むだけでAIが仕様を理解する」**という、インフラエンジニアにとって最強のドキュメント管理環境が手に入ります。今後はAWSの請求書や構築手順書の解析にも活用していく予定です。
0 件のコメント:
コメントを投稿