導入 こんにちは、株式会社ナレッジセンスの須藤英寿です。 今回は、RAGの要であるEmbeddingの性能を大きく低下させてしまう、文章の特性について解説します。 このブログで紹介している内容は以下の論文を元に作成しておりますので、詳細はそちらをご確認ください。RAGを構成してみたが、どうしても正解の文章を取ってこれない!そんなときはもしかするとこの論文で紹介されているような文章になってしまっているかもしれません。 サマリー Embeddingは、RAGの検索能力の根幹に関わる機能ですが、そのの性能や特性についてはあまり知られてはいません。実は、保管するテキストの文体や分割方法次第で最大90%程度、検索性能が下がってしまいます。 今回紹介する論文では、Embeddingの性能を著しく下げるテキストの特徴を調べ、その性質についてまとめています。特に「文章の位置」、「使用する単語」、「文章量」
