NGramTokenizerFactoryまたはNGramFilterFactoryの使用方法は?

lucene solr tokenize
NGramTokenizerFactoryまたはNGramFilterFactoryの使用方法は?

最近、Solrを使用して格納およびインデックスを作成する方法を研究しています。 facet.prefix検索をしたいです。 空白トークナイザーを使用すると、「Where are you」は3つの単語に分割され、インデックス付けされます。 facet.prefix = “where are”を検索した場合、結果は返されません。

私はグーグルとNGramFilterFactoryが私を助けることができることを発見しました。 しかし、このフィルターファクトリを適用すると、結果が “w、h、e、…​、wh、..”であることがわかりました。これにより、トークンワードではなく文字で文が分割されます。

1と3に設定されたパラメーターmaxGramSizeとminGramSizeを使用します。 NGramFilterFactoryは正常に機能しますか? 他のパラメーターを追加する必要がありますか? 私を助けることができる他のフィルター工場はありますか?

ありがとうございます。

  5  2


ベストアンサー

ファセットは、文字列などのトークン化されていないフィールドにのみ適用する必要があります。 その結果が表示される場合は、そのフィールド(またはcopyFieldディレクティブ)にトークナイザーを使用しないでください。 オートコンプリートにfacet.prefixを使用したいと思います。 あなたはこれを行うことができます、http://karussell.wordpress.com/2010/12/08/use-cases-of-faceted-search-for-apache-solr/ [こちらをご覧ください]。

ngramtokenizerのhttp://www.lucidimagination.com/blog/2009/09/08/auto-suggest-from-popular-queries-using-edgengrams/ [チェックアウト]。

1


タイトルとURLをコピーしました