В моей цепочке анализаторов ShingleFilter идет после фильтра стоп-слов. Как указано в документах, ShingleFilter обрабатывает приращения позиции > 1, вставляя токены-заполнители (токены с текстом термина "_").
For example : "please divide this sentence into biword shingles"
Shingles of size 2 : please divide, divide _, _ sentence, sentence _, _ biword, biword shingles (assuming that "this, "into" are stopwords)
Я хотел бы удалить эти черепицы с помощью токенов-заполнителей, т.е. мой желаемый вывод содержит только: пожалуйста, разделите черепицу из двух слов.
У меня есть специальное поле для фасеток с опоясывающим лишаем до 4 грамм. Из-за этих стоп-слов все ограничения аспектов (или значения) выглядят бесполезными с такими наполнителями, как "разделить _ предложение _"
Пожалуйста, не могли бы вы направить меня.
Использование Solr 4.4.
ОБНОВИТЬ
Я думал установить для параметра enablePositionIncrement значение false в конфигурации StopFilter. Не уверен, решает ли это проблему или нет, но Lucene 4.4 больше не поддерживает это.
enablePositionIncrement
в false была определенно правильной идеей, да. Для меня было новостью, что он больше не поддерживается. - person femtoRgon   schedule 19.09.2013