【发布时间】:2017-10-11 11:26:41
【问题描述】:
PostgreSQL 的 to_tsvector 函数非常有用,但就我的数据集而言,它比我想要的要多一些。
例如:
select *
from to_tsvector('english', 'This is my favourite game. I enjoy everything about it.');
产生:'enjoy':7 'everyth':8 'favourit':4 'game':5
我并不担心停用词会被过滤掉,这很好。但是有些词会被完全毁掉,比如everything 和favourite。
有没有办法修改这种行为,或者有不同的功能可以做到这一点?
PS:是的,我可以编写自己的查询来执行此操作(并且我有),但我想要一个更快的方法。
【问题讨论】:
标签: postgresql nlp lemmatization