【发布时间】:2016-11-10 05:13:30
【问题描述】:
我有一个带有 Cassandra 存储后端的 Titan 数据库,我正在尝试基于两个属性键创建一个混合索引。
我可以使用以下命令注册索引:
graph=TitanFactory.open(config);
graph.tx().rollback()
m = graph.openManagement();
m.buildIndex("titleBodyMixed", Vertex.class).addKey(m.getPropertyKey("title")).addKey(m.getPropertyKey("body")).buildMixedIndex("search");
m.commit();
m.awaitGraphIndexStatus(graph, 'titleBodyMixed').status(SchemaStatus.REGISTERED).timeout(3, java.time.temporal.ChronoUnit.MINUTES).call();
当我检查时,几秒钟后索引成功注册。在下一步,我尝试使用以下命令重新索引数据库:
m = graph.openManagement();
m.updateIndex(m.getGraphIndex('titleBodyMixed'), SchemaAction.REINDEX).get();
但是,updateIndex 命令没有完成,(12 小时后)。
我在数据库中有大约 300k 数据条目,每个数据条目都有一个 Title 和一个 Body 要索引。
我的问题是如何加快索引速度?
当我使用 top 命令时,我发现我的 CPU 没有被索引进程饱和:
我的 Titan 配置文件如下:
config =new BaseConfiguration();
config.setProperty("storage.backend","cassandra");
config.setProperty("storage.hostname", "127.0.0.1");
config.setProperty("storage.cassandra.keyspace", "smartgraph");
config.setProperty("index.search.elasticsearch.interface", "NODE");
config.setProperty("index.search.backend", "elasticsearch");
以下为 elasticsearch 服务属性:
curl -X GET 'http://localhost:9200'
{
"status" : 200,
"name" : "Ms. Marvel",
"cluster_name" : "elasticsearch",
"version" : {
"number" : "1.7.2",
"build_hash" : "e43676b1385b8125d647f593f7202acbd816e8ec",
"build_timestamp" : "2015-09-14T09:49:53Z",
"build_snapshot" : false,
"lucene_version" : "4.10.4"
},
"tagline" : "You Know, for Search"
}
【问题讨论】:
标签: elasticsearch cassandra titan gremlin