【发布时间】:2011-08-23 17:51:33
【问题描述】:
我正在研究将我的数据源分块以将最佳数据导入 solr,并且想知道是否可以使用将数据分块的主 url。
例如文件 1 可能有
<chunks>
<chunk url="http://localhost/chunker?start=0&stop=100" />
<chunk url="http://localhost/chunker?start=100&stop=200" />
<chunk url="http://localhost/chunker?start=200&stop=300" />
<chunk url="http://localhost/chunker?start=300&stop=400" />
<chunk url="http://localhost/chunker?start=400&stop=500" />
<chunk url="http://localhost/chunker?start=500&stop=600" />
</chunks>
每个块 url 都指向类似的东西
<items>
<item data1="info1" />
<item data1="info2" />
<item data1="info3" />
<item data1="info4" />
</iems>
我正在处理 500+ 百万条记录,因此我认为需要对数据进行分块以避免内存问题(在使用 SQLEntityProcessor 时遇到此问题)。我还想避免发出 500+ 百万个网络请求,因为我认为这可能会变得昂贵
【问题讨论】: