【发布时间】:2016-07-05 13:09:21
【问题描述】:
我在 solr 中索引文件夹时遇到问题
示例数据配置.xml:
<dataConfig>
<dataSource type="BinFileDataSource" />
<document>
<entity name="files"
dataSource="null"
rootEntity="false"
processor="FileListEntityProcessor"
baseDir="C:\Temp\" fileName=".*"
recursive="true"
onError="skip">
<field column="fileAbsolutePath" name="id" />
<field column="fileSize" name="size" />
<field column="fileLastModified" name="lastModified" />
<entity
name="documentImport"
processor="TikaEntityProcessor"
url="${files.fileAbsolutePath}"
format="text">
<field column="file" name="fileName"/>
<field column="Author" name="author" meta="true"/>
<field column="text" name="text"/>
</entity>
</entity>
</document>
然后我创建 schema.xml:
<field name="id" type="string" indexed="true" stored="true" required="true" multiValued="false" />
<field name="fileName" type="string" indexed="true" stored="true" />
<field name="author" type="string" indexed="true" stored="true" />
<field name="title" type="string" indexed="true" stored="true" />
<field name="size" type="plong" indexed="true" stored="true" />
<field name="lastModified" type="pdate" indexed="true" stored="true" />
<field name="text" type="text_general" indexed="true" stored="true" multiValued="true"/>
最后我修改了 solrConfig.xml 文件,添加了 requesthandler 以及 dataImportHandler 和 dataImportHandler-extra jars:
<requestHandler name="/dataimport" class="solr.DataImportHandler">
<lst name="defaults">
<str name="config">example-data-config.xml</str>
</lst>
</requestHandler>
我运行它,结果是:
在该文件夹内有大约 20.000 个不同格式的文件(.py、.java、.wsdl 等)
任何建议将不胜感激。谢谢:)
【问题讨论】:
-
似乎 recursive="true" 以某种方式不起作用,我尝试使用子文件夹并且子文件夹的信息已正确索引。但根本原因我现在真的不知道
标签: indexing solr lucene directory