【发布时间】:2020-05-06 22:43:31
【问题描述】:
由于我的 Sql 架构,我的 Elasticsearch 索引有超过 1000 个字段,我得到以下异常:
{'type': 'illegal_argument_exception', 'reason': '总数限制 索引中的字段 [1000] }
我的批量插入看起来像这样
with open('audit1.txt') as file:
for line in file:
columns = line.split(r'||')
dict['TimeStamp']=columns[0].strip('\'')
dict['BusinessTimeStamp']=columns[1].strip('\'')
dict['RuntimeMicroflowID']=columns[2].strip('\'')
dict['MicroflowID']=columns[3].strip('\'')
dict['UserId']=columns[4].strip('\'')
dict['ClientId']=columns[5].strip('\'')
dict['Userlocation']=columns[6].strip('\'')
dict['Transactionid']=columns[7].strip('\'')
dict['Catagorie']=columns[8].strip('\'')
dict['EventType']=columns[9].strip('\'')
dict['Operation']=columns[10].strip('\'')
dict['PrimaryData']=columns[11].strip('\'')
dict['SecondayData']=columns[12].strip('\'')
i=13
while i < len(columns):
tempdict['BFOLDVALUE'] = columns[i+1].strip('\'')
tempdict['BFNEWVALUE'] = columns[i+2].strip('\'')
if columns[i].strip('\'') is not None:
dict[columns[i].strip('\'')] = tempdict.copy()
i+=3
tempdict.clear()
#print(json.dumps(dict,indent = 4))
batch.append(dict)
if counter==BATCHSIZE:
try:
helpers.bulk(es, batch, index='audit-index', doc_type='audit')
insertedrecords+=counter
counter = 0
batch.clear()
print(insertedrecords," - Records Has Been inserted ")
except BulkIndexError:
print("Error Occured -- continuing")
print(json.dumps(dict,indent = 4))
print(BulkIndexError)
batch.clear()
break
counter+=1
dict.clear()
所以我假设我试图错误地索引这个,有没有更好的方法在弹性搜索中索引这种格式。请注意,我使用的是 ELK 7.5 版
这是我正在解析到 elasticsearch 的示例文件
2018.07.17/15:41:53.735||2018.07.17/15:41:53.735||'0164a8424fbbp84h%2139165'||'BT_TTB_CashDep_PRC'||'eskedarz'||'UXP'||'00001039'||'0164a842e519pJpA'||'Persistence'||''||'CREATE'||'DailyTxns'||'0164a842e4eapJnu'||'CurrentThread'||'WebContainer : 15'||''||'ParentThread'||'system'||''||'TCPWorkerThreadID'||'WebContainer : 15'||''||'f_POSTINGDT'||'2018-07-17'||''||'versionNum'||'0'||''||'f_TXNAMTDR'||'0'||''||'f_ACCOUNTID'||'013XXXXXXXXX0'||''||'f_VALUEDTTM'||'2018-07-17 15:41:53.0'||''||'f_POSTINGDTTM'||'2018-07-17 15:41:53.692'||''||'f_TXNCLBAL'||'25551.610000'||''||'f_TXNREF'||'0000103917071815410685326'||''||'f_PIEVENTTYPE'||'N'||''||'f_TXNAMT'||'5000.00'||''||'f_TRANSACTIONID'||'0164a842e4e9pJng'||''||'f_TYPE'||'N'||''||'f_USERID'||'xxxarz'||''||'f_SRNO'||'1'||''||'f_TXNBASEEQ'||'5000.00'||''||'f_TXNSRCBRANCH'||'0000X039'||''||'f_TXNCODE'||'T08'||''||'f_CHANNELID'||'BranchTeller'||''||'f_TXNAMTCR'||'5000.00'||''||'f_TXNNARRATION'||'SELF '||''||'f_ISACCRUALPENDING'||'false'||''||'f_TXNDTTM'||'2018-07-17 15:41:53.689'||''
【问题讨论】:
-
您能分享您尝试索引的文档吗?您的
batch列表中的一项。乍一看,您似乎没有那么多字段可以达到字段限制。键列表2中有多少个不同的iten? -
因为它是应用程序的审计日志,它可能会传递一个 1000 字段,但其中 95% 的字段是用 KEY|oldvalue|newvalue 重复列
-
@SerakShiferaw 您是否有时间查看答案,如果您有其他问题,请告诉我,如果有帮助,请投票并接受答案:)
-
@OpsterElasticsearchNinja 我没有得到我正在寻找的答案可能是弹性搜索对文档存储不太好。 mongodb 可以很好地满足我的要求,但我必须索引每一列,这很愚蠢。我什至尝试过嵌套但同样的错误。可能我应该坚持使用列存储关系数据库。所以我可以垂直而不是水平存储KV(行而不是列)。
-
@SerakShiferaw,但最初您的问题是关于
Limit of total fields的错误,应该通过答案中给出的步骤解决。关于您的评论,是的,在您的情况下,您有很多在搜索和分析用例中不正常的字段,我猜像columnstoreDB 这样的 cassandara 会更适合这个用例
标签: elasticsearch elastic-stack