【问题标题】:Identifying sub parts within sequence of text using deep learning使用深度学习识别文本序列中的子部分
【发布时间】:2019-11-11 16:46:32
【问题描述】:

首先,我对深度学习非常陌生,如果我没有提出不符合网站标准的问题,我深表歉意。

我有一系列arm assembly opcodes,它们分别对应于多个函数(您可以从here 查看整个csv 文件)。如果我给出一个特定的函数序列,如下所示。

// This is the disassembly sequence of a function named bit()

// just assume four opcodes `b0 0a 46 01` belong to certain other library
83 b0 0a 46 01 90 02 a8 01 70 ff e7 01 98 01 68 01 22 52 05 91 43 01 60 02 a8 00 78 40 05 00 90 ff e7 01 98 01 68 00 9a 11 43 01 60 01 98 03 b0 70 47 

我已经建立了一个小型深度学习模型(通过遵循 NLP 教程)来在传递上述字节序列时在八类函数中进行分类。但是,我需要的是除了识别函数标签之外,还要识别属于特定库的字节序列。例如,在上面的函数b0 0a 46 01 相信不同的库。所以我想在传递整个函数序列时识别这样的子序列。我相信它类似于图像中的对象检测,而不是仅仅识别图像本身,而是识别模型中的对象。

坦率地说,我不知道这样的要求在深度学习中是否可能,如果可能的话,我想知道我可以查找和学习的任何资源/教程以实现我的目标。再一次,对不起,如果我问一些没有意义的事情。如果可能的话,感谢任何帮助。

【问题讨论】:

  • 我认为这不需要深度学习,因为汇编操作码数量有限,组合有限。话虽如此,对于这个特定问题,如果您只考虑文本,则该问题被称为 NER(命名实体识别 - en.wikipedia.org/wiki/Named-entity_recognition)问题。您会在网上找到很多相关资源。
  • @VivekMehta 谢谢。 NER是逐字分析的,对吗?例如,如果它找到一个位置,它将被标记为一个位置。但是,在这里我需要考虑一系列指令(如 10-15)而不是一个序列。
  • NER不限于单词分类,也可以对词序列进行分类。
  • @VivekMehta 谢谢

标签: machine-learning keras deep-learning object-detection


【解决方案1】:

您将其视为对象检测问题的想法似乎是有道理的。在这个用例中,Yolo 模型应该相当不错:https://pjreddie.com/darknet/yolo/。也许您可以用 1D 卷积代替 2D 卷积以适应您的用例。此外,作为第一步创建嵌入来编码您的操作码可能会有所帮助,尽管您可能已经实现了这部分。我希望这会有所帮助。

【讨论】:

  • 感谢您的回复。你认为我有可能在 NLP 中做到这一点。除了图像对象检测之外,您是否知道以前工作的任何资源?
猜你喜欢
  • 2020-07-02
  • 2016-09-07
  • 1970-01-01
  • 2021-06-17
  • 2016-02-14
  • 2020-05-27
  • 1970-01-01
  • 2016-12-31
  • 2017-10-10
相关资源
最近更新 更多