非结构化文本到结构化数据答案

【问题标题】：Unstructured Text to Structured Data非结构化文本到结构化数据
【发布时间】：2011-03-10 21:35:03
【问题描述】：

我正在寻找有关以类似于谷歌日历快速添加按钮的方式构建非结构化文本的参考资料（教程、书籍、学术文献）。

我知道这可能属于 NLP 类别，但我只对“Levi 牛仔裤尺寸 32 A0b293”之类的过程感兴趣

收件人：品牌：Levi，尺码：32，类别：牛仔裤，代码：A0b293

我想这将是词法解析和机器学习技术的某种结合。

我与语言无关，但如果推送我更喜欢 python、Matlab 或 C++ 参考

谢谢

【问题讨论】：

【解决方案1】：

您需要提供有关文本来源（网络？用户输入？）、领域（只是衣服吗？）、潜在格式和词汇的更多信息...

假设您需要开始学习 NLP 的最坏情况。一本非常好的免费书是 NLTK 的文档：http://www.nltk.org/book。它也是对 Python 的一个很好的介绍，并且软件是免费的（用于各种用途）。请注意：NLP 很难。它并不总是有效。有时并不好玩。最先进的技术远未达到您的想象。

假设一个更好的场景（你的文本是半结构化的） - 一个很好的免费工具是pyparsing。有一本书，大量示例，生成的代码非常有吸引力。

我希望这会有所帮助...

【讨论】：

【解决方案2】：

可能看托比·塞加兰的“集体智慧”。我似乎记得在一章中解决了这方面的基础知识。

【讨论】：

【解决方案3】：

经过一番研究，我发现这个问题通常被称为信息提取，并收集了一些论文并将它们存储在 Mendeley 集合中

Tai Weiss 也指出，NLTK for python 是一个很好的起点，本书的this 章节专门研究信息提取

【讨论】：

【解决方案4】：

如果您只处理像您引用的示例这样的案例，您最好使用一些基于手动规则的 100% 可预测并涵盖 90% 可能遇到生产的案例。..

您可以枚举所有可能的品牌和类别的列表，并检测输入字符串中哪个是哪个，因为这两个列表中通常很少有交集..

使用正则表达式可以很容易地检测和提取另外两个。（1-3 位数字总是大小等）

您的问题领域似乎不够大，不足以保证采用更繁重的方法，例如统计学习。

【讨论】：

同意，我怀疑 Google 日历使用基于规则的系统（想想正则表达式）来进行解析。从不确定的文本中提取信息时，机器学习更有用。但是，如果您的域相当知名并且输入字符串有限，那么您可以摆脱规则。