【问题标题】:Food information extraction食品信息提取
【发布时间】:2013-04-24 17:39:20
【问题描述】:

我正在使用美国农业部营养数据库,其食物有以下描述:

例如:

Cheese, fontina
Cheese, cheddar
Cheese, cottage, lowfat, 2% milkfat
Cheese, cottage, lowfat, 1% milkfat
Apples, raw, with skin
Apples, dried, sulfured, uncooked
Apples, frozen, unsweetened, heated
McDONALD'S, BIG MAC (without Big Mac Sauce)
McDONALD'S, BIG MAC
Sandwiches and burgers, roast beef sandwich with cheese

这里有一个模式,逗号显然是用来分隔实体的。按照上面的例子,cheese 是 cheddar、cottage 和 fontina 的父代。

我已经完成了一些工作,以便从该来源中提取信息。我认为:

  • 词性标注:如果一个词是形容词或动词,则不是食物名称的一部分
  • freqdist/wordcount:这样做是为了获得食物描述中的单词层次结构

但是当我大规模运行它时,我得到了不准确的结果。 POS 标记在某些描述中失败,并且当同一句子中存在具有相似频率的单词时,freqdist/wordcount 没有用。

这是我想要得到的结果示例:

输入数据:

Cheese, fontina
Cheese, cheddar
Cheese, cottage, lowfat, 2% milkfat
Cheese, cottage, lowfat, 1% milkfat

输出数据:

Cheese is the parent of fontina, cottage and cheddar. lowfat is a "characteristic" cheese cottage. Cottage, cheddar and fontina are the "principal foods".

输入数据:

Sandwiches and burgers, roast beef sandwich with cheese

输出数据:

Cheese is a characteristic of roast beef sandwich. The category of the food is    sandwiches and burgers and the "principal food" is roast beef sandwich. 

我是初学者,所以我想获得一些有关它的指导。关于 NLP 的信息很多,如果没有广泛的学科知识,很难确定该走哪条路。

【问题讨论】:

    标签: nlp information-extraction


    【解决方案1】:

    这不是一个真正的 NLP 问题...

    数据是一棵树。 将每条线视为树形图中的部分路径。第二个逗号后面的词似乎是叶子的值。

    【讨论】:

    • 这没有提供问题的答案。要批评或要求作者澄清,请在他们的帖子下方发表评论 - 您可以随时评论自己的帖子,一旦您有足够的reputation,您就可以comment on any post
    • 我的意思是我不相信 NLP 可以为这样的问题提供答案。也许将其标记为数据挖掘问题会更好。
    • 对,但它仍然是 comment,而不是 answer。如果您将其扩展为实际答案,即使它告诉提问者它不是一个 NLP 问题,同时提供有关数据树的答案。
    猜你喜欢
    • 2013-04-27
    • 1970-01-01
    • 2023-02-16
    • 2020-02-05
    • 2022-08-14
    • 2015-02-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多