【发布时间】:2017-05-24 13:35:32
【问题描述】:
我们已经构建了一个系统,可以分析一些数据并以简单的英语输出一些结果(即没有图表等)。当前的实现依赖于大量模板和一些随机化,以便为文本提供尽可能多的多样性。
我们希望切换到更高级的内容,希望生成的文本不那么重复,听起来不那么机械。我在谷歌上搜索了很多,但我找不到具体的开始。有什么想法吗?
编辑:提供给 NLG 机制的数据采用 JSON 格式。这是一个关于网络分析数据的例子。 json 文件可能包含例如一个指标(例如访问量)、它在过去 X 天内的值、最后一个值是否是预期的以及哪些维度(例如国家或营销渠道)影响了它的变化。
当前的实现可能是这样的:
主要来自 ABC 电子邮件活动的英国总访问量达到 10K(+20% DoD),比预期值高 10%。用户主要登陆 XXX 页面,而不同设备的增长是一致的。
我们正在寻找一种方法来减少对模板的依赖,听起来更自然并增加词汇量。
【问题讨论】:
-
那么您使用的是哪种数据,这些结果是什么样的?你是想要更自然的句子,还是只是想用词汇来混合事物?
-
@patrick 编辑了我上面的帖子
-
这是一个相当广泛的问题,所以我不确定它是否适合 Stack Overflow。也就是说,为什么您特别想摆脱模板?更多的模板不是有助于听起来更自然,增加词汇量,同时保持易于维护和可测试性吗?