【问题标题】:Entity annotation has whitespaces in RASA NLU实体注释在 RASA NLU 中有空格
【发布时间】:2018-01-20 20:33:02
【问题描述】:

我正在通过Training Data RASA Format 进行详细说明。

{
  "text": "show me chinese restaurants",
  "intent": "restaurant_search",
  "entities": [
    {
      "start": 8,
      "end": 15,
      "value": "chinese",
      "entity": "cuisine"
    }
  ]
}

子字符串Chinese 被标记为话语的第 8 到第 15 个索引的实体。

我编写了一个小 C# 程序来验证话语中字符索引的正确性。

public class Program
    {
        public static void Main(string[] args)
        {
            string s = "show me chinese restaurants";
            int i = 0;

            foreach(var item in s.ToCharArray())
                Console.WriteLine("{0} - {1}", item, i++);
        }
    }

但是当我运行程序时,我得到以下输出:

s - 0
h - 1
o - 2
w - 3
  - 4
m - 5
e - 6
  - 7
c - 8
h - 9
i - 10
n - 11
e - 12
s - 13
e - 14
  - 15
r - 16
e - 17
s - 18
t - 19
a - 20
u - 21
r - 22
a - 23
n - 24
t - 25
s - 26

注意文本注释的奇怪行为,子字符串 Chinese 从索引 8 开始,到 15 结束,并带有一个空格。

但子字符串 Chinese 应该从索引 8 开始并在位置 14 结束。

当我训练相同的文本 Chinese 时,索引从位置 8 开始到 14 结束。我收到 RASA 发出的 Misaligned Entity Annotation 警告,详细信息 here

谁能解释一下这种奇怪的行为。

谢谢

【问题讨论】:

    标签: c# nlp rasa-nlu


    【解决方案1】:

    阅读链接provided我可能想出了一个可能的解释:

    它们共同构成了一个适用于字符串的python样式范围,例如在下面的示例中,使用 text="show me chinese Restaurants",然后使用 text[8:15] == 'chinese'

    这让我走上了一条我正在思考的道路

    嗯,这很奇怪,我想知道 python 是否会奇怪地索引

    我创建了一个快速应用程序来证明这一点:

    text = "show me chinese restaurants"
    print(text[8:15])
    

    现在这可能没有意义,因为这里数组的空间 15 中的字符实际上是一个空格。这让我看到了这篇文章:

    https://www.pythoncentral.io/how-to-slice-listsarrays-and-tuples-in-python/

    似乎他们在此处的示例中使用的运算符text[8:15] 对数组进行了切片,他们使用了示例:

    a = [1, 2, 3, 4, 5, 6, 7, 8]

    a[1:4] 输出:[2, 3, 4]

    并这样解释

    让我解释一下。 1 表示从列表中的第二个元素开始(注意切片索引从 0 开始)。 4 表示在列表中的第五个元素处结束,但不包括它。中间的冒号是 Python 的列表如何识别我们要使用切片来获取列表中的对象的方式。

    所以看来切片的第二个参数是排他性的。

    希望对你有帮助

    附言必须学习和设置一些 python 东西:D

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2019-09-04
      • 2019-08-03
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多