【问题标题】:How can I build a specific corpus - Algorithmic Instructions如何构建特定的语料库 - 算法说明
【发布时间】:2019-10-08 01:57:34
【问题描述】:

我正在做一个项目,我需要构建一个算法句子语料库。换句话说,我需要一个由句子组成的语料库,其中每个句子都是用自然语言英语表达的算法指令。示例:

  • 将 5 分配给 X
  • 将变量 X 乘以 5
  • 声明一个名为 Z 的变量

我做了一些研究,发现了这个 Google BigQuery - 堆栈内存溢出。我仍在探索它,我不确定它是否对我有帮助。我正在考虑网络爬取 Stack Overflow,但它看起来非常嘈杂。在这种情况下是否有任何现成的数据集或 API?你知道有哪些网站充满了我可以抓取的算法指令吗?

欢迎任何想法,请帮助我!

【问题讨论】:

    标签: algorithm nlp corpus


    【解决方案1】:

    似乎您可以生成尽可能多的它们,并带有一组您想要使用的条件和说明。可能您应该遵循在一组“变量”、“数字”和“运算符”之间随机抽样的生成方法来生成此类指令。

    例如:假设您要生成指令:

    • 涉及xyz的变量。
    • 涉及567 的数字。
    • 运营商涉及addsubtractmultiply

    然后您的流程将选择一个运算符,选择一个数字并选择一个变量,并基本上根据所涉及的运算符生成一条指令。或者在同一条线上的东西。关键是要继续进行这种随机抽样,并根据需要生成尽可能多的指令。此外,如果您的变量和数字集足够多,您最终可以得到一个相当不错的指令列表。

    希望对您有所帮助。

    【讨论】:

    • 这是一个绝妙的主意!!谢谢!我已经尝试过了,它奏效了。只是为了添加您的答案,我添加了另一个列表,一个介词列表。另外,我没有盲目随机生成指令,因为它没有意义,我可能有太多无效指令。相反,正如您在答案中指出的那样,我已经设法引导随机生成,并添加了一些逻辑。我仍然有无效的指令,这很好,这就是随机的点!所以我不得不手动消除无效指令。
    猜你喜欢
    • 2023-04-04
    • 2014-07-25
    • 1970-01-01
    • 2021-03-16
    • 1970-01-01
    • 1970-01-01
    • 2018-01-02
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多