linguistics

列表中的提要类

我还是 python 的新手,但我用它来做我的语言学研究。 所以我正在对地名进行一些研究,并从一个地形机构获得了一份输入数据列表,如下所示: Official_Name, tab, Dialect_Name, tab, Administrative_district, Topographic_district, Y_coordinates, X_coordinates, Longitude, L... »

自然语言语法和用户输入的名称

一些语言,尤其是斯拉夫语言,会根据语法上下文改变人名的结尾。 (对于那些了解语法或学习过对单词(例如德语或俄语)执行此操作的语言的人,并且为了帮助搜索关键字,我说的是名词变格。) 这可能是最简单的一组示例(用波兰语,以保存整个不同字母表的问题): Dorothy 看到了猫 — Dorota zobaczyła kota 猫看到了多萝西 — Kot zobaczył Dorotę 这是 D... »

寻找将文本分成句子的企业解决方案

很容易开发基于手动/正则表达式的算法来将文本拆分为句子。但是在处理大量文本时忽略语义最终会导致解析错误。 我正在寻找能够分析语义并提供准确结果的企业级解决方案。 目标语言是 EN。 ... »

php

是否有用于选择以特定字符结尾的单词的 R 函数?

我是一个困惑的语言学家,试图使用 R 从 twitter 收集数据。 我一直在使用 twitteR 包,它在使用固定字符串时效果很好,但我想要求它获取包含“querendo + 不定式动词”的推文。在葡萄牙语中,不定式动词总是以字符 'r' 结尾。如何查询以特定字符结尾的单词? searchtwitteR(" ", n = 1000, lang = pt, locate = Brazil)... »

语言特定怪癖的 Damerau-Levenshtein 距离

对于说荷兰语的人来说,“ij”这两个字符被认为是一个很容易与“y”交换的字母。 对于我正在处理的项目,我希望有一个 Damerau–Levenshtein distance 的变体,它将“ij”和“y”之间的距离计算为 1,而不是当前值 2。 我自己一直在尝试,但失败了。我的问题是我不知道如何处理两个文本长度不同的事实。 有没有人有关于如何解决这个问题的建议/代码片段? 谢谢。 ... »

Java 中跨语言环境的不区分大小写比较

考虑下面的Java代码比较一个包含German grapheme ß的小字符串 String a = "ß"; String b = a.toUpperCase(); assertTrue(a.equalsIgnoreCase(b)); 比较失败,因为 "ß".toUpperCase() 实际上等于 "SS",这最终导致在 equalsIgnoreCase() 中的检查失败。 toUppe... »

词汇量和复杂度之间的关系

我有 2 个语料库,如果一个的词汇量比另一个大,是否意味着它的语言更复杂? 除了语言的复杂性,还有什么会影响语料库中词汇量的大小?... »

O(1) \"inside\" 确定的嵌套结构

背景 希望改进 tokenization logic 的卷曲直引号的库。 问题 在英文中,一些ambiguous的条件可以在多次通过文本后正确卷曲,例如:“贾维斯,先生?为什么,他是“几年前列名的。” 这应该编码为: “Jarvis, sir? Why, him as 'listed some years ago.” 并渲染为:“贾维斯... »

在PHP中将小写字母'ß'转换为大写字母'ẞ' [重复]

我正在尝试将小写字母“ß”转换为大写挂件。我已经尝试过使用内置函数strtoupper 和mb_strtoupper。 当我使用strtoupper时发生以下情况: echo strtoupper('ß'); // leads to 'ß' 当我使用mb_strtoupper时发生以下情况: echo mb_strtoupper('ß', 'UTF-8'); // leads to 'SS' ... »

php

RegEx 中的负向回溯:一次匹配多个 POS 标签

我对正则表达式还是很陌生,所以我将不胜感激。 我正在尝试使用正则表达式在使用 CLAWS7 标记集进行词性标记的文本语料库中查找特定的语法模式。 这是一个示例: Ya_UH and_CC then_RT uhm_NN1 we_PPIS2 wrote_VVD in_RP but_CCB already_RR taken_VVN up_RP that_DD1 day_NNT1 that_CST w... »

LMER 测试从哪里来的相同错误?

我正在尝试对数据集(附加原始数据)执行 LMER 测试,所有列的行数相同 (153)。但是,当我尝试拟合公式时,它给了我一个错误 错误:每个分组因子的级别数必须是... »

用于理解上下文词的自然语言处理技术

取下面的句子: I'm going to change the light bulb change 的意思是replace,就像有人要更换灯泡一样。这可以通过使用字典 api 或类似的东西轻松解决。但是,下面的句子 I need to go the bank to change some currency You need to change your screen brightness... »

哪种算法最可靠地解决替换密码?

我正在研究一个问题,该问题简化为对用已知语言编写的冗长单字母替换密文的密码分析。如 Sinkov 的基本密码分析所述,这个问题很容易通过频率分析和单词模式手动解决。我很难找到一个理论上有效的算法:Joux 的 算法密码分析 甚至没有涵盖这种基本的替换,而且我从 Gaines 的 密码分析:密码及其研究的研究中一无所获解决方案(我应该查看哪些其他资源?)。 有些方法很明显。依次决定每个替换,然后利... »

R函数找出3个变量中的哪一个与另一个值最相关?

我正在进行一项研究,分析演讲者的表现并测量他们的平均 F2 值。我需要的是一个 R 函数,它允许我找到这些 F2 值与其他 3 个变量的关系,如果有,哪个是最重要的。这些变量已被编码为 1、2 或 3,例如“是”“否”答案或响应是正面、中性还是负面(分别为 1、2、3)。 我们可以使用特定的技术或 R 函数/测试来解决这个问题吗?我考虑过使用 ANOVA 或 T 检验,但不确定这是否能满足我的... »

用于在德语 WordNet (GermaNet) 中查找同义词的模糊字符串匹配

对于我的学士论文项目,我正在为聊天机器人开发自然语言理解单元。现在我面临以下问题: 我有一个词,比如说“汽车”,它在德语中相当于汽车。现在用户可能会输入 'auto' 作为输入,因为他只是打了一点错字(添加了一个额外的 't')并且通常在聊天界面中,用户不遵循大写/小写规则,而是输入所有内容小写。 对于我的 NLU 算法,我需要在 GermaNet(大致相当于英语的 WordNet)中为每个... »

重复消除类似公司名称

我有一张带有公司名称的表格。由于人为输入错误,存在许多重复项。如果应该包括细分、错别字等,会有不同的看法。我希望将所有这些重复项都标记为一家公司“1c”: +------------------+ | company | +------------------+ | 1c | | 1c company | | 1c game studio... »

计算文本字符串相似度的方法?

假设我有一个字符串数组,我需要将它们分类成簇。我目前正在使用 n-gram 进行分析,例如: 集群 1: 管道固定 拉斯维加斯的管道修复 关于管道固定的电影 集群 2: 古典音乐 为什么古典音乐很棒 什么是古典音乐 等等 假设在这个数组中我有这两个文本字符串(以及其他): 日本学生 来自日本的学生 现在,N-gram 方法显然不会将这两个字符串放在一起,因为它... »

从文本文件中随机选择句子,找到对应的ID号

我正在帮助我的一位教授完成一个研究项目,该项目涉及从一组 20 个文本文件中随机抽取一千个句子。这是来自当代美国英语语料库的所有数据,如果有人熟悉使用它的话。在这些文本文件中,数据是这样排列的: Blockquote ##4000348 我必须首先这样说:为了准备本次讲座,我阅读(或在某些情况下重读)Sidney Hook 的一些著作。我阅读它们只是为了给我一个正确的起点,让我为纪念 Si... »

编程中“让”变量的语言含义[重复]

所以,我是一名 javascript 程序员,新版本的 JavaScript (ES6) 有一个用于声明变量的新关键字:let,在旧的 var 旁边。 我知道这两者之间的区别,但我在问自己:let 代表什么? var 显然是"variable"的缩写,但是let?也是缩写吗?它来自哪里? 我用谷歌搜索了这个,令我惊讶的是,我找不到答案。我已经知道 Swift 也有一个 let 关键字(他们用... »

使用 NLP 创建用户助理

我在 Coursera 上学习名为“自然语言处理”的课程,虽然课程内容丰富,但我想知道所提供的内容是否符合我的要求。基本上我想实现一个文本版本Cortana 或 Siri 现在作为一个项目,即用户可以在其中以自然语言为计算机输入命令,这些命令将被处理并翻译成适当的操作系统命令。我的问题是 在处理语音之后,上述应用程序的一般步骤顺序是什么?他们是标记文本然后解析它,还是有其他方法? 它属于 NL... »