frequency-analysis

HDBSCAN 集群选择

我一直在使用HDBSCAN,并根据我的数据拥有数百个集群。我正在尝试选择一些集群组进行进一步分析。寻找具有高集群间距离的集群,因为它比集群的其余部分更分散并且表现得有点离群。到目前为止,我正在使用 (-1) 集群类别,但意识到这些集群中的 cluster.probabilities_ 是 0。我需要这个值来做进一步的分析。 我的问题是: cluster.probabilities_ score ... »

Mahout 上的 K-means 返回非独占集群

在我的数据中,我的用户有一个喜欢列表,我已将这些喜欢转储到每个用户的单独文件中,并希望将它们聚集在一起。一切正常,除了输出在多个集群中具有相同的喜好。我的理解是k-means应该是排他的。我认为问题可能在于我如何转储数据。在我可以编写自定义标记器之前,我也暂时放弃了所有没有空格的喜欢。这是我正在运行的内容(来自 ruby​​ 脚本)。 system("#{MAHOUT_CMD} seqdirec... »

Python3 - 将相似的字符串分组在一起

我想做的是将小说网站上的字符串组合在一起。帖子的标题通常采用以下格式: titles = ['Series Name: Part 1 - This is the chapter name', '[OC] Series Name - Part 2 - Another name with the word chapter and extra oc at the start', "[O... »

如何提高某些选项的圈复杂度?

那么我是否只是通过抑制它来忽略此代码分析警告?或者有没有办法真正解决它? 这是一个与我很接近的用户故事,但我对其稍作更改,以使公司信息不在网站上... 假设我有一个向 15 个国家/地区发货的公司的网站,他们希望从相应的 resources.resx 文件中以用户选择的语言显示这些国家/地区的名称。 现在我在列表中的“选项”比名称/值或键/值对更复杂。所以当前代码有一个返回所有选项的方法,所以它可... »

c#

通过正则表达式和/或 python 从文本文件中提取信息

我正在处理大量文件(价值约 4gb),它们都包含 1 到 100 个具有以下格式的条目(两个 *** 之间是一个条目): *** Type:status Origin: @z_rose yes Text: yes URL: ID: 95482459084427264 Time: Mon Jul 25 08:16:06 CDT 2011 RetCount: 0 Favorite: false ... »

人工神经网络中实际输出值过冲/下冲的一般趋势

神经网络(前馈)可能具有超出实际输出而不是下冲(反之亦然)的一般趋势的一些原因是什么? 例如,下图(右)显示了预测误差的几乎完美的高斯分布,但是神经网络似乎倾向于预测值高于实际值: ... »

按组绘制多个累积百分比图

我的数据看起来像: zip ID count 230 B 12 230 A 10 230 C 9 230 D 5 270 C 10 270 A 9 270 B 8 290 C 9 290 A 8 290 B 6 zip 和 ID ... »

有没有人为 C/objective-C 使用 clang 静态分析器?好还是不好?

我知道related question 有人提到了clang static analyzer,但没有提供更多的cmets。大多数答案都指向 lint 家族,由于大量误报,该家族不时让我失望。 我在阅读 XCode 发行说明时注意到了 clang 静态分析器。我已经尝试过了,它只在几个项目的约 20,000 行中产生了一个误报。误报背后的逻辑有点复杂,这会欺骗分析器。但是假阴性呢? clang 静... »

c

dplyr 的相对频率/比例创建新列而不是行

这个问题的灵感来自this 和this 问题。 我正在尝试计算每个组中不同值的比例,但我不想为组创建“新”行,而是创建新列。 以上面第二个问题为例。如果我有以下数据: data <- structure(list(value = c(1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L), class = str... »

频率的最大值和最小值都返回相同的值

我已经使用 wxFormBuilder 创建了一个 GUI,它应该允许用户将“企业访问者”的名称输入到列表中,然后单击两个按钮中的一个来返回访问该企业的最频繁和最不频繁访问者。下面看一下 GUI:http://imgur.com/XJnvo0U 不幸的是,Most 和 Least 按钮都抛出相同的值(Most)。我认为这与频率如何加权输入有关,并且可能与 clkFindMost 和 clkFi... »

使用聚类数据进行 Sklearn 回归

我正在尝试使用集群数据集在sklearn 中运行多项式LogisticRegression(也就是说,每个个体有多个观察值,其中只有一些特征发生变化,而其他特征保持不变)。< /p> 我知道statsmodels 可以通过以下方式解决这个问题: mnl = MNLogit(x,y).fit(cov_type="cluster", cov_kwds={"groups": cluster_groups... »

使用 ggsurvplot 绘制有风险的主题时出现错误消息

尝试在 survplot 中沿 x 轴绘制处于危险中的对象时收到以下错误消息: Error in text.default(tt[-1], yy, nri[-1], cex = cex.n.risk, adj = 1) : zero-length 'labels' specified 有什么帮助吗?我对生存分析相当陌生,未能找到对此错误的任何解释。 总体而言,代码看起来不错,除非我为绘图添加... »

在空间中拟合对象的算法

我有一组不同大小的正方形和矩形,我想使用 PHP 将它们组合成一个大正方形/矩形。这些方块通常是我想制作成蒙太奇的图像 - 但有时它们只是数学对象。 是否有任何 PHP 算法可以解决这个问题?这种类型的东西叫什么? 更新:经过更多搜索后,我想我想要的是 bin packing problem。但是,我还想为某些类型的打包问题(如图像)添加一定量的随机化,以引起人们的兴趣。 ... »

使用熊猫将列表中的单词与频率列表中的单词进行比较

我有 2 个包含数千个元素的频率列表,而我也有 2 个包含少量元素的较小列表。这个想法是我需要检查我的较小列表中的每个元素出现在频率列表中的次数,并比较它们,最后使用 pandas 包在表格中显示我的发现。 频率列表: pos_freqdist = FreqDist(get_all_words(pos_train)) neg_freqdist = FreqDist(get_all_word... »

NP和co-NP有什么区别

我知道他们完全对应的意思是 NP - 完全是 NP 问题中最难的,而 co-NP-complete 是指 co-NP 问题中最难的,但两者之间有什么区别?我的教科书说“是与否是颠倒的”,这并没有给我留下太多线索。 ... »

使用(逻辑?)表达式计算频率

我一直在从头开始自学 R,所以请多多包涵。我找到了多种计算观察值的方法,但是,我试图弄清楚如何使用(逻辑?)表达式计算频率。我有大量数据,大约有 100 万个观察值。 df 是这样设置的: Latitude Longitude ID Year Month Day Value 66.16667 -10.16667 CPUELE25399 1979 1 ... »