【问题标题】:Prevent unmatched quote parse error in h2o importFile防止 h2o importFile 中出现不匹配的引号解析错误
【发布时间】:2017-04-07 18:09:26
【问题描述】:

这是由 Stanford GLOVE 项目提供的流行的预训练词向量文件。它通常用于自然语言应用程序。

解析错误可能是我试图修复的一些不可预测行为的根本原因。在这个十六进制框架上执行 as.data.frame 之后出现了奇怪的东西(未显示)。所以我想以某种方式修复这个早期的错误。

# How to eliminate parse error?
g6B = h2o.importFile(path = "/mnt/fastssd/glove/glove.6B/glove.6B.100d.txt", header=FALSE, na.strings=NA, sep=" ")

WARNING: ParseError at file nfs://mnt/fastssd/glove/glove.6B/glove.6B.100d.txt  at byte offset 7674; error = 'Unmatched quote char "' 
  |======================================================================| 100%
Warning message in doTryCatch(return(expr), name, parentenv, handler):
“ParseError at file /mnt/fastssd/glove/glove.6B/glove.6B.100d.txt  at byte offset 7674; error = 'Unmatched quote char "'”

H2O 中是否有解决此错误的方法?如果没有,那么还有什么方法?谢谢

【问题讨论】:

  • 您能否提供该文件中内容的快照(头部)?我需要看看那个文件的格式是什么:sparse 还是 CSV 或者别的什么?
  • 在从 Kaggle 的“Two Sigma Connect: Rental Listing Inquiries”竞赛中读取测试文件时遇到了类似的错误:kaggle.com/c/two-sigma-connect-rental-listing-inquiries/data

标签: r word2vec h2o


【解决方案1】:

我下载了 glove.6B.100d.txt 测试并在 R 中使用最新的 H2O 3.10.4.3 进行了快速尝试,确实看到了相同的警告,但是数据被正确摄取。

我仍然可以正确使用具有 399,999 行和 101 列的数据框,因此我可以确认数据摄取是正确的,并且警告不会导致数据摄取出现任何问题。

我已打开以下 JIRA 来修复警告问题:

https://0xdata.atlassian.net/browse/PUBDEV-4284

【讨论】:

    猜你喜欢
    • 2018-03-29
    • 2018-02-03
    • 1970-01-01
    • 2015-07-10
    • 2021-07-14
    • 2011-08-29
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多