防止 h2o importFile 中出现不匹配的引号解析错误答案

【问题标题】：Prevent unmatched quote parse error in h2o importFile防止 h2o importFile 中出现不匹配的引号解析错误
【发布时间】：2017-04-07 18:09:26
【问题描述】：

这是由 Stanford GLOVE 项目提供的流行的预训练词向量文件。它通常用于自然语言应用程序。

解析错误可能是我试图修复的一些不可预测行为的根本原因。在这个十六进制框架上执行 as.data.frame 之后出现了奇怪的东西（未显示）。所以我想以某种方式修复这个早期的错误。

# How to eliminate parse error?
g6B = h2o.importFile(path = "/mnt/fastssd/glove/glove.6B/glove.6B.100d.txt", header=FALSE, na.strings=NA, sep=" ")

WARNING: ParseError at file nfs://mnt/fastssd/glove/glove.6B/glove.6B.100d.txt  at byte offset 7674; error = 'Unmatched quote char "' 
  |======================================================================| 100%
Warning message in doTryCatch(return(expr), name, parentenv, handler):
“ParseError at file /mnt/fastssd/glove/glove.6B/glove.6B.100d.txt  at byte offset 7674; error = 'Unmatched quote char "'”

H2O 中是否有解决此错误的方法？如果没有，那么还有什么方法？谢谢

【问题讨论】：

您能否提供该文件中内容的快照（头部）？我需要看看那个文件的格式是什么：sparse 还是 CSV 或者别的什么？
在从 Kaggle 的“Two Sigma Connect: Rental Listing Inquiries”竞赛中读取测试文件时遇到了类似的错误：kaggle.com/c/two-sigma-connect-rental-listing-inquiries/data

标签： r word2vec h2o

【解决方案1】：

我下载了 glove.6B.100d.txt 测试并在 R 中使用最新的 H2O 3.10.4.3 进行了快速尝试，确实看到了相同的警告，但是数据被正确摄取。

我仍然可以正确使用具有 399,999 行和 101 列的数据框，因此我可以确认数据摄取是正确的，并且警告不会导致数据摄取出现任何问题。

我已打开以下 JIRA 来修复警告问题：

https://0xdata.atlassian.net/browse/PUBDEV-4284

【讨论】：