【问题标题】:How to read in Data from Messy Excel Books如何从凌乱的 Excel 书籍中读取数据
【发布时间】:2018-10-08 05:16:17
【问题描述】:

我一直在处理来自医院的患者和财务数据。数据存储在 .xlsx excel 书籍中。每张纸中有多个水平和垂直延伸的页面。一些列的名称定义得很整齐,就像您对 R 所希望的那样,但其他列没有或中间有文本,更不用说看起来是随机的了。有时 一个部分的标题是多行格式化为一个单行的结果。 不幸的是,由于机密性,我无法显示数据。当数据远非整齐的格式时,是否还有这种情况? 到目前为止,我一直在将数据复制并粘贴到新的 CSV 中。 虽然这很有效,但我觉得它在很大程度上效率低下。这是最好的方法吗?

非常感谢您的帮助

谢谢

编辑

因为我不能展示数据,所以这是我能展示的最好的了

嗨@保罗
所以让我举一个粗略的例子

                 Jan   Feb  March   April
Income X    1      2      3           4
Income Y    2      4     4            6  
               Expenditure

                Jan    Feb    March    April                Another table here also
Expense   1        3         5           7
Expense   5       6          7           8

(Excel Bar chart)

【问题讨论】:

  • 这听起来像是统计学家/数据科学家的日常生活。您能否在您的问题中提供一些“虚拟”数据,这些数据是您必须处理的准确示例 - 以及您的预期输出是什么?
  • 我已经编辑了这个问题,以便向您展示我正在处理的内容的粗略示例。我只想要标准“整洁”格式的东西,带有漂亮的行和列以便于操作

标签: r excel csv data-analysis


【解决方案1】:

查看readxl 包,范围选项可能就是您要查找的内容:

library(readxl)

df1 <- read_xlsx("C:\\Users\\...\\Desktop\\Book1.xlsx", range = "A1:D3")
# # A tibble: 2 x 4
#     Jan   Feb March April
#   <dbl> <dbl> <dbl> <dbl>
# 1     1     3     5     7
# 2     5     6     7     8

df2 <- read_xlsx("C:\\Users\\...\\Desktop\\Book1.xlsx", range = "B6:E8")
# # A tibble: 2 x 4
#     Jan   Feb March April
#   <dbl> <dbl> <dbl> <dbl>
# 1     1     3     5     7
# 2     5     6     7     8

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2020-10-24
    • 2016-12-22
    • 1970-01-01
    • 2018-08-06
    • 1970-01-01
    • 2018-08-04
    • 1970-01-01
    • 2016-10-09
    相关资源
    最近更新 更多