如何从凌乱的 Excel 书籍中读取数据答案

【问题标题】：How to read in Data from Messy Excel Books如何从凌乱的 Excel 书籍中读取数据
【发布时间】：2018-10-08 05:16:17
【问题描述】：

我一直在处理来自医院的患者和财务数据。数据存储在 .xlsx excel 书籍中。每张纸中有多个水平和垂直延伸的页面。一些列的名称定义得很整齐，就像您对 R 所希望的那样，但其他列没有或中间有文本，更不用说看起来是随机的了。有时一个部分的标题是多行格式化为一个单行的结果。不幸的是，由于机密性，我无法显示数据。当数据远非整齐的格式时，是否还有这种情况？到目前为止，我一直在将数据复制并粘贴到新的 CSV 中。虽然这很有效，但我觉得它在很大程度上效率低下。这是最好的方法吗？

非常感谢您的帮助

谢谢

编辑

因为我不能展示数据，所以这是我能展示的最好的了

嗨@保罗
所以让我举一个粗略的例子

                 Jan   Feb  March   April
Income X    1      2      3           4
Income Y    2      4     4            6  
               Expenditure

                Jan    Feb    March    April                Another table here also
Expense   1        3         5           7
Expense   5       6          7           8

(Excel Bar chart)

【问题讨论】：

这听起来像是统计学家/数据科学家的日常生活。您能否在您的问题中提供一些“虚拟”数据，这些数据是您必须处理的准确示例 - 以及您的预期输出是什么？
我已经编辑了这个问题，以便向您展示我正在处理的内容的粗略示例。我只想要标准“整洁”格式的东西，带有漂亮的行和列以便于操作

标签： r excel csv data-analysis

【解决方案1】：

查看readxl 包，范围选项可能就是您要查找的内容：

library(readxl)

df1 <- read_xlsx("C:\\Users\\...\\Desktop\\Book1.xlsx", range = "A1:D3")
# # A tibble: 2 x 4
#     Jan   Feb March April
#   <dbl> <dbl> <dbl> <dbl>
# 1     1     3     5     7
# 2     5     6     7     8

df2 <- read_xlsx("C:\\Users\\...\\Desktop\\Book1.xlsx", range = "B6:E8")
# # A tibble: 2 x 4
#     Jan   Feb March April
#   <dbl> <dbl> <dbl> <dbl>
# 1     1     3     5     7
# 2     5     6     7     8

【讨论】：