{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# 数据读取\n",
    "\n",
    "本节介绍一些实用的数据处理函数（如行、列合并），以及如何从各种数据源读、写数据。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 实用函数\n",
    "\n",
    "| 函数 | 含义 |\n",
    "| --- | --- |\n",
    "| length() | 对象的长度。如 2 行 3 列的矩阵，其长度为 6。 |\n",
    "| dim() | 对象的维度。如 2 3 表示对象是二维的，有 2 行 3 列。 |\n",
    "| str() | 对象的结构。常用于查看数据框各列的数据类型、或者因子的分级数量。 |\n",
    "| class() | 对象的类。比如矩阵的返回结果是 matrix。 |\n",
    "| typeof() | 对象内数据的类型。比如矩阵的返回结果是 integer。 |\n",
    "| mode() | 对象的模式。比如矩阵会返回 numeric。 |\n",
    "| names() | 对象中各成分的名称。 |\n",
    "| cbind() | 按列合并多个对象。 |\n",
    "| rbind() | 按行合并多个对象。 |\n",
    "| *objectname* | 输出对象。 |\n",
    "| head() | 输出对象的前部，对于数据框而言是前6行。通过 head(*obj*, N) 来指定输出前 N 行。 |\n",
    "| tail() | 类似地，输出对象的后部。 |\n",
    "| ls(NULL) | 无参数函数。显示当前所有对象的名称列表。 |\n",
    "| rm() | 删除单个或多个对象。使用 rm(list = ls()) 可以删除除句点开头的隐藏对象外的所有对象。 |\n",
    "\n",
    "一个 ls() 函数的例子："
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "'a'"
      ],
      "text/latex": [
       "'a'"
      ],
      "text/markdown": [
       "'a'"
      ],
      "text/plain": [
       "[1] \"a\""
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    }
   ],
   "source": [
    "a <- matrix(1:6, nrow=2, ncol=3)\n",
    "ls()  # 目前的对象只有 a"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 手动输入\n",
    "\n",
    "使用需要赋值的 edit() 函数，或者无需写在赋值语句内的 fix() 函数。"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [],
   "source": [
    "dt <- data.frame(age = numeric(0), gender = character(0), weight = numeric(0))\n",
    "\n",
    "# dt <- edit(dt)  # 需要自赋值\n",
    "# fix(dt)  # 无需自赋值"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "遗憾的是，在 Jupyter Notebook 现行的版本中，尚且不支持 edit() 函数。不过用户可以使用 fix() 函数。\n",
    "\n",
    "## 读取文件\n",
    "\n",
    "关于怎样读取来自 URL 地址的网络文件，R 可以实现，但这里不做讨论。以下只讨论本地数据源的读写。\n",
    "\n",
    "### 分隔符文件\n",
    "\n",
    "利用 read.table() 函数即可。其常用的参数有：\n",
    "\n",
    "```r\n",
    "read.table(file, [header=T/F, sep=\" \", row.names=, col.names=, na.strings=, \n",
    "       colClasses=, quote=, skip=, stringAsFactors=T/F,])\n",
    "```\n",
    "           \n",
    "其中，可选参数的含义大多较好理解：header 表示文件首行是否是列名而不是数据；sep 是列间分隔符；na.strings 指定一个字符向量，内部所有的元素在读取时会被转换为 NA；colClasses 用于指派各列的类型，如 =c(\"numeric\", \"character\", \"NULL\") 指定了前两列的类型并跳过了第三列；skip 用于跳过文件的最开始的若干行；stringAsFactors 为 TRUE（默认值）时表示字符向量按因子处理，设为 FALSE 可以提升大文本处理速度。"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<table>\n",
       "<thead><tr><th scope=col>X5.1</th><th scope=col>X3.5</th><th scope=col>X1.4</th><th scope=col>X0.2</th><th scope=col>Iris.setosa</th></tr></thead>\n",
       "<tbody>\n",
       "\t<tr><td>4.9        </td><td>3.0        </td><td>1.4        </td><td>0.2        </td><td>Iris-setosa</td></tr>\n",
       "\t<tr><td>4.7        </td><td>3.2        </td><td>1.3        </td><td>0.2        </td><td>Iris-setosa</td></tr>\n",
       "\t<tr><td>4.6        </td><td>3.1        </td><td>1.5        </td><td>0.2        </td><td>Iris-setosa</td></tr>\n",
       "\t<tr><td>5.0        </td><td>3.6        </td><td>1.4        </td><td>0.2        </td><td>Iris-setosa</td></tr>\n",
       "\t<tr><td>5.4        </td><td>3.9        </td><td>1.7        </td><td>0.4        </td><td>Iris-setosa</td></tr>\n",
       "\t<tr><td>4.6        </td><td>3.4        </td><td>1.4        </td><td>0.3        </td><td>Iris-setosa</td></tr>\n",
       "</tbody>\n",
       "</table>\n"
      ],
      "text/latex": [
       "\\begin{tabular}{r|lllll}\n",
       " X5.1 & X3.5 & X1.4 & X0.2 & Iris.setosa\\\\\n",
       "\\hline\n",
       "\t 4.9         & 3.0         & 1.4         & 0.2         & Iris-setosa\\\\\n",
       "\t 4.7         & 3.2         & 1.3         & 0.2         & Iris-setosa\\\\\n",
       "\t 4.6         & 3.1         & 1.5         & 0.2         & Iris-setosa\\\\\n",
       "\t 5.0         & 3.6         & 1.4         & 0.2         & Iris-setosa\\\\\n",
       "\t 5.4         & 3.9         & 1.7         & 0.4         & Iris-setosa\\\\\n",
       "\t 4.6         & 3.4         & 1.4         & 0.3         & Iris-setosa\\\\\n",
       "\\end{tabular}\n"
      ],
      "text/markdown": [
       "\n",
       "X5.1 | X3.5 | X1.4 | X0.2 | Iris.setosa | \n",
       "|---|---|---|---|---|---|\n",
       "| 4.9         | 3.0         | 1.4         | 0.2         | Iris-setosa | \n",
       "| 4.7         | 3.2         | 1.3         | 0.2         | Iris-setosa | \n",
       "| 4.6         | 3.1         | 1.5         | 0.2         | Iris-setosa | \n",
       "| 5.0         | 3.6         | 1.4         | 0.2         | Iris-setosa | \n",
       "| 5.4         | 3.9         | 1.7         | 0.4         | Iris-setosa | \n",
       "| 4.6         | 3.4         | 1.4         | 0.3         | Iris-setosa | \n",
       "\n",
       "\n"
      ],
      "text/plain": [
       "  X5.1 X3.5 X1.4 X0.2 Iris.setosa\n",
       "1 4.9  3.0  1.4  0.2  Iris-setosa\n",
       "2 4.7  3.2  1.3  0.2  Iris-setosa\n",
       "3 4.6  3.1  1.5  0.2  Iris-setosa\n",
       "4 5.0  3.6  1.4  0.2  Iris-setosa\n",
       "5 5.4  3.9  1.7  0.4  Iris-setosa\n",
       "6 4.6  3.4  1.4  0.3  Iris-setosa"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    }
   ],
   "source": [
    "data.path <- paste(getwd(), '/data/iris.data.csv', sep='')\n",
    "dt <- read.table(data.path, header=T, sep=\",\")\n",
    "head(dt)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "'data.frame':\t149 obs. of  5 variables:\n",
      " $ X5.1       : num  4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 5.4 ...\n",
      " $ X3.5       : num  3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 3.7 ...\n",
      " $ X1.4       : num  1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 1.5 ...\n",
      " $ X0.2       : num  0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 0.2 ...\n",
      " $ Iris.setosa: Factor w/ 3 levels \"Iris-setosa\",..: 1 1 1 1 1 1 1 1 1 1 ...\n"
     ]
    }
   ],
   "source": [
    "# 利用 str() 函数查看其信息\n",
    "str(dt)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "须知：\n",
    "\n",
    "- 如果列名中包含空格，R 会将空格替换为句点。\n",
    "- 多数情况下，stringAsFactors 可以设为 FALSE。但是本例中的字符变量表示植物的种类，此处读成因子是正确的。\n",
    "- 函数 read.csv() 能够读取 csv 文件，但是功能不如 read.table() —— 后者能处理非 csv 文本。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### 处理 Excel 文件\n",
    "\n",
    "读取一个 Excel 文件最佳的方式，是**预先将其转为 csv 格式，并用上述的 read.table() 方法读取。**\n",
    "\n",
    "你也可以查找关于 xlsx 包的相关内容，来获知如何直接操作 xlsx 文件。此处略过不提。\n",
    "\n",
    "### 统计软件数据：SAS/SPSS/Stata\n",
    "\n",
    "需要用到 foreign 包。\n",
    "\n",
    "- SAS：使用 read.ssd()。如果你安装了 SAS，可以使用 Hmisc 包的 sas.get()。\n",
    "- SPSS：使用 read.spss()，或者 Hmisc 包的 spss.get()。\n",
    "- Stata：使用 read.data()。\n",
    "\n",
    "### 数据库\n",
    "\n",
    "一个方法是使用 ODBC 接口。针对你的数据库类型，安装 ODBC 驱动；然后在 R 中安装 RODBC 包。\n",
    "\n",
    "另一个方法是使用 JDBC 接口，只不过需要 RJDBC 包。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 写入文件\n",
    "\n",
    "在我们对于数据进行清洗之后，往往需要把清洗结果输出到一个新文件中。这里就以 csv 格式为例吧。一个通常的 write.table()/write.csv() 的例子：\n",
    "\n",
    "```r\n",
    "write.csv(dt, \"filename.csv\", row.names=F)\n",
    "```\n",
    "\n",
    "其中 row.names 指定为 FALSE，否则第一列会生成行号一样的数据。"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "R",
   "language": "R",
   "name": "ir"
  },
  "language_info": {
   "codemirror_mode": "r",
   "file_extension": ".r",
   "mimetype": "text/x-r-source",
   "name": "R",
   "pygments_lexer": "r",
   "version": "4.0.0"
  },
  "toc": {
   "base_numbering": 1,
   "nav_menu": {},
   "number_sections": true,
   "sideBar": true,
   "skip_h1_title": false,
   "title_cell": "Table of Contents",
   "title_sidebar": "Contents",
   "toc_cell": false,
   "toc_position": {},
   "toc_section_display": true,
   "toc_window_display": false
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}