Cách nhập dữ liệu vào R | Cách đọc dữ liệu từ Excel vào R

Chào các độc giả, sau đây MOSL xin phép giới thiệu các bạn cách nhập dữ liệu vào R và đọc dữ liệu từ Excel vào R.

  • Lorem ipsum dolor sit amet, consectetur adipiscing elit

  • Lorem ipsum dolor sit amet

Home page/Research knowledge/Ngôn ngữ R/Cách nhập dữ liệu vào R | Cách đọc dữ liệu từ Excel vào R

Blog

  • 25 Tháng 08, 2021

  • 30 views

Cách nhập dữ liệu vào R | Cách đọc dữ liệu từ Excel vào R

5/5 - (2 votes)

Chào các độc giả, sau đây MOSL xin phép giới thiệu các bạn cách nhập dữ liệu vào R và đọc dữ liệu từ Excel vào R.

1. Cách nhập dữ liệu vào R


Cách 1: Cách nhập dữ liệu vào R

Để phân tích dữ liệu thứ đầu tiên bạn cần làm là nhập dữ liệu vào R.

Bạn có thể nhập dữ liệu trực tiếp vào R. Để mình họa chúng ta xét bảng số liệu sau:

Cách nhập dữ liệu vào R
Cách nhập dữ liệu vào R

Để nhập bảng dữ liệu trên gõ các lệnh sau:

image 2

Ở trên, dấu <- được gọi là dấu gán.

Trong Rstudio, để có dấu này gõ tổ hợp phím Alt và – (phím có dấu trừ). Sau khi nhập bộ dữ liệu này các bạn có thể xem lại, chẳng hạn biến có tên luong trong R:

image 4

Cách 2: Cách nhập dữ liệu vào R

Chúng ta có thể nhập số liệu về độ tuổi và insulin cho 10 bệnh nhân bằng một function rất có ích, đó là: edit(data.frame()).

Với function này, R sẽ cung cấp cho chúng ta một window mới với một dãy cột và dòng giống như Excel, và chúng ta có thể nhập số liệu trong bảng đó. Ví dụ:

Code lệnh: ins <- edit(data.frame())

Cách nhập dữ liệu vào R
Cách nhập dữ liệu vào R

Ở đây, R không biết chúng ta có biến số nào, cho nên R liệt kê các biến số var1, var2, v.v…

  • Nhấp chuột vào cột var1 và thay đổi bằng cách gõ vào đó age.
  • Nhấp chuột vào cột var2 và thay đổi bằng cách gõ vào đó insulin.
  • Sau đó gõ số liệu cho từng cột. Sau khi xong, bấm nút chéo X ở góc phải của spreadsheet, chúng ta sẽ có một data.frame tên ins với hai biến số age và insulin.

Hiệu chỉnh dữ liệu sau khi nhập vào phần mềm R

Trong tình huống bạn nhập sai một quan sát nào đó, chẳng hạn với biến luong, quan sát cuối cùng thực tế là 32 nhưng bạn nhập sai thành 30.

Để hiệu chỉnh giá trị này các bạn làm như sau trong R:

image 6

Lúc này bạn có thể di chuyển con trỏ đến vị trí 30 cuối cùng và chỉnh thành 32.

Một điểm cần chú ý là các dấu = như các bạn đã sử dụng ở trên có thể thay bằng dấu <- quen thuộc. Ví dụ, thay vì gõ luong = edit(luong) như trên các bạn có thể thay bằng luong <- edit(luong). Tuy nhiên dùng đấu = có thể gây một số lỗi khi thực hiện một số lệnh và hàm nên dù tiết kiệm thời gian thì chúng ta cũng không nên sử dụng kí hiệu này.

2. Đọc dữ liệu từ các phần mềm ngoài vào R

  • R cũng cho phép bạn đọc dữ liệu ở một loạt các định dạng khác nhau từ dữ liệu dạng số đến dữ liệu văn bản (text) hay thậm chí dữ liệu hình ảnh, từ Internet.
  • Với phạm vi hẹp là nghiên cứu kinh tế lượng, chúng ta chỉ xem xét cách thực hành để R đọc dữ liệu từ một file sẵn có ở một số định dạng phổ biến là Excel, Stata, Eviews, SPSS.
  • Mục này cũng trình bày cách thu thập dữ liệu kinh tế vĩ mô cung cấp bởi World Bank và dữ liệu tài chính trực tiếp trên Internet.
  • Tại mỗi thời điểm R mặc định chỉ làm việc với một thư mục và luôn mặc định là thư mục Documents. Chúng ta có thể kiểm tra lại như sau:
image 8
  • Ở đây lệnh getwd() chỉ ra đường dẫn của thư mục hiện thời (là Documents) mà R đang làm việc.

Để thuận lợi trong quản lí và tạo sự thống nhất, chúng ta sẽ chỉ định cho R làm việc với thư mục có tên là KTLR ở ổ D của máy tính và chúng ta sẽ để toàn bộ các số liệu được sử dụng trong tài liệu này ở thư mục trên.

Có hai cách để tạo ra thư mục này:
  • Một là vào ổ D, dùng con chuột kích chuột phải rồi chọn New ↦ Folder rồi đặt tên cho thư mục là KTLR.
  • Cách thứ hai (chúng ta sẽ sử dụng cách này trong tài liệu này) là chúng ta tạo ra thư mục này từ R như sau:
image 9

Với lệnh này các bạn tạo một folder có tên KTLR ở ổ D. Kế tiếp, bạn chỉ thị cho R làm việc chỉ với foder này bằng lệnh:

image 10

Chú ý có thể khác khi sử dụng câu lệnh bằng MAC.

2.1. Đọc dữ liệu từ file Eviews vào R

Giả sử chúng ta cần đọc dữ liệu có tên ch2vd5.WF1 với tên gọi mới là dung trong R:

image 11

R sẽ thông báo một số cảnh báo (warnings) nhưng chúng ta chưa cần quan tâm và tìm hiểu về các cảnh báo này.

Sau khi thực hiện chính xác ba câu lệnh trên, bạn có thể xem qua số liệu này (10 quan sát đầu tiên):

image 12

Để xem cụ thể dữ liệu chúng ta sử dụng câu lệnh: view(dung) và kết quả là

image 13

Ngoài ra có thể ghi câu lệnh sau để gọn hơn trong một dòng lệnh:

image 14

2.2. Đọc dữ liệu từ file Stata vào R

  • Đọc file dữ liệu panel1.dta (đây là file của phần mềm Stata) vào R với tên gọi mới là aoe chúng ta sử dụng gói foreign:
image 15
Chú ý rằng không cần dùng lệnh setwd(“D:/KTLR”) nữa vì đã làm điều này ở trên (mà nếu có dùng lại cũng không sao). Các bạn có thể kiểm tra file dữ liệu này:

Lứu ý: Lệnh read.dta() chỉ đọc được các file của Stata từ phiên bản 12 trở xuống.

  • Muốn đọc được các file Stata phiên bản 13 hoặc 14 (khi tài liệu này được viết thì Stata mới dừng ở phiên bản 14) cần sử dụng một gói khác là readstata13 (mặc định là bạn đã cài đặt gói này).

Dưới đây là R code để đọc bộ dữ liệu của Stata 13 có tên dung_stata13.dta với lệnh read.stata13():

image 16
  • Để đọc dữ liệu Stata cũng có thể sử dụng gói haven:
image 18

Điểm khác biệt ở đây chính là tốc độ. Gói have có tốc độ đọc dữ liệu nhanh và nó hỗ trợ các tính toán hiệu tốc độ cao. Điều này thực sự ý nghĩa nếu dữ liệu nguyên thủy cần đọc có kích thước lớn.

2.3. Đọc dữ liệu từ file SPSS vào R

Phần mềm thống kê SPSS lưu dữ liệu dưới dạng “sav”.

Chẳng hạn như nếu chúng ta đã có một dữ liệu có tên là testo.sav trong directory c:worksinsulin, và muốn chuyển dữ liệu này sang dạng R có thể hiểu được.

Thứ nhất, chúng ta cần sử dụng lệnh read.spss trong package có tên là foreign.

  • Các lệnh sau đây sẽ hoàn tất dễ dàng việc này, nhập foreign bằng lệnh library:
image 19

Việc thứ hai là lệnh read.spss:

image 20
  • Lệnh thứ hai read.spss yêu cầu R đọc số liệu từ “testo.sav”, và cho vào một data.frame có tên là testo.
  • Bây giờ chúng ta có thể lưu testo dưới dạng R để xử lí sau này bằng lệnh sau đây:
image 21

2.4. Đọc dữ liệu từ Excel vào R

Để nhập số liệu từ phần mềm Excel, các bước đọc file csv trong R gồm 2 bước:

  • Bước 1: Dùng lệnh “Save as” trong Excel và lưu số liệu dưới dạng “csv”.
  • Bước 2: Dùng R (lệnh read.csv) để nhập dữ liệu dạng csv.

Một dữ liệu trong Excel, và chúng ta muốn chuyển vào R để phân tích. Dữ liệu này có tên là excel.xls.

Cách nhập dữ liệu vào R
Cách nhập dữ liệu vào R

Việc đầu tiên là chúng ta cần làm, như nói trên, là vào Excel để lưu dưới dạng csv:

  • Vào Excel, chọn File ->> Save as
  • Chọn Save as type “CSV (Comma delimited)”
  • Sau khi xong, chúng ta sẽ có một file với tên “excel.csv” trong directory “c:worksinsulin”.

Việc thứ hai là vào R và ra những lệnh sau đây:

image 23
  • Bây giờ chúng ta có thể lưu gh dưới dạng R để xử lí sau này bằng lệnh sau đây:
  • Dùng dòng thứ nhất là tên cột, và lưu các số liệu này trong một object có tên là gh.
  • Lệnh thứ hai read.csv yêu cầu R đọc số liệu từ “excel.csv”.
image 24

3. Kết luận


Dưới đây MOSL đã hướng dẫn cho các bạn biết cách nhập dữ liệu vào R và đọc dữ liệu từ Excel vào R.

Cuối bài MOSL xin chúc các bạn học tập và làm việc hiệu quả.

Xem thêm: Dịch vụ chạy R của Mosl.vn

Liên hệ:

Hotline: 0707.33.9698 hoặc Mail: sales@mosl.vn | Fanpage: Mentor Of Số Liệu – Mosl.vn

Tag:

Nguồn: Tác giả Nguyễn Chí Dũng

Để lại cảm nghĩ của bạn ở đây

Your email address will not be published. Required fields are marked *