Chưa có sản phẩm trong giỏ hàng!
-
09 Tháng 09, 2021
-
29 views
Thống kê mô tả với R | Thống kê mô tả dữ liệu
Chào các độc giả, sau đây MOSL xin phép giới thiệu các bạn các gói lệnh để thực hiện thống kê mô tả dữ liệu, thống kê mô tả với R một cách đơn giản nhất nhé!
1. Thống kê mô tả với R
Mục này chúng ta sẽ thực hiện các thống kê mô tả cho bộ dữ liệu ch2_health.WF1 bằng cả bốn cách là:
- (1) các hàm sẵn có trong R,
- (2) gói pastect cho các thống kê mô tả chi tiết,
- (3) gói stargazer, và
- (4) gói fBasics.
Bảng dưới đây liệt kê một số hàm cho các thống kê thường xuất hiện trong các báo cáo cũng như các nghiên cứu:
Để minh họa ý nghĩa của các hàm này, lấy ví dụ với bộ số liệu ch2_health.WF1:
Bảng ma trận hệ số tương quan giữa các biến số:
Nếu chỉ quan tâm đến các thống kê cơ bản, hay một thống kê cụ thể nào đó cho biến INCOME mà thôi:
Ở đây lần đầu tiên các bạn sử dụng một kí hiệu đặc biệt: dấu $ (kí hiệu của đồng Dollar).
Lưu ý rằng dung (là một object trong R dạng data frame ) chứa các biến số HEALTH, INCOME, và POP.
Do đó, để chỉ thị R, chẳng hạn, áp dụng lệnh summary() cho biến INCOME thì chúng ta phải chỉ thị một cách rõ ràng là summary(dung$INCOME) .
Còn một lí do phải sử dụng kí hiệu $.
Giả sử còn một data frame nữa có tên là trang cũng chứa biến INCOME. Lúc đó, nếu gõ lệnh summary(INCOME) thì R sẽ không hiểu là áp dụng hàm summary() cho biến INCOME thuộc dung hay trang.
Vì lí do này, nếu muốn chỉ thị cho R “làm việc” với INCOME thuộc trang thì phải gõ summary(trang$INCOME).
2. Thống kê mô tả chi tiết với gói pastecs
Trong nhiều tình huống chúng ta có thể cần nhiều thống kê với mức độ chi tiết cao hơn. Trong tình huống này chúng ta sử dụng các lệnh của gói pastecs:
- Qua kết quả này các bạn có thể thấy ngoài các thống kê thông thường còn có các thống kê chi tiết hơn.
- Ví dụ, quãng đáng tin 95% của HEALTH nằm trong khoảng từ 19929 – 6216 đến 19929 + 6216.
Còn giá trị coef.var = 1.109 chính là thương số của std.dev chia cho mean. Giá trị CI.mean.0.95 là khoảng tin cậy 95% cho các biến số (CI là viết tắt của chữ Confidence Interval ).
Có thể thu gọn kết quả trên như sau:
3. Thống kê mô tả chi tiết với gói stargazer
Nếu chúng ta không cần các thống kê quá chi tiết, chúng ta có thể thực hiện điều này với gói stargazer với trình bày đẹp hơn:
Đây cũng là các thống kê tiêu chuẩn thường được trình bày trong các báo cáo và nghiên cứu khoa học.
Thực ra ứng dụng lớn nhất của gói này là trình bày các kết quả nghiên cứu ở dạng một cách đẹp mắt tương tự như gói outreg2 trong Stata chứ không đơn giản là chụp lại màn hình để trình bày kết quả (vì thực tế là, R đưa ra các trình bày kết quả không được đẹp mắt như một số phần mềm khác).
Tất nhiên việc sử dụng chi tiết gói này còn liên quan mật thiết với việc sử dụng LaTex. Điều này vượt quá khuôn khổ của cuốn sách này nên tôi không trình bày ở đây.
Đây là một ví dụ về ứng dụng của gói này: các bạn có thể xuất ra một file dữ liệu ở dạng file Word với tên ketqua.doc ở thư mục hiện thời của R:
Có thể suy luận trước rằng kết quả này được lưu ở thư mục KTLR thuộc ổ D của máy tính.
4. Thống kê mô tả chi tiết với gói fBasics
Tương tự như gói pastecs, gói fBasics cũng cho ta các thống kê chi tiết nhưng theo một cách linh hoạt hơn:
Hoặc chỉ quan tâm đến các thống kê cho biến INCOME mà thôi (không hiển thị kết quả):
So sánh cách thức R hiển thị kết quả với cặp dòng lệnh sau (không hiển thị kết quả):
5. Kết luận
Dưới đây là toàn bộ 4 cách chạy thống kê mô tả trong phần mềm R.
MOSL xin chúc các độc giả học tập và làm việc hiệu quả.
Xem thêm: Dịch vụ chạy R của Mosl.vn
Liên hệ:
Hotline: 0707.33.9698 hoặc Mail: sales@mosl.vn | Fanpage: Mentor Of Số Liệu – Mosl.vn
Nguồn: Tác giả Nguyễn Chí Dũng