#1 Đa cộng tuyến là gì? Full Nguyên nhân, Phát hiện + Khắc phục

Hiện tượng Đa cộng tuyến (Multicollinearity) đơn giản là hiện tượng tạo nên từ mối quan hệ tương quan mạnh giữa các biến độc lập với nhau trong mô hình hồi quy tuyến tính.

  • Lorem ipsum dolor sit amet, consectetur adipiscing elit

  • Lorem ipsum dolor sit amet

Home page/Research knowledge/Cách sử dụng Stata/#1 Đa cộng tuyến là gì? Full Nguyên nhân, Phát hiện + Khắc phục

Blog

  • 06 Tháng 10, 2021

  • 1946 views

#1 Đa cộng tuyến là gì? Full Nguyên nhân, Phát hiện + Khắc phục

5/5 - (6 votes)

Hiện tượng Đa cộng tuyến là gì? Đa cộng tuyến hay Multicollinearity đơn giản là hiện tượng tạo nên từ mối quan hệ tương quan mạnh giữa các biến độc lập với nhau trong mô hình hồi quy tuyến tính. Hiện tượng này được thể hiện dưới dạng hàm số sau khi vi phạm giả thuyết của mô hình hồi quy tuyến tính cổ điện (Giả thuyết: Các biến độc lập không có quan hệ tuyến tính với nhau)

Vậy đa cộng tuyến là gì? Cùng nhau tìm hiểu trả lời câu hỏi đa cộng tuyến là gì phía dưới nhé, dưới đó có nhiều câu trả lời cho câu đa cộng tuyến là gì và đa cộng tuyến là gì lắm.

Đa cộng tuyến là gì
Đa cộng tuyến là gì (Multicollinearity)?

1. Đa cộng tuyến là gì?

Khái niệm: Đa cộng tuyến trong tiếng Anh gọi là Multicollinearity.

Đa cộng tuyến là gì? Đa cộng tuyến là hiện tượng tạo nên từ mối quan hệ tương quan mạnh giữa các biến độc lập với nhau trong mô hình hồi quy tuyến tính. Hiện tượng này được thể hiện dưới dạng hàm số sau khi vi phạm giả thuyết của mô hình hồi quy tuyến tính cổ điển. (Giả thuyết vi phạm: Các biến độc lập không có quan hệ tuyến tính với nhau)

Trong thống kê , đa cộng tuyến (cũng là tính cộng tuyến) là hiện tượng trong đó một biến dự báo trong mô hình hồi quy bội số có thể được dự đoán tuyến tính từ các biến khác với mức độ chính xác đáng kể. Trong trường hợp này, các ước lượng hệ số của hồi quy bội có thể thay đổi thất thường để đáp ứng với những thay đổi nhỏ trong mô hình hoặc dữ liệu. 

Đa cộng tuyến không làm giảm sức mạnh dự đoán hoặc độ tin cậy của mô hình nói chung, ít nhất là trong tập dữ liệu mẫu; nó chỉ ảnh hưởng đến các tính toán liên quan đến các yếu tố dự đoán riêng lẻ. Nghĩa là, một mô hình hồi quy đa biến với các yếu tố dự đoán cộng tuyến có thể cho biết toàn bộ nhóm các yếu tố dự báo dự đoán biến kết quả tốt như thế nào, nhưng nó có thể không đưa ra kết quả hợp lệ về bất kỳ dự đoán riêng lẻ nào hoặc về những yếu tố dự đoán nào là dư thừa so với những người khác.

Đa cộng tuyến là gì?
Đa cộng tuyến là gì? (Multicollineartity)

2. Nguyên nhân xảy ra hiện tượng đa cộng tuyến là gì?

Hai nguyên nhân chính xảy ra đa cộng tuyến là gì được trình bày bên dưới đây

2.1. Nguyên nhân chính làm đa cộng tuyến là gì?

Hiện tượng đa cộng tuyến xảy ra khi nào? Có nhiều nguyên nhân khác nhau nhưng nhìn chung sẽ có 2 nguyên nhân chính như sau:

  1. Dữ liệu thu thập không sát với thực tế hay chất lượng dữ liệu kém.
  2. Khi xét khía cạnh thực tế các biến trong mô hình có mối tương quan thật với nhau

2.2. Nguyên nhân phụ làm đa cộng tuyến là gì?

Trong 2 nguyên nhân chính đa cộng tuyến là gì đã trình bày ở trên sẽ có nguyên nhân phụ kèm theo tuỳ vào phương pháp thu thập dữ liệu. Các nguyên nhân bao gồm:

  • Đối với phương pháp thu thập dữ liệu thông qua bảng khảo sát thì nguyên nhân chính là do cách xây dựng các nhân tố có rất ít sự khác biệt với nhau.

(Ví dụ về đa cộng tuyến: Hai nhân tố tài chính và thu nhập chẳng hạn)

  • Đối với phương pháp thu thập dữ liệu thứ cấp như dữ liệu về tài chính, vĩ mô, biến động giá… thì nguyên nhân là do bạn thu thập sai dữ liệu cụ thể là bị nhầm lẫn các biến cần thu thập và nguyên nhân còn lại là do cách chọn biến của bạn có sự tương đồng cao trong thực tế.
  • Dữ liệu của một trong số các biến trong tập bị thiếu hay còn gọi là giá trị missing value.
  • Biến giả sai do chọn biến giả chung hoặc 1 số các danh mục biến đã có trong mô hình.
  • Chọn các biến độc lập mối quan có quan hệ nhân quả hay có tương quan cao.
  • Chọn nhầm biến là sự kết hợp giữa 2 biến khác cùng nằm trong mô hình.

3. Cách để phát hiện hiện tượng Đa cộng tuyến là gì?

Có hai cách phát hiện ra hiện tượng đa cộng tuyến trong phần mềm hồi quy.

Ở đây Mosl.vn sử dụng phần mềm Stata để mô tả cho 2 cách phát hiện này.

Tham khảo thêm cách chạy phần mềm Stata: Phần mềm Stata

Tải về bộ dữ liệu của mosl.vn để thực hành thử lun nha các bạn.

[su_button url=”http://destyy.com/eazVNf” target=”blank” style=”3d” color=”#fefefd” size=”10″ center=”yes” radius=”20″ icon=”icon: download” text_shadow=”0px 0px 0px #000000″ desc=”Tải ngay” download=”Dữ liệu”]DỮ LIỆU MOSL.VN[/su_button]

Cách 1: Phát hiện từ Ma trận hệ số tương quan (Correlation Matrix)

Mô hình hệ số tương quan
Mô hình ma trận hệ số tương quan

Tham khảo bài viết Hệ số tương quan nếu không biết cách chạy trong Stata nhé!

Mô hình ma trận hệ số tương quan được sử dụng để xác định mối quan hệ giữa biến độc lập với các biến phụ thuộc và giữa các biến phụ thuộc với nhau.

  • Trong hình có thể thấy hai biến SIZE LIQ có giá trị p-value dưới hệ số tương quan là 0.0000 điều này cho thấy giữa hai biến này có mối quan hệ tuyến tính với nhau nên khả năng cao hai biến này sẽ bị đa cộng tuyến.
  • Tương tự, biến INFbiến GROWTH có giá trị p-value = 0.0002 cho thấy giữa hai biến này có mối quan hệ tuyến tính nên khả năng cũng sẽ bị đa cộng tuyến trong hai biến.

Cách này nhìn chung sẽ cho các bạn 1 cái nhìn tổng quan về mối tương quan giữa các biến và cho bạn dự đoán trước được biến nào sẽ bị đa cộng tuyến trong mô hình.

Cách 2: Từ Kiểm định đa cộng tuyến bằng hệ số VIF (Variance Inflation Factor)

Cách này bạn sẽ sử dụng hệ số phóng đại phương sai VIF (Variance inflation factor) để xác định rõ ràng được mối quan hệ giữa các biến độc lập và sức mạnh của mối quan hệ này.

Tiêu chuẩn so sánh hệ số VIF như sau:

Theo Mansfield & Helms (1982); Jim Frost (2020) khi VIF bằng 1 thì biến độc lập thứ i không tương quan với các biến còn lại, nghĩa là không tồn tại đa cộng tuyến.

Trong các điều khoản chung,

  • VIF =1 thì các biến không tương quan tức không có hiện tượng đa cộng tuyến
  • VIF từ 1 -> 5 thì các biến có tương quan vừa phải tức có tồn tại hiện tượng đa cộng tuyến nhưng không quá nghiêm trọng.
  • VIF > 5 thì các biến có tương quan cao tức tồn tại đa cộng tuyến nghiêm trọng.

Ví dụ theo hình bên dưới:

kiểm định đa cộng tuyến VIF
Kiểm định đa cộng tuyến VIF

Bình luận kết quả:

  • Từ hình trên có thể thấy biến DA có hệ số VIF là 2.37 và bộ dữ liệu mà mosl.vn sử dụng thuộc chuyên ngành tài chính nên theo đó hệ số so sánh sẽ là 2. Vậy kết luận biến DA bị đa cộng tuyến.
  • Tiếp theo, tại buối bảng là chỉ số Mean VIF (Giá trị trung bình VIF) = 1.43 < 2 nên kết luận mô hình không xảy ra hiện tượng đa cộng tuyến nghiêm trọng. (Mặc dù biến DA bị đa cộng tuyến nhưng khi xem xét tổng quan thì có thể lượt bỏ đi lỗi nhỏ tại biến này)

Xem thêm: Cách đọc kết quả hồi quy Stata nhé!

Cách 3: Dựa vào 1 số cách phát hiện đa cộng tuyến mở rộng

Các chỉ báo cho thấy ta phát hiện đa cộng tuyến có thể xuất hiện trong một mô hình bao gồm:

  1. Những thay đổi lớn trong hệ số hồi quy ước tính khi một biến dự báo được thêm vào hoặc xóa
  2. Hệ số hồi quy không đáng kể cho các biến bị ảnh hưởng trong hồi quy bội, nhưng bác bỏ giả thuyết chung rằng các hệ số đó đều bằng 0 (sử dụng F -test )
  3. Nếu một hồi quy đa biến tìm thấy một hệ số không đáng kể của một trình giải thích cụ thể, nhưng một hồi quy tuyến tính đơn giản của biến được giải thích trên biến giải thích này cho thấy hệ số của nó khác 0 đáng kể, tình huống này chỉ ra tính đa cộng tuyến trong hồi quy đa biến.
  4. Kiểm định Farrar – Glauber trong đa cộng tuyến là gì? Tự tìm hiểu nha
  5. Kiểm tra số điều kiện trong ma trận
  6. Thúc đẩy dữ liệu: Đa cộng tuyến có thể được phát hiện bằng cách thêm nhiễu ngẫu nhiên vào dữ liệu và chạy lại hồi quy nhiều lần và xem các hệ số thay đổi như thế nào

4. Hậu quả của đa cộng tuyến

Các hậu quả của đa cộng tuyến là gì, cùng đọc bên dưới:

  • Sai số chuẩn của các hệ số sẽ lớn. Khoảng tin cậy lớn và thống kê t ít ý nghĩa. Các ước lượng không thật chính xác. Do đó chúng ta dễ đi đến không có cơ sở bác bỏ giả thiết “không” và điều này có thể không đúng.
  • Đa cộng tuyến có thể dẫn đến kết quả sai lệch hoặc sai lệch khi nhà nghiên cứu hoặc nhà phân tích cố gắng xác định mức độ sử dụng hiệu quả nhất của từng biến độc lập để dự đoán hoặc hiểu biến phụ thuộc trong mô hình thống kê.
  • Đa cộng tuyến có thể dẫn đến khoảng tin cậy rộng hơn tạo ra xác suất kém tin cậy hơn về ảnh hưởng của các biến độc lập trong một mô hình.

Dưới đây là hình dạng của 2 biến khi xảy ra hiện tượng đa cộng tuyến là gì:

Đa cộng tuyến là gì?
Đa cộng tuyến là gì?

Bài học rút ra từ hậu quả đa cộng tuyến

  • Đa cộng tuyến là gì, là một khái niệm thống kê trong đó một số biến độc lập trong một mô hình có tương quan với nhau.
  • Hai biến được coi là hoàn toàn thẳng hàng (đa cộng tuyến) nếu hệ số tương quan của chúng là +/- 1,0.
  • Đa cộng tuyến giữa các biến độc lập sẽ dẫn đến các suy luận thống kê kém tin cậy hơn.
  • Tốt hơn là sử dụng các biến độc lập không tương quan hoặc lặp lại khi xây dựng nhiều mô hình hồi quy sử dụng hai hoặc nhiều biến.
  • Sự tồn tại của đa cộng tuyến là gì trong một tập dữ liệu có thể dẫn đến kết quả kém tin cậy hơn do sai số tiêu chuẩn lớn hơn.

Lưu ý: Tính cộng tuyến hoàn hảo tồn tại khi có sự tương ứng chính xác 1: 1 giữa hai biến độc lập trong một mô hình. Đây có thể là mối tương quan của +1.0 hoặc -1.0.

5. Khắc phục hậu quả của Đa cộng tuyến

Khi mô hình của bạn xảy ra hiện tượng đa cộng tuyến hay trong quá trình làm bài tập đa cộng tuyến trong kinh tế lượng, hãy nhớ cân nhắc sử dụng các giải pháp khắc phục đa cộng tuyến như sau nhé:

  • Cân nhắc loại bỏ các biến mà có chỉ số VIF thể hiện rằng biến đã bị đa cộng tuyến.
  • Hãy chắc chắn rằng bạn không rơi vào bẫy biến giả ; bao gồm một biến giả cho mọi danh mục (ví dụ: mùa hè, mùa thu, mùa đông và mùa xuân) và bao gồm một số hạng không đổi trong hồi quy cùng nhau đảm bảo đa cộng tuyến hoàn hảo.
  • Gia tăng cỡ mẫu thu thập thêm cho nghiên cứu khắc phục đa cộng tuyến là gì?

Ví dụ như gia tăng số lượng phiếu khảo sát hay gia tăng số lượng năm, số cá thể thu thập.

  • Thay đổi, tái cấu trúc dạng mô hình có thể là từ mô hình tuyến tính sang mô hình phi tuyến, hoặc chuyển sang các mô hình đặt biệt khác….
  • Cũng có thể loại bỏ đa cộng tuyến bằng cách kết hợp hai hoặc nhiều biến thẳng hàng thành một biến duy nhất. Sau đó, phân tích thống kê có thể được tiến hành để nghiên cứu mối quan hệ giữa biến phụ thuộc xác định và chỉ một biến độc lập duy nhất.
  • Giải pháp cuối cùng hết sức quan trọng là trước khi thực hiện một mô hình nghiên cứu bạn cần phải tham khảo từ một số paper nghiên cứu trước đó rồi hãy kết luận xem các biến nào nên hoặc không nên đưa vào mô hình; test trước bộ dữ liệu sơ cấp trên phần mềm để giúp đưa ra nhận định và hướng giải quyết sớm cho mô hình.
  • Cuối của cuối cùng là giữ nguyên mô hình, bất chấp đa cộng tuyến. Sự hiện diện của đa cộng tuyến không ảnh hưởng đến hiệu quả của việc ngoại suy mô hình phù hợp với dữ liệu mới với điều kiện là các biến dự báo tuân theo cùng một mẫu đa cộng tuyến trong dữ liệu mới như trong dữ liệu dựa trên mô hình hồi quy. 

Gom lại hết các cách trên để cân nhắc khắc phục đa cộng tuyến cho mô hình bạn nhé!

6. Các ví dụ về đa cộng tuyến trong thực tế

Trong Đầu tư

Đối với đầu tư, đa cộng tuyến là yếu tố thường được xem xét khi thực hiện phân tích kỹ thuật để dự đoán biến động giá có thể xảy ra trong tương lai của một chứng khoán, chẳng hạn như cổ phiếu hoặc hàng hóa trong tương lai .

Các nhà phân tích thị trường muốn tránh sử dụng các chỉ báo kỹ thuật có tính chất chặt chẽ mà chúng dựa trên các đầu vào rất giống nhau hoặc có liên quan; chúng có xu hướng tiết lộ những dự đoán tương tự liên quan đến biến phụ thuộc của chuyển động giá.

Để giải quyết vấn đề, các nhà phân tích tránh sử dụng hai hoặc nhiều chỉ báo kỹ thuật cùng loại. Thay vào đó, họ phân tích chứng khoán bằng một loại chỉ báo, chẳng hạn như chỉ báo động lượng , sau đó thực hiện phân tích riêng biệt bằng cách sử dụng một loại chỉ báo khác, chẳng hạn như chỉ báo xu hướng.

Ví dụ: ngẫu nhiên, chỉ số sức mạnh tương đối (RSI) và Williams% R là tất cả các chỉ báo động lượng dựa trên các đầu vào tương tự và có khả năng tạo ra kết quả tương tự. Trong trường hợp này, tốt hơn là loại bỏ tất cả trừ một trong các chỉ báo hoặc tìm cách hợp nhất một số trong số chúng thành một chỉ báo, đồng thời thêm một chỉ báo xu hướng không có khả năng tương quan cao với chỉ báo động lượng.

Trong Sinh học

Đa cộng tuyến cũng được quan sát thấy trong nhiều bối cảnh khác. Một trong những bối cảnh như vậy là sinh học của con người. 

Ví dụ, huyết áp của một cá nhân không tương đồng với tuổi tác, mà còn bao gồm cả cân nặng, căng thẳng và mạch.

Đa cộng tuyến là gì?
Đa cộng tuyến là gì? – Đa cộng tuyến trong Sinh học

Vậy là đã tổng kết 2 cách ứng dụng đến các bạn về đa cộng tuyến trong chủ đề đa cộng tuyến là gì lần này của Mosl.

7. Video hướng dẫn chuyên sâu về đa cộng tuyến

Đa cộng tuyến là gì và cách kiểm định trong phần mềm STATA

8. Tổng kết

Đa cộng tuyến là gì là 1 trong các chủ đề và cũng là một trong các khuyết tật mà bạn sẽ gặp trong quá trình làm nghiên cứu.

Hãy tham khảo cách mosl.vn đã giải đáp để sớm khắc phục được và hiểu hiện tượng đa cộng tuyến là gì này nhé!

Cuối bài MOSL xin chúc các bạn học tập và làm việc hiệu quả.

Nhớ sử dụng Dịch vụ chạy Stata và Xử lý số liệu của Mosl để tiết kiệm thời gian hơn nhé!

[su_box title=”Liên hệ: ” style=”glass” box_color=” #51d7bb “] Hotline: 0707.33.9698 hoặc Mail: sales@mosl.vn | Fanpage: Mentor Of Số Liệu – Mosl.vn . ĐIỀN THÔNG TIN ĐỂ NHẬN TƯ VẤN ngay Tại đây [/su_box]

Tag: Đa cộng tuyến là gì và Đa cộng tuyến là gì?

Để lại cảm nghĩ của bạn ở đây

Your email address will not be published. Required fields are marked *