user name
Data Innovation and Governance Institute, DIGI
1707 Views

Science, Digital Technology and Innovation

เจาะลึก “Linear Regression” คืออะไร พร้อมตัวอย่างง่ายๆใน excel

22 Aug 2022

วันนี้ DIGI จะพาทุกคนไปทำความรู้จักกับเรื่อง “Linear Regression” คืออะไร รวมไปถึงตัวอย่างการคำนวณ Linear Regression โดยใช้โปรแกรม Excel

เจาะลึก “Linear Regression” คืออะไร พร้อมตัวอย่างง่ายๆใน excel  

การเป็นนักวิทยาศาสตร์ข้อมูลหรือ Data Scientist นั้นการเรียนรู้พื้นฐานตั้งแต่การเขียนโปรแกรมคอมพิวเตอร์เบื้องต้น ความรู้ที่เกี่ยวข้องกับการวิเคราะห์ข้อมูล และพื้นฐานทางสถิติมีความสำคัญมาก ถ้าขาดความรู้ทางด้านใดด้านหนึ่งไปทำให้การประยุกต์เรื่องวิเคราะห์ข้อมูลเข้ากับการดำเนินธุรกิจ โดยความรู้พื้นฐานทางด้านสถิติที่มีความสำคัญมาก และหลายคนอาจจะกำลังศึกษาอยู่นั่นคือเรื่อง “Linear Regression” ซึ่งเป็นองค์ความรู้ที่มีความสำคัญอีกเรื่องหนึ่งสามารถต่อยอดไปทำ Machine Learning, Predictive Analysis และเรื่องอื่นได้อีกมากมาย

 

ดังนั้นวันนี้ DIGI จะพาทุกคนไปทำความรู้จักกับเรื่อง “Linear Regression” ว่าคืออะไร สูตรของ Linear Regression เป็นในรูปแบบใด รวมไปถึงเจาะลึกไปถึง Linear Regression ในแต่ละชนิดได้แก่ Simple Linear Regression และ Multivariable Regression หรือเป็นที่รู้จักทั่วไปว่า Multiple Linear Regression รวมไปถึงตัวอย่างการคำนวณ Linear Regression โดยใช้โปรแกรม Excel ครับ

 

“Linear Regression” คืออะไร  

 

“Linear Regression” หรือการวิเคราะห์การถดถอยเชิงเส้นเกิดจากการรวมกันของคำ 2 คำได้แก่ Linear ที่แปลว่าเส้นตรง และ Regression ที่แปลว่าการถดถอย ซึ่งถ้าจะให้เข้าใจง่ายก็คือการนำเอาข้อมูลหรือตัวแปรมาหาความสัมพันธ์กันโดยความสัมพันธ์ของข้อมูลจะออกมาในรูปแบบของการเรียงกันเป็นเส้นตรงหรือใกล้เคียง 

 

ความสัมพันธ์ที่ได้กล่าวมานั้นคือการหาค่าสหสัมพันธ์หรือ Correlation นั่นเองโดยค่า Correlation หรือ “r” ยิ่งค่ามีความเข้าใกล้ 1 หรือ -1 กำลังจะบ่งบอกว่าค่าความสัมพันธ์ของข้อมูลนั้นยิ่งมีความสัมพันธ์ในรูปแบบเส้นตรง (Linear) แต่ถ้าค่า “r’ เข้าใกล้ 0 จะบ่งบอกว่าความสัมพันธ์ของข้อมูลเหล่านั้นไม่ได้อยู่ในรูปแบบเส้นตรง (Non-linear) 

 

เพื่อป้องกันการสับสนในภายหลังจะขอย้ำว่าค่า “r” ไม่ได้บ่งบอกถึงความชันของสมการเส้นตรง โดยจะบ่งบอกแค่ว่าความสัมพันธ์ของข้อมูลเหล่านั้นอยู่ในรูปแบบเส้นตรงหรือไม่เท่านั้นเอง ส่วนเรื่องความชันของ Linear Regression จะไปขยายความในภายหลังตรงสูตรของ Linear Regression ครับ 

 

ที่มา: https://www.scribbr.com/statistics/correlation-coefficient/

 

หลังจากทำความเข้าใจความหมายของ Linear Regression ว่าคืออะไร ต่อไปจะมาดูกันถึงสูตรของ Linear Regression กันว่าเราสามารถแปลงเส้นตรงออกมาเป็นสมการได้เป็นรูปแบบดังนี้

โดยคำอธิบายตัวแปรมีดังนี้

  • Y คือตัวแปรตามซึ่งจะเป็นตัวแปรหรือข้อมูลที่เราให้ความสนใจเป็นหลัก
  • Β0 คือค่า Intercept หรือค่าคงที่ซึ่งจะเป็นค่าที่ส่งผลต่อตัวแปร Y เมื่อตัวแปร X เป็น 0 หรือในทางคณิตศาสตร์ก็คือจุดตัดแกน Y
  •  Β1 คือค่า Parameter หรือค่าสัมประสิทธิ์ของตัวแปรอิสระโดยถ้าจะขยายความหมายของ Parameter ก็จะได้เป็นค่าที่จะทำให้ตัวแปร Y เปลี่ยนแปลง Β1 หน่วยเมื่อค่า X มีค่าเท่ากับ 1
  • X คือตัวแปรอิสระซึ่งจะเป็นตัวแปรที่เป็นตัวกำหนดค่าหรือเป็นปัจจัยที่มีอิทธิพลต่อตัวแปร Y

ประเภทของ Linear Regression พร้อมตัวอย่าง  

Linear Regression สามารถแบ่งออกได้เป็น 2 ประเภทโดยจะแบ่งตามจำนวนตัวแปรอิสระที่จะมเาป็นตัวกำหนดค่าตัวแปรตามหรือค่า Y ได้แก่ 

  • Simple Linear Regression

Simple Linear Regression เป็นสมการเชิงเส้นที่มีตัวแปรอิสระหรือตัวแปร X มากำหนดตัวแปรตามหรือค่า Y แค่เพียงตัวแปรเดียวโดยสมการจะมีรูปแบบเหมือนกับที่ยกตัวอย่างไปข้างต้น เนื่องจากมีตัวแปรอิสระแค่เพียงตัวเดียวที่ส่งผลกระทบต่อค่า Y ทำให้สมการที่ได้ไม่มีความซับซ้อนในการแปรความหมาย

 

เช่น กำหนดให้ยอดขายสินค้าคือตัวแปร Y และจำนวนประชากรในพื้นที่เป็นตัวแปร X โดยถ้าเรานำข้อมูล 2 ตัวมาทำสมการเส้นตรงก็จะสามารถแปรความหมายได้ว่ามีเพียงปัจจัยทางด้านจำวนประชากรในพื้นที่ที่ส่งผลกระทบต่อยอดขาย


  • Multiple Linear Regression

Multiple Linear Regression เป็นสมการเชิงเส้นที่มีตัวแปรอิสระหรือตัวแปร X มากกว่า 1 ตัวมาเป็นตัวกำหนดตัวแปรตามหรือค่า Y ความหมายคือมีหลายปัจจัยที่ส่งผลกระทบต่อค่าที่เราให้ความสนใจทำให้การแปลความหมายของสมการมีความซับซ้อนมากยิ่งขึ้น 

 

เช่น กำหนดให้ตัวแปร Y คือความเร็วรถยนต์ซึ่งปัจจัยที่ส่งผลกระทบต่อความเร็วก็จะมีด้วยกันหลายตัวได้แก่ อัตราเร่งของเครื่องยนต์ แรงเสียดทานบนพื้นถนน อัตราการเผาผลาญน้ำมัน เป็นต้นซึ่งปัจจัยเหล่านี้คือตัวแปรอิสระโดยจะมีค่า Parameter ที่อยู่หน้าตัวแปรเป็นตัวกำหนดว่าแต่ละปัจจัยจะส่งผลกระทบต่อความเร็วรถยนต์ไปในทิศทางใด รวมไปถึงมากน้อยแค่ไหน

ตัวอย่างการทำ  Linear Regression ด้วยโปรแกรม Excel 

โดยปกติถ้าเป็นสมการ Simple Linear Regression บางคนอาจจะสามารถคำนวณได้โดยไม่ต้องอาศัยคอมพิวเตอร์ แต่พอเป็นสมการ Multiple Linear Regression หรือมีหลายปัจจัยที่ส่งผลกระทบต่อค่าที่เราสนใจทำให้เราจำเป็นจะต้องใช้เครื่องมือในการช่วยคำนวณเพื่อหาว่าในแต่ละปัจจัยส่งผลกระทบต่อเราอย่างไรบ้างหนึ่งในเครื่องมือที่ได้รับความนิยมในการใช้คำนวณคือ Analysis ToolPak ผ่านโปรแกรม Excel โดยวิธีการใช้งานมีดังนี้

 

  1. เปิดโปรแกรม Excel เลือกไฟล์ (File) > ตัวเลือก (Option) > Add-in
  2. เลือกจัดการ Add-in ของ Excel เลือก Analysis ToolPak
  3. หลังจากนั้นเลือกแถบข้อมูล (Data) ที่อยู่ด้านบนของหน้าต่าง Excel เลือก Data Analysis และ Regression
  4. กำหนดชุดข้อมูลตัวอย่างดังนี้
  5. กำหนดให้ Y เป็นตัวแปรที่เราสนใจก็จะลากคลุมทุกค่าใน Column Y ในช่อง Input Y Range และลากคลุมตัวแปรที่เหลือทุกค่าในช่อง Input X Range

 

จะได้ผลลัพธ์ออกมาเป็นหน้าต่างดังนี้

 

 

โดยความหมายคือเราทำเป็น Multiple Linear Regression โดยที่มีค่า R-square เท่ากับ 0.995 หมายถึงสมการเส้นตรงที่เรามาหาสามารถอธิบายหรือ Predict ค่า Y ได้แม่นยำ 99.5% โดยที่เหลือจะเป็นค่าแสดงผลทางด้านสถิติอื่นและเราสามารถนำมาสร้างเป็นสมการเส้นตรงได้ดังนี้

 

Y = 255.97 – 0.369A + 8.0566B – 16.76C 

 

สรุป

 

Linear Regression เป็นความรู้พื้นฐานทางด้านสถิติสำหรับคนที่สนใจหรือต้องการจะเป็นนักวิทยาศาสตร์ข้อมูลที่ควรจะเรียนรู้เนื่องจาก Linear Regression หนึ่งในเทคนิคพื้นฐานของการทำ Machine Learning ซึ่งสามารถต่อยอดไปทำ Predictive Model ที่มีความซับซ้อนมากยิ่งขึ้นดังนั้นถ้าหากเราสามารถเรียนรู้ให้เข้าใจถึงที่มาที่ไปและสามารถสร้างสมการเส้นตรง หาความสัมพันธ์ของข้อมูลจนนำไปสู่การคาดการณ์เหตุการในอนาคตได้ก็จะสามารถนำเอาความรู้เหล่านี้ไปประยุกต์ใช้ในการดำเนินธุรกิจหรือแม้แต่การแก้ปัญหาต่าง ๆ ในชีวิตประจำวันได้เป็นอย่างดี

 

ที่มา

Like 0

user name

Incorrect words. Please try again.

Comments (0)