Data ธุรกิจไทย อีหยังวะ!!🤪🤪

Thanawat Ketsin
7 min readMar 22, 2021

--

Photo by Braden Jarvis on Unsplash

คุณเคยเจอสถานการณ์แบบนี้กันไหม ทำงานอยู่ดีๆวันหนึ่ง Bossของคุณก็โยน data ขึ้นมาชุดหนึ่ง ที่เขาเพิ่งซื้อมาจากบริษัทแห่งหนึ่งแล้วก็มาบอกเราด้วยคำสั้นๆว่า “วิเคราะห์ข้อมูลให้หน่อยสิ” พอเปิด data ขึ้นมาปุ๊บคนก็พบว่าอิหยังวะนี่ จะเอามาวิเคราะห์อะไรดีวะ เพราะ data ที่ได้มาเป็น data เกี่ยวกับธุรกิจในประเทศไทยมีจำนวน 7 แสนกว่าบริษัท ข้อมูลนี้เหมือนจะดูเยอะแต่พอมาดูข้อมูลคร่าวๆแล้วคุณก็พบว่ามีข้อมูลทางด้านเชิงปริมาณที่สำคัญอยู่แค่ไม่กี่ตัว ส่วนข้อมูลอื่นนั้นมีลักษณะที่เป็น text จะเอามาใช้วิเคราะห์อะไรได้บ้างวะเนี่ย และที่สำคัญคือข้อมูลที่ได้ก็เป็นแบบ cross sectional data ไม่ได้เป็น time series ดังนั้นจะเอามาวิเคราะห์เทรน แนวโน้มหรือหาความสัมพันธ์ระหว่างช่วงเวลาก็ทำไม่ได้เลย

และการทำงานแบบAgile ของบริษัทเราเพื่อนร่วมงาน ที่มีปฏิสัมพันธ์กับเรา เขาก็มาดู data นั้นคร่าวๆ แล้วก็มองหน้าเราแล้ว สตั้นไป 10วิ ก่อนที่จะหันมาบอกเราว่า ไม่เห็นมีข้อมูลอะไรที่น่าสนใจเลยคิดไม่ออกเหมือนกันว่าจะวิเคราะห์อะไรดี อ้าวเราได้ฟังมาแบบนี้เราก็ดีใจที่มีคนรู้สึกเหมือนเรา แต่มันก็ไม่ได้ช่วยอะไรเราได้เลย Bossเราก็ให้คำแนะนำมาว่า ให้ลองไปลองcrosstab, group by หรือ sort values ลองทำมาดูเผื่อจะหา insight ของ data มาได้ เราก็เลยลองทำตามที่bossแนะนำมาดูผลปรากฏว่าไม่เจอ insight อะไรเลย นอกจากการจัดลําดับ ranking ซึ่งก็ไม่ได้ทำให้ข้อมูลน่าสนใจขึ้นมาเลย เราลองทำการหา correlation ของตัวแปรเชิงปริมาณที่มีอยู่ทั้งหมดแล้ว ก็เพราะว่าตัวแปรทั้งหมดก็ไม่ได้มีความพันธ์อะไรกันเลย ค่า correlation ใกล้0กันทุกตัวเลยตามด้านล่าง

Correlation ของตัวแปรเชิงปริมาณ ที่ได้มา
Correlation ของตัวแปรเชิงปริมาณที่ได้มาจาก Boss

เอาล่ะสิข้อมูลเยอะขนาดนี้แต่ว่าตัวแปรไม่ได้มีความพันธ์อะไรเลย หาbaselineไม่ได้ แล้วจะวิเคราะห์อะไรได้, อย่างไร เจอแบบนี้ก็ต้องร้องดังๆว่าอีหยังวะอีกรอบนึง

ความอิหยัง ก็เกิดขึ้นอีกเมื่อเราเข้าไปเช็ค data แล้วผมว่าข้อมูลที่ได้มา คือข้อมูลของบริษัทที่ยังมีสถานะดำเนินการอยู่ในปี 2020 สิ่งที่ขาดหายไปคือและข้อมูลที่ปิดกิจการไปล่ะหายไปไหนหมด ถ้าไม่มีข้อมูลตรงส่วนนี้ก็วิเคราะห์ธุรกิจที่ปิดกิจการลงไปไม่ได้น่ะสิ อิหยังวะเนี่ย

เราก็ใช้ข้อมูลไปอีก ข้อมูลเชิงปริมาณ เกือบครึ่งนำมาใช้วิเคราะห์ข้อมูลไม่ได้ เนื่องจากธุรกิจบางตัวมีรายได้เป็นศูนย์ ตอนแรกเราก็ดูว่าน่าจะมีไม่กี่บริษัทมั้ง แต่พอเช็คไปเช็คมาอ้าวแม่เจ้า มีบริษัทที่จดทะเบียนในปี 2021 หรือ 2020 ซึ่งเป็นบริษัทที่จดทะเบียนใหม่ๆสดร้อน และยังไม่มีงบการเงิน หรือบางบริษัทเปิดทำการมานานแล้ว แต่ไม่มีรายได้(คล้ายๆบริษัทผีหลอก ที่มีแต่ชื่อบริษัทแต่ไม่ได้ทำธุรกิจจริงๆ) ทำให้ข้อมูลที่ได้มาแปลก เช่น รายได้ เป็น0 บ้าง ตอนนี้จำนวนข้อมูลที่นำมาวิเคราะห์ได้ก็หายไปอีก อิหยังวะเนี่ย จะเหลืออะไรให้เราวิเคราะห์ไหมเนี่ย

ปฐมบทแห่งการวิเคราะห์ข้อมูล

Photo by William Iven on Unsplash

ตอนนี้เราเริ่มตั้งสติและหันมาใช้ความรู้ทางด้าน data analytics อย่างจริงจัง ผลจะออกมาเป็นอย่างไรเดี๋ยวมาดูกัน ทำไปเลย ไปเป็น step by step

1 ตั้งจุดประสงค์ในการทำ data analytics?

2 เก็บข้อมูลและรวบรวมข้อมูล

3 ตั้งคำถามและตั้งสมมติฐาน

4 การสร้างฐานข้อมูลเพื่อการวิเคราะห์ (Data Mart)

— การเลือกข้อมูล

— การจัดรูปแบบข้อมูล

— Cleanข้อมูล

5การตอบคำถามจากข้อมูล

6การสรุปผล

ได้แนวคิดภาพรวมก็มีแล้วตอนนี้ลุยเลย

1 จุดประสงค์ของการทำ data analytics?

นักธุรกิจมักจะมีตัวแปรที่ชี้วัดว่าควรจะลงทุนในแต่ละธุรกิจดีไหมหลายตัว แต่สิ่งที่นักธุรกิจจะมองเป็นประเด็นแรกๆคือ เรื่องของตลาด ดังน้้นจุดประสงค์ในการทำ data analytics ครั้งนี้คือการวิเคราะห์ธุรกิจในประเทศไทยเป็นรายภาคอุตสาหกรรมโดยภาพรวมว่าในปี 2020 นี้แต่ละ ภาคธุรกิจเป็นเช่นไร ธุรกิจไหนจะรุ่ง ธุรกิจไหนจะร่วง ก็เลยเลือกวัตถุประสงค์เป็นประเด็นแรก

2 เก็บข้อมูลและรวบรวมข้อมูล

(ตามสเต็ปคือต้องตั้งจุดประสงค์ก่อนรวบรวมข้อมูลแต่ครั้งนี้ทำสลับกันเราได้ข้อมูลก่อนแล้วค่อยมาตั้งจุดประสงค์ เนื่องจากเราต้องใช้ข้อมูลจาก Boss ของเรา)

ข้อมูลที่เราได้มาเบื้องต้นนี้เป็นข้อมูลที่เราซื้อมาจากบริษัทข้อมูลแห่งหนึ่ง ซึ่งจะมีข้อมูลจำนวนทั้งสิ้น 772,552 บริษัทที่ยังเปิดดำเนินกิจการอยู่ในเดือนกุมภาพันธ์ ปี2021

ซึ่งข้อมูลที่มีนั้นได้แก่ หมายเลขจดทะเบียนบริษัท,รูปแบบบริษัท,ชื่อบริษัท, วันที่จดทะเบียน,บริษัททุนจดทะเบียน, ทุนจดทะเบียนที่ชำระแล้ว, ที่ตั้ง, อีเมล์, ผู้ติดต่อ, เบอร์โทรศัพท์, บอร์ดผู้บริหาร,รหัสประเภทธุรกิจ, ประเภทธุรกิจ, วัตถุประสงค์ของการตั้งธุรกิจ, รายได้, การเปลี่ยนแปลงของรายได้,กำไร,และ การเปลี่ยนแปลงของกำไร

3.การตั้งคำถาม/การตั้งสมมติฐาน

ปฏิเสธไม่ได้เลยว่าในช่วงปี 2020นี้ สิ่งที่ไม่คาดคิดว่าจะเกิดขึ้นแล้วมีผลกระทบต่อวงการธุรกิจมากที่สุดในปีนี้คือ เรื่องการแพร่ระบาด covid-19 เริ่มต้นมาตั้งแต่ต้นปี 2020 ที่เมืองอู่ฮั่น ประเทศจีน และระบาดไปยังประเทศอื่นทั่วโลก รวมถึงประเทศไทย นับจากตอนนั้น ถึงตอนนี้ก็ประมาณ1ปีแล้ว

คำถามแรกคือธุรกิจไหนในปี 2020 นี้ของประเทศไทย จะเด่น หรือ ธุรกิจไหนจะดับ

ที่เราตั้งสมมติฐานเอาไว้คือ

ธุรกิจที่น่าจะเด่นคือ ธุรกิจพวกการสื่อสาร ใช้เทคโนโลยี ซอฟแวร์ เพราะอาจจะไม่ได้รับผลกระทบมาก เพราะจากcovid-19 ผู้คนเปลี่ยนวิถีชีวิตไปใช้เทโนโลยีมากขึ้น เช่นการทำงาน ก็ทำแบบ work from home, การshopping ก็หันมาใช้ online มากขึ่น ซึ่งน่าจะเป็นผลกระทบทางบวกในธุรกิจประเภทนี้ และน่าจะเป็นตัวทำรายได้ และโดดเด่นอย่างหนึ่ง

ธุรกิจที่น่าเด่นจะอยู่รอด อีกธุรกิจหนึ่งคือธุรกิจทางด้านโครงสร้างต่างๆ เช่นการก่อสร้างต่างๆ เนื่องจากธุรกิจเหล่านี้ มักทำเป็นลักษณะโครงการ/โปรเจค ระหว่างโครงการ อาจจะมีการทำสัญญามากกว่า 1 ปีเพราะฉะนั้นภายใน 1 ปีนี้หากยังทำตามสัญญาได้ก็คือว่ายังสามารถทำกำไรและมีรายได้จากการประกอบการธุรกิจได้ แล้วโควิทนี้ก็เพิ่งมาได้แค่1 ปีเอง

ธุรกิจที่ทรงๆตัว แม้โควิทมาก็ล้มลุกคลุกคลานไม่มาก ก็น่าจะเป็นธุรกิจทางด้านการเกษตร เพราะทุกคนก็ต้องกิน อาหารเป็นปัจจัยขั้นพื้นฐานของมนุษย์ทุกคนเพราะฉะนั้นแม้ว่า covid-19 จะส่งผลกระทบแต่ก็อาจจะได้รับผลกระทบน้อยกว่าภาคอุตสาหกรรมอื่น แต่การกินของมนุษย์ก็กินได้จำกัด วันนี้เรากินข้าวมื้อละ1จาน จะให้เราลด เนื่องจากCovid-19ก็อาจจะลดไม่ได้เยอะ เราก็ยังคงกินข้าวกัน 1 จานเหมือนเดิม ภาคนี้เราก็คิดในใจว่าไม่น่าจะเปลี่ยนแปลงมาก

ธุรกิจที่ได้รับผลกระทบหลักๆก็คืออาจจะเป็นภาคการท่องเที่ยว เนื่องจากโครงสร้างของธุรกิจภาคบริการของประเทศไทยพึ่งพาการทองเที่ยวเป็นหลัก เนื่องจาก covid-19 ทำให้นักท่องเที่ยวต่างชาติเข้ามาในประเทศไทยน้อยลง เนื่องจากมีการปิดประเทศ และ มาตาการป้องกัน Covid ทำให้ทำกำไรได้น้อยลง และนักท่องเที่ยวที่เป็นกำลังซื้อหลักๆของไทยก็ลดลงไปในพริบตา

4.การสร้างฐานข้อมูล (Data Mart)

A) การเลือกข้อมูล

ข้อมูลที่เราได้มา คือข้อมูลบริษัทในประเทศไทยที่มีสถานะ “กำลังดำเนินกิจการอยู่” ณ เดือนกุมภาพันธ์ ปี 2020

มีลักษณะตามด้านล่าง

ข้อมูลดิบที่ได้มาจาก Boss
ตัวอย่างข้อมูลดิบที่ได้มาจากBoss มีบริษัทที่มีสถานะดำเนินกิจการอยู่ในปี 2020 ทั้งสิ้น772,552 บริษัท

มีข้อมูลเชิงปริมาณอยู่ 7 ตัว ที่สามารถนำมาวิเคราะห์ได้ มี6 ตัว คือ ทุนจดทะเบียน,รายได้,การเปลี่ยนแปลงของรายได้,กำไร,การเปลี่ยนแปลงของกำไร,วันที่จดทะเบียน ซึ่งข้อมูลนี้เป็นลักษณะของ cross sectional data ไม่ได้เป็น time series แต่อย่างใด และข้อมูลเชิงปริมาณที่มีอยู่ แต่อาจจะไม่สามารถ นำมาใช้ในการวิเคราะห์ได้ คือ ทุนจดทะเบียนที่ชำระแล้ว เนื่องจาก ข้อมูลส่วนใหญ่มีค่าเป็น 0 ถ้า นำมาวิเคราะห์ต่อ ต้องระวัง เนื่องจากอาจจะเกิดการตีความ/เข้าใจผิดได้

ส่วนข้อมูลทางด้านตัวอักษร(Text)ที่สามารถนำมาใช้ได้คือประเภทบริษัท,ชื่อบริษัท,ที่อยู่,ของบริษัท,ประเภทของธุรกิจ

ส่งข้อมูลทางด้านอื่นเช่นอีเมลเบอร์โทรศัพท์ชื่อคณะกรรมการต่างๆนี้จะเป็นเชิงรายละเอียดซึ่งอาจจะเป็นประโยชน์สำหรับให้ฝ่ายการตลาด/ฝ่ายขายไปติดต่อหาลูกค้า แต่ว่าการวิเคราะห์ข้อมูลครั้งนี้อาจจะใช้ประโยชน์อะไรไม่ได้ จึงไม่ได้นำมาวิเคราะห์ด้วย

ฺB) การจัดรูปแบบข้อมูล

*ข้อมูลลักษณะเป็นข้อความ(Text)

ข้อมูลที่เป็นข้อความ(Text) ของเรามีลักษณะที่เป็นข้อความยาวๆ ซึ่งถ้านำมาวิเคราะห์เลยอาจจะได้ผลที่เป็นรายละเอียดปลีกย่อยซะมากกว่า และทำให้ไม่เห็นภาพรวมของสภาพธุรกิจในประเทศไทย ซึ่งไม่ตรงกับวัตถุประสงค์ของการวิเคราะห์ครั้งนี้ เพราะฉะนั้นเราจึงต้องทำการจัดข้อมูลที่เป็นข้อความใหม่อีกทีเช่น

· “ที่อยู่” ก็จะมีรายละเอียดว่าบริษัทนี้มีบ้านเลขที่เท่าไร่ เขตอะไร แขวงอะไร ซึ่งเป็นสิ่งที่ละเอียดมาก ดังนั้น จึงหยิบข้อมูลตรงส่วนนี้ออกมาแค่ จังหวัด เพื่อใช้วิเคราะห์ที่ตั้งโดยรวมของธุรกิจเท่านั้น

· “ประเภทของธุรกิจ” ซึ่งข้อมูลที่เราได้มามีการแยกย่อยประเภทของธุรกิจเป็นจำนวนถึง 1,211 ประเภทธุรกิจ ซึ่งถือว่าเยอะมาก เช่น เลี้ยงจิ้งหลีด, ขายตั๊กแตน, ฯลฯ ดังนั้นถ้าเราจะดูธุรกิจภาพรวนอาจจะต้องทำการจัดกลุ่มธุรกิจ(Grouping)ใหม่

*ข้อมูลเชิงปริมาณ

เท่าที่ดูคร่าวๆคือ ไม่มีปัญหาในเชิงรูปแบบซักเท่าไร่ เพราะทุกตัวเป็นตัวเลขเหมือนกัน มีรูปแบบเดียวกันหมดเลย งานนี้เลยผ่าน

C) การcleanข้อมูล

* การcleanข้อมูลที่มีลักษณะเป็นข้อความ(Text)

ในเมื่อข้อความเชิงปริมาณมีน้อยเพราะฉะนั้นเราลองมาเล่นกับข้อมูลทางด้านข้อความ(Text)กันหน่อย ก็ได้ตามนี้

1. สกัดข้อมูล “ที่อยู่” ให้เหลือแค่รายจังหวัด เพื่อเป็นการลดจำนวนพารามิเตอร์และเห็นภาพเป็นรายจังหวัดได้ง่ายขึ้น

2. การจัดกลุ่มข้อมูล “ประเภทธุรกิจ” จาก 1211 ประเภทธุรกิจย่อย ให้เป็นภาพรวมมากขึ้น

เนื่องจากเป็นกลุ่มข้อความ จะทำเหมือนข้อมูลเชิงปริมาณ ที่ เรียงลำดับข้อมูล(sort value)จาก น้อยไปมาก หรือ มากไปน้อยไม่ได้ อ้าวแล้วจะทำยังไงดีล่ะ

เราจึงใช้ประยุกต์ใช้ความรู้เรื่อง Universal Sentence Encoder (USE) เพื่อหาค่าความเหมือนของข้อความ(Sematic similarity) จากนั้นจึงทำการจัดกลุ่มจากค่าความเหมือนที่ได้มาโดยใช้หลักการ K-mean clustering เนื่องจากการทำเช่นนี้เป็นการทำแบบ Unsupervised Learning เพราะฉะนั้น เราไม่รู้ว่าจากข้อมูล 1211 ประเภทธุรกิจย่อย นี้เนี่ย เราควรจะจัดเป็นกี่กลุ่มดี เราจึงใช้ค่า Silhouette values เป็นตัววัดว่า ควรจะจัดกี่กลุ่มดี ซึ่งค่าออกมาคือ ควรจะได้ 6 กลุ่มหรือ 8 กลุ่ม ตามลำดับ

ต้องขอขอบคุณวิทยาการทางคอมพิวเตอร์ที่ช่วยย่นระยะเวลาในการจัดกลุ่มของมนุษย์อย่างเราๆได้เป็นอย่างมาก

ผลออกมาก็ค่อนข้างดีแต่ว่าก็มีบางกลุ่มที่ไม่ถูกใจมนุษย์แบบเราๆ เหมือนกับมีคนเคยบอกไว้ว่า AI ยังไม่สามารถทำงานแทนมนุษย์ได้ทั้งหมด แต่ช่วยมนุษย์ได้บ้าง จากหลักการนี้เราจึงไล่จัดกลุ่มอีกทีด้วยสายตาและปัญญาของมนุษย์(Human Knowledge)ของเราอีกที ผลสรุปสุดท้ายคือได้ทั้งหมด 9 กลุ่ม ดังนี้

1.Communication, Computer, Software, Engineer Systems

2. Construction, Transportation construction

3. Finance, Fund, Insurance, investment, Rental, Leasing, Real Estate

4. Health, Education, Law, Activities

5. Maintenance, Support Business, Other Services

6. Primary Industry, Agriculture, Fishery, Livestock, Mining

7. Production

8. Retails, Wholesales

9. Travel, Hotel, Restaurant, MICE

จาก1211 ประเภทธุรกิจย่อยนี้ ตอนนี้สามารถลดเหลือ เพียง 9กลุ่มธุรกิจหลักๆ แล้วทำให้สบายตา ขึ้นไปเยอะเลย

· * การcleanข้อมูลเชิงปริมาณ

ในเชิงสถิติแล้ว การclean ข้อมูลเชิงปริมาณสามารถทำได้หลาวิธี เช่น การตัดข้อมูลออก, การทำให้เป็นค่าตัวแทน เช่น ค่าเฉลี่ย, ค่ามัธยฐาน, ค่าฐานนิยม , หรือการ predict ข้อมูลที่หายไป ด้วยวิธีการต่างๆ

ซึ่งวิธีเลือกว่าควรจะใช้วิธีไหนดีนั้น ก็ต้องขึ้นอยู่กับลักษณะของข้อมูล

ซึ่งข้อมูลที่ได้มาจาก Boss นี้ เราเลือกแล้วว่าควรใช้วิธีการ แยกตามประเภทธุรกิจที่เราจัดได้ 9 กลุ่มธุรกิจ แล้วตัดของแต่ละประเภทธุรกิจก่อนที่จะมาวิเคราะห์ โดยเริ่มจาก

  1. การตัดข้อมูลแปลกๆออก เช่น บริษัทที่แสดงรายได้เป็น0 (บริษัทเกิดใหม่ในปี 2020, 2021 ที่ยังไม่ส่งงบการเงินทำให้ไม่มีข้อมูล) บริษัทที่มีการเปลี่ยนแปลงของรายได้ หรือ กำไร มากว่า 100เท่า (เช่น บริษัทเกิดเมื่อ ปี 2019 มีการส่งงบการเงินมาในปี 2020 เนื่องจากในปี 2019 ไม่มีข้อมูลงบการเงิน แต่เริ่มมีงบการเงินในปี 2020 ทำให้การเปลี่ยนแปลงของกำไรคือ ตัวกำไรที่ได้ ซึ่งบางบริษัทมีค่า เป็นหลัก สิบล้าน ร้อยล้านเปอร์เซ็นต์ เป็นต้น)
  2. หลังจากนั้นเราก็พบว่าข้อมูลยังมี outliers อยู่มาก ทั้งในเรื่องรายได้ กำไร เราจึงตัดข้อมูลที่มีค่า Z-score มากกว่า3 ออกไปอีก ดังนั้นข้อมูลที่เราจะใช้ในการวิเคราะห์นี้ จะอยู่ในช่วง x̄±3SD โดยที่ค่า x̄ คือค่าเฉลี่ยของแต่ละอุตสาหกรรม และค่าSD คือค่าส่วนเบี่ยงเบนมาตรฐาน(Standard Deviation)

หลังจากที่ตัดข้อมูลออกแล้ว ลักษณะของแต่ละข้อมูลเป็นไปตามกราฟไวโอลิน (Violin Chart)ด้านล่างดังนี้

ภาพแสดงลักษณะของข้อมูลที่ตัดoutlierออกแล้ว: Income(B)
ภาพแสดงลักษณะของข้อมูลที่ตัดoutlierออกแล้ว: Income change(%)
ภาพแสดงลักษณะของข้อมูลที่ตัดoutlierออกแล้ว: Profit(B)

จะเห็นได้ว่า ข้อมูลก็ยังกระจุกตัวที่ฐานของไวโอลินอยู่ กล่าวคือ กราฟนี้ก็จะแสดงให้เห็นจำนวนว่า โครงสร้างทุกภาคธุรกิจ ของประเทศไทย นั้น ส่วนใหญ่จะกระจุกตัวกันที่ฐานราก ไม่ได้กระจายตัวขึ้นไปตรงปลายส่วนบน และ 50%ของบริษัทในไทย ส่วนใหญ่จะมีรายได้ส่วนใหญ่อยู่ที่บริษัทละ 0-3.36 ล้านบาท/ปี

ถ้าเป็นสายนักเศรษฐศาสตร์ พอเห็นภาพนี้แล้ว จะมีความน่าสนใจทางด้านการกระจาย รายได้ แต่เราจะไม่พูดถึงเพราะเกินขอบเขตที่เราตั้งไว้ในเรื่องของตลาด

ตอนนี้เราก็เห็นภาพรวมของข้อมูล และพร้อมที่จะนำข้อมูลมาวิเคาะห์ต่อแล้ว เย่ๆๆได้ Data mart มาแล้ว เอามาวิเคราะห์ต่อเลย

แต่เอ๊ะ!!! ถ้าคิดในมุมมองของนักธุรกิจแล้ว ถ้าเราตัดข้อมูลที่เป็น outliers ออกไปเนี่ย แสดงว่าเราจะเสียโอกาสในการได้ข้อมูลลูกค้ารายใหญ่ เลยน้าเนี่ย ข้อมูลแบบนี้จะเอามาวิเคราะห์ในเชิงธุรกิจได้อย่างไร พอเจอแบบนี้ ก็ต้องร้องอีกทีว่า อิหยังวะเนี่ย เจอปัญหาอีกแล้ว เราแก้ปัญหาในเชิงสถิติได้ แต่ติดปัญหาในเชิงการทำธุรกิจอีก จะทำยังไงดีน้า

5.การหาคำตอบจากข้อมูล /หา Insight จากข้อมูล

หลังจากที่เราลองหลายอย่างแล้วไม่พบ insight เราพยายามหาคำตอบอยู่หลายวัน ก็ไม่พบวิธีที่เหมาะสมซักที เราก็เลยลองประยุกต์ใช้สถิติ เข้ากับวิชาทางธุรกิจ แล้วเราก็ค้นพบว่า BCG Model (Boston Consulting Group Model) นี่แหละ จะสามารถพาเราไปหา insight เรื่องว่า ตลาดไหนจะรุ่ง หรือ ตลาดไหน จะร่วงได้ ซึ่งถ้าใครคุ้นเคยด้านการตลาด นี่ก็เป็นส่วนหนึ่งของ Segmentation Targeting และ Positioning (STP) นั่นเอง ซึ่งส่วนใหญ่จะใช้ในการวิเคราะห์ผลิตภัณฑ์ว่า ผลิตภัณฑ์ของบริษัทนั้นอยู่ในช่วงไหน ซึ่งก็สามารถแบ่งได้เป็น 4 กลุ่มคือ

BCG Matrix

1. กลุ่มดาวรุ่ง (Star)

กลุ่มนี้คือกลุ่มผลิตภัณฑ์ที่ครองส่วนแบ่งในตลาด(Relative Market Share)สูง และยังมีอัตราการเจริญเติบโตทางด้านการตลาด(Market Growth Rate)สูงอีก จึงแนะนำว่าให้วางแผนพัฒนาผลิตภัณฑ์ต่อไป บางตำราบอกว่าควรพัฒนาให้เป็นกลุ่มแม่วัว(Cash Cow)ในสเต็ปถัดไป

2. กลุ่มแม่วัว (Cash Cow)

ผลิตภัณฑ์กลุ่มนี้ครองส่วนแบ่งการตลาดสูง แต่มีอัตราการเจริญเติบโตต่ำเหมือนแม่วัวที่ให้นมเราได้ตลอดเวลา เงินที่ได้จากแม่วัวจะเป็นทุนสำหรับจุนเจือผลิตภัณฑ์อื่นๆของบริษัท

3. กลุ่มหมาจนตรอก (Dog)

กลุ่มนี้คือผลิตภัณฑ์ที่ครองส่วนแบ่งการตลาดต่ำและยังมีอัตราการเจริญเติบโตต่ำอีก อาจจะเป็นผลิตภัณฑ์ที่บริษัทควรถอนตัว

4. กลุ่มเครื่องหมายคำถาม (Question Marks)

คือ ผลิตภัณฑ์ที่ครองส่วนแบ่งการตลาดต่ำในตลาดใหม่ที่มีอัตราการเติบโตสูง ดังนั้น จึงเป็นคำถามว่า จะสามารถพัฒนาผลิตภัณฑ์กลุ่มนี้ให้เป็นดาวรุ่ง(Star) หรือ แม่วัว(Cash Cow) ได้หรือไม่ แต่ทั้งนี้ทั้งนั้นผลิตภัณฑ์นี้ก็มีโอกาสเป็นหมาจนตรอก(Dog)ได้เช่นกัน

ซึ่งลักษณะการทำเมทริกซ์ BCG Model แบบนี้ก็มีผู้นำไปพัฒนาต่อยอดเพื่อสร้าง Model ใหม่ขึ้นมาอีกเช่น

- Business screen เป็นการวัดระดับความน่าสนใจของตลาดกับตำแหน่งในการแข่งขัน

-Values portfolio เป็นการรู้จักความสัมพันธ์ระหว่างความสอดคล้องกับวิสัยทัศน์&อัตราประสิทธิผลของการลงทุน

-Advantage matrixเป็นการวัดจำนวนปัจจัยการแข่งขันในตลาดเปรียบเทียบกับโอกาสในการสร้างความได้เปรียบ

-Technology portfolio ก็คือระดับความทุ่มเทเทียบกับความได้เปรียบ

-การกำหนดตำแหน่งทางการตลาด market segmentation เพื่อเจาะกลุ่มลูกค้าว่าลูกค้าแต่ละรายมีลักษณะกลับผลผลิตอย่างไรบ้าง

-การจัด portfolio ของลูกค้าที่เปรียบเทียบที่จัดกลุ่มลูกค้าเป็นกรุ๊ปโดยการเปรียบเทียบอัตราการเจริญเติบโตของการขายและการทำกำไรจากลูกค้า

เป็นต้น

แต่ครั้งนี้ข้อมูลของเราไม่ใช่ผลิตภัณฑ์ หรือกลุ่มลูกค้าแต่อย่างใด ดั้งนั้นเราเอาข้อมูลที่ Boss ให้มาประยุกต์โดยการใช้กลุ่มอุตสาหกรรมในประเทศไทยแทน ว่าจะอยู่ตำแหน่งไหนในตลาดเชิงเปรียบเทียบ โดยปกติถ้าเป็นผลิตภัณฑ์จะใช้คำศัพท์เรื่องส่วนแบ่งทางการตลาด(Relative Market Share) แต่ถ้าเป็นเรื่องธุรกิจแล้วนั้น บางตำราให้ใช้คำว่า ความน่าสนใจของตลาด (Market Attractiveness) แทน

ผลจากการจัดกลุ่มอุตสาหกรรม 9กลุ่ม ได้ผลมาดังรูป

1. กลุ่มดาวรุ่ง (Star)

จากการวิเคราะห์คือ ในธุรกิจปี2020 ยังไม่มีธุรกิจใดที่โดดเด่น จนกลายเป็นกลุ่มดาวรุ่ง(Star)เลย เนื่องจากกลุ่มธุรกิจ ที่มีความน่าสนใจของตลาด(Market Attractiveness)สูง ก็เติบโตได้ไม่มาก (กลุ่ม Cash Cow)ส่วน กลุ่มที่มีอัตราการเติบโตสูง ก็มีความน่าสนใจของตลาดต่ำ โดยเปรียบเทียบ(กลุ่ม Question Marks)

2. กลุ่มแม่วัว (Cash Cow)

ตอนนี้มีแค่2อุตสาหกรรมที่กินส่วนแบ่งทางการตลาดสูง คือ Production และ Retails & Wholesales ซึ่งทั้งสองอุตสาหกรรมนี้ กินส่วนแบ่งทางการตลาดทั้งหมด 78% ซึ่งนับได้ว่าเป็นรายได้หลักของประเทศ

นักธุรกิจท่านใดที่กำลังมองหาตลาดในไทย ก็จะขอแนะนำว่าควรจะมอง 2 อุตสาหกรรมนี้เป็นอันดับแรกก่อน

เนื่องจาก ธุรกิจ Retails &Wholesales มีจำนวนธุรกิจมากกว่าProdcution ถึง3 เท่า แต่ รายได้ต่อปีของธุรกิจProdcutionต่อ1 ธุรกิจแล้ว มากกว่า Retails &Wholesales ถึง 3.14 เท่าเช่นกัน ตามรายละเอียดกราฟด้านล่าง

3. กลุ่มหมาจนตรอก (Dog)

กลุ่มนี้จะมี 2 อุตสาหกรรมดังนี้

  • Communication, Computers Software, Engineering Systems
    อุตสาหกรรมนี้ผิดจากการตั้งสมมติฐานเบื้องต้นอย่างมาก เนื่องจากตอนตั้งสมมติฐาน เราตั้งไว้ว่า น่าจะเป็นกลุ่มที่รุ่ง ไม่ใช่กลุ่มที่ร่วง แต่หลังจากการนำสถิติมาวิเคราะห์ข้อมูลแล้วพบว่า อยู่ในกลุ่ม หมาจนตรอก ซึ่งมีนัยยะว่าคือกลุ่มที่ร่วงนั่นเอง ทั้งนี้อาจจะเป็นเพราะ ตอนแรกคิดว่าในช่วงCovid-19นี้ จะมีคนใช้เทคโนโลยีมากขึ้น เช่นการ ทำงาน, shopping และต้องใช้ผลิตภัณฑ์ของธุรกิจนี้ ทำให้น่าจะรุ่ง แต่ผลออกมาแบบนี้ก็อาจจะคิดต่อได้ว่า เทคโนโลยีที่เราใช้กันในช่วงCovid-19นี้ อาจจะไม่ใช่เทคโนโลยีของบริษัทในไทย แต่เป็นของบริษัทต่างชาติเป็นส่วนใหญ่ ทำให้รายได้ของบริษัทในอุตสาหกรรมนี้ต่ำ เมื่อเทียบกับอุตสาหกรรมอื่น
  • Finance, Fund, Insurance Investment, Rental, Leasing, Real Estate

กลุ่มนี้ได้รับผลกระทบทางด้านรายได้เนื่องจาก ในช่วงCovid-19 ธุรกิจทั่วไปได้รับผลกระทบ และกลุ่มธุรกิจทางด้านการเงินการธนาคารเอง ก็มีการผ่อนผันชำระหนี้ ทำให้ กลุ่มธุรกิจนี้มี รายได้ที่ต่ำลงกว่าปีก่อนหน้าโดยเปรียบเทียบ เป็นอย่างมาก จนทำให้อยู่ในกลุ่มDog นี้

4. กลุ่มเครื่องหมายคำถาม (Question Marks)

กลุ่มที่มีแรงดึงดูดทางการตลาดต่ำ แต่ว่ามีอัตราการเจริญเติบโตสูง โดยเปรียบเทียบ ซึ่งมี5ธุรกิจที่เหลือคือ

  • Travel, hotel, restaurant, MICE
    กลุ่มนี้ผิดจากการตั้งสมมติฐานเช่นกัน เนื่องจากตอนแรกตั้งสมมติฐานว่าCovid-19 ทำให้นักท่องเที่ยวน้อยลง ทำให้อาจจะอยู่ในกลุ่มร่วง แต่จากการที่รายได้น้อยลงนั้น ทำให้ Market Attraction ต่ำ เมื่อเทียบกับอุตสาหกรรมอื่น ซื่งอาจจะมองได้ 2 ประเด็นหลักๆคือ
    1. เนื่องจากข้อมูลที่ได้มาเป็นข้อมูลบริษัทที่มีสถานะดำเนินกิจการอยู่ เท่านั้น ซึ่งระหว่างนี้อาจจะมีบางบริษัทปิดกิจการไปแล้วในช่วงCovid-19 ก็ได้ แต่เราไม่มีข้อมูล ทำให้เราไม่สามารถวิเคราะห์ผลของการปิดกิจการลงได้
    2.จากนโยบายช่วยเหลือของรัฐบาล เช่น เราเที่ยวด้วยกัน, คนละครึ่ง, รับเงิน 15,000บาท ฯลฯ ทำให้เงินเหล่านี้กระจายไปสู่ภาคธุรกิจนี้ด้วย กลุ่มนี้มีการกระจาย ตัวของรายรับที่สูงมากเช่นกัน
    บริษัทที่มี Market Attractive สูงๆ ส่วนใหญ่ จะมีรายรับต่ำลงจากปีก่อน แต่ธุรกิจขนาดเล็ก มีทั้งได้รายได้สูงขึ้นและต่ำลง แต่ค่าของธุรกิจที่มีรายได้สูงขึ้น มีมากกว่า ทำให้อุตสาหกรรมเล็กๆนี้ ดึงค่าเฉลี่ยของอุตสาหกรรมทั้งหมดขึ้นไป
    กราฟด้านล่างนี้ เป็นการวิเคราะห์BCG ในรายบริษัทภาคTravel, hotel, restaurant, MICE ที่ยังดำเนินกิจการอยู่ (จะขอกล่าวรายละเอีดยดอีกทีในภายหลัง)

ธุรกิจที่เหลืออีก4กลุ่ม คือ

  • Health education law activities
  • Maintenance, Support Business, Other Services
  • Primary industry agriculture fishery livestock and mining
  • Construction ,transportation construction
    ธุรกิจกลุ่มนี้เหมือนที่ตั้งสมมติฐานเอาไว้คือ ไม่กินส่วนแบ่งการตลาดไม่มากแต่ทรงๆตัว พออยู่ได้ มีแนวโน้มเหมือนภาคท่องเที่ยวด้านบนคือ บริษัทเล็ก ดึงค่าเฉลี่ยเรื่องการการเปลี่ยนแปลงรายได้ ทำให้โดยภาพรวมแล้วมี อัตราการเปลี่ยนแปลงรายได้สูงกว่าอุตสาหกรรมอื่นโดยเปรียบเทียบ ทำให้ภาคธุรกิจนี้อยู่ในส่วนของ Question Marks

บางคนก็ยังมีคำถามต่อว่า ที่ทำมาคือภาพรวมของทั้งตลาดในรายอุตสาหกรรมเลยนี่ แล้วแต่ละอุตสาหกรรมมีธุรกิจไหน อยู่ตำแหน่งไหนบ้างล่ะ
ซึ่งถ้าเราพูดถึงข้อมูลรายบริษัท แล้วการที่เราตัดoutliers ออกไปตอน Clean ข้อมูลจะทำให้เราพลาดโอกาสในการหาลูกค้า โดยเฉพาะลูกค้ารายใหญ่ๆ ดังนั้น ถ้าจะคิดรายบริษัทแล้ว เราจะประยุกต์ใช้ BCG Model ที่มีoutliers ด้วย แต่จุดแบ่งเส้นคั่นกลางว่า จะเป็น Star, cash cow, question marks หรือ dogs นั้นเราจะใช้แค่ข้อมูลที่เราclean(ที่ตัด outlier ออก) แล้วมาคำนวณการเปลี่ยนแปลงของรายได้เท่านั้น ผลที่ได้ข้อมูลทั้ง 772,552 ตามที่boss ของเราได้มาตั้งแต่ตอนแรก จะถูกแสดงผลทั้งหมด ซึ่งแต่ละภาคอุตสาหกรรมมีจำนวน และสัดส่วนของบริษัท ดังกราฟต่อไปนี้

จำนวนของธุรกิจ
กราฟ แสดงจำนวนธุรกิจ
กราฟแสดงสัดส่วนของธุรกิจ จำแนกตามPosition

จากกราฟจะเห็นได้ว่า ธุรกิจของไทยส่วนใหญ่เกิน70% มีตำแหน่งเป็นกลุ่ม Dog, 22%มีตำแหน่งในกลุ่มQuestion marks, ส่วนกลุ่ม Cash Cow และ Star รวมกันได้เพียงแค่7% เท่านั้น

ซึ่งข้อมูลทั้งหมด 772,552 บริษัทนั้น เยอะมาก จะเขียนไว้ที่นี่ที่เดียวเลยอาจจะไม่ไหว ดังนั้นจะขอยกตัวอย่างธุรกิจเฉพาะ ที่โดดเด่นอย่างกลุ่ม Star และ Cash cow มาบางบริษัทเท่านั้น เช่น

Retails, Wholesales

Production

Finance, Fund, Insurance Investment, Rental, Leasing, Real Estate

Communication, Computer, Software, Engineer Systems

Health, Education, Law, Activities

Maintenance, Support Business, Other Services

Construction, Transportation construction

Primary industry agriculture fishery livestock and mining

Travel, Hotel, Restaurant, MICE

ส่วนข้อมูลบริษัทอื่น เราก็สามารถดูกราฟ และposition ของบริษัทนั้นได้เหมือนกัน แต่ขอเก็บไว้เป็นข้อมูลให้ Boss ของผมละกันนะครับ เพราะเกรงว่าจะเป็นการเปิดเผยข้อมูลโดยมิจำเป็น

บทสรุป

ตอนแรกที่เห็นข้อมูลดิบมา ก็เต็มไปด้วยความอิหยัง ไม่รู้ว่าจะเริ่มต้นอย่างไรดี แต่พอตั้งสติได้แล้ว คือแค่ลองใช้ข้อมูลที่ได้มา ใช้กระบวนการData Analytics ตั้งคำถาม แล้วลองจัดข้อมูลกลุ่มจากกลุ่มย่อยๆ แล้วยุบเป็นกลุ่มใหญ่บ้าง ตัดข้อมูลจากกลุ่มใหญ่ๆมาเป็นกลุ่มย่อยๆบ้าง ตัดค่าoutliers เพื่อหาตัวเลขที่แสดงถึงสถาพของอุตสาหกรรมบ้าง และประยุกต์วิชาทางการตลาดบ้าง เพื่อตอบคำถามว่าธุรกิจไหนรุ่ง/ร่วง ก็ได้แล้ว โดยที่ไม่ต้องใช้กระบวนการซ้ำซ้อนอะไรเลย

ขั้นตอนต่อไปคือส่งข้อมูลนี้ให้ Boss จะเกิดเหตุการณ์อะไรต่อไป เดี่ยวคอยดูผลกัน

Appendix

ส่วนข้อมูลประกอบอื่นๆ สำหรับผู้ที่สนใจ ขออนุญาต Boss แปะรายละเอียดไว้ด้านล่างนี้ครับ

ตาราง แสดงตำแหน่งรายภาคอุตสาหกรรม

ด้านล่างนี้จะเป็นกราฟ รายละเอียด แสดงตำแหน่งของบริษัท ใน 9 ภาคอุตสาหกรรมที่วิเคราะห์ ส่วนใหญ่จะเห็นข้อมูล Stars และ Cash cow เป็นส่วนใหญ่ เนื่องจากขนาดของวงกลม แสดงปริมาณรายได้ของแต่ละบริษ้ท ดังนั้น กลุ่ม Question marks และ Dogนั้นมีจำนวนบริษัทมาก ในทุกอุตสาหกรรม แต่ถ้ามองจากกราฟนี้ อาจจะเห็นเป็นจุดเล็กๆ จนแทบมองไม่เห็น (ทางเราต้อง Zoom เข้าไปดูใกล้มากๆถึงจะเห็นครับ)

กลุ่มอุตสาหกรรม Cash Cow

กลุ่มอุตสาหกรรม Dog

กลุ่มอุตสาหกรรม Question Marks

--

--