วันศุกร์ที่ 22 พฤษภาคม พ.ศ. 2552

Data mining


ความรู้พื้นฐานเกี่ยวกับดาต้าไมนิ่ง
2.1 ความหมายของดาต้าไมนิ่ง ดาต้าไมนิ่ง(Data Mining) คือการค้นหาความสัมพันธ์และรูปแบบทั้งหมด ซึ่งมีอยู่จริงในฐานข้อมูล แต่ได้ถูกซ่อนไว้ภายในข้อมูลจํานวนมาก ดาต้าไมนิ่งจะทําการสํารวจละวิเคราะห์อย่างอัตโนมัติหรือกึ่งอัตโนมัติ ในปริมาณข้อมูลจํานวนมากให้อยู่ในรูปแบบที่เต็มไปด้วยความหมายและอยู่ในรูปของกฎ โดยความสัมพันธ์เหล่านี้แสดงให้เห็นถึงความรู้ต่างๆที่มีประโยชน์ในฐานข้อมูล ในปัจจุบันองค์กรส่วนใหญ่จะเผชิญกับปัญหาของ “ข้อมูลดิบจํานวนมากแต่ข้อมูลที่ประยุกต้ใช้ ได้นั้นมีน้อย” ดาต้าไมนิ่งจึงเป็นสาขาที่คาดว่าจะเป็นที่รู้จักและนํามาใช้ประยุกต์ใช้อย่างแพร่หลาย เนื่องจากดาต้าไมนิ่งสามารถดึคามรู้ออกมาจากข้อมูลจํานวนมากที่ถูกเก็บสะสมไว้ ในโลกของธุรกิจปัจจุบันบริษัทต่างๆจะพยายามหาเทคนิคที่สามารถนําความสําเร็จมาสู่บริษัท เช่น ในโลกธุรกิจขนาดย่อมจะสร้างความสัมพันธ์กับลูกค้า โดยสังเกตจากความต้องการ ความชอบและความสนใจของลูกค้า และอาจมีการเรียนรู้ได้จากผลสะท้อนในอดีตว่าจะทําอย่างไรให้การบริการลูกค้ามีประสิทธิภาพดีขึ้นในอนาคต หรือ บริษัทที่เป.นผู.ออกบัตรเครดิตและธนาคารต่างๆ จะมีขบวนการที่ใช้ ดาต้าไมนิ่งให้เป็นประโยชน์ ในการตัดสินใจว่าลูกค้ากลุ่มใดเป็นกลุ่มที่ดี , ทําความเข้าใจลูกค้า , ช่วยในการแยกประเภทของลูกค้าและจะทํานายกลุ่มของประชากรที่คาดว่าจะมาเป็นลูกค้าในอนาคต เป็นต้น อย่างไรก็ตามการเรียนรู้นั้นต้องมากกว่าการเก็บสะสมข้อมูลอย่างตรงไปตรงมา ซึ่งจะทําให้การทํางานไม่ เป็นประสิทธิภาพ
2.2 วัฎจักรขั้นตอนการทํางานของดาต้าไมนิ่ง วัฎจักรขั้นตอนการทํางานของดาต้าไมนิ่งประกอบไปด้วย 4 ขั้นตอนหลักๆ ดังนี้
2.2.1 การระบุโอกาสทางธุรกิจหรือการระบุปัญหาที่เกิดขึ้นกับธุรกิจ เป็นการระบุขอบเขตของข้อมูลที่จะนํามาทําการวิเคราะห์เพื่อหาความได้เปรียบทางการตลาดหรือเพื่อนํามาทําการแก้ไขปัญหา
2.2.2 ส่วนของดาต้าไมนิ่ง เป็นการนําเทคนิคของดาต้าไมนิ่ง ไปใช้ถ่ายทอดหรือทําการเปลี่ยนแปลงข้อมูลดิบให้อยู่ในรูปของข้อมูลที่จะนําไปใช้ได้จริงในทางธุรกิจ
2.2.3 การปฏิบัติตามข.อมูล คือการนําเอาข.อมูลที่เป.นผลลัพธ.ของส.วนดาต.าไมนิ่งมาลองปฏิบัติจริงกับธุรกิจ
2.2.4 การวัดประสิทธิภาพจากผลลัพธ์ การวัดประสิทธิภาพของเทคนิคของดาต้าไมนิ่งที่จะนํามาใช้จากผลลัพธ์ ซึ่งสามารถตรวจสอบได้หลายทาง เช่น วัดจากส่วนแบ่งของตลาด , วัดจากปริมาณลูกค้า หรือ วัดจากกําไรสุทธิ เป็นต้น จากทั้ง 4 ขั้นตอนที่กล่าวมาข้างต้นคือการนําเอาดาต้าไมนิ่งไปใช้กับระบบทางธุรกิจ โดยแต่ละขั้นตอนจะพึ่งพาอาศัยกัน ผลลัพธ์จากขั้นตอนหนึ่งจะกลายมาเป็นอินพุทจากอีกขั้นตอนต่อไป ซึ่งดาต้าไมนิ่งจะเปลี่ยนข้อมูลดิบให้เป็นข้อมูลประยุกต์ ดังนั้นการระบุแหล่งข้อมูลที่ถูกต้องจึงเป็นสิ่งที่สําคัญอย่างยิ่งต่อผลลัพธ์ที่ได้จากการวิเคราะห์
2.3 งานของดาต้าไมนิ่ง (Task of data mining) ในทางปฏิบัติจริงดาต้าไมนิ่งจะประสบความสําเร็จกับงานบางกลุ่มเท่านั้น และต้องอยู่ภายใต้ ภาวะที่จัด ปัญหาเหมาะสมกับการใช้เทคนิคดาต้าไมนิ่งจะเป็นปัญหาที่ต้องใช้เหตุผลในการแก้, ปัญหาที่เกียวข้องกับเศรษฐศาสตร์และการเงิน ซึ่งจะสามารถจัดรูปแบบของธูรกิจให้อยู่ในรูปแบบของงานทั้ง 6 งานได้ ดังนี้
1. การจัดหมวดหมู่ (Classification)
2. การประเมินค่า (Estimation)
3. การทํานายล่วงหน้า (Prediction)
4. การจัดกลุ่มโดยอาศัยความใกล้ชิด (Affinity Group)
5. การรวมตัว (Clustering)
6. การบรรยาย (Description) ไม่มีเทคนิคหรือเครื่องมือเพียงชนิดเดียวของดาต้าไมนิ่งที่เหมาะสมกับงานทุกชนิด งานในแต่ล.ะชนิดก็จะมีเทคนิคของดาต้าไมนิ่งที่แตกต่างกันไปขึ้นอยู่กับชนิดของงาน
2.3.1 การจัดหมวดหมู่ การจัดหมวดหมู่ถือว่าเป็นงานธรรมดาทั่วไปของดาต้าไมนิ่ง เพราะการทําความเข้าใจและการติดต่อสื่อสารต่างๆ ก็เกี่ยวข้องกับการแบ่งเป็นหมวดหมู่ , การจัดแยกประเภท และการแบ่งแยกชนิด โดยการจัดหมวดหมู่ประกอบด้วยการสํารวจจุดเด่นของวัตถุที่ปรากฏออกมา และทําการกําหนดจุดเด่นนั้นๆ เป็นตัวที่ใช้แบ่งหมวดหมู่ งานในการแบ่งหมวดหมู่ คือการบ่งบอกลักษณะ โดยการอธิบายจุดเด่นที่เป็นที่รู้จักดีในหมวดหมู่นั้น และเทรนนิ่งเซต (Training Set) ของตัวอย่างในแต่ละหมวดหมู่ ซึ่งมีภาระหน้าที่ในการสร้างโมเดลของบางชนิดที่ไม่สามารถจะจัดหมวดหมู่ของข้อมูลได้ ให้สามารถจัดเป็นหมวดหมู่ได้ ตัวอย่างของการจัดหมวดหมู่ เช่น การจัดหมวดหมู่ของผู้ยื่นขอเครดิต เป็นระดับต่ำ ระดับกลาง และระดับสูง ของความเสี่ยงที่จะได้รับ เป็นต้น
2.3.2 การประเมินค่า การประเมินค่าทางธุรกิจอย่างต่อเนื่องจะก่อให้เกิดผลลัพธ์ที่มีประโยชน์กับธูรกิจ การป้อนข้อมูลที่เรามีอยู่เข้าไป เพื่อใช้ในการประเมินสิ่งต่างๆ ที่จะก่อให้เกิดประโยชน์ หรือสําหรับตัวแปรที่เราไม่รู้ค่าแน่นอน เช่น รายได้จากการค่า ,จุดสูงสุดทางธุรกิจ หรือดุลยภาพของบัตรเครดิต ในทางปฏิบัติการประเมินค่าจะถูกใช้ในการทํางานการจัดหมวดหมู่ ตัวอย่างของการประเมินค่าเช่น การประเมินรายได้รวมของครอบครัว หรือการประเมินจํานวนบุตรในครอบครัว
2.3.3 การทํานายล่วงหน้า การทํานายล่วงหน้าก็เป็นงานที่มีลักษณะคล้ายกับการจัดหมวดหมู่หรือการประเมินค่า ยกเว้นเพียงแต่จะใช้สถิติการบันทึกของการจัดหมวดหมู่ในการทํานายอนาคตของพฤติกรรมหรือการประเมินค่าที่จะเกิดขึ้นในอนาคต ตัวอย่างของงานการทํานายล่วงหน้า เช่น การทํานายการเปลี่ยนแปลงพฤติกรรมของตลาด หรือการทํานายจํานวนลูกค้าที่จะออกจากธุรกิจของเราใน 6 เดือนข้างหน้า เป็นต้น
2.3.4 การจัดกลุ่มโดยอาศัยความใกล้ชิดกันหรือการวิเคราะห์ของตลาด งานในการจัดกลุ่มหรือการวิเคราะห์ตลาด คือการตัดสินใจรวมสิ่งที่สามารถไปด้วยกันเข้าไว้ในกลุ่มเดียวกัน ตัวอย่างของการจัดกลุ่มโดยอาศัยความใกล้ชิดกันหรือการวิเคราะห์ของตลาด เช่น การตัดสินใจวาสิ่งใดบ้างที่จะไปอยู่ด้วยกันอย่างสม่ำเสมอในรถเข็นในซุปเปอร์มาร์เก็ต
2.3.5 การรวมตัว การรวมตัวคืองานที่ทําการรวมส่วนต่างๆ ในแต่ละส่วนที่ต่างชนิดกันให้อยู่ในรวมกันเป็นกลุ่มย่อย หรือคลัสเตอร์ โดยในแต่ละคลัสเตอร์อาจจะประกอบด้วยส่วนต่างๆที่ต่างชนิดกัน ซึ่งความแตกต่างของการรวมตัวจากการจัดหมวดหมู่ คือ การรวมตัวจะไม่พึ่งพาอาศัยการกําหนดหมวดหมู่ล่วงหน้า และไม่ ใช้ตัวอย่าง ข้อมูลจะรวมตัวกันบนพื้นฐานของความคล้ายในตัวเอง
2.3.6 การบรรยาย ในบางครั้งวัตถุประสงค์ของดาต้าไมนิ่ง คือต้องการอธิบายความสับสนของฐานข้อมูลในทางที่จะเพิ่มความเข้าใจในส่วนของประชากร , ผลิตภัณฑ์ , หรือขบวนการให้มากขึ้น เทคนิคดาต้าไมนิ่งส่วนใหญ่ต้องการเทรนนิ่งข้อมูลจํานวนมากที่ประกอบด้วยหลายๆ ตัวอย่างเพื่อจะสร้างกฎที่ใช้ในการจัดหมวดหมู่ , กฎของความสัมพันธ์, คลัสเตอร์ ,การทํานายล่วงหน้า ดังนั้นชุดของข้อมูลขนาดเล็กจะนําไปสู่ความไม่น่าไว้วางใจของผลสรุปทีได้ ไม่มีเทคนิคใดเลยที่จะสามารถแก้ปัญหาของดาต้าไมนิ่งได้ทุกปัญหา ดังนั้นความหลากหลายของเทคนิคจึงเป็นสิ่งที่จําเป็นในการไปสู่วิธีการแก้ปัญหาของดาต้าไมนิ่งได้ดีที่สุด
2.4 เทคนิคของดาต้าไมนิ่ง การแก้ปัญหาของงานชนิดต่างๆ โดยใช้วิธีดาต้าไมนิ่ง ในแต่ละงานก็จะมีเทคนิคของดาต้าไมนิ่งที่จะนํามาใช้ได้อย่างเหมาะสม โดยเทคนิคของดาต้าไมนิ่งนั้นมีมากมาย ซึ่งจะขอยกตัวอย่างของเทคนิคที่ถูกใช้กันค่อนข้างแพร่หลาย
2.4.1 นิวรอนเน็ตเวิร์ก นิวรอนเน็ตเวิร์ก คือระบบทีมีการประมวลผลข้อมูลซึ่งรวมคุณสมบัติของไบโอลอจิกคอลนิวรอนเน็ตเวิร์ก ถูกพัฒนาขึ้นโดยโมเดลทางคณิตศาสตร์ของกระบวนการเรียนรู้ของมนุษย์ และจะเรียนรู้ จากชุดข้อมูลของชุดความรู้ (Training Set) นิวรอนเน็ตเวิร์ก ประกอบด้วยหน่วยความจําจํานวนมากเรียกว่า นิวรอน , เซลหรือโหนด แต่ละนิวรอนต่อกันโดยคอนเน็กชั้นลิ่ง (Connection Link) ที่ค่าน้ำาหนัก (Weight) ของมันอยู่ โดยค่าน้ำาหนักจะแสดงรายละเอียดที่เน็ตเวิร์กใช้ในการแก้ปัญหา โดยนิวรอนเนตเวิร์กถูกใช้ในการแก้ปัญหาอย่างกว้างขวาง เช่น การเก็บและการเรียกข้อมูล, การแยกประเภทของข้อมูล, การเปลี่ยนจากรูปแบบของอินพุทให้อยู่ในรูปแบบของเอาท์พุท, ความสามารถในการตรวจสอบรูปแบบของข้อมูลที่คล้ายคลึงกับความคิดของมนุษย์ เป็นต้น ถึงแม้ว่านิวรอนเน็ตเวิร์ก สามารถนําไปประยุกต์ใช้กับงานหลายๆ ชนิดได้อย่างมีประสิทธิภาพ แต่นิวรอนเน็ตเวิร์ก ก็ยังมีข้อเสียอยู่บ้าง ดังนี้
1. นิวรอนเน็ตเวิร์กเป็นวิธีที่ยากต่อการทําความเข้าใจในโมเดลที่ถูกผลิตออกมา
2. นิวรอนเน็ตเวิร์กมีคุณสมบัติที่ไวต่อรูปแบบของอินพุท ถ้าเราแทนข้อมูลด้วยรูปแบบที่แตกต่างกันก็จะสามารถผลิตผลลัพธ์ที่แตกต่างกันออกมา ดังนั้นการกําหนดค่าเริ่มต้นให้กับข้อมูลจึงเป้นส่วนที่มีความสําคัญส่วนหนึ่ง
2.4.2 จีเนติก อัลกอริทึ่ม (Genetic Algorithms : GA) จีเนติก อัลกอริทึ่ม เป็นทฤษฎีที่จําลองกระบวนการวิวัฒนาการทางธรรมชาติ คือการคัดเลือกทางธรรมชาติ ละอาศัยพื้นฐานความคิดทางพันธุกรรมในการถ่ายทอดลักษณะต่างๆ ไปยังรุ่นถัดไป ที่สามารถนํามาพัฒนาใช้ในการหาคําตอบที่เหมาะสมที่สุดของแต่ละปัญหา จีเนติก อัลกอริทึ่มเป็นวิธีการหาคําตอบโดยการพิจารณา และดําเนินการจากกลุ.มของคําตอบของปัญหาที่ถูกสร้างขึ้นมาโดยการเข้ารหัส คือการแปลงค่าตัวแปรหรือพารามิเตอร์ของปัญหาให้อยู่ในรูปโครงสร้างของโครโมโซมที่กําหนด เพื่อคัดเลือกโครโมโซมคําตอบที่เหมาะสมสําหรับสร้างวิวัฒนาการของคําตอบให้ดีขึ้นตามกระบวนการทางพันธุศาสตร์ โดยการแลกเปลี่ยนค่าพารามิเตอร์ต่างๆ ระหว่างโครโมโซมที่ถูกคัดเลือกอันจะทําให้คําตอบของปัญหาถูกปรับปรุงให้ดีขึ้น จีเนติก อัลกอริทึ่มใช.กระบวนการหลักๆ 3 กระบวนการในการหาคําตอบที่ใกล้เคียงหรือดีที่สุดของปัญหาดังนี้
1. การคัดเลือก (Selection)
2. การครอสโอเวอร์ (Crossover)
3. การมิวเตชั่น (Mutation) ถึงแม้ว่าในปัจจุบันจีเนติก อัลกอริทึ่ม ยังเป็นวิธีการที่ไม่ได้แพร่หลายนัก แต่สาขาวิชาทางด้าน จีเนติก อัลกอริทึ่มก็นับว่าเป็นอีกสาขาวิชาหนึ่งที่สนใจและน่าจะเป็นวิธีที่ได้รับความนิยมในอีกไม่กี่ปี ข้างหน้า เนื่องมาจากสามารถนํามาประยุกต์ใช้ได้กับหลายๆ ปัญหารวมทั้งปัญหาทางดาต้าไมนิ่งอีกด้วย
2.5 บทสรุป ดาต้าไมนิ่งคือการค้นหาความสัมพันธ์และรูปแบบทั้งหมด ซึ่งมีอยู่จริงในฐานข้อมูล แต่ได้ถกซ่อนไว้ภายในข้อมูลจํานวนมากอย่างอัตโนมัติหรือกึ่งอัตโนมัติ โดยดาต้าไมนิ่งจะเหมาะกับการแก้ปัญหาบางชนิดเท่านั้น เช่น ปัญหาที่ต้องใช้เหตุผลในการแก้ หรือปัญหาที่เกี่ยวข้องกับเศรษฐศาสตร์และการเงิน เป็นต้น ดาต้าไมนิ่งมีเทคนิคต่าง ๆ ที่ใช้ในการแก้ปัญหาอยู่หลายเทคนิค ซึ่งจะไม่มีเทคนิคใดเลยที่สามารถแก้ปัญหาของดาต้าไมนิ่งได้ทุกปัญหา ดังนั้นความหลากหลายของเทคนิคเป็นสิ่งที่จําเป็นที่จะนําไปสู่วิธีการแก้ปัญหาของดาต้าไมนิ่งได้ดีที่สุด

ไม่มีความคิดเห็น:

แสดงความคิดเห็น