Knowledge Mapping & Web Data Mining

Data Mining

Data Mining หรือ Knowledge Discovery in Databases (KDD) เ็ป็นกระบวนการในการเข้าไปค้นหาสารสนเทศจากแหล่งข้อมูลด้วยรูปแบบที่มีประสิทธิภาพ คือ เป็นรูปแบบที่มีเหตุผลสนับสนุน มีประโยชน์หรือคาดว่ามีความเป็นไปได้ที่จะมีประโยชน์ และสามารถเข้าใจได้ ทั้งนี้สารนสนเทศที่ได้ไม่ได้มีประโยชน์เฉพาะการรายงานผลทางสถิติ แต่สามารถช่วยในการตัดสินใจได้ด้วย

กระแสการทำ Data Mining สืบเนื่องจากเทคโนโลยีการจัดการฐานข้อมูลอันส่งผลให้องค์กรต่างๆ มีข้อมูลในฐานข้อมูลจำนวนมาก ทำให้การค้นหาข้อมูลที่ต้องการให้ได้ผลอย่างรวดเร็ว ทันต่อการใช้งานเป็นเรื่องยากอันเนื่องจากการขาดกระบวนการสืบค้น วิเคราะห์ข้อมูลที่เหมาะสม หรือไม่มีเครื่องมือที่ดีพอ ส่งผลให้เกิดสภาวะ “ข้อมูลมาก แต่ความรู้น้อย” (data rich but information poor)

Data Mining เป็นกระบวนการที่ต้องอาศัยการมีส่วนร่วมกันของหลายองค์ประกอบ ทั้งสถิติ ฐานข้อมูล การค้นคืนสารสนเทศ การแสดงผลแบบ Visual และ AI รวมทั้งการประยุกต์ใช้ Application ต่างๆ

Data Mining รู้จักกันในชื่อภาษาไทยว่า “การทำเหมืองข้อมูล”

ประเภทข้อมูลที่สามารถทำ Data Mining

การทำ Data Mining แต่เดิมมักจะใช้กับข้อมูลที่มีโครงสร้างจากฐานข้อมูล หรือตาราง หรือกระดาษทำการ หรือแบบฟอร์มที่มีลักษณะเป็นตาราง (Tabular form) แต่ด้วยเทคโนโลยีที่ก้าวสู่ยุคเว็บทำให้ Web Data Mining มีความสำคัญมากขึ้น ดังนั้นสามารถแบ่งประเภทข้อมูลที่ทำ Data Mining ได้ดังนี้

  • Relational Database เป็นฐานข้อมูลที่จัดเก็บอยู่ในรูปแบบของตาราง โดยในแต่ละตารางจะประกอบไปด้วยแถวและคอลัมน์ ความสัมพันธ์ของข้อมูลทั้งหมดสามารถแสดงได้โดย entity-relationship (ER) model
  • Data Warehouses เป็นการเก็บรวบรวมข้อมูลจากหลายแหล่งมาเก็บไว้ในรูปแบบเดียวกันและรวบรวมไว้ในที่ๆ เดียวกัน
  • Transactional Database ประกอบด้วยข้อมูลที่แต่ละทรานเซกชันแทนด้วยเหตุการณ์ในขณะใดขณะหนึ่ง เช่น ใบเสร็จรับเงิน จะเก็บข้อมูลในรูป ชื่อลูกค้าและรายการสินค้าที่ลูกค้ารายนั้นซื้อ เป็นต้น
  • Advanced Database เป็นฐานข้อมูลที่จัดเก็บในรูปแบบอื่นๆ เช่น ข้อมูลแบบ object-oriented, ข้อมูลที่เป็น text file, ข้อมูลมัลติมีเดีย และข้อมูลในรูปของเอกสาร web

Web Data Mining

Web Data Mining คือ กระบวนการทำ Data Mining กับข้อมูลที่อยู่บนฐานของเว็บทั้งที่เป็นลิงก์ เนื้อหาจากหน้าเว็บ ข้อมูลอื่นๆ ที่ประกอบในเว็บไซต์ รวมทั้งการเข้าถึงเืนื้อหาโดยผู้ใช้ ซึ่งต้องใช้เทคนิควิธีที่หลากหลายเพื่อให้ได้สารสนเทศที่แท้จริงออกมา

ทำไมต้องทำ Web Data Mining

  • ข้อมูลที่เผยแพร่ในรูปแบบเว็บมีจำนวนมาก และยังคงเพิ่มอยู่ตลอดเวลา สารสนเทศจากเว็บจึงมีจำนวนมากและหลากหลายด้วยหากสามารถดึงออกมาใช้ได้อย่างเหมาะสม
  • ข้อมูลที่เผยแพร่ในเว็บไม่ได้จำกัดเฉพาะ่ข้อความ แต่ยังประกอบด้วยข้อมูลในรูปแบบตาราง หน้าเว็บ ข้อความที่ไม่เป็นโครงสร้าง และแฟ้มเอกสารมัลติมีเดียต่างๆ เช่น ภาพ เสียง วีดิทัศน์ Flash Movie การดึงสารสนเทศจึงต้องมีกระบวนการและเทคนิคเฉพาะ
  • สารสนเทศจากเว็บมักจะมีลักษณะเป็น “เนื้อหาที่ผสมผสาน” ไม่มีความเป็นเนื้อหาที่แท้จริงที่เป็นเอกสารความรู้หรือวิชาการ ทั้งนี้อาจจะมาจากผู้เขียนหลายคน เนื้อหาจากหลายหน้า หลายแหล่ง การใช้คำและรูปแบบที่แตกต่าง แม้ันว่าจะเป็นเรื่องเดียวกัน การบูรณาการเนื้อหาดังกล่าวให้เป็นสารสนเทศที่แท้จริงจึงเป็นโจทย์ที่ท้าทาย
  • สารสนเทศส่วนใหญ่จากเว็บมักจะอยู่ในรูปแบบของ Hyperlink ทั้งจากลิงก์ภายในและจากภายนอกเว็บ ดังนั้นเนื้อหาที่ถูกนำไปลิงก์มากที่สุดมักจะถูกเชื่อว่ามีความน่าเชื่อถือมากด้วย
  • สารสนเทศจากเว็บหลายเว็บ ถูกเชื่อว่าไม่มีคุณภาพ การพิจารณาว่าเนื้อหาใดมีคุณภาพหรือไม่มี ยังไม่มีความชัดเจนมากนัก
  • สารสนเทศจากเว็บมักจะปะปนไปด้วย “สิ่งที่หลากหลาย” เช่น แถบ Navigation ป้ายโฆษณา ประชาสัมพันธ์ ข้อความประกาศลิขสิทธิ์ กฎกติกาการใช้เนื้อหาต่างๆ การนำเนื้อหาจากหน้าเว็บไปใช้จึงตัด “สิ่งที่หลากหลาย” เหล่านั้นออกไปก่อน เพื่อให้เหลือเฉพาะสารสนเทศที่แท้จริง
  • เว็บไซต์จำนวนมากเน้นให้บริการมากกว่าสาระความรู้ ดังนั้นสาระความรู้จากเว็บดังกล่าวจึงผสมผสานไปด้วยเนื้อหาจากส่วนบริการ เช่น ข้อมูลติดต่อ ข้อมูลการจ่ายเงิน ข้อมูลการบริการหลังการขาย
  • เว็บไซต์ปัจจุบันเน้นข้อมูลแบบ Dynamic มีการปรับเปลี่ยนการนำเสนอเนื้อหาตลอดเวลา หรือสม่ำเสมอ การติดตามเนื้อหาเพื่อให้ได้สารสนเทศที่ต้องการจึงเป็นเรื่องยาก และมีความสำคัญเพิ่มขึ้น ตัวอย่างการติดตามหรือสืบค้นข่าวที่นำเสนอด้วย RSS
  • เว็บไซต์ปัจจุบันได้เปลี่ยนสภาพเป็นชุมชนเสมือนจริง เนื้อหาในเว็บดังกล่าวจึงมีความหลากหลายมากกว่าปกติ โดยเนื้อหาอาจจะผสมไปด้วยคำพูด คำกล่าว สัญลักษณ์ต่างๆ มากมายเสมือนการพูดคุยสื่อสารในชีวิตที่มี “น้ำ” มากกว่า “เนื้อ” ก็ว่าได้

จากลักษณะของเว็บดังกล่าว ทำให้การทำ Web Data Mining จึงมีความสำคัญและจำเป็นมากขึ้นในปัจจุบัน เพื่อค้นหา “สารสนเทศที่แท้จริง (Usefull Information)” ออกมาให้ได้


เอกสารอ้างอิง

  1. Bing Liu. Web Data Mining Exploring Hyperlinks, Contents and Usage Data. Springer, 1998.



Personal Tools
Creative Commons License
STKS Online Learning โดย http://stks.or.th/wiki อนุญาตให้ใช้ได้ตาม สัญญาอนุญาตของครีเอทีฟคอมมอนส์แบบ แสดงที่มา-ไม่ใช้เพื่อการค้า-อนุญาตแบบเดียวกัน 3.0 ประเทศไทย.