• ธารารัตน์ พวงสุวรรณ
    : อาจารย์ คณะวิทยาศาสตร์และศิลปศาสตร์ มหาวิทยาลัยบูรพา วิทยาเขตจันทบุรี
  • วรวิทย์ พูลสวัสดิ์
    : อาจารย์ คณะวิทยาศาสตร์และศิลปศาสตร์ มหาวิทยาลัยบูรพา วิทยาเขตจันทบุรี
  • สมบัติ ฝอยทอง
    : อาจารย์ ดร. คณะวิทยาศาสตร์และศิลปศาสตร์ มหาวิทยาลัยบูรพา วิทยาเขตจันทบุรี
  • ไพฑูรย์ ศรีนิล
    : อาจารย์ คณะวิทยาศาสตร์และศิลปศาสตร์ มหาวิทยาลัยบูรพา วิทยาเขตจันทบุรี
FULL TEXT

Abstract

Feature selection (FS) is an important preprocessing step for many applications in artificial intelligence. FS is applied to dimensionality reduction, which is accomplished by selecting a subset of the original features of a data set that possesses the most predictive performance. Most existing FS methods are based on a rough set theory focusing on dependency function, based on lower approximation, for measuring the goodness of the feature subset. However, by determining only information from a positive region but neglecting a boundary region, much of the relevant information could be invisible. This paper, using the maximum lower approximation - minimum boundary region criterion, focuses on feature selection methods based on rough sets and mutual information, which use different values for the lower approximation information and the information contained in the boundary region. The use of this criterion can result in higher predictive accuracy than data obtained using the measure based on the positive region alone. This demonstrates that most of the relevant information can be extracted by using this criterion. Experimental results are illustrated for crisp and real valued data and are compared with other FS methods in terms of
subset size, runtime, and classification accuracy.
 


Keyword

boundary region, classification, feature selection, mutual information, rough set

บทคัดย่อ

การเลือกลักษณะเด่น (FS) นํามาประยุกต์ใช้กับการลดมิติและใช้เลือกซับเซตของคุณลักษณะเริ่มต้นของชุดข้อมูลซึ่งซับเซตนี้ต้องมีประสิทธิภาพการทํานายมากที่สุด วิธีการ FS โดยส่วนใหญ่บนหลักการพื้นฐานของทฤษฎีราฟเซตจะให้ความสําคัญกับฟังก์ชั่นการขึ้นต่อกัน (Dependency function) ใช้เป็นวัดความดีของซับเซตลักษณะเด่นแต่อย่างไรก็ตามการพิจารณาเฉพาะข่าวสารจากบริเวณเชิงบวก (Positive region) และไม่สนใจต่อข่าวสารของบริเวณขอบเขต (Boundary region) จะทําให้ข่าวสารที่มีความสําคัญอย่างมากสูญหายได้ ในงานวิจัยนี้เราได้นําเสนอการเลือกลักษณะเด่นบนหลักการของราฟเซตโดยตัวแปรเที่ยงตรง (VPRS) และมิวชวลอินฟอร์เมชั่น (Mutual information) ด้วยการใช้กฎเกณฑ์ของบริเวณขอบเขตที่เล็กที่สุด กฎเกณฑ์นี้ใช้หาค่า β ที่เหมาะสมอย่างอัตโนมัติแทนที่จะเป็นการรับเข้ามาจากมนุษย์ ซับเซตของลักษณะเด่นเลือกจากค่าความแตกต่างที่มากที่สุดระหว่างข่าวสารการประมาณขอบเขตล่างและข่าวสารที่บรรจุในบริเวณขอบเขต วิธีการที่นําเสนอนี้สามารถให้ค่าความถูกต้องในการจําแนกประเภทสูงกว่าผลลัพธ์ที่ได้รับจากหลักการของบริเวณเชิงบวกอย่างเดียว ผลการทดลองได้แสดงบนข้อมูลแบบไม่ต่อเนื่องและแบบต่อเนื่อง และมีการเปรียบเทียบในส่วนของ ขนาดซับเซต เวลาที่ใช่้และความถูกต่้องการจําแนกประเภท เมื่อเทียบกับวิธีการ FS อื่นด่้วย


คำสำคัญ

บริเวณขอบเขต การจําแนกประเภทข้อมูล การเลือกลักษณะเด่น มิวชวลอินฟอร์เมชั่น ราฟเซต