توضیحات محصول

EFS-MI: یک روش انتخاب ویژگی مجموعه برای طبقه بندی

تعداد کلمات فایل انگلیسی : 6صفحه pdf

تعداد صفحات فایل ترجمه : 10 صفحه word  تعداد کلمه:3426

Abstraction

Feature selection methods have been used in various applications of machine learning, bioinformatics, pattern recognition and network traffic analysis. In high dimensional datasets, due to redundant features and curse of dimensionality, a learning method takes significant amount of time and performance of the model decreases. To overcome these problems, we use feature selection technique to select a subset of relevant and non-redundant features. But, most feature selection methods are unstable in nature, i.e., for different training datasets, a feature selection method selects different subsets of features that yields different classification accuracy. In this paper, we provide an ensemble feature selection method using feature–class and feature-feature mutual information to select an optimal subset of features by combining multiple subsets of features. The method is validated using four classifiers viz., decision trees, random forests, KNN and SVMon fourteen UCI, five gene expression and two network datasets.

چکیده

از روش‌های انتخاب ویژگی در برنامه‌های مختلف یادگیری ماشینی، بیوانفورماتیک، شناخت الگو و تحلیل ترافیک شبکه استفاده شده است. در مجموعه‌ داده‌های با ابعاد زیاد، به دلیل ویژگی های زائد و مشکل ابعاد، یک روش یادگیری زمان قابل توجهی را می‌گیرد و عملکرد مدل کاهش می یابد. برای غلبه بر این مشکلات، ما از تکنیک انتخاب ویژگی‌ برای انتخاب زیر مجموعه¬ای از ویژگی‌های مرتبط و غیر زائد استفاده می‌کنیم. ولی، بیشتر روش‌های انتخاب ویژگی ذاتا ناپایدار هستند، یعنی برای مجموعه‌ داده‌های آموزشی مختلف، یک روش انتخاب ویژگی، زیر مجموعه‌های مختلفی از ویژگی‌ها را انتخاب می‌کند که صحت طبقه¬بندی متفاوتی را نشان می‌دهند. در این مقاله، ما یک روش انتخاب ویژگی مجموعه را با استفاده از اطلاعات دوجانبه ویژگی-کلاس و ویژگی-ویژگی ارائه می‌دهیم تا یک زیر مجموعه بهینه از ویژگی‌ها را توسط ادغام چند زیر مجموعه از ویژگی‌ها، انتخاب کنیم. اعتبار این روش با استفاده از چهار طبقه‌بندی کننده، یعنی درختان تصمیم گیری، جنگل‌های تصادفی، KNN و SVM روی چهارده UCI، پنج بیان ژن و دو مجموعه داده شبکه تأیید می‌شود.

دانلود رایگان مقاله انگلیسی

دانلود مقاله انگلیسی

نظری بدهید

4 + 2 =