ارزیابی عملکرد متد های یادگیری ماشین پیش بینی سرطان سینه
تعداد کلمات فایل انگلیسی : 5صفحه pdf
تعداد صفحات فایل ترجمه : 6 صفحه word تعداد کلمه: 2358 فونت B Nazanin
سرطان سینه یکی از شایع ترین سرطان های مهاجم در زنان می باشد و دومین علت مرگ بر اثر سرطان در زنان می باشد که به دو نوع خوش خیم و بدخیم طبقه بندی می شود. تحقیقات بر روی پیشگیری از سرطان در چند دهه ی اخیر توجه بسیاری محققان و دانشمندان را به خود جلب کرده است. از طرف دیگر توسعه روش های داده کاوی روش موثری برای استخراج اطلاعات مفید از پایگاه داده های پیچیده فراهم می نماید. و بر اساس اسن داده های استخراج شده می توان پیش بینی، طبقه بندی و خوشه بندی هایی انجام داد. در این مطالعه جهت کشف ارتباط میان سرطان سینه و مشخصه های آن به طوری که بر اساس آن ها می توان احتمال مرگ را می توان کاهش داد کشف می شود. پنج مدل طبقه بندی متفاوت شامل درخت تصمیم گیری، جنگل تصادفی، ماشین بردار پشتیبان vector machine learning، شبکه عصبی و رگراسیون منطقی برای طبقه بندی این دو مجموعه داده مربوط به سرطان سینه مورد استفاده قرار گرفته اند: پایگاه داده Breast Cancer Coimbra Dataset (BCCD) و پایگاه داده Wisconsin Breast Cancer Database (WBCD). سه مشخصه شامل مقادیر صحت پیش بینی شده، معیار اندازه گیری F ، و مقادیر AUC برای مقایسه عملکرد این پنج مدل طبقه بندی مورد استفاده قرار گرفته است. آنالیز ازمایشات مقایسه ای نشان می دهد مدل جنگل تصادفی عملکرد و تطبیق پذیری بهتری نسبت به چهار مدل دیگر دارد. بنابراین مدل مطالعه شده در این تحقیق تایید می کند که این مدل داری مقادیر بالینی و مرجعی در کاربرد های عملی می باشد.
کلید واژه: داده کاوی، سرطان سینه، مدل های طبقه بندی، پیش بینی
Abstract: Breast cancer is the most common invasive cancer in women and the second main cause of cancer death in females, which can be classified Benign or Malignant. Research and prevention on breast cancer have attracted more concern of researchers in recent years. On the other hand, the development of data mining methods provides an effective way to extract more useful information from complex database, and some prediction, classification and clustering can be made according to extracted information. In this study, to explore the relationship between breast cancer and some attributes so that the death probability of breast cancer can be reduced, five different classification models including Decision Tree (DT), Random Forest (RF), Support Vector Machine (SVM), Neural Network (NN) and Logistics Regression (LR) are used for the classification of two different datasets related to breast cancer: Breast Cancer Coimbra Dataset (BCCD) and Wisconsin Breast Cancer Database (WBCD).Three indicators including prediction accuracy values, F-measure metric and AUC values are used to compare the performance of these five classification models. comparative experiment analysis shows that random forest model can achieve better performance and adaptation than other four methods. Therefore, the model of this study is approved to possess clinical and referential values in practical applications. Keywords: Data Mining, Breast Cancer, Classification Models, Prediction
توضیحات محصول
ارزیابی عملکرد متد های یادگیری ماشین پیش بینی سرطان سینه
تعداد کلمات فایل انگلیسی : 5صفحه pdf
تعداد صفحات فایل ترجمه : 6 صفحه word تعداد کلمه: 2358 فونت B Nazanin
سرطان سینه یکی از شایع ترین سرطان های مهاجم در زنان می باشد و دومین علت مرگ بر اثر سرطان در زنان می باشد که به دو نوع خوش خیم و بدخیم طبقه بندی می شود. تحقیقات بر روی پیشگیری از سرطان در چند دهه ی اخیر توجه بسیاری محققان و دانشمندان را به خود جلب کرده است. از طرف دیگر توسعه روش های داده کاوی روش موثری برای استخراج اطلاعات مفید از پایگاه داده های پیچیده فراهم می نماید. و بر اساس اسن داده های استخراج شده می توان پیش بینی، طبقه بندی و خوشه بندی هایی انجام داد. در این مطالعه جهت کشف ارتباط میان سرطان سینه و مشخصه های آن به طوری که بر اساس آن ها می توان احتمال مرگ را می توان کاهش داد کشف می شود. پنج مدل طبقه بندی متفاوت شامل درخت تصمیم گیری، جنگل تصادفی، ماشین بردار پشتیبان vector machine learning، شبکه عصبی و رگراسیون منطقی برای طبقه بندی این دو مجموعه داده مربوط به سرطان سینه مورد استفاده قرار گرفته اند: پایگاه داده Breast Cancer Coimbra Dataset (BCCD) و پایگاه داده Wisconsin Breast Cancer Database (WBCD). سه مشخصه شامل مقادیر صحت پیش بینی شده، معیار اندازه گیری F ، و مقادیر AUC برای مقایسه عملکرد این پنج مدل طبقه بندی مورد استفاده قرار گرفته است. آنالیز ازمایشات مقایسه ای نشان می دهد مدل جنگل تصادفی عملکرد و تطبیق پذیری بهتری نسبت به چهار مدل دیگر دارد. بنابراین مدل مطالعه شده در این تحقیق تایید می کند که این مدل داری مقادیر بالینی و مرجعی در کاربرد های عملی می باشد.
کلید واژه: داده کاوی، سرطان سینه، مدل های طبقه بندی، پیش بینی
Abstract: Breast cancer is the most common invasive cancer in women and the second main cause of cancer death in females, which can be classified Benign or Malignant. Research and prevention on breast cancer have attracted more concern of researchers in recent years. On the other hand, the development of data mining methods provides an effective way to extract more useful information from complex database, and some prediction, classification and clustering can be made according to extracted information. In this study, to explore the relationship between breast cancer and some attributes so that the death probability of breast cancer can be reduced, five different classification models including Decision Tree (DT), Random Forest (RF), Support Vector Machine (SVM), Neural Network (NN) and Logistics Regression (LR) are used for the classification of two different datasets related to breast cancer: Breast Cancer Coimbra Dataset (BCCD) and Wisconsin Breast Cancer Database (WBCD).Three indicators including prediction accuracy values, F-measure metric and AUC values are used to compare the performance of these five classification models. comparative experiment analysis shows that random forest model can achieve better performance and adaptation than other four methods. Therefore, the model of this study is approved to possess clinical and referential values in practical applications. Keywords: Data Mining, Breast Cancer, Classification Models, Prediction
دانلود رایگان مقاله انگلیسی