دانلود مقاله

توضیحات محصول

 دانلود مقاله Sprint: یک طبقه بندی موازی مقیاس پذیر برای داده کاوی

تعداد کلمات فایل انگلیسی:7600 کلمه 12 صفحه pdf

تعداد صفحات فایل ترجمه : 32 صفحه word فونت 14 B Nazanin

Sprint: یک طبقه بندی موازی مقیاس پذیر برای داده کاوی

طبقه بندی یکی از مسائل داده کاوی مهم می باشد. گرچه طبقه بندی یک مسئله ای است که به خوبی مطالعه شده است، بسیاری از الگوریتم های طبقه بندی فعلی نیاز دارند که همه یا بخشی از کل  مجموعه داده ها به طور دائم در حافظه باقی بمانند. این مسئله مناسب بودن آنها برای کاوش در پایگاه داده های بزرگ را محدود می کند. ما یک الگوریتم طبقه بندی مبتنی بر درخت تصمیم به نام sprit را ارائه کردیم که تمامی محدودیتهای حافظه را حذف می کند ، و سریع و مقیاس پذیر می باشد. الگوریتم طوری طراحی شده که به راحتی موازی شود، به بسیاری از پردازشگرها باید اجازه دهد تا یک مدل سازگار واحد ایجاد کنند. این موازی سازی ، که در اینجا نیز ارائه شده، مقیاس پذیری خوبی را نیز نشان می دهد. ترکیب این ویژگی ها الگوریتم پیشنهادی را یک ابزار ایده آل برای داده کاوی تبدیل می کند.

1-مقدمه

طبقه بندی به عنوان یک مسئله مهم در زمینه نوظهور داده کاوی شناسایی شده است. در حالی که طبقه بندی یک مسئله ای است که به خوبی مطالعه شده ، تنها اخیرا روی الگوریتمی تمرکز داشته که می تواند پایگاه داده های بزرگ را مدیریت نماید. بینش ما این است که از طریق طبقه بندی پایگاه داده های بزرگتر ما قادر خواهیم بود تا صحت مدل ظبقه بندی را بهبود دهیم. این فرضیه مطالعه شده و در رفرنس های 4، 5، و 6 تایید شده است.

در طبقه بندی ما یک مجموعه از رکورد مثالها را ارائه کردیم که مجموعه آموزش نامیده می شود، که هررکورد از چندین زمینه یا صفت تشکیل شده است. صفات همچنین به صورت پیوسته هستند، که صفات طبقه بندی نامیده شده اند، طبقه ای را نشان می دهند که هر مثال به ان تعلق دارد. هدف طبقه بندی ایجاد یک مدل از صفت طبقه بندی کننده بر اساس سایر صفات می باشد. شکل 1 یک نمونه مجموعه اموزشی را نشان می دهد که هر رکورد یک کاربرد بیمه ماشین را نشان می دهد. در اینجا ما به ایجاد یک مدل از چیزی که متقاضی را به ریسک بیمه کم یا زیاد تبدیل می کند نیازمندیم. در ابتدا یک مدل ساخته شده و می تواند برای تعیین طبقه رکوردهای طبقه بندی نشده آینده استفاده شود. کاربردهای دسته بندی در زمینه های مختلفی ، مانند بازاریابی هدف خرده فروشی، آشکارسازی تقلب و تشخیص های پزشکی رخ می دهند.

SPRINT: A Scalable Parallel Classifier for Data Mining

John Shafer*

RakeEb. Agrawal

Manish Mehta

IBM Almaden Research Center 650 Harry Road, San Jose, CA 95120

Abstract

Classification is an important data mining problem. Although classification is a well-studied problem, moat of the current classi­fication algorithms require that all or a por­tion of the the entire dataset remain perma­nently in memory. This limits their suitability for mining over large databases. We present a new decision-tree-based classification algo­rithm, called SPRINT that removes all of the memory restrictions, and is fast and scalable. The algorithm has also been designed to be easily parallelized, allowing many processors to work together to build a single consistent model. This parallelization, also presented here, exhibits excellent scalability as well. The combination of these characteristics makes the proposed algorithm an ideal tool for data min­ing

کد:9707

دانلود رایگان مقاله انگلیسی

رمز فایل : www.downloadmaghaleh.com

نظری بدهید

5 × 1 =