دانلود مقاله Sprint: یک طبقه بندی موازی مقیاس پذیر برای داده کاوی
تعداد کلمات فایل انگلیسی:7600 کلمه 12 صفحه pdf
تعداد صفحات فایل ترجمه : 32 صفحه word فونت 14 B Nazanin
Sprint: یک طبقه بندی موازی مقیاس پذیر برای داده کاوی
طبقه بندی یکی از مسائل داده کاوی مهم می باشد. گرچه طبقه بندی یک مسئله ای است که به خوبی مطالعه شده است، بسیاری از الگوریتم های طبقه بندی فعلی نیاز دارند که همه یا بخشی از کل مجموعه داده ها به طور دائم در حافظه باقی بمانند. این مسئله مناسب بودن آنها برای کاوش در پایگاه داده های بزرگ را محدود می کند. ما یک الگوریتم طبقه بندی مبتنی بر درخت تصمیم به نام sprit را ارائه کردیم که تمامی محدودیتهای حافظه را حذف می کند ، و سریع و مقیاس پذیر می باشد. الگوریتم طوری طراحی شده که به راحتی موازی شود، به بسیاری از پردازشگرها باید اجازه دهد تا یک مدل سازگار واحد ایجاد کنند. این موازی سازی ، که در اینجا نیز ارائه شده، مقیاس پذیری خوبی را نیز نشان می دهد. ترکیب این ویژگی ها الگوریتم پیشنهادی را یک ابزار ایده آل برای داده کاوی تبدیل می کند.
1-مقدمه
طبقه بندی به عنوان یک مسئله مهم در زمینه نوظهور داده کاوی شناسایی شده است. در حالی که طبقه بندی یک مسئله ای است که به خوبی مطالعه شده ، تنها اخیرا روی الگوریتمی تمرکز داشته که می تواند پایگاه داده های بزرگ را مدیریت نماید. بینش ما این است که از طریق طبقه بندی پایگاه داده های بزرگتر ما قادر خواهیم بود تا صحت مدل ظبقه بندی را بهبود دهیم. این فرضیه مطالعه شده و در رفرنس های 4، 5، و 6 تایید شده است.
در طبقه بندی ما یک مجموعه از رکورد مثالها را ارائه کردیم که مجموعه آموزش نامیده می شود، که هررکورد از چندین زمینه یا صفت تشکیل شده است. صفات همچنین به صورت پیوسته هستند، که صفات طبقه بندی نامیده شده اند، طبقه ای را نشان می دهند که هر مثال به ان تعلق دارد. هدف طبقه بندی ایجاد یک مدل از صفت طبقه بندی کننده بر اساس سایر صفات می باشد. شکل 1 یک نمونه مجموعه اموزشی را نشان می دهد که هر رکورد یک کاربرد بیمه ماشین را نشان می دهد. در اینجا ما به ایجاد یک مدل از چیزی که متقاضی را به ریسک بیمه کم یا زیاد تبدیل می کند نیازمندیم. در ابتدا یک مدل ساخته شده و می تواند برای تعیین طبقه رکوردهای طبقه بندی نشده آینده استفاده شود. کاربردهای دسته بندی در زمینه های مختلفی ، مانند بازاریابی هدف خرده فروشی، آشکارسازی تقلب و تشخیص های پزشکی رخ می دهند.
SPRINT: A Scalable Parallel Classifier for Data Mining
John Shafer*
RakeEb. Agrawal
Manish Mehta
IBM Almaden Research Center 650 Harry Road, San Jose, CA 95120
Abstract
Classification is an important data mining problem. Although classification is a well-studied problem, moat of the current classification algorithms require that all or a portion of the the entire dataset remain permanently in memory. This limits their suitability for mining over large databases. We present a new decision-tree-based classification algorithm, called SPRINT that removes all of the memory restrictions, and is fast and scalable. The algorithm has also been designed to be easily parallelized, allowing many processors to work together to build a single consistent model. This parallelization, also presented here, exhibits excellent scalability as well. The combination of these characteristics makes the proposed algorithm an ideal tool for data mining
کد:9707
دانلود رایگان مقاله انگلیسی
رمز فایل : www.downloadmaghaleh.com

توضیحات محصول
دانلود مقاله Sprint: یک طبقه بندی موازی مقیاس پذیر برای داده کاوی
تعداد کلمات فایل انگلیسی:7600 کلمه 12 صفحه pdf
تعداد صفحات فایل ترجمه : 32 صفحه word فونت 14 B Nazanin
Sprint: یک طبقه بندی موازی مقیاس پذیر برای داده کاوی
طبقه بندی یکی از مسائل داده کاوی مهم می باشد. گرچه طبقه بندی یک مسئله ای است که به خوبی مطالعه شده است، بسیاری از الگوریتم های طبقه بندی فعلی نیاز دارند که همه یا بخشی از کل مجموعه داده ها به طور دائم در حافظه باقی بمانند. این مسئله مناسب بودن آنها برای کاوش در پایگاه داده های بزرگ را محدود می کند. ما یک الگوریتم طبقه بندی مبتنی بر درخت تصمیم به نام sprit را ارائه کردیم که تمامی محدودیتهای حافظه را حذف می کند ، و سریع و مقیاس پذیر می باشد. الگوریتم طوری طراحی شده که به راحتی موازی شود، به بسیاری از پردازشگرها باید اجازه دهد تا یک مدل سازگار واحد ایجاد کنند. این موازی سازی ، که در اینجا نیز ارائه شده، مقیاس پذیری خوبی را نیز نشان می دهد. ترکیب این ویژگی ها الگوریتم پیشنهادی را یک ابزار ایده آل برای داده کاوی تبدیل می کند.
1-مقدمه
طبقه بندی به عنوان یک مسئله مهم در زمینه نوظهور داده کاوی شناسایی شده است. در حالی که طبقه بندی یک مسئله ای است که به خوبی مطالعه شده ، تنها اخیرا روی الگوریتمی تمرکز داشته که می تواند پایگاه داده های بزرگ را مدیریت نماید. بینش ما این است که از طریق طبقه بندی پایگاه داده های بزرگتر ما قادر خواهیم بود تا صحت مدل ظبقه بندی را بهبود دهیم. این فرضیه مطالعه شده و در رفرنس های 4، 5، و 6 تایید شده است.
در طبقه بندی ما یک مجموعه از رکورد مثالها را ارائه کردیم که مجموعه آموزش نامیده می شود، که هررکورد از چندین زمینه یا صفت تشکیل شده است. صفات همچنین به صورت پیوسته هستند، که صفات طبقه بندی نامیده شده اند، طبقه ای را نشان می دهند که هر مثال به ان تعلق دارد. هدف طبقه بندی ایجاد یک مدل از صفت طبقه بندی کننده بر اساس سایر صفات می باشد. شکل 1 یک نمونه مجموعه اموزشی را نشان می دهد که هر رکورد یک کاربرد بیمه ماشین را نشان می دهد. در اینجا ما به ایجاد یک مدل از چیزی که متقاضی را به ریسک بیمه کم یا زیاد تبدیل می کند نیازمندیم. در ابتدا یک مدل ساخته شده و می تواند برای تعیین طبقه رکوردهای طبقه بندی نشده آینده استفاده شود. کاربردهای دسته بندی در زمینه های مختلفی ، مانند بازاریابی هدف خرده فروشی، آشکارسازی تقلب و تشخیص های پزشکی رخ می دهند.
SPRINT: A Scalable Parallel Classifier for Data Mining
John Shafer*
RakeEb. Agrawal
Manish Mehta
IBM Almaden Research Center 650 Harry Road, San Jose, CA 95120
Abstract
Classification is an important data mining problem. Although classification is a well-studied problem, moat of the current classification algorithms require that all or a portion of the the entire dataset remain permanently in memory. This limits their suitability for mining over large databases. We present a new decision-tree-based classification algorithm, called SPRINT that removes all of the memory restrictions, and is fast and scalable. The algorithm has also been designed to be easily parallelized, allowing many processors to work together to build a single consistent model. This parallelization, also presented here, exhibits excellent scalability as well. The combination of these characteristics makes the proposed algorithm an ideal tool for data mining
کد:9707
دانلود رایگان مقاله انگلیسی
رمز فایل : www.downloadmaghaleh.com