دانلود مقاله معماریهای CNN برای طبقه بندی شنیداری در مقیاس بزرگ
تعداد کلمات فایل انگلیسی:3440 کلمه 5 صفحه pdf
تعداد صفحات فایل ترجمه :14 صفحه word فونت 14 B nazanin
معماریهای CNN برای طبقه بندی شنیداری در مقیاس بزرگ
چکیده
شبکه های عصبی پیچشی CNN بنا به اثبات در طبقه بندی تصویر خیلی کارامد هستند و برای بخش شنیداری نویدبخش بوده اند. ما از انواع معماریهای CNN برای طبقه بندی موسیقی های متن در یک پایگاه داده شامل ویدئوهای اموزشی 70M (با 5.42 میلیون ساعت) دارای 30,781 برچسب در سطح ویدئویی استفاده کرده ایم. ما شبکه های عصبی عمیق کاملا بهم مرتبط یا DNN و AlexNet ، VGG ، Inception و ResNet را بررسی کرده ایم. ما تغییر اندازه مجموعه آموزشی و نیز لغت نامه برچسب را بررسی کرده ایم و دریافتیم که آنالوگهای CNNهای استفاده شده در طبقه بندی تصویر به همان خوبی کار طبقه بندی شنیداری ما می باشد و مجموعه آموزشی و برچسب بزرگتر تا حدی کمک کننده است. مدلی با استفاده از جاسازی هایی از این دسته بندی کننده ها خیلی بهتر از ویژگی های خام در کار طبقه بندی توسط شناسایی رویداد آکوستیک AED مجموعه شنیداری عمل کرده است.
کلیدواژه ها-شناسایی رویداد آکوستیک، طبقه بندی صحنه آکوستیک، شبکه های عصبی پیچشی
CNN ARCHITECTURES FOR LARGE-SCALE AUDIO CLASSIFICATION
Shawn Hershey, Sourish Chaudhuri, Daniel P. W. Ellis, Jort F. Gemmeke, Aren Jansen, R. Channing Moore, Manoj Plakal, Devin Platt, RifA. Saurous, Bryan Seybold, Malcolm Slaney, Ron J. Weiss, Kevin Wilson
Google, Inc., New York, NY, and Mountain View, CA, USA
ABSTRACT
Convolutional Neural Networks (CNNs) have proven very effective in image classification and show promise for audio. We use various CNN architectures to classify the soundtracks of a dataset of 70M training videos (5.24 million hours) with 30,871 video-level labels. We examine fully connected Deep Neural Networks (DNNs), AlexNet [1], VGG [2], Inception [3], and ResNet [4], We investigate varying the size of both training set and label vocabulary, finding that analogs of the CNNs used in image classification do well on our audio classification task, and larger training and label sets help up to a point. A model using embeddings from these classifiers does much better than raw features on the Audio Set [5] Acoustic Event Detection (AED) classification task.
Index Terms— Acoustic Event Detection, Acoustic Scene Classification, Convolutional Neural Networks, Deep Neural Networks, Video Classification
کد:13237
دانلود رایگان مقاله انگلیسی
رمز فایل : www.downloadmaghaleh.com

دانلود مقاله معماریهای CNN
توضیحات محصول
دانلود مقاله معماریهای CNN برای طبقه بندی شنیداری در مقیاس بزرگ
تعداد کلمات فایل انگلیسی:3440 کلمه 5 صفحه pdf
تعداد صفحات فایل ترجمه :14 صفحه word فونت 14 B nazanin
معماریهای CNN برای طبقه بندی شنیداری در مقیاس بزرگ
چکیده
شبکه های عصبی پیچشی CNN بنا به اثبات در طبقه بندی تصویر خیلی کارامد هستند و برای بخش شنیداری نویدبخش بوده اند. ما از انواع معماریهای CNN برای طبقه بندی موسیقی های متن در یک پایگاه داده شامل ویدئوهای اموزشی 70M (با 5.42 میلیون ساعت) دارای 30,781 برچسب در سطح ویدئویی استفاده کرده ایم. ما شبکه های عصبی عمیق کاملا بهم مرتبط یا DNN و AlexNet ، VGG ، Inception و ResNet را بررسی کرده ایم. ما تغییر اندازه مجموعه آموزشی و نیز لغت نامه برچسب را بررسی کرده ایم و دریافتیم که آنالوگهای CNNهای استفاده شده در طبقه بندی تصویر به همان خوبی کار طبقه بندی شنیداری ما می باشد و مجموعه آموزشی و برچسب بزرگتر تا حدی کمک کننده است. مدلی با استفاده از جاسازی هایی از این دسته بندی کننده ها خیلی بهتر از ویژگی های خام در کار طبقه بندی توسط شناسایی رویداد آکوستیک AED مجموعه شنیداری عمل کرده است.
کلیدواژه ها-شناسایی رویداد آکوستیک، طبقه بندی صحنه آکوستیک، شبکه های عصبی پیچشی
CNN ARCHITECTURES FOR LARGE-SCALE AUDIO CLASSIFICATION
Shawn Hershey, Sourish Chaudhuri, Daniel P. W. Ellis, Jort F. Gemmeke, Aren Jansen, R. Channing Moore, Manoj Plakal, Devin Platt, RifA. Saurous, Bryan Seybold, Malcolm Slaney, Ron J. Weiss, Kevin Wilson
Google, Inc., New York, NY, and Mountain View, CA, USA
ABSTRACT
Convolutional Neural Networks (CNNs) have proven very effective in image classification and show promise for audio. We use various CNN architectures to classify the soundtracks of a dataset of 70M training videos (5.24 million hours) with 30,871 video-level labels. We examine fully connected Deep Neural Networks (DNNs), AlexNet [1], VGG [2], Inception [3], and ResNet [4], We investigate varying the size of both training set and label vocabulary, finding that analogs of the CNNs used in image classification do well on our audio classification task, and larger training and label sets help up to a point. A model using embeddings from these classifiers does much better than raw features on the Audio Set [5] Acoustic Event Detection (AED) classification task.
Index Terms— Acoustic Event Detection, Acoustic Scene Classification, Convolutional Neural Networks, Deep Neural Networks, Video Classification
کد:13237
دانلود رایگان مقاله انگلیسی
رمز فایل : www.downloadmaghaleh.com
دانلود مقاله معماریهای CNN