۹ راه رسیدن به دیتاستهای یادگیری ماشینی
سایتک در این مقاله به شما یک نمای کلی از بهترین جاهایی که میتوانید دیتاستهای انبوه را برای همه اهداف پیدا کنید، ارائه میکند.
همانند محصول اصلی گوگل، میتوانید به راحتی دیتاستها را با استفاده از متن جستجو کنید. علاوه بر این، میتوانید پرس و جو را بر اساس تاریخ، قالب داده و حقوق استفاده فیلتر کنید. مجموعه دادههای این وبسایت از دیتاستهای واقعی ارائه شده توسط شرکتها با قیمت تا استفاده رایگان از دیتاستها برای پروژه های شخصی است.
اگر به دنبال یک نمای کلی عالی از همۀ مدیتاستهای موجود بدون هیچ محدودیت خاصی هستید، گوگل بهترین مکان برای شروع است.
- دیتاستهای Kaggle
اگر تا به حال دورهها یا هکاتونهای مرتبط با علم داده را انجام دادهاید، احتمالاً با Kaggle برخورد کردهاید. Kaggle پلتفرم پیشرو در جهان برای همه برنامه نویسی های مرتبط با علم داده است. همچنین به کاربران این امکان را میدهد که دیتاستها را پیدا و منتشر کنند، و مهمتر از آن، در مورد چگونگی استخراج ارزش از آنها با سایر افراد علم داده کار و رقابت کنند.
اگر میخواهید در مورد نوع خاصی از مشکل بیشتر بدانید و میخواهید در مورد یادگیری با دانشمندان داده در سراسر جهان صحبت کنید، Kaggle مکان مناسبی برای شماست
- دیتاستهای EarthData
برای کسانی از شما که دوست دارند یک مرور کلی در سطح بالا داشته باشند، Earth Data از ناسا گزینۀ مناسبی است. احتمالاً بزرگترین مجموعه از دیتاستهای جغرافیایی در مورد زمین، آب و هوا و پهنههای آبی را نشان میدهد.
دیتاستها توسط محققان و مؤسسات در سراسر جهان و با بالاترین کیفیت موجود در زمینههای مربوطه تهیه و ایجاد شده است. اگر به دنبال پروژهای با تمرکز بر سریهای زمانی یا دادههای مکانی هستید، مطمئناً این بهترین مکان برای شروع جستجو است.
غولهای بزرگ فناوری، دیتاستها از سرتاسر جهان را در فهرست دادههای باز خود به نمایش میگذارند. من آن را به یک مکان مشترک تبدیل کردم، زیرا در حالی که دیتاستهای متنوعی ندارند، دیتاستهای به خصوص بزرگی را نشان میدهند.
تجربه آنها در فضای ابری و ذخیرهسازی کلان دادهها مطمئناً هنگام در دسترس قرار دادن این دیتاستها برای عموم مفید است. در حال حاضر AWS حدود 200 دیتاست و Azure حدود 20 دیتاست دارد.
اگر به دنبال پروژه ای در حوزۀ Big Data هستید و می خواهید با حجم عظیمی از دادهها کار کنید، این مکانها بهترین هستند.
اگر تا به حال تعجب کرده اید که چه اتفاقی برای کسانی می افتد که کد خود را به خوبی تفسیر نمیکنند، جستجوگر دادههای جرم و جنایت FBI ممکن است شما را راهنمایی کند. احتمالاً بزرگترین دیتاست در مورد دادههای مجرمانه و غیرجنایی مجری قانون است. این دادهها از جنایات مبتنی بر ایالت تا دادههای مربوط به ترافیک انسان را نشان می دهد.
در حالی که این به طور کلی یک داستان غم انگیز است، اما همچنین یکی از هیجان انگیزترین انواع دادهها است. اگر به دنبال یک تغییر و یک پروژۀ جدید هیجان انگیز هستید که کمی متفاوت باشد، مطمئناً یک معدن طلا است.
مجموعهای که به ندرت به آن اشاره میشود دنیای داده است. این بسیار شبیه به موتور جستجوی دیتاست گوگل است. با این حال، آنچه در مورد این پیاده سازی بسیار خوشایند است، عمق جستجو است، هنگام وارد کردن یک پرس و جو، نه تنها خود دیتاست را نشان می دهد، بلکه فایلهای فرعی را نیز نشان میدهد که ممکن است حاوی دادههای مورد نظر باشد. این البته میتواند به ویژه هنگام جستجوی دادههای ثانویه مانند مجموعههای جمعیتی و موقعیت جغرافیایی مفید باشد.
اگر به دنبال یک وبسایت اختصاصی هستید که داده هایی به نام خود داشته باشد، Data World به شدت توصیه میشود.
- پورتال داده باز CERN
سازمان اروپایی تحقیقات هستهای (سرن) واقع در نزدیکی ژنو، بسیاری از دادههای تحقیقاتی باورنکردنی خود را در دسترس عموم قرار دادهاست.
پورتال Open Data CERN بسیار جذاب است. آنها بیش از دو پتابایت داده در مورد کوچکترین چیزهای ممکن، یعنی فیزیک ذرات، جمع آوری و در دسترس قرار دادند. این یکی از معتبرترین مؤسسات تحقیقاتی اروپا است و کیفیت دادههای آن در مورد برخورد ذرات توسط کسی قابل برآورده نیست.
- دیتاستهای هوش مصنوعی Lionbridge
Lionbridge شرکتی است که خدماتی پیرامون جمعآوری دادهها، حاشیهنویسی و اعتبارسنجی ارائه میدهد. در میان چیزهای دیگر، محیطهای مرسوم عنوان گذاری و آنچه ما امروز به آن علاقهمندیم، نوعی از مجموعههای مختلف را میتوانید از طریق وبسایت آنها بیابید.
در بخش دیتاستهای خود، آنها چندین مقاله حاوی منابع مختلف را به شما نشان میدهند. مانند «11 دیتاستهای برتر تغییر آب و هوا برای یادگیری ماشینی» و «50 دیتاستهای برتر رایگان برای یادگیری ماشینی». از آنجایی که شرکتی هستند که بر اساس دیتاستها ساخته شدهاند، توصیههای آنها مطمئناً عالی است.
بهترین مکان اگر به دنبال مقایسه بین دیتاستهای تخصصی هستید.
- مرکز یادگیری ماشینی UCI
دانشگاه کالیفرنیا، ایروین بیش از 550 دیتاست را نگهداری میکند که استفاده از آنها برای شما رایگان است. این وبسایت به ویژه برای اهداف آموزشی جالب است زیرا فیلترینگ بر اساس مشکل را ارائه می دهد. بنابراین در این طبقهبندی، رگرسیون و خوشهبندی، به راحتی میتوانید دیتاستی را پیدا کنید که با فناوریهایی که در حال حاضر در حال کاوش هستید، به خوبی کار کند.
جدا از دانستن نحوۀ آموزش افراد، تیم آنها مطمئناً چیزهای زیادی در مورد دیتاستهای یادگیری ماشین و نحوه ارزیابی آنها میداند.
همانطور که دیدیم دنیای دادهها به سرعت در حال گسترش است. دیتاستهای بیشتر و بیشتری درباره همه چیز ظاهر میشوند که در انتظار کاوشاند. امیدوارم در مورد دیتاستهایی که برای پروژههای خود استفاده خواهید کرد یاد گرفته باشید و اکنون بتوانید در مورد نحوه و مکان یافتن همۀ دادههایی که احتمالاً میخواهید، تصمیم گیری کنید.
سایتک همیشه از نظرات شما کاربران عزیز استقبال میکند. اگر اطلاعات یا تجربهای در این زمینه دارید در قسمت دیدگاهها برای ما بنویسید.
این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش میشوند.
پاسخی بگذارید