سایتک در این مقاله به شما یک نمای کلی از بهترین جاهایی که می‌توانید دیتاست‌های انبوه را برای همه اهداف پیدا کنید، ارائه می‌کند.

همانند محصول اصلی گوگل، می‌توانید به راحتی دیتاست‌ها را با استفاده از متن جستجو کنید. علاوه بر این، می‌توانید پرس و جو را بر اساس تاریخ، قالب داده و حقوق استفاده فیلتر کنید. مجموعه داده‌های این وبسایت از دیتاست‌های واقعی ارائه شده توسط شرکت‌ها با قیمت تا استفاده رایگان از دیتاست‌ها برای پروژه های شخصی است.

اگر به دنبال یک نمای کلی عالی از همۀ مدیتاست‌های موجود بدون هیچ محدودیت خاصی هستید، گوگل بهترین مکان برای شروع است.

  • دیتاست‌های Kaggle

اگر تا به حال دوره‌ها یا هکاتون‌های مرتبط با علم داده را انجام داده‌اید، احتمالاً با Kaggle برخورد کرده‌اید. Kaggle پلتفرم پیشرو در جهان برای همه برنامه نویسی های مرتبط با علم داده است. همچنین به کاربران این امکان را می‌دهد که دیتاست‌ها را پیدا و منتشر کنند، و مهم‌تر از آن، در مورد چگونگی استخراج ارزش از آنها با سایر افراد علم داده کار و رقابت کنند.

اگر می‌خواهید در مورد نوع خاصی از مشکل بیشتر بدانید و می‌خواهید در مورد یادگیری با دانشمندان داده در سراسر جهان صحبت کنید، Kaggle مکان مناسبی برای شماست

برای کسانی از شما که دوست دارند یک مرور کلی در سطح بالا داشته باشند، Earth Data از ناسا گزینۀ مناسبی است. احتمالاً بزرگترین مجموعه از دیتاست‌های جغرافیایی در مورد زمین، آب و هوا و پهنه‌های آبی را نشان می‌دهد.

دیتاست‌ها توسط محققان و مؤسسات در سراسر جهان و با بالاترین کیفیت موجود در زمینه‌های مربوطه تهیه و ایجاد شده است. اگر به دنبال پروژه‌ای با تمرکز بر سری‌های زمانی یا داده‌های مکانی هستید، مطمئناً این بهترین مکان برای شروع جستجو است.

  • دیتاست‌های آمازون و مایکروسافت، Azure و AWS

غول‌های بزرگ فناوری، دیتاست‌ها از سرتاسر جهان را در فهرست داده‌های باز خود به نمایش می‌گذارند. من آن را به یک مکان مشترک تبدیل کردم، زیرا در حالی که دیتاست‌های متنوعی ندارند، دیتاست‌های به خصوص بزرگی را نشان می‌دهند.

تجربه آن‌ها در فضای ابری و ذخیره‌سازی کلان داده‌ها مطمئناً هنگام در دسترس قرار دادن این دیتاست‌ها برای عموم مفید است. در حال حاضر AWS حدود 200 دیتاست‌ و Azure حدود 20 دیتاست‌ دارد.

اگر به دنبال پروژه ای در حوزۀ Big Data هستید و می خواهید با حجم عظیمی از داده‌ها کار کنید، این مکان‌ها بهترین هستند.

اگر تا به حال تعجب کرده اید که چه اتفاقی برای کسانی می افتد که کد خود را به خوبی تفسیر نمی‌کنند، جستجوگر داده‌های جرم و جنایت FBI ممکن است شما را راهنمایی کند. احتمالاً بزرگترین دیتاست‌ در مورد داده‌های مجرمانه و غیرجنایی مجری قانون است. این داده‌ها از جنایات مبتنی بر ایالت تا داده‌های مربوط به ترافیک انسان را نشان می دهد.

در حالی که این به طور کلی یک داستان غم انگیز است، اما همچنین یکی از هیجان انگیزترین انواع داده‌ها است. اگر به دنبال یک تغییر و یک پروژۀ جدید هیجان انگیز هستید که کمی متفاوت باشد، مطمئناً یک معدن طلا است.

مجموعه‌ای که به ندرت به آن اشاره می‌شود دنیای داده است. این بسیار شبیه به موتور جستجوی دیتاست‌ گوگل است. با این حال، آنچه در مورد این پیاده سازی بسیار خوشایند است، عمق جستجو است، هنگام وارد کردن یک پرس و جو، نه تنها خود دیتاست‌ را نشان می دهد، بلکه فایل‌های فرعی را نیز نشان می‌دهد که ممکن است حاوی داده‌های مورد نظر باشد. این البته می‌تواند به ویژه هنگام جستجوی داده‌های ثانویه مانند مجموعه‌های جمعیتی و موقعیت جغرافیایی مفید باشد.

اگر به دنبال یک وبسایت اختصاصی هستید که داده هایی به نام خود داشته باشد، Data World به شدت توصیه می‌شود.

  • پورتال داده باز CERN

سازمان اروپایی تحقیقات هسته‌ای (سرن) واقع در نزدیکی ژنو، بسیاری از داده‌های تحقیقاتی باورنکردنی خود را در دسترس عموم قرار داده‌است.

پورتال Open Data CERN بسیار جذاب است. آنها بیش از دو پتابایت داده در مورد کوچکترین چیزهای ممکن، یعنی فیزیک ذرات، جمع آوری و در دسترس قرار دادند. این یکی از معتبرترین مؤسسات تحقیقاتی اروپا است و کیفیت داده‌های آن در مورد برخورد ذرات توسط کسی قابل برآورده نیست.

  • دیتاست‌های هوش مصنوعی Lionbridge

Lionbridge شرکتی است که خدماتی پیرامون جمع‌آوری داده‌ها، حاشیه‌نویسی و اعتبارسنجی ارائه می‌دهد. در میان چیزهای دیگر، محیط‌های مرسوم عنوان گذاری و آنچه ما امروز به آن علاقه‌مندیم، نوعی از مجموعه‌های مختلف را می‌توانید از طریق وبسایت آنها بیابید.

در بخش دیتاست‌های  خود، آنها چندین مقاله حاوی منابع مختلف را به شما نشان می‌دهند. مانند «11 دیتاست‌های برتر  تغییر آب و هوا برای یادگیری ماشینی» و «50 دیتاست‌های برتر  رایگان برای یادگیری ماشینی». از آنجایی که شرکتی هستند که بر اساس دیتاست‌ها ساخته شده‌اند، توصیه‌های آنها مطمئناً عالی است.

بهترین مکان اگر به دنبال مقایسه بین دیتاست‌های  تخصصی هستید.

  • مرکز یادگیری ماشینی UCI

دانشگاه کالیفرنیا، ایروین بیش از 550 دیتاست‌ را نگهداری می‌کند که استفاده از آنها برای شما رایگان است. این وبسایت به ویژه برای اهداف آموزشی جالب است زیرا فیلترینگ بر اساس مشکل را ارائه می دهد. بنابراین در این طبقه‌بندی، رگرسیون و خوشه‌بندی، به راحتی می‌توانید دیتاستی را پیدا کنید که با فناوری‌هایی که در حال حاضر در حال کاوش هستید، به خوبی کار کند.

جدا از دانستن نحوۀ آموزش افراد، تیم آنها مطمئناً چیزهای زیادی در مورد دیتاست‌های  یادگیری ماشین و نحوه ارزیابی آنها می‌داند.

همانطور که دیدیم دنیای داده‌ها به سرعت در حال گسترش است. دیتاست‌های بیشتر و بیشتری درباره همه چیز ظاهر می‌شوند که در انتظار کاوش‌اند. امیدوارم در مورد دیتاست‌هایی که برای پروژه‌های خود استفاده خواهید کرد یاد گرفته باشید و اکنون بتوانید در مورد نحوه و مکان یافتن همۀ داده‌هایی که احتمالاً می‌خواهید، تصمیم گیری کنید.

سایتک همیشه از نظرات شما کاربران عزیز استقبال می‌کند. اگر اطلاعات یا تجربه‌ای در این زمینه دارید در قسمت دیدگاه‌ها برای ما بنویسید.