پیشتر یعنی در این لینک، به مسیر تبدیل به دانشمند داده در طول سال 2020 پرداختیم. در ادامه قصد داریم با توجه به اهمیت موضوع دیتا ساینس در سال 2021 این مسیر رو بروز رسانی کنیم!

 

توجه:

ده منبع رایگان علم داده دانشگاه های آمریکا در این پست معرفی شدند.

همچنین در پست‌های پیشین یعنی اینجا ، از مسیر مهندس یادگیری ماشین صحبت کردیم.

در ادامه مسیر پیشنهادی توسط یکی از موسسات بزرگ و فعال در حوزه علم داده توصیه گردید که به تحلیل آن پرداخته شده است:

 

.

 

ماه ژانویه:

تو ماه اول باید اصلا ببینید آیا پوزیشن شغلی مناسبی رو جهت هدف گذاری انتخاب کردید؟

بی شک مطالعه شرح شغلی پوزیشن های مختلف علم داده به شما کمک بسزایی در راستای هدف گذاری خواهد کرد.

بسیاری از پوزیشن های پردرآمد علم داده شامل مهندس داده، مهندس یادگیری ماشین، متخصص بینایی ماشین و غیره وظایف مختلفی دارند.

جهت مشاهده برخی از این شرح شغلی‌ها به پیام‌های چند سال پیش کانال رو بخوونید. به عنوان جدیدترین نسخه اینجا رو بررسی نمایید.

پس از شناخت و درک از وظایف دانشمند داده، بایستی از یکی از زبان برنامه نویسی شناخته شده در این حوزه بهره ببرید و چه زبانی ساده تر از پایتان! (پایتون اشتباه گفتاری است که متاسفانه جای افتاده).

پس از آنکه آموزش شما در این زبان به نقطه قابل قبولی رسید، می‌توانید در این ماژول دانش خودتون رو پیرامون جبرخطی و مباحثی همچون: آرایه‌ها، ماتریس‌ها و عملیات روی آن‌ها ارزیابی کنید.

درواقع تا به اینجای کار، جبرخطی و مهارت برنامه نویسی در زبان پایتان از ارزش بالایی برخوردار است.

در این قسمت شما بایستی قادر باشید بسادگی دانش جبرخطی خود را توسط پایتان و با استفاده از کتابخانه‌های نامپای و پنداس پیاده کنید.

بطور مثال) تهیه و ایجاد دیتافریم‌ها، دستکاری و بازی با ساختار داده، پیاده سازی عملیات ریاضی بر روی ستون‌ها، لیست‌ها، آرایه‌ها و چالش‌هایی که پیش رو دارید، همه و همه از مباحثی خواهند بود که در این بخش با آن روبرو می‌شید و بایستی از کتابخانه‌های فوق استفاده کنید.

همچنین از کتابخانه های مصورسازی پایتان نظیر سیبورن و مث پلات لیب جهت تحلیل‌های مبتنی بر بصری سازی داده در این قسمت استفاده خواهید کرد.

 

ماه فوریه:

افزایش دانش فنی شما پیرامون پایگاه داده مایکروسافت: یکسری منابع و توضیحات رو اینجا گذاشته بودم.

بکارگیری یکی از قوی‌ترین ابزار مصورسازی داده (تبلو)، جهت تحلیل نمودارها، چارت‌ها.

بررسی انواع داده ها جهت انتخاب نوع نمودارها به منظور تحلیل صحیحی از رفتار داده.

خلق و تحلیل داشبوردهای تعاملی و داستان سرایی داده.

در این ماه علاوه بر تقویت دانش پایگاه داده و هوش تجاری، در جوامع علم داده، انجمن‌ها، سوسایتی و کامیونیتی‌های علم داده حتما عضو بشید:

  • گروه‌های جهانی لینکدین پیرامون علم داده،
  • چت باکس ها و گروه های پلتفرم کورسرا
  • و عضویت در سایت‌های مطرح و بین المللی علم داده، تنها برخی از نمونه‌هایی بود که الان حضور ذهن داشتم.

برخی رو اینجا در سال‌های پیش معرفی کرده بودم.

دانشمندان داده در کمپانی های بزرگی مثل مایکروسافت، گوگل، اپل و … رو دنبال کنید و از مرز های دانش آگاهی کسب کنید.

آپدیت بودن خود شما مهم ترین عاملی هست که باید درنظر بگیرید. این دقیقا کاری بود که بنده سال 93 انجام دادم و به شما توصیه کردم.

توجه:

  • بنظرم در این بخش جای خالی نرم افزار پرقدرت هوش تجاری مایکروسافت، جهت هوشمندسازی کسب و کار و ایجاد داشبوردهای مختلف داینامیک به عنوان یک ابزار تحلیلی احساس می‌شد.
  • در هر صورت استفاده دقیق از این دو ابزار به هدف پروژه، زیرساخت‌ها، سطح مهارتی و قابلیت های مختلف بستگی دارد
  • طبق استناد بر آخرین نسخه از گزارش گارتنر (18 فوریه 2021) هردوی این ابزارها از مطرح ترین ابزارهای هوش تجاری هستند.

 

ماه مارچ:

آمار و احتمالات برای علم داده رو جدی بگیرید.

تحلیل اکتشافی داده پس از اخذ دانش آماری، معجزه می‌کنه.

دقت کنید وقت رو برای هر نوع آماری نذارید. آماری که یاد می‌گیرید بایستی در راستای علم داده باشه. نه آمار آکادمیک یا آمار کنکور و …

روش‌های آمار توصیفی و استنباطی رو مسلط باشید

و اگر در زبان پایتان مفاهیم آماری رو بصورت تحلیل های آماری و داده محور پیاده سازی کنید عالیه.

بصورت کلی:

  • توزیع های آماری و احتمالی، متغیرهای تصادفی
  • آزمون فرض و خطاها، آنالیز واریانس
  • انواع همبستگی، رگرسیون‌ها کاربرد قابل توجهی در علم داده دارند.

دوره‌ آمار برای علم داده دانشگاه جانز هاپکینز و کتاب آمار برای علم داده آقای جیسون براون-لی رو همیشه توصیه کرده بودم.

البته که خود آمار یک رشته چند ساله در مقاطع تحصیلی هست اما یادتون باشه شما قرار نیست آماردان بشید.

بلکه قراره در تیمی به عنوان دانشمند داده فعالیت کنید که در اون تیم هم بسته به نیاز و خواسته های پروژه، آماردان هم وجود خواهد داشت.

پس آمار رو برای علم داده یاد بگیرید.

توجه:

  • پیرامون لایه تحلیل اکتشافی داده، حتما پس از تسلط بر مباحث آماری، مورد بررسی قرارش بدید.
  • بنظرم می‌طلبه که در ماه نخست و درکنار دانش جبرخطی، مهارت خود رو پیرامون تحلیل آماری داده‌ها افزایش بدید.
  • و نکته پایانی: رفته رفته در ماه سوم، پروفایل سایت کگل و گیت هاب خودتون رو بسازید. اینجا معرفی کرده بودم.

 

ماه آوریل:

مسائل یادگیری ماشین باناظر رو آشنا بشید و الگوریتم های مختلف جهت حل این مسائل رو مسلط باشید.

الگوریتم هایی مانند: درخت تصمیم، شبکه‌های عصبی، ماشین‌های بردار پشتیبان، نزدیک ترین همسایگی و …

هم داخل سایت هم داخل کانال خیلی منبع معرفی کردم. مثلا: اینجا

تو این ماه قشنگ میتونید یک مقاله کنفرانسی اگر سطح زبانتون خوب باشه، با دانش فعلی بنویسید.

 

ماه می:

الگوریتم های پیشرفته‌تر در مسائل یادگیری تجمیعی رو مسلط بشید.

اتفاقا این‌ها هستند که در دنیای امروزی بیشتر مورد توجه کیس های مختلف قرار می‌گیرند و پیاده سازی می‌شوند.

مثل: جنگل‌های تصادفی بوستینگ، بگینگ، استکینگ و … از اصلی‌ترین تاپیک های پیش روی شما خواهند بود.

تیونینگ الگوریتم‌ها رو حتما مسلط بشید. (بهینه سازی هایپرپارامترها با تکنیک های مختلف)

همچنین در این ماه آغاز درگیریتون رو با داده های متن و عکس تبریک میگم.

کم‌کم تحلیل داده‌های غیرساختارمند رو بایستی شروع کنید در این ماه

دوره دکتر ان-جی دانشگاه استنفورد رو تو این ماژول حتما ببینید.

فکر کنم مارکتینگی که بنده برای ایشون در ایران کردم، استنفورد نکرد:)))

فیلمای ایشون رو سه چهار سال پیش اینجا گذاشته بودم. تو سایت هم معرفی کردم و بارها تو پست های قدیم کانال میتونید پیدا کنید.

توجه:

  • تو این ماه وقتشه که در سایت‌هایی که پروژه های استخدامی بین المللی قرار میدند خودتون رو بسنجید.
  • و یا با سوالات آزمون ورودی کمپانی‌های بزرگی خودتون رو ارزیابی کنید و محک بزنید. اینجا مفصل توضیح دادم. تو کانال هم اینجا یادمه گذاشته بودم.

 

ماه ژوئن:

با مسائل یادگیری بدون ناظر آشنا بشید و الگوریتم‌های این دسته از مسائل رو بشناسید.

ساده‌ترین مثال: در یک مسئله خوشه بندی، الگوریتم k-means به چه نحوی داده های مسئله رو در یک فضای دو-بعدی گروه بندی می‌کند.

یک پروژه خوشه بندی وفاداری مشتریان فروشگاه ،قشنگ به شما کمک بسزایی می‌کنه برای درک ماجرا. کتاب آقای مولر رو بخوونید از کانال.

توجه:

  • تو این ماه کم‌کم رزومه علم داده خودتون رو بسازید. بنظرم این گزارش رو مطالعه کنید و این فایل رو هم بررسی کردید بهتون دید میده.

 

ماه جولای:

تحلیل مولفه های اساسی

سیستم‌های توصیه‌گر و قواعد انجمنی

ریکامندر سیستم‌ها از مباحث داغ این روزهای علم داده هست (مخصوصا کاربرد یادگیری تقویتی در این فضا)

آقای بانیک در کتاب خود از انتشارات پکت، سیستم‌های توصیه‌گر رو در پایتان بخوبی پوشش دادند و به علاقه‌مندان توصیه ‌می‌کنم.

توجه:

  • البته تحلیل مولفه‌های اساسی رو میتونستید در ماه قبل و در مباحث یادگیری بدون ناظر، بیاموزید.
  • بصورت کلی: بنظرم یه وقت اساسی روی مهندسی مولفه‌های کسب و کار بذارید. (که یکی از روش هایش تحلیل مولفه های اساسی هست)
  • اینکه چه مولفه ای بر روی هدف کسب و کار شما تاثیر میذاره، شاید در نگاه اول مسئله‌ای ساده بنظر بیاد ولی
  • ولی با استفاده از روش ها و تکنیک های آماری قابل تفسیر هست. کتاب خانم ژنگ از انتشارات اورایلی رو حتما مطالعه کنید. اینجا گذاشته بودم.

 

ماه آگوست:

سری‌های زمانی

به جرات میتونم بگم در اکثر کسب و کار ها، داده هایی از جنس زمان، از ارزش بالایی برخوردار هستند.

مثال ساده: پیش‌بینی میزان فروش کالای مدنظر در طول شش ماه آینده.

مثال ساده دیگه: پیش بینی میزان مصرف آب خانوارهای ناحیه سه، در طول شش ماه آینده.

مدل‌های سری زمانی رو سعی کنید در پایتان کد کنید بنظرم. اول مفاهیم رو یاد بگیرید و بعد پیاده‌سازی کدها بصورت پروژه محور.

مخصوصا ARIMA و SARIMA که یقینا بهش نیاز پیدا خواهید کرد.

این کتاب رو یادم اومد تو کانال پارسال گذاشته بودم. کتاب جدید خانم نیلسن هست.

 

ماه سپتامبر:

یادگیری عمیق، بینایی ماشین

مبحث Object Detection

یادگیری انتقال

و شبکه‌های عصبی CNN (برای پردازش تصویر)

و باز هم آقای دکتر ان-جی!

ایشون یک دوره یادگیری عمیق با آقای کیان کتان-فروش در پلتفرم کورسرا دارند که رایگان هست. از اینجا میتونید اقدام کنید.

بصورت کلی در پایتان از فریم-ورک های تنسورفلو، کراس و پای-تورچ جهت پردازش تصویر و مدل‌های شبکه عصبی استفاده می‌کنند.

انواع شبکه، ساختار شبکه‌های عصبی و معماری شبکه رو در این دوره بلند-مدت قشنگ یاد می‌گیرید.

طریقه اخذ مدرک رایگان هم قبلا مفصلا صحبت کردیم ولی شما مدرک گرا نباشید. یک سری منابع هم در این پست معرفی کرده بودم.

یادگیری انتقال هم مبحث بی‌نهایت کاربردی هست مخصوصا در استخراج ویژگی از داده های عکس می‌تونید از این کانسپت بهره ببرید. منابع رو در پست های پیشین سایت گذاشتم.

توجه:

  • توجه کنید که این ماه رو به اندازه 6 ماه طول ندید.
  • قرار نیست مهندس بینایی ماشین و یا متخصص یادگیری عمیق بشید.
  • قبلا هم گفته بودیم که یادگیر عمیق یک پوزیشن 5 ساله دکتراست. پس با آگاهی به این موضوع در راستای هدفی که دارید گام بردارید.

 

ماه اکتبر:

پردازش زبان طبیعی

شبکه LSTM و شبکه‌های RNN (برای تحلیل متون)

توجه:

  • بنظرم در این ماه میطلبه در کنار پروژه متن کاوی و تحلیل متون و یا پروژه های تحلیل احساسات مشتری از روی کامنت‌های درج شده، یک پروژه شناسایی ماسک بر روی صورت با سیستمی که دارید حتما انجام بدید
  • و ببینید آیا مدلی که ساختید قادر به تشخیص وجود ماسک بر روی چهره شما هست یا نه و با چه دقتی.
  • پروژه Mask Detection رو سرچ کنید قطعه کدهای آماده پایتان رو در برخی از سایت ها مثل گیت‌هاب میتونید پیدا کنید.

 

ماه نوامبر:

مهارت شما در امزون وب سرویسز (داخل خود امزون، دوره ها همراه با ارائه مدرک هست)

توسعه محصول داده محور شما با اسفاده از فریم-ورک فلسک در پایتان.

یکی از گزینه‌های آرمانی میتونه برای شما این موضوع باشه که یک محصولی از خود به جای بگذارید.

اون محصول می‌تونه یک وب اپلیکیشن باشه که با پایتان کد شده

و یا یک وبسایت و یا یک پلتفرم داده محور که همگی با پکیج‌های پایتان قابلیت پیاده‌سازی خواهند داشت.

سرآخر شما می‌تونید محصول خودتون رو به کارفرما پرزنت کنید.

حتی اون محصول میتونه یک دشبورد تعاملی و یا یک سلف سرویس بی-آی باشه.

 

ماه دسامبر:

تبریک! هم اکنون میتونید برای دوره های اینترنشیپ و کارآموزی های 3 الی 6 ماهه اقدام کنید و این تازه شروع راه شما خواهد بود.

 

صحبت های تکمیلی

خیلی ها در همون ماه ژانویه با گذروندن یک دوره به خودشون لقب دانشمند داده و یا تحلیگر داده رو میدند، و خیلی ها هم در ماه دسامبر این کار رو میکنند.

در حالی که هیچ کدوم از این دو گروه، هنوز دانشمند داده نیستند و صرفا با آموزش نمیتوان به این نقطه رسید.

شما بایستی پس از گذروندن دوره های کارآموزی، و درگیر شدن در چندین پروژه، خودتون رو در سایت‌های بین المللی ارزیابی کنید

و طی تجربه ای که در پروژه ها کسب می‌کنید به مرور لقب دانشمند داده رو میتونید یدک بکشید.

دیگه قضاوت افرادی که با مشاهده یک کلیپ از یوتیوب و یا با تدریس و پرزنت چند کورس همچین القابی به خود میدند، باشما.

به عقیده من یک دانشمند داده، یک دنیا حرف و نتیجه‌گیری از پروژه های علم داده‌ای که انجام داده، میتونه داشته باشه.

حتما خروجی‌های پروژه های انجام شده رو از افراد مطرح در این حوزه بخواید تا با شما به اشتراک بذارند

و از تجربیات افراد نهایت استفاده رو ببرید. مخصوصا متخصصانی که در رشته علم داده تحصیل کرده اند و پروژه های بسیاری در حوزه های مختلف داشتند.

 

داده کاوی

یک نکته که…

یک نکته که جا داشت بگم زبان برنامه آر هست که در مسیر فوق جایی نداشت.

زبان برنامه نویسی آر برای تحلیل های آماری فوق العادست

اما اینکه در لحظه شما هم آر و پایتان رو بخواید یاد بگیرید اشتباه بزرگی کردید.

علت اینکه توصیه می‌کنند از زبان آر برای تحلیل های آماری استفاده کنید،وجود پکیج های قدرتمند آماری در آر بواسطه توسعه دهندگان مطرحی که داره هست.

یقینا جا داره که پس از تکمیل دانش خود در برنامه نویسی پایتان، از آر نیز استفاده کنید.

البته در پروژه های مختلف احساس نیاز به هر دو میتونه متفاوت باشه با توجه به اکستنشن ها و ویژگی‌هایی که دارند.

متاسفانه هنوزم که هنوزه افرادی هستند که به عنوان مدرس، پایتان و آر را نرم افزار میدونند اما شما با آگاهی به این اصل گام بردارید.

و پس از شناخت از یک زبان برنامه نویسی و درک آن، تحلیل های داده محور رو پیاده سازی کنید.

درواقع، اول یک زبان رو به نقطه خوبی برسونید و بعد استارت بعدی رو بزنید.

 

هرگونه سوالی داشتید با من درمیون بذارید. موفق و سربلند – تجلی

منبع اصلی با اندکی تغییر:

https://cdn.analyticsvidhya.com/wp-content/uploads/2020/12/ds-learning-path-4-768×4549.jpg

 

درحال ارسال
امتیاز دهی کاربران
4.5 (8 رای)