پیشتر یعنی در این لینک، به مسیر تبدیل به دانشمند داده در طول سال 2020 پرداختیم. در ادامه قصد داریم با توجه به اهمیت موضوع دیتا ساینس در سال 2021 این مسیر رو بروز رسانی کنیم!
توجه:
ده منبع رایگان علم داده دانشگاه های آمریکا در این پست معرفی شدند.
همچنین در پستهای پیشین یعنی اینجا ، از مسیر مهندس یادگیری ماشین صحبت کردیم.
در ادامه مسیر پیشنهادی توسط یکی از موسسات بزرگ و فعال در حوزه علم داده توصیه گردید که به تحلیل آن پرداخته شده است:

.
ماه ژانویه:
تو ماه اول باید اصلا ببینید آیا پوزیشن شغلی مناسبی رو جهت هدف گذاری انتخاب کردید؟
بی شک مطالعه شرح شغلی پوزیشن های مختلف علم داده به شما کمک بسزایی در راستای هدف گذاری خواهد کرد.
بسیاری از پوزیشن های پردرآمد علم داده شامل مهندس داده، مهندس یادگیری ماشین، متخصص بینایی ماشین و غیره وظایف مختلفی دارند.
جهت مشاهده برخی از این شرح شغلیها به پیامهای چند سال پیش کانال رو بخوونید. به عنوان جدیدترین نسخه اینجا رو بررسی نمایید.
پس از شناخت و درک از وظایف دانشمند داده، بایستی از یکی از زبان برنامه نویسی شناخته شده در این حوزه بهره ببرید و چه زبانی ساده تر از پایتان! (پایتون اشتباه گفتاری است که متاسفانه جای افتاده).
پس از آنکه آموزش شما در این زبان به نقطه قابل قبولی رسید، میتوانید در این ماژول دانش خودتون رو پیرامون جبرخطی و مباحثی همچون: آرایهها، ماتریسها و عملیات روی آنها ارزیابی کنید.
درواقع تا به اینجای کار، جبرخطی و مهارت برنامه نویسی در زبان پایتان از ارزش بالایی برخوردار است.
در این قسمت شما بایستی قادر باشید بسادگی دانش جبرخطی خود را توسط پایتان و با استفاده از کتابخانههای نامپای و پنداس پیاده کنید.
بطور مثال) تهیه و ایجاد دیتافریمها، دستکاری و بازی با ساختار داده، پیاده سازی عملیات ریاضی بر روی ستونها، لیستها، آرایهها و چالشهایی که پیش رو دارید، همه و همه از مباحثی خواهند بود که در این بخش با آن روبرو میشید و بایستی از کتابخانههای فوق استفاده کنید.
همچنین از کتابخانه های مصورسازی پایتان نظیر سیبورن و مث پلات لیب جهت تحلیلهای مبتنی بر بصری سازی داده در این قسمت استفاده خواهید کرد.
ماه فوریه:
افزایش دانش فنی شما پیرامون پایگاه داده مایکروسافت: یکسری منابع و توضیحات رو اینجا گذاشته بودم.
بکارگیری یکی از قویترین ابزار مصورسازی داده (تبلو)، جهت تحلیل نمودارها، چارتها.
بررسی انواع داده ها جهت انتخاب نوع نمودارها به منظور تحلیل صحیحی از رفتار داده.
خلق و تحلیل داشبوردهای تعاملی و داستان سرایی داده.
در این ماه علاوه بر تقویت دانش پایگاه داده و هوش تجاری، در جوامع علم داده، انجمنها، سوسایتی و کامیونیتیهای علم داده حتما عضو بشید:
- گروههای جهانی لینکدین پیرامون علم داده،
- چت باکس ها و گروه های پلتفرم کورسرا
- و عضویت در سایتهای مطرح و بین المللی علم داده، تنها برخی از نمونههایی بود که الان حضور ذهن داشتم.
برخی رو اینجا در سالهای پیش معرفی کرده بودم.
دانشمندان داده در کمپانی های بزرگی مثل مایکروسافت، گوگل، اپل و … رو دنبال کنید و از مرز های دانش آگاهی کسب کنید.
آپدیت بودن خود شما مهم ترین عاملی هست که باید درنظر بگیرید. این دقیقا کاری بود که بنده سال 93 انجام دادم و به شما توصیه کردم.
توجه:
- بنظرم در این بخش جای خالی نرم افزار پرقدرت هوش تجاری مایکروسافت، جهت هوشمندسازی کسب و کار و ایجاد داشبوردهای مختلف داینامیک به عنوان یک ابزار تحلیلی احساس میشد.
- در هر صورت استفاده دقیق از این دو ابزار به هدف پروژه، زیرساختها، سطح مهارتی و قابلیت های مختلف بستگی دارد
- طبق استناد بر آخرین نسخه از گزارش گارتنر (18 فوریه 2021) هردوی این ابزارها از مطرح ترین ابزارهای هوش تجاری هستند.
ماه مارچ:
آمار و احتمالات برای علم داده رو جدی بگیرید.
تحلیل اکتشافی داده پس از اخذ دانش آماری، معجزه میکنه.
دقت کنید وقت رو برای هر نوع آماری نذارید. آماری که یاد میگیرید بایستی در راستای علم داده باشه. نه آمار آکادمیک یا آمار کنکور و …
روشهای آمار توصیفی و استنباطی رو مسلط باشید
و اگر در زبان پایتان مفاهیم آماری رو بصورت تحلیل های آماری و داده محور پیاده سازی کنید عالیه.
بصورت کلی:
- توزیع های آماری و احتمالی، متغیرهای تصادفی
- آزمون فرض و خطاها، آنالیز واریانس
- انواع همبستگی، رگرسیونها کاربرد قابل توجهی در علم داده دارند.
دوره آمار برای علم داده دانشگاه جانز هاپکینز و کتاب آمار برای علم داده آقای جیسون براون-لی رو همیشه توصیه کرده بودم.
البته که خود آمار یک رشته چند ساله در مقاطع تحصیلی هست اما یادتون باشه شما قرار نیست آماردان بشید.
بلکه قراره در تیمی به عنوان دانشمند داده فعالیت کنید که در اون تیم هم بسته به نیاز و خواسته های پروژه، آماردان هم وجود خواهد داشت.
پس آمار رو برای علم داده یاد بگیرید.
توجه:
- پیرامون لایه تحلیل اکتشافی داده، حتما پس از تسلط بر مباحث آماری، مورد بررسی قرارش بدید.
- بنظرم میطلبه که در ماه نخست و درکنار دانش جبرخطی، مهارت خود رو پیرامون تحلیل آماری دادهها افزایش بدید.
- و نکته پایانی: رفته رفته در ماه سوم، پروفایل سایت کگل و گیت هاب خودتون رو بسازید. اینجا معرفی کرده بودم.
ماه آوریل:
مسائل یادگیری ماشین باناظر رو آشنا بشید و الگوریتم های مختلف جهت حل این مسائل رو مسلط باشید.
الگوریتم هایی مانند: درخت تصمیم، شبکههای عصبی، ماشینهای بردار پشتیبان، نزدیک ترین همسایگی و …
هم داخل سایت هم داخل کانال خیلی منبع معرفی کردم. مثلا: اینجا
تو این ماه قشنگ میتونید یک مقاله کنفرانسی اگر سطح زبانتون خوب باشه، با دانش فعلی بنویسید.
ماه می:
الگوریتم های پیشرفتهتر در مسائل یادگیری تجمیعی رو مسلط بشید.
اتفاقا اینها هستند که در دنیای امروزی بیشتر مورد توجه کیس های مختلف قرار میگیرند و پیاده سازی میشوند.
مثل: جنگلهای تصادفی بوستینگ، بگینگ، استکینگ و … از اصلیترین تاپیک های پیش روی شما خواهند بود.
تیونینگ الگوریتمها رو حتما مسلط بشید. (بهینه سازی هایپرپارامترها با تکنیک های مختلف)
همچنین در این ماه آغاز درگیریتون رو با داده های متن و عکس تبریک میگم.
کمکم تحلیل دادههای غیرساختارمند رو بایستی شروع کنید در این ماه
دوره دکتر ان-جی دانشگاه استنفورد رو تو این ماژول حتما ببینید.
فکر کنم مارکتینگی که بنده برای ایشون در ایران کردم، استنفورد نکرد:)))
فیلمای ایشون رو سه چهار سال پیش اینجا گذاشته بودم. تو سایت هم معرفی کردم و بارها تو پست های قدیم کانال میتونید پیدا کنید.
توجه:
- تو این ماه وقتشه که در سایتهایی که پروژه های استخدامی بین المللی قرار میدند خودتون رو بسنجید.
- و یا با سوالات آزمون ورودی کمپانیهای بزرگی خودتون رو ارزیابی کنید و محک بزنید. اینجا مفصل توضیح دادم. تو کانال هم اینجا یادمه گذاشته بودم.
ماه ژوئن:
با مسائل یادگیری بدون ناظر آشنا بشید و الگوریتمهای این دسته از مسائل رو بشناسید.
سادهترین مثال: در یک مسئله خوشه بندی، الگوریتم k-means به چه نحوی داده های مسئله رو در یک فضای دو-بعدی گروه بندی میکند.
یک پروژه خوشه بندی وفاداری مشتریان فروشگاه ،قشنگ به شما کمک بسزایی میکنه برای درک ماجرا. کتاب آقای مولر رو بخوونید از کانال.
توجه:
- تو این ماه کمکم رزومه علم داده خودتون رو بسازید. بنظرم این گزارش رو مطالعه کنید و این فایل رو هم بررسی کردید بهتون دید میده.
ماه جولای:
تحلیل مولفه های اساسی
سیستمهای توصیهگر و قواعد انجمنی
ریکامندر سیستمها از مباحث داغ این روزهای علم داده هست (مخصوصا کاربرد یادگیری تقویتی در این فضا)
آقای بانیک در کتاب خود از انتشارات پکت، سیستمهای توصیهگر رو در پایتان بخوبی پوشش دادند و به علاقهمندان توصیه میکنم.
توجه:
- البته تحلیل مولفههای اساسی رو میتونستید در ماه قبل و در مباحث یادگیری بدون ناظر، بیاموزید.
- بصورت کلی: بنظرم یه وقت اساسی روی مهندسی مولفههای کسب و کار بذارید. (که یکی از روش هایش تحلیل مولفه های اساسی هست)
- اینکه چه مولفه ای بر روی هدف کسب و کار شما تاثیر میذاره، شاید در نگاه اول مسئلهای ساده بنظر بیاد ولی
- ولی با استفاده از روش ها و تکنیک های آماری قابل تفسیر هست. کتاب خانم ژنگ از انتشارات اورایلی رو حتما مطالعه کنید. اینجا گذاشته بودم.
ماه آگوست:
سریهای زمانی
به جرات میتونم بگم در اکثر کسب و کار ها، داده هایی از جنس زمان، از ارزش بالایی برخوردار هستند.
مثال ساده: پیشبینی میزان فروش کالای مدنظر در طول شش ماه آینده.
مثال ساده دیگه: پیش بینی میزان مصرف آب خانوارهای ناحیه سه، در طول شش ماه آینده.
مدلهای سری زمانی رو سعی کنید در پایتان کد کنید بنظرم. اول مفاهیم رو یاد بگیرید و بعد پیادهسازی کدها بصورت پروژه محور.
مخصوصا ARIMA و SARIMA که یقینا بهش نیاز پیدا خواهید کرد.
این کتاب رو یادم اومد تو کانال پارسال گذاشته بودم. کتاب جدید خانم نیلسن هست.
ماه سپتامبر:
یادگیری عمیق، بینایی ماشین
مبحث Object Detection
یادگیری انتقال
و شبکههای عصبی CNN (برای پردازش تصویر)
و باز هم آقای دکتر ان-جی!
ایشون یک دوره یادگیری عمیق با آقای کیان کتان-فروش در پلتفرم کورسرا دارند که رایگان هست. از اینجا میتونید اقدام کنید.
بصورت کلی در پایتان از فریم-ورک های تنسورفلو، کراس و پای-تورچ جهت پردازش تصویر و مدلهای شبکه عصبی استفاده میکنند.
انواع شبکه، ساختار شبکههای عصبی و معماری شبکه رو در این دوره بلند-مدت قشنگ یاد میگیرید.
طریقه اخذ مدرک رایگان هم قبلا مفصلا صحبت کردیم ولی شما مدرک گرا نباشید. یک سری منابع هم در این پست معرفی کرده بودم.
یادگیری انتقال هم مبحث بینهایت کاربردی هست مخصوصا در استخراج ویژگی از داده های عکس میتونید از این کانسپت بهره ببرید. منابع رو در پست های پیشین سایت گذاشتم.
توجه:
- توجه کنید که این ماه رو به اندازه 6 ماه طول ندید.
- قرار نیست مهندس بینایی ماشین و یا متخصص یادگیری عمیق بشید.
- قبلا هم گفته بودیم که یادگیر عمیق یک پوزیشن 5 ساله دکتراست. پس با آگاهی به این موضوع در راستای هدفی که دارید گام بردارید.
ماه اکتبر:
پردازش زبان طبیعی
شبکه LSTM و شبکههای RNN (برای تحلیل متون)
توجه:
- بنظرم در این ماه میطلبه در کنار پروژه متن کاوی و تحلیل متون و یا پروژه های تحلیل احساسات مشتری از روی کامنتهای درج شده، یک پروژه شناسایی ماسک بر روی صورت با سیستمی که دارید حتما انجام بدید
- و ببینید آیا مدلی که ساختید قادر به تشخیص وجود ماسک بر روی چهره شما هست یا نه و با چه دقتی.
- پروژه Mask Detection رو سرچ کنید قطعه کدهای آماده پایتان رو در برخی از سایت ها مثل گیتهاب میتونید پیدا کنید.
ماه نوامبر:
مهارت شما در امزون وب سرویسز (داخل خود امزون، دوره ها همراه با ارائه مدرک هست)
توسعه محصول داده محور شما با اسفاده از فریم-ورک فلسک در پایتان.
یکی از گزینههای آرمانی میتونه برای شما این موضوع باشه که یک محصولی از خود به جای بگذارید.
اون محصول میتونه یک وب اپلیکیشن باشه که با پایتان کد شده
و یا یک وبسایت و یا یک پلتفرم داده محور که همگی با پکیجهای پایتان قابلیت پیادهسازی خواهند داشت.
سرآخر شما میتونید محصول خودتون رو به کارفرما پرزنت کنید.
حتی اون محصول میتونه یک دشبورد تعاملی و یا یک سلف سرویس بی-آی باشه.
ماه دسامبر:
تبریک! هم اکنون میتونید برای دوره های اینترنشیپ و کارآموزی های 3 الی 6 ماهه اقدام کنید و این تازه شروع راه شما خواهد بود.
صحبت های تکمیلی
خیلی ها در همون ماه ژانویه با گذروندن یک دوره به خودشون لقب دانشمند داده و یا تحلیگر داده رو میدند، و خیلی ها هم در ماه دسامبر این کار رو میکنند.
در حالی که هیچ کدوم از این دو گروه، هنوز دانشمند داده نیستند و صرفا با آموزش نمیتوان به این نقطه رسید.
شما بایستی پس از گذروندن دوره های کارآموزی، و درگیر شدن در چندین پروژه، خودتون رو در سایتهای بین المللی ارزیابی کنید
و طی تجربه ای که در پروژه ها کسب میکنید به مرور لقب دانشمند داده رو میتونید یدک بکشید.
دیگه قضاوت افرادی که با مشاهده یک کلیپ از یوتیوب و یا با تدریس و پرزنت چند کورس همچین القابی به خود میدند، باشما.
به عقیده من یک دانشمند داده، یک دنیا حرف و نتیجهگیری از پروژه های علم دادهای که انجام داده، میتونه داشته باشه.
حتما خروجیهای پروژه های انجام شده رو از افراد مطرح در این حوزه بخواید تا با شما به اشتراک بذارند
و از تجربیات افراد نهایت استفاده رو ببرید. مخصوصا متخصصانی که در رشته علم داده تحصیل کرده اند و پروژه های بسیاری در حوزه های مختلف داشتند.
یک نکته که…
یک نکته که جا داشت بگم زبان برنامه آر هست که در مسیر فوق جایی نداشت.
زبان برنامه نویسی آر برای تحلیل های آماری فوق العادست
اما اینکه در لحظه شما هم آر و پایتان رو بخواید یاد بگیرید اشتباه بزرگی کردید.
علت اینکه توصیه میکنند از زبان آر برای تحلیل های آماری استفاده کنید،وجود پکیج های قدرتمند آماری در آر بواسطه توسعه دهندگان مطرحی که داره هست.
یقینا جا داره که پس از تکمیل دانش خود در برنامه نویسی پایتان، از آر نیز استفاده کنید.
البته در پروژه های مختلف احساس نیاز به هر دو میتونه متفاوت باشه با توجه به اکستنشن ها و ویژگیهایی که دارند.
متاسفانه هنوزم که هنوزه افرادی هستند که به عنوان مدرس، پایتان و آر را نرم افزار میدونند اما شما با آگاهی به این اصل گام بردارید.
و پس از شناخت از یک زبان برنامه نویسی و درک آن، تحلیل های داده محور رو پیاده سازی کنید.
درواقع، اول یک زبان رو به نقطه خوبی برسونید و بعد استارت بعدی رو بزنید.
هرگونه سوالی داشتید با من درمیون بذارید. موفق و سربلند – تجلی
منبع اصلی با اندکی تغییر:
https://cdn.analyticsvidhya.com/wp-content/uploads/2020/12/ds-learning-path-4-768×4549.jpg
هنوز دیدگاهی برای این مطلب ثبت نشده است.