چگونه از «ماشین لرنینگ» در اقتصاد به خوبی استفاده کنیم؟

۱۳ شهریور ۱۴۰۲

۰ زمان تقریبی مطالعه 11 دقیقه

دنیای اقتصاد نوشت:

آکادمی دانایان (گروه مالی دانایان) روز سه شنبه مورخ ۳۱/ ۰۵/ ۱۴۰۲ از ساعت ۱۷:۳۰ الی ۲۰ میزبان نشستی با موضوع «یادگیری ماشینی (Machine Learning) و برخی کاربردهای آن در اقتصاد» بود که سخنران آن دکتر محمد طبیبیان بودند. نشست به دو صورت حضوری و آنلاین برگزار شد. افرادی که علاقه مند به مشاهده فیلم این نشست هستند، از هفته آینده می توانند برای استفاده از فایل سخنرانی به سایت آکادمی مراجعه کنند.

طبیبیان در تعریف یادگیری ماشینی (ML) آن را راهی برای آموزش کامپیوترها دانست که چگونه از داده های خود ظرفیت تصمیم گیری یا استنتاج بیابد. یادگیری ماشینی زیرمجموعه هوش مصنوعی (AI) است که با توسعه الگوریتم ها و مدل ها، کامپیوتر از داده ها یادگرفته و پیش بینی می کند یا تصمیم می گیرد. این شیوه مانند سیستم های یادگیری گذشته به شکل برنامه نویس کامپیوتری نیست، بلکه کامپیوتر الگوها و روابط داده ها را از طریق فرآیندهای ریاضی و محاسباتی خاصی فرا می گیرد؛ هوشمندی کامپیوتر از دو ماخذ حاصل می شود که یکدیگر را تقویت می کنند: یکی ساختاری است که الگوی ریاضی و محاسبات بهینه بر داده ها اعمال می کنند و دیگری محتوای اطلاعاتی داده هاست.اصلاحات مهم

این اقتصاددان در ادامه چند اصطلاح در یادگیری ماشینی را توضیح داد: نخست اینکه feature در یادگیری ماشینی به همان معنای «متغیر» در اقتصادسنجی است؛ یعنی اصطلاحات «ویژگی» و «متغیر» اغلب به جای یکدیگر برای اشاره به متغیرهای ورودی مدل به کار می روند. به عنوان مثال، در ساخت مدلی برای اعطای وام مسکن، مشخصات افراد شامل جنسیت سرپرست خانوار یا متقاضی، تعداد اعضای خانواده، مالکیت تعداد خودروی خانواده، نوع شغل، درآمد، سن و… است. در زمینه یادگیری ماشینی، از متغیرها اغلب برای اشاره به ستون هایی در مجموعه داده ها استفاده می شود؛ ویژگی ها می توانند عددی (به عنوان مثال، سن یا تعداد خودرو) یا مقوله ای (به عنوان مثال، نوع شغل یا جنسیت) باشند.

اصطلاح دیگر مفهوم بردارهای حامی است. این بردارها از محاسبات ماشین حاصل می شوند و در محاسبه معادله صفحه ای که داده ها را دو قسمت می کنند یا منحنی و رابطه ای که داده ها را چند قسمت می کنند، به کار گرفته می شوند. در یادگیری ماشینی، تفسیر این بردارها، ساختار پاسخ را برای پژوهشگر مهیا می کند. مفهوم دیگری که قابل توجه است و از اقتصاد وارد این رشته شده، مفهوم «ارزش شپلی» است. این مفهوم کمک می کند که ارزش هر کدام از ویژگی ها یا متغیرها را در مجموع محاسبات تعیین کنیم یا ارزش هر ویژگی را برای تبیین هرکدام از مشاهدات محاسبه کنیم. ارزش شپلی نقش اساسی در توضیح پذیری نتایج دارد.

این امر از الزاماتی است که امروزه از برون ریزهای هوش مصنوعی مطالبه می شود و اتحادیه اروپا خصوصا بر ضرورت توضیح پذیری این سیستم ها تاکید دارد. محاسبه ارزش شپلی در این مورد بسیار کارساز است. هر ویژگی (یا متغیر) دارای مقادیر متناظر برای هر نمونه در مجموعه داده است. در یک مجموعه داده، هر ردیف معمولا یک نمونه یا مشاهده فردی را نشان می دهد (به عنوان مثال، یک وام) و هر ستون نشان دهنده یک ویژگی (به عنوان مثال سن، درآمد، یا جنسیت) است. مقادیر درون ستون ها، اندازه گیری ها (ارزش ها) را برای هر نمونه ارائه می کنند.

در طول مرحله آموزش مدل، الگوریتم یاد می گیرد این مقادیر را با متغیر هدف (نتیجه ای که می خواهیم پیش بینی کنیم) مرتبط کند و به مدل اجازه تعمیم و پیش بینی داده های جدید را بدهد. طبیبیان اصطلاحSVM) Support Vector Machine) را این گونه توضیح داد: الگوریتم قدرتمند یادگیری ماشینی است که برای کارهای طبقه بندی، به ویژه برای طبقه بندی های دوتایی (باینری) استفاده می شود؛ جایی که هدف، جداسازی نقاط داده به دو گروه مجزا براساس ویژگی های آنهاست. کار SVM یافتن ابرصفحه ای است که نقاط داده گروه های مختلف را به بهترین نحو از هم جدا می کند، به گونه ای که حاشیه بین گروه بندی ها را حداکثر کند. حاشیه مورد اشاره فاصله بین این صفحه و نزدیک ترین نقاط داده در هر گروه است.

به این نزدیک ترین نقاط داده به ابرصفحه «بردارهای پشتیبان» Support Vectors می گویند که بیشترین تاثیر را در تعیین حاشیه و مرز تصمیم دارند. در فضای دو بعدی، ابرصفحه خطی است که نقاط داده دو گروه بندی را از هم جدا می کند. در فضاهای با ابعاد بیشتر، ابرصفحه به مرز تصمیم گیری خطی تبدیل می شود. گفتیم که «حاشیه» فاصله بین ابرصفحه و نزدیک ترین نقاط داده از هر گروه بندی است. هدف SVM یافتن ابرصفحه ای است که این حاشیه را به حداکثر می رساند و به افزایش استحکام مدل در داده های جدید کمک می کند. در مواردی که داده ها به صورت خطی در فضای ورودی تفکیک پذیر نباشند، SVM از فضایی با ابعاد بالاتر استفاده می کند؛ جایی که داده ها به صورت خطی قابل جداسازی شوند.

او اصطلاح کرنل یا هسته را این گونه توضیح داد: در یادگیری ماشینی، کرنل به تابعی اطلاق می شود که فاصله بین نقاط داده را محاسبه می کند. از کرنل ها معمولا در تکنیک هایی مانند ماشین های بردار پشتیبان (SVM) و برخی الگوریتم های «کاهش ابعاد» استفاده می شود. درSVMها، کرنل ها نقش بسزایی در یافتن مرزهای تصمیم گیری بهینه دارند. تعیین کرنل خطی یا غیر خطی الگوریتم های یادگیری را قادر می سازد تا در فضاهای با ابعاد بالا یا غیرخطی بدون محاسبه صریح مختصات نقاط، کار کنند و نتیجه به دست آورند.

کرنل های خطی برای جداکردن داده هایی استفاده می شود که به صورت خطی تفکیک شدنی هستند؛ به این معنا که نقاط داده از گروه بندی های مختلف را می توان با یک خط مستقیم (در دو بعد)، یک ابرصفحه (در بیش از دو بعد) یا یک مرز تصمیم گیری خطی جدا کرد. این کرنل ها برای مسائلی مناسبند که جداکننده دو گروه بین ویژگی ها و گروه بندی ها، رابطه ای نزدیک به خطی دارند. ازکرنل های غیرخطی زمانی استفاده می شود که داده ها به صورت خطی در فضای ویژگی اصلی تفکیک پذیر نباشند. کرنل های غیرخطی به الگوریتم های یادگیری ماشینی اجازه می دهند تا داده ها را به فضایی با ابعاد بالاتر تبدیل کنند؛ جایی که به صورت خطی قابل جداسازی می شوند و جداسازی موثر را ممکن می کنند.شروع یادگیری ماشینی

هرچند که این اقتصاددان معتقد بود برای شروع به یادگیری ماشینی، مهارت های زیادی لازم نیست، اما در طول سخنرانی روشن شد که برای تسلط بر آن، به ترکیبی از مهارت ها و دانش ها نیاز می رود: به ریاضیات (نظریه مجموعه ها، جبر خطی، حساب دیفرانسیل و انتگرال و الگوریتم های بهینه سازی) و آمار به آشنایی با فنون رگرسیون، درخت تصمیم گیری، شبکه های عصبی و خوشه بندی، برای پیاده سازی و آزمایش الگوریتم های یادگیری به اکسل، پایتون و آر (R)؛ به توان درک انواع مختلف الگوریتم های یادگیری ماشینی، به توان مدیریت و پردازش داده ها، به قدرت تشخیص ویژگی های مرتبط از داده ها برای بهبود عملکرد مدل های یادگیری ماشینی، به توان ارزیابی و اعتبارسنجی مدل، به داشتن تخصص در حوزه ای که در آن از یادگیری ماشینی استفاده می شود.

طبیبیان استفاده از یادگیری ماشینی بدون برنامه نویسی را تا حدودی امکان پذیر می داند. به لطف توسعه ابزارها و سامانه های کاربرپسند، بدون کد یا کم کد، ساده سازی فرآیند ساخت مدل های یادگیری ماشینی ممکن شده است که به کاربران اجازه می دهد بدون نوشتن کد، مدل های ML خود را ایجاد کنند. سامانه colab.research.google یکی از این سامانه هاست. در امر کدنویسی هم ابزاری که بسیار کارگشاست chatgpt است. البته وی تاکید می کند که گرچه این ابزارها میزان کدنویسی مورد نیاز را کاهش می دهند، اما نیاز به درک اصول یادگیری ماشینی هنوز برای انتخاب ویژگی های مناسب، پردازش داده ها و تفسیر موثر نتایج بسیار مهم است.

طبیبیان نشان داد که سامانه رایگان Google Colab محیط مناسبی برای نوشتن و اجرای کد پایتون به ویژه برای یادگیری ماشینی است. راه اندازی آن نیازی به نصب نرم افزار ندارد، دسترسی آسان مبتنی بر ابر و اتصال اینترنتی در آن فراهم است. این شیوه دسترسی رایگان به منابع محاسباتی دارد و به راحتی روی گوگل درایو ذخیره می شود. درواقع Colab ابزار آموزشی ساده ای به خصوص برای مبتدیانی است که مفاهیم یادگیری ماشینی را فرا می گیرند و همچنین برای پژوهشگرانی است که امکان محاسباتی محدودی در اختیار دارند.

طبیبیان اشاره ای کوتاه هم به استفاده از روش ناپارامتریک «بوت استرپینگ» در یادگیری ماشینی داشت. هنگامی که داده ها فراوان هستند و مشاهدات زیاد است، به ویژه برای تنظیم پارامترهای مدل و انتخاب و ارزیابی مدل ها و بالاخص الگوریتم های جنگل های تصادفی، «بوت استرپینگ» تکنیکی ساده برای تخمین توزیع و تکرار نمونه گیری های لازم برای شبیه سازی مجموعه های آموزشی و آزمایشی متعدد تلقی می شود. این سخنران درک مفاهیم بوت استرپینگ و نحوه کاربرد آن در یادگیری ماشینی را برای ساخت مدل های قوی و دقیق بسیار ارزشمند می دانست.چرا طبقه بندی مهم است؟

طبیبیان تصریح کرد که طبقه بندی جنبه مهم و برجسته ای از یادگیری ماشینی است. این کار شامل تخصیص نقاط داده به گروه بندی ها یا دسته های از پیش تعریف شده براساس ویژگی های آنهاست. اما یادگیری ماشینی محدود به طبقه بندی نیست؛ ML از فنون رگرسیون های خطی و پیچیده تر، خوشه بندی (گروه بندی نقاط داده مشابه بر اساس ویژگی های آنها، بدون دسته بندی های از پیش تعریف شده)، تکنیک کاهش ابعاد (کاهش تعداد ویژگی ها در عین حفظ اطلاعات مرتبط)، شناسایی نقاط داده نادر (برای شناسایی تقلب، محصولات معیوب و امنیت شبکه) پردازش زبان طبیعی، تحلیل سری های زمانی و… استفاده می کند.

این اقتصاددان تاکید کرد که بی شمار کاربرد برای ML می توان برشمرد و در اقتصاد هم ML در زمینه های مختلفی چون پیش بینی ها از جمله پیش بینی شاخص های اقتصادی همچون رشد تولید ناخالص داخلی، روندهای بازار سهام و نرخ تورم، تحلیل های مالی، به ویژه تحلیل مجموعه داده های مالی بزرگ برای شناسایی فرصت های سرمایه گذاری بالقوه، امتیازدهی اعتباری، تحلیل رفتار و ترجیحات مصرف کننده، تقسیم بندی بازارها، مدیریت ریسک و یادگیری ماشینی کاربرد دارد. به منظور استفاده از یادگیری ماشینی برای امتیازدهی اعتباری در وام های مصرفی برای بهبود دقت و بهینه سازی تصمیمات درخصوص اعطای وام، طبیبیان با ذکر مثال توضیح داد که نخست مجموعه داده های تاریخی درخواست وام، از جمله ویژگی هایی مانند درآمد، سابقه اشتغال، سابقه اعتباری، مبلغ وام، مدت وام و موارد دیگر جمع آوری و پیش پردازش می شود. آن گاه به ترتیب ویژگی های مرتبط تعریف می شود؛ مدل (الگوریتم های یادگیری ماشینی مناسب برای طبقه بندی) انتخاب می شود با چند الگوریتم آزمایش می شود تا بهترین الگوریتم برای مجموعه داده یافت شود.

طبیبیان بر این خاصیت ML تاکید فراوان داشت که هر وقت یک مدل یادگیری ماشینی را در مورد موضوعی خاص آموزش بدهیم، اغلب می توانیم از آن برای پیش بینی یا طبقه بندی موارد جدید و دیده نشده بارها و بارها استفاده کنیم. وی تعمیم را یکی از مزایای کلیدی یادگیری ماشینی می دانست. یعنی، یک مدل یادگیری ماشینی آموزش دیده باید به خوبی به داده های جدیدی تعمیم داده شود که آموزش ندیده اند. باید بتوان الگوها را شناسایی کرد و پیش بینی های دقیقی برای موارد مشابه با موارد آموزش دیده انجام داد. وی روشن کرد که محدودیت های مدل، کیفیت داده ها، تفسیرپذیری، ملاحظات اخلاقی و مقرراتی، ضرورت بازآموزی و… چالش های روبه روی رویکرد ML است.تفاوت یادگیری ماشین با اقتصادسنجی

در این جلسه، طبیبیان مراقب بود که حاضران یادگیری ماشینی را با مفاهیم اقتصادسنجی در هم نیامیزند.وی تصریح کرد که یادگیری ماشینی جایگزین مستقیمی برای اقتصادسنجی نیز نیست. اقتصادسنجی شاخه ای از علم اقتصاد است که از روش های آماری برای تعیین کمیت و تبیین روابط اقتصادی و پیش بینی پدیده های اقتصادی استفاده می کند. یادگیری ماشینی حوزه وسیع تری است که کامپیوترها را قادر می سازد الگوهایی را از داده ها یاد بگیرند و در حوزه های بسیار متنوع پیش بینی کنند یا تصمیم بگیرند. مدل های اقتصادسنجی اغلب با هدف ارائه ضرایب تفسیرپذیر با معانی اقتصادی طراحی می شوند. مدل های یادگیری ماشینی می توانند پیچیده باشند و غالبا دقت پیش بینی را بر تفسیرپذیری اولویت می دهند. تکنیک های یادگیری ماشینی انعطاف پذیرتر از مدل های اقتصادسنجی اند و همیشه به فرضیات دقیق نیاز ندارند.

به نظر می رسد که طبیبیان این دو رشته را مکمل یکدیگر می داند و معتقد است که گرچه فنون یادگیری ماشینی تحلیل اقتصادی را با مدیریت مجموعه های داده بزرگ و پیچیده و روابط غیرخطی بهبود بخشیده است، اما اقتصادسنجی به مثابه ابزاری حیاتی برای آزمایش نظریه اقتصادی، تحلیل سیاست ها و ارائه تفسیرهای اقتصادی به عمر خود ادامه خواهد داد.توضیح ارزش شپلی

غیر از ارائه مثال های اقتصادی و طراحی الگوریتم های ML برای آنها، طبیبیان علاقه مند بود که دو مقوله اقتصادی (ارزش شپلی و ضریب جینی) را توضیح داده و برای آنها مدل سازی ML کند. با توجه به کمبود وقت، ایشان فقط ارزش شپلی را توضیح دادند و فرصت مدل سازی نیافتند. طبیبیان اشاره کرد که قبل از «نظریه شپلی،» در اقتصاد فقط «ارزش بازار» را داشتیم. «ارزش شپلی» مفهومی از نظریه بازی هاست که برای محاسبه آن از رویکرد مبتنی بر ریاضی برای حل مسائل تخصیص در ترتیبات مشارکتی (بازیکنان برای دستیابی به اهداف مشترک با یکدیگر همکاری می کنند) استفاده می شود.

علت تعریف و استفاده از ارزش شپلی به عنوان مثالی در زمینه یادگیری ماشینی توسط طبیبیان احتمالا به زمینه تفسیرپذیری مدل و اهمیت ویژگی برمی گردد. در یادگیری ماشینی، درک مشارکت ویژگی ها یا متغیرهای مختلف در پیش بینی های یک مدل برای تفسیرپذیری و اعتماد بسیار مهم است. مقدار ارزش شپلی را می توان برای نسبت دادن «ارزش» یا تاثیر هر ویژگی در یک پیش بینی اعمال کرد. این به توضیح اینکه چرا هر مدل، پیش بینی خاصی انجام می دهد و چگونه ویژگی های مختلف برای رسیدن به نتیجه با یکدیگر در تعاملند، کمک می کند. طبیبیان از این مثال برای آموزش یادگیری ماشینی استفاده کرد؛ چون مقدار شپلی با رویکرد «مقادیر» شپلی در یادگیری ماشین تطبیق داده شده است؛ جایی که از آن برای توضیح پیش بینی مدل های پیچیده مانند شبکه های عصبی، جنگل های تصادفی و… استفاده می شود. با محاسبه مقادیر شپلی برای ویژگی ها، محققان و متخصصان می توانند در مورد اینکه کدام ویژگی ها بیشترین تاثیر را بر پیش بینی ها دارند و اینکه چگونه تعاملات آنها بر نتایج تاثیر می گذارند، تصویر روشنی به دست آورند.

لوید شپلی، ریاضیدان و اقتصاددان برنده جایزه نوبل آمریکایی، مفهوم ارزش شپلی را ارائه کرده که روشی برای توزیع عادلانه ارزش کل یا بازده تولیدشده در یک بازی مشارکتی است. «ارزش شپلی» فراتر از اقتصاد، در زمینه های علوم سیاسی، مذاکره و تخصیص منابع کاربرد دارد. ارزش شپلی راهی را برای تخصیص کل ارزش ایجادشده با همکاری بین بازیکنان به شیوه ای منصفانه فراهم می کند. به بازیکنان برای مشارکتشان پاداش داده می شود؛ اما نقش های متفاوتی را که بازی می کنند و ترتیب پیوستن آنها به ائتلاف ها را نیز در نظر می گیرد. بخش قابل ملاحظه ای از سخنرانی بیش از دو ساعته طبیبیان به ارائه مثال و عملا طراحی مدل ML و نشان دادن نتایج محاسباتی تخصیص یافت.

در این ارائه محمد طبیبیان بر تمام جزئیات ریاضی و آماری محاسبات، نگاشت مدل، کدنویسی پایتون و آر، استفاده از اکسل در طبقه بندی، استفاده از سامانه های ساده تر کاربر پسند و کارکرد ابزار Solver اکسل برای تعیین مقادیر بهینه متغیرهای تصمیم ساز مسلط بود. برای جوانان حاضر در جلسه بسیار جالب بود که محمد طبیبیان، با چند کتاب و صدها مقاله در حوزه های تاریخ نظریه های اقتصادی، معرفت شناسی اقتصاد، فلسفه اقتصاد، روش علم، اقتصاد ایران، اقتصاد خرد، اقتصاد کلان، اقتصاد سیاسی و نیز با تجربه مشارکت در طراحی دو برنامه توسعه اقتصادی موفق در ایران، در ۷۵ سالگی خود را موظف می داند که در رشته هایی چون اقتصادسنجی، یادگیری ماشینی، تحقیق در عملیات، اقتصاد ریاضی، هوش مصنوعی، مدل سازی ریاضی، نظریه اطلاعات، علوم شناختی و… خود را به روز نگاه دارد.

انتهای پیام

۱۳ شهریور ۱۴۰۲

۰ زمان تقریبی مطالعه 11 دقیقه