هوش مصنوعی CS50 s2

دوره هوش مصنوعی CS50 s2

آموزش هوش مصنوعی

دوره کامل آموزش هوش مصنوعی بر مبنای دوره CS5 دانشگاه هاروارد به عنوان معتبرترین و جامع ترین دوره آموزش مقدماتی و مفهومی هوش مصنوعی شناخته می شود.

این دوره به بررسی دقیق و عمیق مباحث هوش مصنوعی به صورت پایه ای می پردازد و شامل 7 بخش میباشد .جهت دسترسی به سایر دوره ها می توانید از لینک های زیر استفاده نمایید.

و برای مشاهده لیست تمام دوره ها به بخش مقالات مراجه نمایید.

CS50’s Introduction to Artificial Intelligence with Python

Danix Ai

فهرست:

مفاهیم پایهٔ احتمال و عدم قطعیت

جهان‌های ممکن
اصول و قوانین احتمال
احتمال بدون شرط
احتمال شرطی
قانون بیز
متغیرهای تصادفی و توزیع احتمال
استقلال و وابستگی

احتمال مشترک و قوانین ترکیبی

احتمال مشترک
بهنجارسازی
ادغام (Marginalization)
قوانین تکمیلی احتمال

شبکه‌های بیزی

ساختار شبکهٔ بیزی
گره‌ها، والدین و وابستگی‌ها
روابط سببی
محاسبهٔ احتمال در شبکه
مثال: رسیدن به قرار ملاقات

استنتاج در شبکه‌های بیزی

متغیر پرسش
شواهد
متغیرهای پنهان
استنتاج از طریق شمارش
نمونهٔ کدنویسی با pomegranate

تقریب در استنتاج احتمالاتی

ضرورت استفاده از روش‌های تقریبی
نمونه‌برداری ساده
نمونه‌برداری شرطی
وزن‌دهی به نمونه‌ها (Likelihood Weighting)

مدل‌های مارکوف

فرض مارکوف
زنجیرهٔ مارکوف
مدل انتقال
نمونه‌برداری در زنجیرهٔ مارکوف
پیش‌بینی با Markov Chain

مدل‌های مارکوف پنهان (HMM)

تعریف وضعیت پنهان و مشاهده
مدل حسگر (Emission Model)
فرض مارکوف حسگر
نمایش دو لایهٔ HMM
وظایف HMM: فیلتر کردن، پیش‌بینی، هموارسازی، محتمل‌ترین تبیین

الگوریتم‌ها و پیاده‌سازی HMM

الگوریتم‌های استنتاج
الگوریتم ویتربی
پیاده‌سازی HMM در پایتون
تشخیص الگوی آب‌وهوا از طریق چتر
تحلیل خروجی: توالی بیشترین احتمال

مقدمه هوش مصنوعی CS50 s2:

در علوم رایانه و به‌ویژه در حوزهٔ هوش مصنوعی، یکی از اساسی‌ترین چالش‌ها تصمیم‌گیری در شرایطی است که اطلاعات کامل یا قطعی در اختیار نداریم. دنیای واقعی سرشار از عدم قطعیت است؛ از پیش‌بینی آب‌وهوا و تحلیل رفتار کاربران گرفته تا تشخیص گفتار و حرکت ربات‌ها، همواره با داده‌هایی مواجهیم که یا ناقص‌اند یا همراه با خطا و ابهام. به همین دلیل، مدل‌های احتمال‌محور به‌عنوان ابزارهایی کلیدی برای تفسیر جهان و اتخاذ تصمیمات بهینه به کار گرفته می‌شوند.

در این مجموعه، مفاهیم بنیادین احتمال، اصول مدل‌سازی رویدادها، و نحوهٔ استنتاج از اطلاعات ناقص بررسی می‌شود. ابتدا با اصول اولیهٔ احتمال و نحوهٔ بیان رویدادها در قالب متغیرهای تصادفی آشنا می‌شویم، سپس به ساختارهای پیشرفته‌تری همچون احتمال مشترک، قوانین ترکیبی، و شبکه‌های بیزی می‌پردازیم که چارچوبی منسجم برای نمایش وابستگی‌ها میان متغیرها فراهم می‌کنند. پس از آن، شیوه‌های مختلف استنتاج ــ از روش‌های دقیق مبتنی بر شمارش گرفته تا روش‌های تقریبی همچون نمونه‌برداری و وزن‌دهی ــ مورد بحث قرار می‌گیرد.

در ادامه، مدل‌های مارکوف و مدل‌های مارکوف پنهان به‌عنوان ابزارهای توانمند برای تحلیل پدیده‌های وابسته به زمان معرفی می‌شوند. این مدل‌ها امکان پیش‌بینی، فیلتر کردن، هموارسازی، و یافتن محتمل‌ترین دنبالهٔ رخدادها را فراهم می‌کنند؛ توانایی‌هایی که در کاربردهایی مانند تشخیص گفتار، تحلیل تصاویر، رباتیک و بسیاری از سامانه‌های هوشمند دیگر نقشی محوری دارند.

هدف این فصل آن است که خواننده را با مبانی نظری و ابزارهای عملی لازم برای برخورد با عدم قطعیت در سیستم‌های هوشمند آشنا سازد؛ به‌گونه‌ای که بتواند در مواجهه با داده‌های ناقص یا پرابهام، تحلیلی منطقی و مبتنی بر مدل ارائه دهد. این مقدمات، بنیانی ضروری برای درک الگوریتم‌های پیشرفتهٔ یادگیری ماشینی و هوش مصنوعی به شمار می‌روند.

عدم قطعیت:

در جلسهٔ پیشین، بررسی کردیم که هوش مصنوعی چگونه می‌تواند دانش را بازنمایی کند و از آن نتایج تازه‌ای به دست آورد. با این حال، در عمل، سامانهٔ هوش مصنوعی معمولاً تنها به بخشی از اطلاعات جهان دسترسی دارد و همین امر موجب بروز نوعی عدم قطعیت می‌شود. با وجود این محدودیت، انتظار داریم که سیستم بتواند بهترین تصمیم ممکن را اتخاذ کند. برای نمونه، در پیش‌بینی وضع هوا، مدل تنها اطلاعات مربوط به وضعیت امروز را در اختیار دارد و هیچ راهی برای پیش‌بینی کاملاً دقیق وضعیت فردا وجود ندارد. با این حال، می‌توان عملکردی بهتر از حد تصادف داشت.در این درس به شیوه‌هایی می‌پردازیم که به ما امکان می‌دهند سامانه‌های هوشمندی بسازیم که حتی با اطلاعات محدود و شرایط نامطمئن نیز تصمیم‌های بهینه اتخاذ کنند.

احتمال:

عدم قطعیت را می‌توان با مجموعه‌ای از رویدادها و میزان احتمال وقوع هر یک از آن‌ها نمایش داد.

جهان‌های ممکن:

هر وضعیت ممکن را می‌توان «جهانی» در نظر گرفت که معمولاً با حرف کوچک یونانی امگا (ω) نمایش داده می‌شود. برای مثال، نتیجهٔ پرتاب یک تاس را می‌توان در قالب شش جهان ممکن تصور کرد: جهانی که در آن عدد ۱ ظاهر می‌شود، جهانی که در آن عدد ۲ حاصل می‌شود، و به همین ترتیب تا ۶. احتمال وقوع هر جهان را با P(ω) نمایش می‌دهیم.

اصول بنیادین احتمال:

برای هر جهان ممکن، مقدار احتمال باید میان ۰ و ۱ قرار گیرد:

مقدار ۰ نشان‌دهندهٔ رویدادی ناممکن است، مانند آن‌که تاسی استاندارد عدد ۷ نشان دهد.

مقدار ۱ بیانگر رویدادی قطعی است، مانند آن‌که تاسی استاندارد عددی کمتر از ۱۰ بدهد.

هرچه مقدار احتمال بزرگ‌تر باشد، امکان وقوع رویداد بیشتر است.

مجموع احتمال همهٔ رویدادهای ممکن باید برابر ۱ باشد.

احتمالِ ظاهر شدن عدد R در پرتاب یک تاس استاندارد را می‌توان با P(R) نمایش داد. در این حالت، مقدار P(R) = 1/6 است؛ زیرا شش حالت ممکن برای نتیجهٔ تاس وجود دارد (اعداد ۱ تا ۶) و احتمال وقوع هر یک از آن‌ها یکسان است.

اکنون فرض کنید دو تاس را هم‌زمان پرتاب کنیم. در این صورت، تعداد رویدادهای ممکن به ۳۶ حالت افزایش می‌یابد؛ زیرا هر کدام از شش حالت تاس اول می‌تواند با هر یک از شش حالت تاس دوم ترکیب شود. در این وضعیت نیز همهٔ این رویدادها احتمال وقوعی یکسان دارند.

با این حال، اگر بخواهیم حاصل جمع دو تاس را پیش‌بینی کنیم، وضعیت متفاوت خواهد بود. در این حالت، تنها 11 نتیجهٔ ممکن وجود دارد، زیرا مجموع اعداد می‌تواند تنها از ۲ تا ۱۲ تغییر کند. افزون بر این، این نتایج نیز به یک میزان رخ نمی‌دهند و برخی از مجموع‌ها احتمال وقوع بیشتری دارند.

برای محاسبهٔ احتمال یک رویداد، تعداد جهان‌هایی که آن رویداد در آن‌ها رخ می‌دهد را بر تعداد کل جهان‌های ممکن تقسیم می‌کنیم. برای نمونه، هنگام پرتاب دو تاس، ۳۶ جهان ممکن وجود دارد. تنها در یکی از این جهان‌ها ــ یعنی زمانی که هر دو تاس عدد ۶ را نشان دهند ــ مجموع دو تاس برابر با ۱۲ خواهد بود. بنابراین، P(12)=361

به بیان دیگر، احتمال آن‌که در پرتاب دو تاس مجموع اعداد برابر با ۱۲ شود، یک سی‌وششم است.

حال احتمال مجموع ۷ را در نظر بگیرید. با شمارش حالت‌ها می‌بینیم که مجموع ۷ در شش جهان ممکن رخ می‌دهد. بنابراین:

احتمال بدون شرط:

احتمالِ بدون شرط، میزان باور ما به درستیِ یک گزاره در نبود هرگونه شواهد یا اطلاعات اضافی است. تمام پرسش‌هایی که تاکنون دربارهٔ پرتاب تاس مطرح کردیم، نمونه‌هایی از احتمال بدون شرط‌ اند؛ زیرا نتیجهٔ پرتاب تاس به هیچ رویداد پیشین وابسته نیست.

احتمال شرطی:

احتمال شرطی میزان باوری است که به یک گزاره داریم، مشروط بر آن‌که پیش‌تر شواهدی دربارهٔ وضعیت جهان دریافت کرده باشیم. همان‌گونه که در مقدمه اشاره شد، هوش مصنوعی اغلب با اطلاعات ناقص مواجه است، اما می‌تواند بر اساس همین اطلاعات ناقص، برآوردهایی هوشمندانه دربارهٔ آینده ارائه دهد. برای آن‌که بتوانیم از این اطلاعات تأثیرگذار استفاده کنیم ( اطلاعاتی که بر احتمال وقوع رویدادهای آتی اثر می‌گذارند ) به مفهوم «احتمال شرطی» نیاز داریم.

احتمال شرطی با نماد P(a | b) نمایش داده می‌شود؛ یعنی «احتمال رخ دادن رویداد a با فرض این که می‌دانیم رویداد b رخ داده است» یا به بیان کوتاه‌تر، (احتمال a به شرط b ) اکنون می‌توانیم پرسش‌هایی از این دست مطرح کنیم:

احتمال بارش امروز با توجه به اینکه دیروز باران آمده است:

P (rain today | rain yesterday)

احتمال ابتلای یک بیمار به بیماری با توجه به نتیجهٔ آزمایش او:
P(disease | test results)

از دیدگاه ریاضی، برای محاسبهٔ احتمال شرطیِ a به شرط b از رابطهٔ زیر استفاده می‌کنیم:

به بیان ساده، احتمالِ درستیِ a به شرط b برابر است با احتمال هم‌زمانِ درست بودن a و b، تقسیم بر احتمال درست بودن b . می‌توان این مفهوم را چنین شهودی توضیح داد: «ما تنها جهان‌هایی را در نظر می‌گیریم که در آن‌ها هر دو رویداد a و b رخ داده‌اند (صورت کسر)، اما این توجه محدود است به جهان‌هایی که می‌دانیم رویداد b در آن‌ها رخ داده است (مخرج کسر).» تقسیم بر احتمال b در واقع فضای ممکن را فقط به جهان‌هایی محدود می‌کند که b در آن‌ها برقرار است.

رابطهٔ بالا را می‌توان به شکل‌های هم‌ارز زیر نیز نوشت:

هوش مصنوعی CS50 s2

برای مثال، احتمال P(sum = 12 | roll six on one die) را در نظر بگیرید؛ یعنی احتمال آن‌که با پرتاب دو تاس، مجموع اعداد برابر با ۱۲ شود، با این فرض که می‌دانیم یکی از تاس‌ها عدد ۶ را نشان داده است.

برای محاسبهٔ این احتمال، ابتدا جهان‌های ممکن را به حالاتی محدود می‌کنیم که در آن‌ها تاس اول عدد ۶ را نشان می‌دهد:

هوش مصنوعی CS50 s2

اکنون می‌پرسیم رویداد a یعنی برابر بودن مجموع با ۱۲ در میان جهان‌هایی که پرسش را به آن‌ها محدود کرده‌ایم، چند بار رخ می‌دهد. به بیان دیگر، می‌خواهیم ببینیم در میان همهٔ حالت‌هایی که در آن‌ها تاس اول عدد ۶ را نشان می‌دهد (که همان تقسیم بر P(b) یا احتمالِ ظاهر شدن ۶ در تاس اول است)، چند حالت مجموع ۱۲ را نشان می‌دهند.

متغیرهای تصادفی:

متغیر تصادفی، مفهومی در نظریهٔ احتمال است که دامنه‌ای از مقادیر ممکن را می‌تواند به خود بگیرد. برای نمونه، برای نمایش نتیجه‌های احتمالیِ پرتاب یک تاس، می‌توان متغیری به نام Roll تعریف کرد که مقادیر آن مجموعهٔ {۱، ۲، ۳، ۴، ۵، ۶} است. یا برای نشان دادن وضعیت یک پرواز، می‌توان متغیر Flight را تعریف کرد که مقادیر آن شامل {به‌موقع، تأخیر، لغو} است.

در بسیاری از موارد، علاقه‌مندیم بدانیم هر یک از این مقادیر با چه احتمالی رخ می‌دهند. این اطلاعات را در قالب توزیع احتمال بیان می‌کنیم.

هوش مصنوعی CS50 s2 برای مثال:

P (Flight = on time) =0.6

P (Flight = delayed) =0.3

P (Flight = canceled) =0.1

به زبان ساده، این توزیع بیان می‌کند که احتمال به‌موقع بودن پرواز ۶۰ درصد، احتمال تأخیر آن ۳۰ درصد، و احتمال لغوشدن ۱۰ درصد است. همان‌طور که پیش‌تر گفته شد، مجموع احتمال‌های تمام حالت‌های ممکن باید برابر با ۱ باشد.

توزیع احتمال را می‌توان به‌صورت فشرده‌تر و در قالب یک بردار نیز نوشت. برای مثال:

P(Flight)=⟨0.6, 0.3, 0.1⟩

البته برای تفسیر این نمادگذاری، لازم است ترتیب این مقادیر مشخص باشد (لغو، تأخیر، به‌موقع).

استقلال:

استقلال به این معناست که وقوع یک رویداد، احتمال وقوع رویداد دیگر را تغییر نمی‌دهد. برای نمونه، هنگام پرتاب دو تاس، نتیجهٔ ظاهرشده یکی از آن‌ها بر نتیجهٔ دیگری تأثیری ندارد؛ اگر تاس اول عدد ۴ را نشان دهد، این امر، احتمال عددی را که در تاس دوم ظاهر می‌شود تغییر نمی‌دهد. در مقابل، برخی رویدادها وابسته هستند؛ مانند «ابری بودن صبح» و «بارش باران در بعدازظهر». اگر صبح هوا ابری باشد، احتمال بارش در بعدازظهر افزایش می‌یابد، بنابراین این دو رویداد مستقل نیستند.

تعریف ریاضی استقلال چنین است: دو رویداد a و b مستقل‌اند اگر و تنها اگر احتمال رخ دادن هم‌زمان آن دو برابر با حاصل‌ضرب احتمال‌های مستقل آن‌ها باشد:

P(a∧b) =P(a)P(b)

قاعدهٔ بیز:

قاعدهٔ بیز یکی از ابزارهای بنیادی در نظریهٔ احتمال برای محاسبهٔ احتمال‌های شرطی است. این قاعده می‌گوید: احتمال رخ دادن b با فرض وقوع a برابر است با احتمال وقوع a به شرط b، ضرب در احتمال b، و سپس تقسیم بر احتمال a. به بیان دیگر، قاعدهٔ بیز راهی فراهم می‌آورد تا با بهره‌گیری از اطلاعات موجود، برآورد دقیق‌تری از احتمال رویدادها داشته باشیم.

هوش مصنوعی CS50 s2

برای نمونه، می‌خواهیم احتمال بارش باران در بعدازظهر را در صورتی محاسبه کنیم که صبحِ آن روز هوا ابری بوده باشد؛ یعنیP(rain∣clouds) اطلاعات زیر را در اختیار داریم:

۸۰٪ از بعدازظهرهای بارانی با صبح ابری آغاز می‌شوند:

P(clouds∣rain) =0.8

۴۰٪ روزها صبح ابری دارند:

P(clouds)=0.4

۱۰٪ روزها بعدازظهر بارانی دارند:

P(rain)=0.1

با به‌کارگیری قاعدهٔ بیز، مقدار زیر را محاسبه می‌کنیم:

بنابراین، احتمال بارش باران در بعدازظهر، مشروط بر آن‌که صبح هوا ابری بوده باشد، برابر با ۲۰٪ است.

دانستن مقدارP(a∣b) همراه باP(a) وP(b) به ما امکان می‌دهد مقدارP(b∣a) را نیز محاسبه کنیم. این توانایی بسیار سودمند است، زیرا با داشتن احتمال شرطیِ وقوع یک اثر مشهود در صورت وجود یک علت نامشهود، یعنی P(visible effect∣unknown cause)، می‌توانیم احتمال وجود آن علت پنهان را با مشاهدهٔ اثر ظاهری بسنجیم:

P(unknown cause∣visible effect)

برای مثال، از طریق آزمایش‌های پزشکی می‌توانیم مقدارP(medical test results∣disease) را بیاموزیم؛ یعنی در افراد مبتلا بررسی کنیم که آزمایش تا چه اندازه بیماری را تشخیص می‌دهد. هنگامی که این مقدار را بدانیم، می‌توانیم مقدارP(disease∣medical test results) را محاسبه کنیم؛ مقداری که در تشخیص پزشکی اهمیت فراوان دارد.

احتمال مشترک:

احتمال مشترک، بیانگر احتمال وقوع هم‌زمانِ چند رویداد است.برای روشن‌تر شدن مفهوم، مثالی را در نظر بگیریم که احتمالِ ابری بودن صبح و بارانی بودن بعدازظهر را به‌طور هم‌زمان بررسی می‌کند.

با توجه به این داده‌ها، نمی‌توانیم تنها بر اساس مشاهدهٔ جداگانهٔ هر متغیر نتیجه بگیریم که آیا ابری بودن صبح بر احتمال وقوع باران در بعدازظهر اثر دارد یا خیر. برای بررسی این موضوع، باید به احتمال‌های مشترک تمام حالت‌های ممکنِ این دو متغیر توجه کنیم. این اطلاعات را می‌توان در قالب جدولی مانند جدول زیر نمایش داد:

هوش مصنوعی CS50 s2

اکنون با استفاده از این داده‌ها می‌توانیم دربارهٔ احتمال مشترک وقوع رویدادها اطلاعاتی به‌دست آوریم. برای نمونه، می‌دانیم که احتمال ابری بودن صبح و بارانی بودن بعدازظهر برابر با ۰٫۰۸ است. همچنین، احتمال آن‌که صبح هوا ابری نباشد و بعدازظهر نیز بارانی نشود، ۰٫۵۸ است.

با بهره‌گیری از احتمال‌های مشترک، می‌توان احتمال شرطی را استنتاج کرد. برای مثال، اگر بخواهیم توزیع احتمالِ ابری بودن صبح را با علم به بارش باران در بعدازظهر محاسبه کنیم، از رابطهٔ زیر استفاده می‌کنیم:

نکتهٔ جانبی: در نظریهٔ احتمال، استفاده از علامت کاما یا نماد ∧معادل یکدیگر است؛ بنابراین P (C, rain) =P(C∧rain)

به بیان ساده، احتمال مشترکِ «باران و ابر» را بر احتمال «باران» تقسیم می‌کنیم.

در این معادله، می‌توان P(rain) را به‌منزلهٔ یک ثابت در نظر گرفت که برP(C, rain) ضرب می‌شود. از این رو می‌توان نوشت:

P(C∣rain) =αP(C, rain)

یا به صورت برداری:

α⟨۰٫۰۸ ,۰٫۰۲ ⟩

عاملα (alphaα) را بیرون می‌کشیم و تنها نسبت‌ها باقی می‌مانند؛ یعنی نسبت احتمال حالت «صبحِ ابری» به حالت «صبحِ بدون ابر» در روزهایی که بعدازظهر بارانی‌اند، ۰٫۰۲ : ۰٫۰۸است.

توجه داشته باشید که ۰٫۰۲ و ۰٫۰۸ جمعشان برابر با ۱ نیست. اما این اعداد در واقع باید توزیع احتمال متغیر تصادفی C را تشکیل دهند، و بنابراین لازم است مجموع آن‌ها برابر ۱ باشد. برای این کار، باید مقدار α را چنان بیابیم که:

۱=α۰٫۰۲+ α۰٫۰۸

در نهایت، با نرمال‌سازی نتیجه می‌توان نوشت:

P(C∣rain)=⟨0.8, 0.2⟩

یعنی اگر بعدازظهر بارانی باشد، احتمال آن‌که صبح هوا ابری بوده باشد ۸۰ درصد و احتمال آن‌که بدون ابر بوده باشد ۲۰ درصد است.

قواعد احتمال:

۱. نقیض (Negation)

P (¬a)=1−P(a)

این رابطه از آن‌جا ناشی می‌شود که مجموع احتمال همهٔ جهان‌های ممکن برابر با ۱ است، و دو گزارهٔ مکمل a و ¬a تمامی جهان‌های ممکن را در بر می‌گیرند.

۲. شمول ـ طرد :(Inclusion–Exclusion)

P(a∨b)=P(a)+P(b)−P(a∧b)

تفسیر این رابطه چنین است: جهان‌هایی که در آن‌ها a یا b برقرار است، برابر است با مجموع جهان‌هایی که در آن a برقرار است، به‌علاوهٔ جهان‌هایی که در آن b برقرار است. اما در این جمع، آن دسته از جهان‌ها که در آن‌ها هر دو گزارهٔ a و b هم‌زمان درست‌اند، دوبار شمرده شده‌اند. بنابراین، برای جلوگیری از این شمارش تکراری، باید یک بار مقدار P(a∧b) را کم کنیم.

برای روشن‌تر شدن موضوع، مثالی خارج از درس را در نظر بگیریم:
فرض کنید ۸۰٪ روزها بستنی می‌خورم و ۷۰٪ روزها شیرینی. اگر بدون کم کردن P(ice cream∧cookies)، احتمال خوردن «بستنی یا شیرینی» را محاسبه کنیم، به مقدار اشتباه

0.8+0.7=1.5

می‌رسیم؛ رقمی که اصول احتمال را نقض می‌کند، زیرا احتمال باید بین ۰ و ۱ باشد. برای اصلاح این خطا، باید یک بار احتمال روزهایی را که هر دو را با هم خورده‌ام از مجموع کم کنیم.

۳. به‌حاشیه‌رانی :(Marginalization)

P(a)=P(a,b)+P(a,¬b)

ایدهٔ اصلی این است که دو گزارهٔ b و ¬b ناپوشا یا متباین‌اند؛ یعنی احتمال وقوع هم‌زمان آن‌ها برابر صفر است. همچنین می‌دانیم احتمال وقوع یکی از این دو b یا ¬b دو حالت مکمل دارد و مجموع آن‌ها برابر با ۱ است. بنابراین، وقتی a رخ می‌دهد، یا b نیز همراه آن رخ می‌دهد، یا نمی‌دهد. از این رو، با جمع کردن احتمال «وقوع هم‌زمان a و b با احتمال وقوع a و عدم وقوع b، به سادگی به احتمال وقوع a می‌رسیم.

به‌کارگیری قاعدهٔ به‌حاشیه‌رانی برای متغیرهای تصادفی را می‌توان به صورت زیر بیان کرد:

هوش مصنوعی CS50 s2

طرفِ چپِ معادله به این معناست که «احتمال آن‌که متغیر تصادفی X مقدار xᵢ را به خود بگیرد» چقدر است. برای مثال، دربارهٔ متغیر C که پیش‌تر به آن اشاره کردیم، دو مقدار ممکن وجود دارد: «صبحِ ابری» و «صبحِ بدون ابر»

اما بخش راست معادله بیانگر مفهوم به‌حاشیه‌رانی است.

یعنی مقدار

P(X=xi)

از طریق جمع کردن احتمالِ هم‌زمانِ این مقدار با همهٔ حالت‌های ممکن متغیر دیگری به‌دست می‌آید.

این مقدار برابر است با مجموع تمام احتمال‌های مشترکِ رخ دادن xᵢ همراه با تک‌تکِ مقادیر ممکنِ متغیر تصادفی Y.

برای نمونه:

P(C=cloud)=P(C=cloud, R=rain)+P(C=cloud, R=¬rain) =0.08+0.32=0.4

شرطی‌سازی: (Conditioning)

P(a)=P(a∣b)P(b)+P(a∣¬b)P(¬b)

این رابطه مفهومی مشابهِ به‌حاشیه‌رانی دارد. یعنی احتمال وقوع رویداد a برابر است با احتمال رخ دادن a به شرط وقوع b، ضرب‌در احتمال b، به‌علاوهٔ احتمال رخ دادن a به شرط عدم وقوع b، ضرب‌در احتمال ¬b.

به بیان ساده، برای محاسبهٔ احتمال a، همهٔ جهان‌هایی را در نظر می‌گیریم که b در آن‌ها برقرار است و همهٔ جهان‌هایی را که b برقرار نیست؛ سپس احتمال a را در هر دو گروه تحلیل و در نهایت جمع می‌کنیم.

در این رابطه، متغیر تصادفی X مقدار xᵢ را با احتمالی می‌پذیرد که برابر است با مجموعِ احتمال‌های رخ دادن xᵢ به‌شرط هر یک از مقادیرِ ممکنِ متغیر تصادفی Y، ضرب‌در احتمال آن‌که Y آن مقدار را بپذیرد.

این نتیجه کاملاً منطقی است، اگر به یاد آوریم که:

حال اگر هر دو طرف این رابطه را در P(b) ضرب کنیم، مقدار P(a, b) به‌دست می‌آید. از این نقطه به بعد، همان فرایندی را ادامه می‌دهیم که در به‌حاشیه‌رانی به کار بردیم: یعنی با جمع کردن احتمال‌های مشترک مربوط به همهٔ مقادیر ممکن Y، احتمال نهایی رخ دادن xᵢ را محاسبه می‌کنیم.

شبکه‌های بیزی:

شبکهٔ بیزی ساختاری داده‌محور است که وابستگی‌های میان متغیرهای تصادفی را نمایش می‌دهد. چنین شبکه‌هایی دارای ویژگی‌های زیر هستند:

گراف جهت‌دار هستند.
هر گره در این گراف، یک متغیر تصادفی را نمایش می‌دهد.
وجود یک پیکان از X به Y بدین معناست که X والدِ Y است؛ یعنی توزیع احتمالیِ Y به مقدار متغیر X وابسته است.
هر گرهٔ X دارای یک توزیع احتمال به‌صورت:

P(X∣Parents(X))

است که وابستگی آن به والدهایش را نشان می‌دهد.

برای روشن‌تر شدن مفهوم، مثالی از یک شبکهٔ بیزی در نظر می‌گیریم که شامل متغیرهایی است که بر «به‌موقع رسیدن به قرار ملاقات» اثر می‌گذارند.

اکنون این شبکهٔ بیزی را از بالا به پایین توصیف می‌کنیم:

Rainگرهٔ ریشه در این شبکه است. این بدان معناست که توزیع احتمال آن به هیچ رویداد پیشینی وابسته نیست. در مثال ما، Rain یک متغیر تصادفی است که می‌تواند یکی از مقادیر {بدون باران، بارانِ سبک، بارانِ شدید} را بپذیرد و توزیع احتمال آن به صورت زیر تعریف می‌شود:

در مثال ما

Maintenance بیانگر این است که آیا عملیات نگه‌داری خطوط راه‌آهن در جریان است یا خیر. این متغیر می‌تواند یکی از دو مقدار «بله» یا «خیر» را به خود بگیرد و وضعیت انجام یا عدم انجام تعمیرات را رمزگذاری می‌کند. مقادیر این متغیر {yes, no} هستند.
متغیر Rain به‌عنوان والدِ Maintenance عمل می‌کند؛ به این معنا که احتمال وقوع یا عدم وقوعِ عملیات نگه‌داری خطوط، به مقدار بارش باران وابسته است.

Train متغیری است که نشان می‌دهد قطار به‌موقع می‌رسد یا دچار تأخیر می‌شود، و می‌تواند یکی از دو مقدار {on time, delayed} را به خود بگیرد. توجه کنید که دو پیکان از متغیرهای Maintenance و Rain به سمت Train رسم شده است. این موضوع نشان می‌دهد که هر دو متغیر، والدِ Train هستند و مقادیر آن‌ها بر توزیع احتمالِ وضعیت قطار اثر می‌گذارد.

Appointment متغیر تصادفی‌ای است که نشان می‌دهد آیا در قرار خود حاضر می‌شویم یا آن را از دست می‌دهیم، و می‌تواند یکی از دو مقدار {attend, miss} را به خود بگیرد.
نکتهٔ قابل توجه آن است که این متغیر تنها یک والد دارد: Train.

این نکته در شبکه‌های بیزی اهمیت ویژه‌ای دارد: والدها فقط روابطِ مستقیم را نشان می‌دهند.
درست است که عملیات نگه‌داری خطوط می‌تواند بر به‌موقع رسیدن قطار تأثیر بگذارد، و به‌موقع رسیدن قطار نیز می‌تواند بر حضور ما در قرار ملاقات اثر بگذارد. با این حال، آنچه مستقیماً بر احتمال رسیدن ما به قرار تأثیر دارد، تنها «به‌موقع رسیدن یا نرسیدن قطار» است؛ و همین رابطهٔ مستقیم است که در شبکهٔ بیزی نمایش داده می‌شود.

برای مثال، حتی اگر باران شدید باشد و تعمیرات خطوط نیز در جریان باشد، ولی قطار به‌موقع برسد، این شرایط هیچ اثری بر حضور ما در قرار ملاقات نخواهد داشت.

هوش مصنوعی CS50 s2

برای نمونه

، فرض کنید می‌خواهیم احتمال از دست دادن قرار ملاقات را، در شرایطی محاسبه کنیم که قطار دچار تأخیر شده، تعمیراتی در خطوط انجام نشده و بارانِ سبک می‌باریده است؛ یعنی:

P(light, no, delayed, miss)

برای محاسبهٔ این مقدار، از رابطهٔ زیر استفاده می‌کنیم:

P(light)P(no∣light)P(delayed∣light, no)P(miss∣delayed)

مقادیر هر یک از این احتمال‌های منفرد را می‌توان از توزیع‌های احتمالی ارائه‌شده در بخش‌های قبل استخراج کرد. سپس با ضرب کردن آن‌ها در یکدیگر، مقدار نهایی یعنی:

P(light, no, delayed, miss)

در جلسهٔ پیشین، استنتاج را بر پایهٔ «دلالت منطقی» بررسی کردیم؛ یعنی حالتی که می‌توانیم بر اساس دانشی که از پیش در اختیار داریم، با قطعیت به اطلاعات تازه‌ای دست یابیم. اما در کنار استنتاج قطعی، می‌توانیم بر پایهٔ احتمال‌ها نیز به نتایج جدید برسیم. گرچه این نوع استنتاج، قطعیت کامل به ما نمی‌دهد، اما امکان محاسبه و برآورد توزیع‌های احتمالیِ مقادیر ناشناخته را فراهم می‌سازد.

استنتاج احتمالاتی دارای ویژگی‌ها و قوانین گوناگونی است که در ادامه به آن‌ها پرداخته می‌شود.

متغیر پرسش (Query X): متغیری است که می‌خواهیم توزیع احتمال آن را محاسبه کنیم.
متغیرهای شاهد (Evidence variables E): یک یا چند متغیری که مقدار آن‌ها را مشاهده کرده‌ایم. برای مثال، ممکن است مشاهده کرده باشیم که بارانِ سبک در حال باریدن است، و همین مشاهده به ما کمک می‌کند احتمال تأخیر قطار را برآورد کنیم.
متغیرهای پنهان (Hidden variables Y): متغیرهایی که نه متغیر پرسش هستند و نه مقدار آن‌ها را مشاهده کرده‌ایم. برای نمونه، وقتی در ایستگاه قطار ایستاده‌ایم، می‌توانیم بارش باران را مشاهده کنیم، اما نمی‌توانیم بدانیم در بخش‌های دورتر خط، عملیات نگه‌داری در حال انجام است یا خیر. بنابراین، Maintenance در این شرایط یک متغیر پنهان محسوب می‌شود.

هدف این است که مقدارP(X∣e)

را محاسبه کنیم. برای نمونه، می‌خواهیم توزیع احتمال متغیر Train (متغیر پرسش) را با استفاده از شاهد e که نشان‌دهندهٔ «بارانِ سبک» است محاسبه کنیم.

به‌عنوان مثال، فرض کنید می‌خواهیم توزیع احتمال متغیر Appointment را با توجه به شواهدی محاسبه کنیم که نشان می‌دهد بارانِ سبک در حال باریدن است و هیچ عملیاتِ نگه‌داری‌ای در خطوط انجام نمی‌شود. به بیان دیگر، می‌دانیم که «بارانِ سبک» و «عدمِ نگه‌داری» برقرار است و می‌خواهیم احتمال آن‌که در قرار خود حاضر شویم یا آن را از دست بدهیم را محاسبه کنیم:

P(Appointment∣light, no)

بر اساس بخش مربوط به احتمال مشترک، می‌دانیم که می‌توانیم مقادیر ممکن متغیر Appointment را به صورت نسبت‌هایی بیان کنیم و عبارت بالا را این‌گونه بازنویسی کنیم:

P(Appointment∣light, no)=αP(Appointment, light, no)

اکنون پرسش این است: چگونه می‌توانیم توزیع احتمال Appointment را محاسبه کنیم، در حالی که والدِ مستقیم آن تنها متغیر Train است و نه Rain یا Maintenance؟

در اینجا از به‌حاشیه‌رانی (Marginalization) استفاده می‌کنیم.

مقدارP(Appointment, light, no)

برابر است با:

α[P(Appointment, light, no, delayed)+P(Appointment, light, no, on time)]

به عبارت دیگر، احتمالِ مشترک را با جمع کردن دو حالت به‌دست می‌آوریم: حالتی که قطار تأخیر دارد و حالتی که قطار به‌موقع می‌رسد.

استنتاج از طریق شمارش :(Inference by Enumeration)

استنتاج از طریق شمارش روشی است برای محاسبهٔ توزیع احتمالِ متغیر X با توجه به شواهدِ مشاهده‌شدهٔ e و مجموعه‌ای از متغیرهای پنهان Y. در این شیوه، همهٔ مقادیر ممکن متغیرهای پنهان در نظر گرفته می‌شود و با جمع‌کردن احتمال‌های مربوط به هر حالت، توزیع احتمال نهایی برای متغیر موردنظر به‌دست می‌آید.

در این معادله، X نمایانگر متغیرِ پرسش (Query Variable)، e بیانگر شواهدِ مشاهده‌شده، y مجموعه‌ای از تمام مقادیر ممکنِ متغیرهای پنهان، و α عاملی برای نرمال‌سازی است تا در نهایت مجموع احتمالات برابر با ۱ شود.

به‌بیان دیگر، این معادله بیان می‌کند که توزیع احتمال X با توجه به شواهد e، برابر است با نسخهٔ نرمال‌سازی‌شدهٔ توزیع احتمال مشترک X و e. برای محاسبهٔ این توزیع، لازم است احتمالِ مشترک X، e و y را ــ در حالی که در هر بار y یکی از مقادیر ممکن متغیرهای پنهان را می‌گیرد ــ با یکدیگر جمع کنیم. حاصل این جمع، پس از نرمال‌سازی توسط α، توزیعی قابل‌تعبیر و معتبر از نظر احتمالات خواهد بود.

در زبان پایتون کتابخانه‌های متعددی برای ساده‌سازی فرایند استنتاج احتمالاتی وجود دارد. یکی از این کتابخانه‌ها pomegranate است که به کمک آن می‌توان مدل‌های احتمالاتی و شبکه‌های بیزی را با ساختاری روشن و قابل‌استفاده نمایش داد.

برای آغاز کار، ابتدا باید گره‌ها را ایجاد کرده و برای هر یک توزیع احتمال مربوطه را مشخص کنیم.

from pomegranate import *
# Rain node has no parents
rain = Node(DiscreteDistribution({
    "none": 0.7,
    "light": 0.2,
    "heavy": 0.1
}), name="rain")
# Track maintenance node is conditional on rain
maintenance = Node(ConditionalProbabilityTable([
    ["none", "yes", 0.4],
    ["none", "no", 0.6],
    ["light", "yes", 0.2],
    ["light", "no", 0.8],
    ["heavy", "yes", 0.1],
    ["heavy", "no", 0.9]
], [rain.distribution]), name="maintenance")
# Train node is conditional on rain and maintenance
train = Node(ConditionalProbabilityTable([
    ["none", "yes", "on time", 0.8],
    ["none", "yes", "delayed", 0.2],
    ["none", "no", "on time", 0.9],
    ["none", "no", "delayed", 0.1],
    ["light", "yes", "on time", 0.6],
    ["light", "yes", "delayed", 0.4],
    ["light", "no", "on time", 0.7],
    ["light", "no", "delayed", 0.3],
    ["heavy", "yes", "on time", 0.4],
    ["heavy", "yes", "delayed", 0.6],
    ["heavy", "no", "on time", 0.5],
7/23/25, 11:09 PM Lecture 2 - CS50's Introduction to Artificial Intelligence with Python
https://cs50.harvard.edu/ai/notes/2/ 14/24
    ["heavy", "no", "delayed", 0.5],
], [rain.distribution, maintenance.distribution]), name="train")
# Appointment node is conditional on train
appointment = Node(ConditionalProbabilityTable([
    ["on time", "attend", 0.9],
    ["on time", "miss", 0.1],
    ["delayed", "attend", 0.6],
    ["delayed", "miss", 0.4]
], [train.distribution]), name="appointment")

در مرحلهٔ دوم، مدل را با افزودن تمام گره‌ها ایجاد می‌کنیم و سپس با مشخص کردن اینکه کدام گره، والد گرهی دیگر است، یال‌هایی میان آن‌ها اضافه می‌کنیم.

به یاد داشته باشید که شبکهٔ بیزی یک گراف جهت‌دار است؛ یعنی از گره‌هایی تشکیل شده که میان آن‌ها پیکان‌هایی قرار دارد و این پیکان‌ها رابطهٔ والد–فرزندی و وابستگی‌های احتمالاتی را نشان می‌دهند.

# Create a Bayesian Network and add states
model = BayesianNetwork()
model.add_states(rain, maintenance, train, appointment)
# Add edges connecting nodes
model.add_edge(rain, maintenance)
model.add_edge(rain, train)
model.add_edge(maintenance, train)
model.add_edge(train, appointment)
# Finalize model
model.bake()

هوش مصنوعی CS50 s2

اکنون برای آنکه بسنجیم یک رویداد مشخص تا چه اندازه محتمل است، مدل را با مقادیری که به آن‌ها علاقه‌مندیم اجرا می‌کنیم.

در این مثال، می‌خواهیم بدانیم احتمال هم‌زمانِ رخ دادنِ چهار رویداد زیر چقدر است:

بارشی وجود نداشته باشد،
عملیات نگه‌داری خطوط انجام نشود،
قطار به موقع برسد،
و در نتیجه ما به جلسه برسیم.

با ارائهٔ این مقادیر به مدل، احتمال مشترک این ترکیب از رویدادها محاسبه می‌شود.

# Calculate probability for a given observation
probability = model.probability([["none", "no", "on time", "attend"]])
print(probability)

در غیر این صورت می‌توانیم از برنامه بخواهیم توزیع‌های احتمالی تمام متغیرها را با توجه به شواهد مشاهده‌شده در اختیار ما بگذارد.

در نمونهٔ زیر، می‌دانیم که قطار با تأخیر رسیده است.
با داشتن این شاهد، مدل برای ما توزیع احتمالی سه متغیرِ Rain( بارش)،Maintenance (نگه‌داری خطوط)، و Appointment( حضور در قرار)را محاسبه و چاپ می‌کند.

هوش مصنوعی CS50 s2

# Calculate predictions based on the evidence that the train was delayed
predictions = model.predict_proba({
    "train": "delayed"
})
# Print predictions for each node
for node, prediction in zip(model.states, predictions):
7/23/25, 11:09 PM Lecture 2 - CS50's Introduction to Artificial Intelligence with Python
https://cs50.harvard.edu/ai/notes/2/ 15/24
7/23/25, 11:09 PM
Lecture 2 - CS50's Introduction to Artificial Intelligence with Python
if isinstance(prediction, str):
print(f"{node.name}: {prediction}")
else:
print(f"{node.name}")
for value, probability in prediction.parameters[0].items():
print(f"    
{value}: {probability:.4f}")

کدی که در بالا استفاده شد، از استنتاج از طریق شمارش (Inference by Enumeration) بهره می‌برد.
با وجود دقت بالای این روش، برای مدل‌هایی که تعداد متغیرهای زیادی دارند بسیار ناکارآمد و زمان‌بر است؛ زیرا نیاز دارد تمام حالت‌های ممکن را بررسی و مجموع‌گیری کند.

راهکار دیگر، صرف‌نظر کردن از استنتاج دقیق و استفاده از استنتاج تقریبی (Approximate Inference) است.
در این روش، اگرچه بخشی از دقت محاسبات از دست می‌رود، اما این میزان خطا معمولاً بسیار ناچیز است و در عمل تأثیری بر نتیجه نهایی نمی‌گذارد.

در مقابل، مزیت اصلی آن مقیاس‌پذیری و سرعت بسیار بالاتر است؛ به‌گونه‌ای که حتی برای شبکه‌های بزرگ و پیچیده نیز قابل استفاده و کارآمد می‌شود.

نمونه‌گیری (Sampling):

نمونه‌گیری یکی از مهم‌ترین روش‌های استنتاج تقریبی است. در این روش، برای هر متغیر یک مقدار بر اساس توزیع احتمال آن انتخاب می‌شود. ابتدا با مثالی خارج از درس شروع می‌کنیم و سپس نمونه ارائه‌شده در درس را توضیح می‌دهیم.

برای ایجاد یک توزیع با استفاده از نمونه‌گیری از یک تاس، می‌توان تاس را چندصد بار پرتاب و نتیجه‌ی هر بار را ثبت کرد. فرض کنید تاس را ۶۰۰ بار پرتاب کرده‌ایم. انتظار داریم عدد ۱ تقریباً ۱۰۰ بار ظاهر شود، و همین‌طور سایر اعداد از ۲ تا ۶. سپس تعداد دفعات وقوع هر مقدار را بر عدد کل پرتاب‌ها تقسیم می‌کنیم. خروجی یک توزیع تقریبی خواهد بود؛ یعنی احتمالاً دقیقاً مقدار 1/61/61/6 برای هر عدد به دست نمی‌آید، اما مقادیری نزدیک به آن خواهیم داشت.

در مثال ارائه‌شده در درس، اگر نمونه‌گیری را از متغیر Rain آغاز کنیم، مقدار none با احتمال ۰.۷، مقدار light با احتمال ۰.۲، و مقدار heavy با احتمال ۰.۱ تولید می‌شود. فرض کنید نتیجه‌ی نمونه‌گیری ما none باشد. حال که مقدار بارش را تعیین کرده‌ایم، در مرحله‌ی نمونه‌گیری از متغیر Maintenance، تنها از توزیع احتمالیِ مربوط به حالتی نمونه‌گیری می‌کنیم که مقدار Rain برابر none است؛ زیرا این مقدار را از قبل تعیین کرده‌ایم. این روند برای تمام گره‌ها ادامه پیدا می‌کند تا یک نمونه کامل تولید شود.

با تکرار این فرآیند، مجموعه‌ای از نمونه‌ها به دست می‌آید که می‌توان از آن‌ها برای برآورد احتمالات استفاده کرد. برای مثال، برای محاسبه‌ی احتمالP(Train=on time) می‌توان شمار نمونه‌هایی را که در آن‌ها متغیر Train مقدار on time گرفته است، بر تعداد کل نمونه‌ها تقسیم کرد. این مقدار، برآوردی تقریبی از احتمال واقعی خواهد بود.

همچنین می‌توان پرسش‌های مربوط به احتمال شرطی را نیز پاسخ داد؛ مانند:P(Rain=light∣Train=on time)

در این حالت، ابتدا تمام نمونه‌هایی را که در آن‌ها Train مقدار on time ندارد کنار می‌گذاریم. سپس، در میان نمونه‌های باقی‌مانده، تعداد مواردی را که Rain برابر light است شمارش می‌کنیم و آن را بر تعداد کل نمونه‌های دارای Train = on time تقسیم می‌کنیم. نتیجه، یک تخمین تقریبی از احتمال شرطی مورد نظر است.

در کد، یک تابع نمونه‌گیری می‌تواند به‌صورت تابعی مانند generate_sample پیاده‌سازی شود.

import pomegranate
from collections import Counter
from model import model
def generate_sample():
    # Mapping of random variable name to sample generated
    sample = {}
    # Mapping of distribution to sample generated
    parents = {}
    # Loop over all states, assuming topological order
    for state in model.states:
        # If we have a non-root node, sample conditional on parents
        if isinstance(state.distribution, pomegranate.ConditionalProbabilityTable):
            sample[state.name] = state.distribution.sample(parent_values=parents)
        # Otherwise, just sample from the distribution alone
        else:
            sample[state.name] = state.distribution.sample()
        # Keep track of the sampled value in the parents mapping
        parents[state.distribution] = sample[state.name]
    # Return generated sample
    return sample

اکنون برای محاسبهٔ P(Appointment | Train = delayed)، یعنی توزیع احتمال متغیر Appointment با فرض این‌که قطار با تأخیر رسیده است، به روش زیر عمل می‌کنیم:

# Rejection sampling
# Compute distribution of Appointment given that train is delayed
N = 10000
data = []
# Repeat sampling 10,000 times
for i in range(N):
    # Generate a sample based on the function that we defined earlier
    sample = generate_sample()
    # If, in this sample, the variable of Train has the value delayed, save the sample
    if sample["train"] == "delayed":
        data.append(sample["appointment"])
# Count how many times each value of the variable appeared. We can later normalize by d
7/23/25, 11:09 PM Lecture 2 - CS50's Introduction to Artificial Intelligence with Python
https://cs50.harvard.edu/ai/notes/2/ 17/24
7/23/25, 11:09 PM
Lecture 2 - CS50's Introduction to Artificial Intelligence with Python
print(Counter(data))

وزن‌دهی بر اساس درست‌نمایی (Likelihood Weighting)

هوش مصنوعی CS50 s2

در نمونه‌برداریِ پیشین، نمونه‌هایی را که با شواهد مشاهده‌شده سازگار نبودند کنار می‌گذاشتیم. این روش کارآمد نیست. یکی از راه‌های رفع این مشکل، به‌کارگیری Likelihood Weighting و طی کردن مراحل زیر است:

ابتدا مقدار متغیرهای شواهد را ثابت نگه می‌داریم.
سپس، سایر متغیرهایی را که در زمرهٔ شواهد قرار ندارند، بر اساس احتمال‌های شرطی موجود در شبکهٔ بیزی نمونه‌برداری می‌کنیم.
در پایان، به هر نمونه وزنی متناسب با احتمال وقوع تمام شواهد اختصاص می‌دهیم.

برای نمونه، اگر مشاهده کرده باشیم که قطار سرِ وقت رسیده است، فرآیند نمونه‌برداری را مانند قبل آغاز می‌کنیم. ابتدا از متغیر Rain بر اساس توزیع احتمال آن نمونه می‌گیریم، سپس از Maintenance نمونه‌برداری می‌کنیم. اما هنگامی که به متغیر Train می‌رسیم، همیشه مقدار مشاهده‌شده را برای آن قرار می‌دهیم؛ در این مثال، مقدار on time. سپس نمونه‌برداری را ادامه می‌دهیم و مقدار متغیر Appointment را بر اساس توزیع احتمال آن با شرط Train = on time به دست می‌آوریم.

پس از ساخته شدن یک نمونهٔ کامل، آن را بر اساس احتمال شرطیِ متغیر مشاهده‌شده نسبت به والدهای نمونه‌برداری‌شدهٔ آن وزن‌دهی می‌کنیم. به عنوان مثال، اگر در نمونه‌برداری مقدار Rain = light و سپس Maintenance = yes حاصل شده باشد، وزن این نمونه برابر خواهد بود با:

P(Train = on time | light, yes)

مدل‌های مارکوف (Markov Models):

تا این‌جا، پرسش‌های احتمالاتی را در شرایطی بررسی کردیم که تنها بر اساس اطلاعاتی انجام می‌شد که در همان لحظه مشاهده کرده بودیم. در چنین رویکردی، بُعد زمان نقشی ندارد. با این حال، بسیاری از مسائل—از جمله پیش‌بینی—به‌طور مستقیم به عنصر زمان وابسته‌اند.

برای آن‌که بتوانیم زمان را وارد مدل کنیم، متغیر جدیدی به نام X معرفی می‌کنیم و آن را تابعی از رخدادهای موردنظر در طول زمان قرار می‌دهیم؛ به‌گونه‌ای که Xₜ نشان‌دهندهٔ رخداد در زمان فعلی، Xₜ₊₁ رخداد در زمان بعد، و الی آخر باشد. برای پیش‌بینی وضعیت آینده، از مدل‌های مارکوف بهره می‌بریم.

فرض مارکوف (Markov Assumption):

فرض مارکوف بیان می‌کند که وضعیت کنونی تنها به تعداد محدودی از وضعیت‌های پیشین وابسته است. این فرض اهمیتی اساسی دارد.

برای مثال، در پیش‌بینی وضعیت هوا، در تئوری می‌توان از داده‌های یک سال گذشته برای پیش‌بینی هوای فردا استفاده کرد، اما:

از نظر محاسباتی بسیار سنگین است،
و از نظر علمی نیز بعید است که اطلاعات مربوط به ۳۶۵ روز پیش، تأثیر مشخصی بر احتمال وضعیت هوای فردا داشته باشد.

با به‌کارگیری فرض مارکوف، تعداد وضعیت‌های پیشین را محدود می‌کنیم—برای نمونه، تنها وضعیت یک روز قبل را در نظر می‌گیریم. این ساده‌سازی، مسئله را از نظر محاسباتی قابل حل می‌کند.

البته این کار می‌تواند موجب تخمین‌های نسبتاً غیر دقیق‌تر شود، اما در بسیاری از کاربردها این میزان تقریب کاملاً قابل قبول است. علاوه بر این، با استفاده از مدل مارکوف می‌توان بر اساس اطلاعات محدود، تخمین‌های مؤثری از وضعیت آینده ارائه داد.

زنجیرهٔ مارکوف (Markov Chain):

مدل مارکوف را می‌توان بر اساس اطلاعات مربوط به تنها یک رخداد پیشین نیز به‌کار گرفت؛ برای مثال، پیش‌بینی هوای فردا بر اساس وضعیت هوای امروز.

زنجیرهٔ مارکوف دنباله‌ای از متغیرهای تصادفی است که توزیع هر متغیر در آن از فرض مارکوف تبعیت می‌کند. به بیان دیگر، هر رخداد در این دنباله تنها بر اساس احتمال رخدادِ قبل از خود تعیین می‌شود.

برای آغاز ساختن یک زنجیرهٔ مارکوف، نیازمند یک مدل انتقال هستیم؛ مدلی که مشخص می‌کند هر وضعیت بعدی با توجه به مقادیر احتمالی وضعیت کنونی، چه توزیع احتمالی‌ای خواهد داشت.

در این مثال،

احتمال آن‌که فردا روزی آفتابی باشد، مشروط به آفتابی بودن امروز برابر با 0.8 است. این مقدار منطقی است، زیرا معمولاً احتمال ادامه‌ی روزهای آفتابی بالاست. در مقابل، اگر امروز بارانی باشد، احتمال بارانی بودن فردا 0.7 است، چراکه روزهای بارانی نیز معمولاً پشت سر یکدیگر رخ می‌دهند.

با استفاده از این مدل انتقال می‌توان یک زنجیرهٔ مارکوف نمونه‌برداری کرد. بدین صورت که ابتدا روزی را ــ بارانی یا آفتابی ــ به‌عنوان نقطهٔ شروع انتخاب می‌کنیم. سپس، روز بعد را بر اساس احتمال آفتابی یا بارانی بودن آن، با توجه به وضعیت روز آغازین، نمونه‌برداری می‌کنیم. پس از آن، وضعیت روز سوم را با توجه به روز دوم به‌دست می‌آوریم و این روند را ادامه می‌دهیم. نتیجهٔ این فرایند، شکل‌گیری یک زنجیرهٔ مارکوف خواهد بود.

با در اختیار داشتن این زنجیرهٔ مارکوف، اکنون می‌توانیم به پرسش‌هایی از این دست پاسخ دهیم: «احتمال آن‌که چهار روز پیاپی بارانی باشد چقدر است؟»
برای نمونه، در ادامه قطعه‌کدی ارائه می‌شود که نشان می‌دهد چگونه می‌توان یک زنجیرهٔ مارکوف را پیاده‌سازی کرد:

from pomegranate import *
# Define starting probabilities
start = DiscreteDistribution({
    "sun": 0.5,
    "rain": 0.5
})
# Define transition model
transitions = ConditionalProbabilityTable([
    ["sun", "sun", 0.8],
    ["sun", "rain", 0.2],
    ["rain", "sun", 0.3],
    ["rain", "rain", 0.7]
], [start])
# Create Markov chain
model = MarkovChain([start, transitions])
# Sample 50 states from chain
print(model.sample(50))

مدل‌های مارکوف پنهان:

هوش مصنوعی CS50 s2

مدل مارکوف پنهان نوعی مدل مارکوف است که در آن، وضعیت‌های واقعیِ سامانه پنهان‌اند و تنها رخدادهایی قابل مشاهده تولید می‌کنند. به بیان دیگر، هوش مصنوعی در چنین شرایطی تنها به برخی اندازه‌گیری‌ها یا نشانه‌ها از جهان دسترسی دارد، اما نمی‌تواند وضعیت واقعی و دقیق محیط را مستقیماً مشاهده کند. در این حالت، وضعیت واقعی حالت پنهان نام دارد و داده‌هایی که سامانه مشاهده می‌کند مشاهدات نامیده می‌شوند. نمونه‌هایی از چنین موقعیت‌ها عبارت‌اند از:

برای یک رباتی که در محیط ناشناخته حرکت می‌کند، حالت پنهان «موقعیت واقعی ربات» است و مشاهدات همان داده‌هایی است که حسگرهای ربات ثبت می‌کنند.
در تشخیص گفتار، حالت پنهان «واژگانِ اداشده» است، در حالی که مشاهده، «موج صوتی» دریافت‌شده است.
هنگام اندازه‌گیری میزان تعامل کاربران در وب‌سایت‌ها، حالت پنهان «میزان واقعی درگیری یا مشارکت کاربر» است و مشاهده همان داده‌های تحلیلیِ ثبت‌شده در وب‌سایت یا اپلیکیشن است.

برای بحث خود، از نمونه‌ای ساده استفاده می‌کنیم: سامانهٔ هوشمند ما می‌خواهد وضعیت هوا را (که یک حالت پنهان است) استنباط کند، اما تنها دادهٔ موجود از یک دوربین داخلی به دست می‌آید که مشخص می‌کند چند نفر با چتر وارد ساختمان شده‌اند. در اینجا، مدل حسگر یا مدل گسیلاحتمال دیدن هر مشاهده را بر اساس حالت واقعی هوا نشان می‌دهد.

در این مدل، اگر هوا آفتابی باشد، احتمال آنکه افراد با چتر وارد ساختمان شوند بسیار کم است. اما اگر هوا بارانی باشد، اغلب افراد با چتر به ساختمان خواهند آمد. بنابراین با مشاهدهٔ این‌که افراد چتر همراه داشته‌اند یا نه، می‌توان با احتمال قابل قبولی وضعیت واقعی هوا را پیش‌بینی کرد.

فرض مارکوف در حسگرها:

این فرض بیان می‌کند که متغیر شواهد تنها به وضعیت متناظر خود وابسته است. برای مثال، در مدل ما فرض می‌شود که همراه داشتن چتر تنها به وضعیت آب‌وهوا بستگی دارد. البته این فرض همیشه کاملاً مطابق واقعیت نیست؛ زیرا ممکن است برخی افراد، به دلیل عادت یا شخصیت احتیاط‌گرای خود، حتی در روزهای آفتابی نیز چتر به همراه داشته باشند. اگر داده‌هایی در مورد رفتار یا شخصیت افراد داشتیم، می‌توانستیم مدل را دقیق‌تر کنیم. با این حال، فرض مارکوف در حسگرها این پیچیدگی‌ها را نادیده می‌گیرد و تنها «حالت پنهان» را تعیین‌کنندهٔ مشاهده می‌داند.

ساختار مدل مارکوف پنهان:

مدل مارکوف پنهان را می‌توان به‌صورت یک زنجیرهٔ مارکوف با دو لایه نمایش داد.

لایهٔ بالا، متغیر X، نشان‌دهندهٔ حالت پنهان است.
لایهٔ پایین، متغیر E, بیانگر شواهد یا همان مشاهداتی است که در اختیار داریم.

این ساختار به ما اجازه می‌دهد با استفاده از توالی مشاهدات، احتمال وضعیت‌های پنهان را تخمین بزنیم.

هوش مصنوعی CS50 s2

بر اساس مدل‌های مارکوف پنهان، می‌توان مجموعه‌ای از وظایف تحلیلی را انجام داد:

پالایش (Filtering): با در اختیار داشتن مشاهدات از ابتدای زمان تا لحظهٔ فعلی، احتمال هر یک از وضعیت‌های کنونی محاسبه می‌شود. برای نمونه، اگر بدانیم مردم از ابتدا تا امروز در چه زمان‌هایی با چتر وارد ساختمان شده‌اند، می‌توانیم احتمال بارانی بودن امروز را برآورد کنیم.
پیش‌بینی (Prediction): با استفاده از مشاهدات گذشته تا زمان حال، احتمال وضعیت‌هایی که در آینده رخ خواهند داد تعیین می‌شود.
هموارسازی (Smoothing): بر پایهٔ مشاهدات از ابتدا تا زمان کنونی، احتمال وضعیت‌هایی در گذشته محاسبه می‌شود. برای مثال، می‌توان احتمال بارانی بودن روز گذشته را، با توجه به این‌که افراد امروز با چتر حضور یافته‌اند، به دست آورد.
محتمل‌ترین تبیین (Most Likely Explanation): با استفاده از مجموعهٔ مشاهدات گذشته تا اکنون، محتمل‌ترین دنبالهٔ وضعیت‌ها استنتاج می‌شود.

کاربرد مهم بخش اخیر، یعنی یافتن محتمل‌ترین تبیین، در حوزه‌هایی مانند تشخیص گفتار است؛ جایی که سامانهٔ هوشمند با تحلیل مجموعه‌ای از سیگنال‌های صوتی، محتمل‌ترین توالی از واژه‌ها یا هجاهایی را که منجر به تولید این سیگنال‌ها شده‌اند بازسازی می‌کند.

در ادامه، پیاده‌سازی پایتونی یک مدل مارکوف پنهان ارائه می‌شود که برای انجام وظیفهٔ یافتن محتمل‌ترین تبیین مورد استفاده قرار خواهد گرفت.

from pomegranate import *
# Observation model for each state
sun = DiscreteDistribution({
"umbrella": 0.2,
"no umbrella": 0.8
})
rain = DiscreteDistribution({
"umbrella": 0.9,
22/24
https://cs50.harvard.edu/ai/notes/2/
    "no umbrella": 0.1
})
states = [sun, rain]
# Transition model
transitions = numpy.array(
    [[0.8, 0.2], # Tomorrow's predictions if today = sun
     [0.3, 0.7]] # Tomorrow's predictions if today = rain
)
# Starting probabilities
starts = numpy.array([0.5, 0.5])
# Create the model
model = HiddenMarkovModel.from_matrix(
    transitions, states, starts,
    state_names=["sun", "rain"]
)
model.bake()

هوش مصنوعی CS50 s2

توجه کنید که مدل ما شامل مدل انتقال و مدل حسگر است. وجود هر دو بخش برای تشکیل یک مدل مارکوف پنهان ضروری است. در قطعه‌کد زیر، دنباله‌ای از مشاهداتِ مربوط به این‌که آیا افراد با چتر وارد ساختمان شده‌اند یا نه ارائه می‌شود. بر اساس این دنبالهٔ مشاهدات، مدل اجرا می‌شود و محتمل‌ترین تبیین را ــ یعنی توالی آب‌وهوا که بیشترین احتمال را دارد این الگوی مشاهده‌شده را ایجاد کرده باشد ــ محاسبه و چاپ می‌کند.

from model import model
# Observed data
observations = [
    "umbrella",
    "umbrella",
    "no umbrella",
    "umbrella",
    "umbrella",
    "umbrella",
    "umbrella",
    "no umbrella",
    "no umbrella"
]
# Predict underlying states
predictions = model.predict(observations)
for prediction in predictions:
    print(model.states[prediction].name)

هوش مصنوعی CS50 s2

در این مثال، خروجی برنامه چنین خواهد بود:

rain, rain, sun, rain, rain, rain, rain, sun, sun

این خروجی نشان می‌دهد که محتمل‌ترین الگوی آب‌وهوا، با توجه به مشاهدات ما دربارهٔ این‌که افراد با چتر وارد ساختمان شده‌اند یا نه، چگونه بوده است. به بیان دیگر، مدل بر اساس دنبالهٔ مشاهدات، این توالی را به‌عنوان محتمل‌ترین روند تغییرات هوا در آن بازهٔ زمانی استنتاج کرده است.

خلاصه:

این فصل به بررسی نقش احتمال و مدل‌های آماری در هوش مصنوعی می‌پردازد؛ ابزاری که برای تصمیم‌گیری در شرایط عدم قطعیت استفاده می‌شود. ابتدا مفاهیم بنیادین احتمال معرفی می‌شود؛ از جمله جهان‌های ممکن، احتمال شرطی، قانون بیز، متغیرهای تصادفی و احتمال مشترک. این مفاهیم پایه، چارچوبی برای تحلیل رویدادهایی فراهم می‌کنند که اطلاعات دربارهٔ آن‌ها ناقص یا مبهم است.

در ادامه، شبکه‌های بیزی به‌عنوان ساختاری قدرتمند برای نمایش وابستگی‌ها میان متغیرها مورد بررسی قرار می‌گیرد. این شبکه‌ها با استفاده از گره‌ها و روابط جهت‌دار، نشان می‌دهند که چگونه رخدادهای مختلف بر یکدیگر اثر می‌گذارند. روش‌های استنتاج در شبکه‌های بیزی شامل استنتاج دقیق با شمارش و روش‌های تقریبی مانند نمونه‌برداری و وزن‌دهی بر اساس شباهت، فرصت محاسبهٔ احتمال متغیرهای ناشناخته را فراهم می‌سازند.

سپس مدل‌های مارکوف معرفی می‌شوند که برای نمایش پدیده‌های وابسته به گذر زمان مناسب‌اند. این مدل‌ها بر فرض مارکوف تکیه دارند، مبنی بر این‌که وضعیت فعلی تنها به وضعیت‌های اخیر وابسته است. زنجیره‌های مارکوف امکان پیش‌بینی در دنبالهٔ زمانی را فراهم می‌کنند و پایه‌ای برای مدل‌های پیچیده‌تر هستند.

در بخش پایانی، مدل‌های مارکوف پنهان (HMM) بررسی می‌شوند؛ مدل‌هایی که در آن‌ها وضعیت واقعیِ سیستم قابل مشاهده نیست و تنها نشانه‌هایی از آن ثبت می‌شود. با کمک مدل‌های حسگر و مدل انتقال، می‌توان از روی مشاهدات، وضعیت‌های پنهان را تخمین زد. وظایف کلیدی این مدل شامل فیلتر کردن، پیش‌بینی، هموارسازی و یافتن محتمل‌ترین دنبالهٔ رویدادهاست. در نهایت، نمونه‌ای از پیاده‌سازی HMM در پایتون ارائه می‌شود که از روی الگوی دیده‌شدن چترها، توالی احتمالی وضعیت آب‌وهوا را استنتاج می‌کند.

این فصل نشان می‌دهد که چگونه احتمال، شبکه‌های بیزی و مدل‌های مارکوف ابزارهایی بنیادی برای تحلیل داده‌های ناقص و اتخاذ تصمیم‌های هوشمندانه در سامانه‌های مبتنی بر هوش مصنوعی هستند.

مقالات هوش مصنوعی CS50 s2

هوش مصنوعی CS50 s2

آموزش هوش مصنوعی

CS50’s Introduction to Artificial Intelligence with Python

Danix Ai

فهرست:

مفاهیم پایهٔ احتمال و عدم قطعیت

احتمال مشترک و قوانین ترکیبی

شبکه‌های بیزی

استنتاج در شبکه‌های بیزی

تقریب در استنتاج احتمالاتی

مدل‌های مارکوف

مدل‌های مارکوف پنهان (HMM)

الگوریتم‌ها و پیاده‌سازی HMM

مقدمه هوش مصنوعی CS50 s2:

عدم قطعیت:

احتمال:

جهان‌های ممکن:

اصول بنیادین احتمال:

برای هر جهان ممکن، مقدار احتمال باید میان ۰ و ۱ قرار گیرد:

مجموع احتمال همهٔ رویدادهای ممکن باید برابر ۱ باشد.

احتمال بدون شرط:

احتمال شرطی:

احتمال بارش امروز با توجه به اینکه دیروز باران آمده است:

احتمال ابتلای یک بیمار به بیماری با توجه به نتیجهٔ آزمایش او:P(disease | test results)

از دیدگاه ریاضی، برای محاسبهٔ احتمال شرطیِ a به شرط b از رابطهٔ زیر استفاده می‌کنیم:

رابطهٔ بالا را می‌توان به شکل‌های هم‌ارز زیر نیز نوشت:

هوش مصنوعی CS50 s2

هوش مصنوعی CS50 s2

متغیرهای تصادفی:

هوش مصنوعی CS50 s2 برای مثال:

استقلال:

قاعدهٔ بیز:

هوش مصنوعی CS50 s2

برای نمونه، می‌خواهیم احتمال بارش باران در بعدازظهر را در صورتی محاسبه کنیم که صبحِ آن روز هوا ابری بوده باشد؛ یعنیP(rain∣clouds) اطلاعات زیر را در اختیار داریم:

احتمال مشترک:

هوش مصنوعی CS50 s2

یا به صورت برداری:

قواعد احتمال:

۱. نقیض (Negation)

۲. شمول ـ طرد :(Inclusion–Exclusion)

۳. به‌حاشیه‌رانی :(Marginalization)

به‌کارگیری قاعدهٔ به‌حاشیه‌رانی برای متغیرهای تصادفی را می‌توان به صورت زیر بیان کرد:

هوش مصنوعی CS50 s2

یعنی مقدار

برای نمونه:

این نتیجه کاملاً منطقی است، اگر به یاد آوریم که:

شبکه‌های بیزی:

اکنون این شبکهٔ بیزی را از بالا به پایین توصیف می‌کنیم:

در مثال ما

هوش مصنوعی CS50 s2

برای نمونه

استنتاج احتمالاتی دارای ویژگی‌ها و قوانین گوناگونی است که در ادامه به آن‌ها پرداخته می‌شود.

هدف این است که مقدارP(X∣e)

بر اساس بخش مربوط به احتمال مشترک، می‌دانیم که می‌توانیم مقادیر ممکن متغیر Appointment را به صورت نسبت‌هایی بیان کنیم و عبارت بالا را این‌گونه بازنویسی کنیم:

برابر است با:

استنتاج از طریق شمارش :(Inference by Enumeration)

هوش مصنوعی CS50 s2

هوش مصنوعی CS50 s2

نمونه‌گیری (Sampling):

همچنین می‌توان پرسش‌های مربوط به احتمال شرطی را نیز پاسخ داد؛ مانند:P(Rain=light∣Train=on time)

اکنون برای محاسبهٔ P(Appointment | Train = delayed)، یعنی توزیع احتمال متغیر Appointment با فرض این‌که قطار با تأخیر رسیده است، به روش زیر عمل می‌کنیم:

وزن‌دهی بر اساس درست‌نمایی (Likelihood Weighting)

هوش مصنوعی CS50 s2

مدل‌های مارکوف (Markov Models):

فرض مارکوف (Markov Assumption):

زنجیرهٔ مارکوف (Markov Chain):

در این مثال،

مدل‌های مارکوف پنهان:

هوش مصنوعی CS50 s2

فرض مارکوف در حسگرها:

ساختار مدل مارکوف پنهان:

هوش مصنوعی CS50 s2

بر اساس مدل‌های مارکوف پنهان، می‌توان مجموعه‌ای از وظایف تحلیلی را انجام داد:

در ادامه، پیاده‌سازی پایتونی یک مدل مارکوف پنهان ارائه می‌شود که برای انجام وظیفهٔ یافتن محتمل‌ترین تبیین مورد استفاده قرار خواهد گرفت.

هوش مصنوعی CS50 s2

هوش مصنوعی CS50 s2

در این مثال، خروجی برنامه چنین خواهد بود:

خلاصه:

هوش مصنوعی CS50 s2

احتمال ابتلای یک بیمار به بیماری با توجه به نتیجهٔ آزمایش او:
P(disease | test results)