آموزش هوش مصنوعی
دوره کامل آموزش هوش مصنوعی بر مبنای دوره CS5 دانشگاه هاروارد به عنوان معتبرترین و جامع ترین دوره آموزش مقدماتی و مفهومی هوش مصنوعی شناخته می شود.
این دوره به بررسی دقیق و عمیق مباحث هوش مصنوعی به صورت پایه ای می پردازد و شامل 7 بخش میباشد.دوره جاری آخرین دوره از 7 دوره می باشد .جهت دسترسی به سایر دوره ها می توانید از لینک های زیر استفاده نمایید.
و برای مشاهده لیست تمام دوره ها به بخش مقالات مراجه نمایید.
CS50’s Introduction to Artificial Intelligence with Python
Danix Ai
آموزش هوش مصنوعی بخش آخر CS506
فهرست:
مقدمهای بر پردازش زبان طبیعی
- انواع وظایف NLP خلاصهسازی، استخراج اطلاعات، تشخیص زبان، ترجمه ماشینی، تشخیص موجودیت، تشخیص گفتار، طبقهبندی متن، رفع ابهام معنایی واژهها
نحو و معنا شناسی
- ساختار جمله و قواعد نحوی
- ابهام نحوی
- معناشناسی و اختلاف ساختار و معنا
- مثالهای کلاسیک مانند عبارت چامسکی
دستور مستقل از بافت (Context-Free Grammar)
- برچسبگذاری اجزای سخن
- گروههای اسمی و فعلی
- ساخت درخت نحوی
- نمایش رسمی قواعد
کتابخانهٔ NLTK
- تعریف قواعد
- تجزیهٔ جملات
- تولید درخت نحوی و رسم آن
n-grams
- تعریف n-gram
- استفاده در پردازش متن و پیشبینی کلمهٔ بعدی
- نمونههای کاربردی
توکنیزهکردن (Tokenization)
- تقسیم متن به واژهها و جملات
- چالشهای نشانهگذاری، علائم، آپاستروف و مخففها
مدلهای مارکوف برای تولید متن
- استفاده از n-gram برای ساخت مدل
- ساخت توزیع احتمال برای انتخاب کلمهٔ بعدی
- تولید متن شبهطبیعی
مدل کیسهٔ واژگان (Bag-of-Words)
- حذف ساختار نحوی
- کاربرد در طبقهبندی و تحلیل احساس
- مثال کاربردی
روش بیز ساده (Naive Bayes)
- استفاده در تحلیل احساس
- سادهسازی احتمالها با فرض استقلال
- مسئلهٔ صفر بودن احتمالها
- هموارسازی افزودنی و لاپلاس
نمایش واژهها
- نمایش یکداغ (One-hot)
- مشکلات ابعاد بزرگ
- نمایش توزیعی
- ایدهٔ فیِرث درباره معنای واژهها
word2vec
- معماری Skip-gram
- لایهٔ پنهان کوچک برای تولید بردارهای معنایی
- شباهت معنایی و محاسبات برداری مانند king − man + woman ≈ queen))
شبکههای عصبی برای زبان
- ترجمهٔ ماشینی و مسئلهٔ دنبالهبهدنباله
- شبکههای بازگشتی و حالت پنهان
- چالشهای وابستگی طولانی
توجه (Attention)
- اهمیتبخشی به واژههای کلیدی
- ایجاد بردار زمینه بر اساس اهمیت واژهها
- بهبود ترجمه و فهم متن
ترنسفورمرها (Transformers)
- پردازش موازی
- جایگذاری موقعیت (Positional Encoding)
- خودتوجهی چندمرحلهای
- معماری رمزگذار–رمزگشا
- نقش کلیدی در مدلهای زبانی مدرن
جمعبندی
- نقش NLP در تکمیل مسیر هوش مصنوعی
- ارتباط آن با شبکهها، یادگیری، احتمال و معناشناس
مقدمهٔ:
پردازش زبان طبیعی یکی از بنیادیترین شاخههای هوش مصنوعی است که میکوشد توانایی انسان در فهم و تولید زبان را در ماشین بازآفرینی کند. تا این مرحله از مسیر یادگیری، با مسائلی سروکار داشتیم که نیازمند بازنمایی دقیق دادهها، استنتاج منطقی، تصمیمگیری در شرایط عدم قطعیت، و یادگیری از طریق نمونهها بودند. با این حال، هیچیک از این حوزهها به پیچیدگی تعامل با زبان انسانی نمیرسند؛ زبانی که ساختاری پویا، سرشار از ابهام، وابسته به زمینه و دارای لایههای عمیق معنایی است.
آموزش هوش مصنوعی
در این درس با مفاهیم و ابزارهایی آشنا میشویم که به هوش مصنوعی امکان میدهند متون انسانی را تحلیل، پردازش و تولید کند. نخست به سازوکارهای نحوی و معنایی میپردازیم و میآموزیم چگونه میتوان ساختار جمله را بهصورت صوری بازنمایی کرد. سپس با الگوهای آماری همچون n-gram، مدلهای مارکوف و روشهای کلاسیک تحلیل متن آشنا میشویم. در ادامه، مدلهای سادهای مانند کیسهٔ واژگان و طبقهبندی مبتنی بر بیز ساده را بررسی میکنیم و پس از آن به مباحث پیشرفتهتر از جمله نمایش توزیعی واژهها، شبکههای عصبی، مکانیسم توجه و معماری ترنسفورمر میرسیم؛ معماریای که بنیان بسیاری از مدلهای زبانی امروزی را شکل میدهد.
آموزش هوش مصنوعی
این درس پلی میان مبانی نظری هوش مصنوعی و کاربردهای عملی آن در حوزهٔ زبان است؛ حوزهای که در قلب تعامل انسان و ماشین قرار دارد و نقشی اساسی در توسعهٔ سیستمهای هوشمند امروزی ایفا میکند.
زبان:
تا این مرحله از درس، لازم بود مسئلهها و دادهها را به گونهای قالببندی کنیم که یک سامانهٔ هوش مصنوعی قادر به پردازش آنها باشد. اکنون به این میپردازیم که چگونه میتوان سامانهای ساخت که زبان انسان را پردازش کند.
پردازش زبان طبیعی (NLP) تمامی وظایفی را دربرمیگیرد که در آنها ورودیِ سامانه، زبان انسانی است. نمونههایی از این وظایف عبارتاند از:
- خلاصهسازی خودکار: در این وظیفه، متن بهعنوان ورودی داده میشود و سامانه خلاصهای از همان متن تولید میکند.
- استخراج اطلاعات: در این حالت، سامانه مجموعهای از متون را دریافت میکند و دادههای ساختاریافته را از میان آنها استخراج مینماید.
- تشخیص زبان: در این وظیفه، سامانه متنی را دریافت کرده و زبان متن را تشخیص میدهد.
- ترجمهٔ ماشینی: سامانه متنی را در یک زبان دریافت کرده و ترجمهٔ آن را در زبان مقصد تولید میکند.
- شناسایی موجودیتهای نامدار (NER): سامانه متن را دریافت میکند و نام موجودیتهایی مانند افراد، شرکتها یا مکانها را استخراج میکند.
- تشخیص گفتار: ورودی سامانه صدا یا گفتار است و خروجی آن تبدیل همان گفتار به متن نوشتاری است.
- طبقهبندی متن: سامانه متن ورودی را دریافت میکند و آن را در یکی از دستههای از پیش تعریفشده قرار میدهد.
- تشخیص معنای درست واژه (Word Sense Disambiguation): سامانه باید برای واژهای که چند معنا دارد، معنای صحیح را با توجه به متن انتخاب کند (مثلاً واژهٔ bank میتواند «بانک مالی» یا «کرانهٔ رودخانه» باشد).
نحو و معناشناسی:
نحو (Syntax) به ساختار جمله اشاره دارد. ما بهعنوان سخنگویان طبیعی یک زبان، در تولید جملههای دستوری و تشخیص جملههای نادرست از نظر دستوری مشکلی نداریم. برای مثال، جملهٔ
«چند دقیقه مانده به ساعت نه، شرلوک هولمز با گامهایی تند وارد اتاق شد»
کاملاً دستوری است؛ در حالی که جملهٔ
«چند دقیقه شرلوک هولمز مانده به ساعت نه وارد تند اتاق شد»
از نظر نحوی نادرست است.
با این حال، یک جمله میتواند از نظر نحوی درست اما همچنان مبهم باشد؛ مانند جملهٔ «I saw the man with the telescope».
در این جمله مشخص نیست «با تلسکوپ» توصیف «مرد» است یا اینکه گوینده «مرد را با استفاده از تلسکوپ دیده است». بنابراین، برای آنکه هوش مصنوعی بتواند زبان انسان را تحلیل کرده و خود نیز جمله تولید کند، باید قادر به فهم و مدیریت ساختار نحوی باشد.
معناشناسی (Semantics) به معنی واژهها و جملهها مربوط میشود.
برای نمونه، جملهٔ
«شرلوک هولمز درست پیش از ساعت نه وارد اتاق شد»
از نظر دستوری با جملهٔ
«درست پیش از ساعت نه، شرلوک هولمز وارد اتاق شد»
متفاوت است، اما معنای هر دو یکسان است. همچنین جملهٔ
«چند دقیقه مانده به ساعت نه، شرلوک هولمز با سرعت وارد اتاق شد»
از واژههای متفاوتی استفاده میکند، اما معنایی بسیار مشابه دارد.
از سوی دیگر، ممکن است جملهای از نظر نحوی کاملاً درست باشد اما هیچ معنای قابلفهمی نداشته باشد. نمونهٔ کلاسیک این موضوع جملهٔ چامسکی است:
«ایدههای سبز بیرنگ با شدّت میخوابند.»
این جمله از نظر ساختار کاملاً صحیح است، اما معنای منطقی ندارد.
بنابراین، برای اینکه یک سامانهٔ هوشمند بتواند زبان انسان را تحلیل یا تولید کند، به درک درست هم نحو و هم معناشناسی نیاز دارد.
گرامرِ مستقل از بافت (Context-Free Grammar):
گرامر صوری مجموعهای از قواعد است که امکان تولید جملهها را در یک زبان فراهم میکند. در گرامر مستقل از بافت، متن از معنای خود جدا میشود تا ساختار جمله تنها بر اساس قواعد نحوی و بهصورت صوری نمایش داده شود.
به جملهٔ زیر توجه کنید:
- She saw the city.
این جمله ساده و دستوری است و هدف ما ساختن یک درخت نحوی برای نمایش ساختار آن است.
نخست، هر واژه را بر اساس نقش دستوری آن مشخص میکنیم.
واژههای she و city اسماند و آنها را با N نشان میدهیم.
واژهٔ saw فعل است و با V مشخص میشود.
واژهٔ the یک تعیینکننده است که اسم بعدی را تعریف یا نامعین میکند و با D نمایش داده میشود.
بنابراین جمله را میتوان به شکل زیر بازنویسی کرد:
-
N V D N
تا این مرحله، معنای واژهها را نادیده گرفته و تنها نقشهای دستوریشان را در نظر گرفتهایم.
اما واژهها در جمله با یکدیگر پیوند دارند و برای تحلیل جمله لازم است این پیوندها را تشخیص دهیم.
- گروه اسمی (Noun Phrase – NP) مجموعهای از واژههاست که حول یک اسم شکل میگیرند.
در این جمله، she یک گروه اسمی است.
همچنین the city نیز یک گروه اسمی تشکیل میدهد که شامل یک تعیینکننده و یک اسم است. - گروه فعلی (Verb Phrase – VP) نیز گروهی از واژههاست که به فعل وابستهاند.
در سادهترین حالت، saw خود یک گروه فعلی است؛ اما عبارت saw the city نیز یک گروه فعلی کامل است که دربرگیرندهٔ یک فعل و یک گروه اسمی است — گروه اسمیای که خود از یک تعیینکننده و یک اسم تشکیل شده.
در نهایت، کل جمله (S) را میتوان به صورت زیر نمایش داد:
آموزش هوش مصنوعی

با استفاده از گرامر صوری، یک سامانهٔ هوش مصنوعی قادر میشود ساختار جملهها را بازنمایی کند. در گرامری که تاکنون توصیف شد، قواعد کافی برای نمایش جملهٔ سادهٔ پیشین وجود دارد. با این حال، برای نمایش جملههای پیچیدهتر، باید قواعد بیشتری به گرامر صوری اضافه کنیم.
Nltk:
همانگونه که در بسیاری از حوزههای پایتون رایج است، کتابخانههای متعددی برای پیادهسازی این مفاهیم طراحی شدهاند. یکی از مهمترین این کتابخانهها nltk (Natural Language Toolkit) است. برای تحلیل جملهٔ پیشین، کافی است مجموعهای از قواعد دستوری را در اختیار این ابزار قرار دهیم تا بتواند ساختار جمله را مطابق گرامر تعیینشده تشخیص دهد.
هوش مصنوعی
import nltk
grammar = nltk.CFG.fromstring("""
S -> NP VP
NP -> D N | N
VP -> V | V NP
D -> "the" | "a"
N -> "she" | "city" | "car"
V -> "saw" | "walked"
""")
parser = nltk.ChartParser(grammar)
بهشیوهای مشابه آنچه پیشتر انجام دادیم، تعیین میکنیم که هر جزء زبانی چگونه میتواند شامل اجزای دیگر باشد. یک جمله میتواند از یک گروه اسمی (NP) و یک گروه فعلی (VP) تشکیل شود، و هر یک از این گروهها نیز ممکن است خود شامل گروهها یا اجزای دیگری باشند؛ مانند گروههای اسمی کوچکتر، گروههای فعلی، اسمها، فعلها و جزئیات دیگر. در نهایت، هر نقش دستوری مجموعهای از واژههای موجود در زبان را دربرمیگیرد.
هوش مصنوعی
sentence = input("Sentence: ").split()
try:
for tree in parser.parse(sentence):
tree.pretty_print()
tree.draw()
except ValueError:
print("No parse tree possible.")
پس از آنکه جملهٔ ورودی را بهصورت فهرستی از واژهها در اختیار الگوریتم قرار دهیم، این تابع درخت نحوی حاصل را چاپ میکند با استفاده از pretty_print و همچنین یک نمایش گرافیکی از ساختار جمله را نیز تولید میکند با استفاده از draw
آموزش هوش مصنوعی

nگرامها:
nگرام دنبالهای متشکل از n واحد از یک متن است. در nگرامِ کاراکتری، این واحدها کاراکترها هستند و در nگرامِ واژگانی، واحدها واژهها.
یک تکگرام (unigram) شامل یک واحد، دوگرام (bigram) شامل دو واحد و سهگرام (trigram) شامل سه واحد است.
در جملهٔ زیر، سه nگرام نخست عبارتاند از:
«how often have»، «often have I»، و «have I said».
“How often have I said to you that when you have eliminated the impossible whatever remains, however improbable, must be the truth?”
nگرامها در پردازش متن کاربرد فراوان دارند. ممکن است سامانهٔ هوش مصنوعی پیشتر کل جمله را ندیده باشد، اما بهاحتمال زیاد بخشهایی از آن را دیده است؛ مانند «have I said».
از آنجا که برخی واژهها بیش از بقیه همراه یکدیگر ظاهر میشوند، میتوان بر اساس احتمالات، ادامهٔ جمله یا واژهٔ بعدی را پیشبینی کرد. برای نمونه، گوشی هوشمند شما واژههای پیشنهادی را بر اساس توزیع احتمالیای که از آخرین واژههای تایپشده به دست آمده است، ارائه میدهد.
بنابراین، شکستن جملهها به nگرامها یک گام سودمند و اولیه در پردازش زبان طبیعی به شمار میرود.
توکنسازی (Tokenization)
توکنسازی فرایند تقسیم یک رشتهٔ کاراکتر به واحدهای کوچکتر به نام توکن است.
توکن میتواند کلمه باشد یا جمله؛ به همین ترتیب، این کار میتواند توکنسازیِ واژهای یا توکنسازیِ جملهای نامیده شود.
برای آنکه بتوانیم nگرامها را بررسی کنیم، ابتدا باید متن را به توکنها تقسیم کنیم؛ زیرا nگرامها بر پایهٔ دنبالههایی از توکنها ساخته میشوند.
سادهترین راه برای شروع، شکستن متن براساس فاصلهٔ بین کلمات است.
اما این روش کامل نیست، زیرا در نتیجه، کلماتی همراه با نشانهگذاری ظاهر میشوند، مانند:
- «remains,»
- «impossible.»
پس تلاش میکنیم نشانهگذاریها (punctuation) را حذف کنیم؛ ولی این کار مشکلات دیگری ایجاد میکند، مانند:
- کلمات دارای آپوستروف (o’clock)
- کلمات دارای خط تیره (pearl-grey)
علاوه بر این، برخی نشانهگذاریها برای ساختار جمله بسیار مهماند؛ مثلاً نقطه.
اما باید بتوانیم تفاوت بین نقطهٔ پایان جمله و نقطهای که در انتهای کلمهای مانند Mrقرار میگیرد را تشخیص دهیم.
رسیدگی به تمام این موارد بخشی از فرایند توکنسازی است.
پس از آنکه توکنها را بهدرستی استخراج کردیم، اکنون میتوانیم از آنها برای تشکیل nگرامها استفاده کنیم.
مدلهای مارکوف (Markov Models):
همانگونه که در جلسات پیشین توضیح داده شد، مدلهای مارکوف از مجموعهای از گرهها تشکیل میشوند که مقدار هر گره بر اساس توزیع احتمالی وابسته به تعداد محدودی از گرههای پیشین تعیین میشود. یکی از کاربردهای این مدلها، تولید متن است.
برای این منظور، ابتدا مدل را بر روی یک متن آموزش میدهیم و سپس احتمال رخ دادن هر توکن در یک n-گرام را بر اساس n واژهٔ پیش از آن محاسبه میکنیم.
برای مثال، در استفاده از تریگرامها (trigrams)، زمانی که مدل دو واژهٔ نخست را در اختیار دارد، میتواند واژهٔ سوم را مطابق با یک توزیع احتمالی مبتنی بر آن دو واژه انتخاب کند. پس از آن، واژهٔ چهارم بر اساس توزیع احتمالی حاصل از واژهٔ دوم و سوم انتخاب میشود و روند به همین ترتیب ادامه مییابد.
برای مشاهدهٔ پیادهسازی چنین مدلی با استفاده از کتابخانهٔ nltk میتوان به فایل generator.py در کد منبع مراجعه کرد؛ در آنجا مدلی آموزش داده میشود که قادر است جملاتی با حالوهوای مشابه سبک شکسپیر ایجاد کند.
در نهایت، مدلهای مارکوف قادرند متنی تولید کنند که اغلب از نظر ساختار دستوری صحیح بوده و شباهتی سطحی به زبان انسانی دارد؛ اما معمولاً فاقد معنا، انسجام و هدف واقعی است.
مدل کیسهٔ واژگان (Bag-of-Words Model):
مدل «کیسهٔ واژگان» روشی است که در آن متن بهصورت مجموعهای نامرتب از واژهها نمایش داده میشود. در این مدل، ساختار نحویِ جمله نادیده گرفته میشود و تنها وجود یا تکرار واژهها اهمیت دارد. این رویکرد در برخی مسائلِ طبقهبندی، مانند تحلیل احساسات یا تشخیص هرزنامهبودن ایمیل، بسیار سودمند است.
برای نمونه، در تحلیل احساسات مربوط به نقد و بررسی محصولات، هدف آن است که هر متن در دستهٔ «مثبت» یا «منفی» قرار گیرد. به جملات زیر توجه کنید:
- «نوهام عاشقش شد! بسیار سرگرمکننده بود!»
- «محصول پس از چند روز خراب شد.»
- «یکی از بهترین بازیهایی است که پس از مدتها انجام دادهام.»
- «ارزان و بیدوام؛ به درد نمیخورد.»
با تکیه بر خودِ واژهها و بدون توجه به دستور زبان، میتوان دریافت که جملات ۱ و ۳ ماهیتی مثبت دارند («عاشق»، «سرگرمکننده»، «بهترین»). در مقابل، جملات ۲ و ۴ منفی هستند («خراب»، «ارزان»، «بیدوام»).
نِیو بیز (Naive Bayes):
نِیو بیز یک روش آماری است که میتوان آن را در کنار مدل کیسهٔ واژگان برای تحلیل احساسات بهکار برد. در مسئلهٔ تحلیل احساسات، پرسش اصلی این است:
«با توجه به واژههای موجود در جمله، احتمال مثبت یا منفی بودن آن چقدر است؟»
برای پاسخ به این پرسش، باید احتمالهای شرطی را محاسبه کنیم؛ زیرا میخواهیم بدانیم احتمال تعلق یک جمله به یک طبقهٔ خاص (مثبت یا منفی) با توجه به نشانههایی که از متن مشاهده میکنیم، چیست.
در این زمینه، یادآوری قانون بیز که در درس دوم مطرح شد، بسیار مفید خواهد بود.
آموزش هوش مصنوعی

اکنون میخواهیم این فرمول را برای محاسبهٔ P(sentiment | text) بهکار ببریم؛ برای مثال، احتمال مثبت بودن جملهٔ
«my grandson loved it» را بیابیم، یعنی P(positive | “my”, “grandson”, “loved”, “it”).
ابتدا متن ورودی را توکنسازی میکنیم تا جمله به مجموعهای از واژهها تبدیل شود. با استفادهٔ مستقیم از قانون بیز، به عبارت زیر خواهیم رسید:
P(“my”, “grandson”, “loved”, “it” | positive) × P(positive) / P(“my”, “grandson”, “loved”, “it”)
این فرمول پاسخ دقیق احتمال مثبت بودن جمله را ارائه میکند؛ اما محاسبهٔ آن پیچیده و پرهزینه است. برای سادهتر کردن مسئله، میتوانیم تنها مقداری را بیابیم که با احتمال اصلی متناسب باشد، نه لزوماً برابر آن. سپس، در مرحلهٔ نهایی، با توجه به اینکه مجموع احتمالات باید برابر یک باشد، مقدار بهدستآمده را نرمالسازی میکنیم تا به احتمال واقعی تبدیل شود.
بر این اساس، میتوانیم عبارت فوق را به صورت سادهشدهٔ صورت کسر بازنویسی کنیم:
P(“my”, “grandson”, “loved”, “it” | positive) × P(positive)
از آنجا که میدانیم احتمال شرطیِ «a با فرض b» متناسب با احتمال مشترک «a و b» است، این رابطه را میتوان به شکل زیر بازنویسی کرد:
P(positive, “my”, “grandson”, “loved”, “it”) × P(positive)
با این حال، محاسبهٔ این احتمال مشترک دشوار است، زیرا احتمال هر واژه به واژههای پیش از خود وابسته است. محاسبهٔ دقیق نیازمند تعیین مفاهیمی از این دست است:
P(positive) × P(“my” | positive) × P(“grandson” | positive, “my”) × P(“loved” | positive, “my”, “grandson”) × P(“it” | positive, “my”, “grandson”, “loved”)
در این مرحله، فرض سادهکنندهٔ نایو بیز به کار میآید:
فرض میکنیم احتمال هر واژه از احتمال دیگر واژهها مستقل است.
این فرض در واقع درست نیست، زیرا واژهها در زبان طبیعی همبستگی زیادی دارند، اما با وجود این سادهسازی، روش نایو بیز معمولاً تخمینهای بسیار خوبی ارائه میدهد.
با اعمال این فرض استقلال، عبارت پیچیدهٔ پیشین به شکل زیر ساده میشود:
P(positive) × P(“my” | positive) × P(“grandson” | positive) × P(“loved” | positive) × P(“it” | positive)
اکنون محاسبهٔ هر یک از این مؤلفهها آسان است:
- P(positive) برابر است با:
تعداد نمونههای مثبت / تعداد کل نمونهها. - P(“loved” | positive) برابر است با:
تعداد نمونههای مثبت شامل واژهٔ «loved» / تعداد کل نمونههای مثبت.
در ادامه، مثالی ارائه میشود که در آن از دو شکلک خندان و ناراحت بهجای برچسبهای «مثبت» و «منفی» استفاده شده است.
آموزش هوش مصنوعی

- در جدول سمت راست، احتمالهای شرطیِ مربوط به هر واژه (در ستون چپ) مشاهده میشود؛ یعنی احتمال وقوع هر واژه در جملهای که برچسب آن مثبت یا منفی است.
- در جدول کوچک سمت چپ، احتمال کلیِ مثبت یا منفی بودن یک جمله نشان داده شده است.
- در جدول پایینِ سمت چپ، نتایج حاصل از محاسبات قرار دارند. در این مرحله، این مقادیر صرفاً نسبتهای احتمالات را نشان میدهند و بهتنهایی معنای دقیقی از احتمال ارائه نمیدهند. برای تبدیل این مقادیر به احتمال واقعی، باید آنها را نرمالسازی کنیم. پس از نرمالسازی، به نتایج زیر میرسیم:
P(positive) = 0.6837
P(negative) = 0.3163
- قدرت روش نِیو بیز در این است که نسبت به واژههایی حساس است که در یک نوع جمله (مثبت یا منفی) بیشتر تکرار میشوند. برای مثال، در نمونهٔ ما واژهٔ “loved” در جملات مثبت بسیار بیشتر از جملات منفی دیده شده است.بنابراین، وجود این واژه احتمال مثبت بودن جمله را افزایش میدهد. برای مشاهدهٔ پیادهسازی تحلیل احساسات با استفاده از نایو بیز در کتابخانهٔ nltk میتوانید به فایل sentiment.py مراجعه کنید.یکی از مشکلات احتمالی این است که ممکن است برخی واژهها در هیچ جملهٔ متعلق به یک دسته دیده نشوند. فرض کنید در هیچیک از جملات مثبت واژهٔ “grandson” وجود نداشته باشد؛ در این صورت:
P(“grandson” | positive) = 0
و هنگام محاسبهٔ احتمال مثبت بودن جمله، کل حاصلضرب به صفر تبدیل میشود؛ حال آنکه در واقعیت، جملههایی که واژهٔ «grandson» در آنها ظاهر میشود لزوماً منفی نیستند.
- یکی از راههای حل این مشکل، استفاده از هموارسازی جمعی (Additive Smoothing) است. در این روش، عددی به نام α به تمام مقادیر توزیع افزوده میشود تا دادهها هموار شوند. در نتیجه، حتی اگر مقدار احتمالی برابر صفر باشد، با افزودن α از بین نمیرود و احتمال کامل جمله به صفر ضرب نمیشود.نوع خاصی از این روش که هموارسازی لاپلاس (Laplace Smoothing) نام دارد، مقدار ۱ را به همهٔ فراوانیها اضافه میکند؛ بدین معنا که وانمود میکنیم هر واژه حداقل یک بار مشاهده شده است.
آموزش هوش مصنوعی
- ما میخواهیم معنای واژهها را در سامانهٔ هوش مصنوعی بازنمایی کنیم. همانگونه که پیشتر مشاهده کردیم، مناسبترین شیوه برای ارائهٔ ورودی به هوش مصنوعی، استفاده از دادههای عددی است. یکی از روشهای متداول برای این کار، بازنمایی تکداغ (One-Hot Representation) است.در این شیوه، هر واژه با برداری نشان داده میشود که تعداد مؤلفههای آن برابر با تعداد کل واژههاست. در این بردار، تنها یکی از مؤلفهها مقدار ۱ دارد و سایر مؤلفهها برابر ۰ هستند. تمایز میان واژهها از طریق همان موقعیتی ایجاد میشود که مقدار ۱ در آن قرار گرفته است؛ بدین ترتیب، هر واژه دارای برداری منحصربهفرد خواهد بود.برای نمونه، جملهٔ «He wrote a book» را میتوان با چهار بردار نشان داد که هر یک نمایندهٔ یکی از واژههای جمله است.

با این حال، هرچند این شیوهٔ بازنمایی در دنیایی با تنها چهار واژه کارآمد به نظر میرسد، در مقیاسهای بزرگتر—برای مثال زمانی که قصد داشته باشیم واژههای یک فرهنگ لغت با ۵۰ هزار واژه را نمایش دهیم—با مشکلی جدی روبهرو میشویم. در چنین حالتی، باید ۵۰ هزار بردارِ ۵۰ هزارعنصری تولید کنیم، که از نظر محاسباتی و ذخیرهسازی بسیار ناکارآمد است.
آموزش هوش مصنوعی
مسئلهٔ دیگر این روش آن است که نمیتواند شباهت معنایی میان واژهها را بازنمایی کند؛ برای نمونه، در این ساختار هیچ ارتباطی میان واژههای “wrote” و “authored” برقرار نمیشود، در حالی که از نظر معنایی بسیار نزدیکاند.
برای رفع این محدودیتها، رویکردی متفاوت به نام بازنمایی توزیعی (Distributed Representation) مطرح میشود. در این روش، معنا در میان چندین مقدار عددی در یک بردار پخش میشود. هر واژه با برداری نسبتاً کوتاه (بهمراتب کوتاهتر از ۵۰ هزار مؤلفه) نمایش داده میشود و این مقادیر به گونهای انتخاب میشوند که بتوانند شباهت معنایی میان واژهها را نیز منعکس کنند. شکل کلی این نوع بردارها به صورت زیر است:

آموزش هوش مصنوعی
این رویکرد به ما امکان میدهد که برای هر واژه برداری یکتا تولید کنیم، بیآنکه مجبور باشیم از بردارهای بسیار بزرگ استفاده کنیم. افزون بر این، اکنون میتوانیم شباهت میان واژهها را نیز بر اساس میزان تفاوت یا نزدیکی مقادیر موجود در بردارهای آنها بازنمایی کنیم.
جملهٔ مشهور «معنای یک واژه را میتوان از همراهانی که در کنار آن ظاهر میشوند شناخت» از زبانشناس انگلیسی، جان روپرت فرث، مبنای نظری مهمی در پردازش زبان طبیعی است. بر اساس این ایده، میتوان واژهها را از طریق واژههایی که معمولاً در کنار آنها میآیند تعریف کرد.
برای نمونه، تنها تعداد محدودی از واژهها میتوانند جای خالی جملهٔ «for ___ he ate» را پر کنند. واژههایی مانند breakfast، lunch و dinner از گزینههای معقول هستند. این مشاهده ما را به این نتیجه میرساند که با بررسی بافت (Context) یا محیطی که واژهها در آن ظاهر میشوند، میتوانیم به معنای آنها پی ببریم.
word2vec:
Word2vec الگوریتمی است برای تولید بازنماییهای توزیعشده از واژهها. این الگوریتم از معماری Skip-Gram بهره میگیرد؛ معماریای مبتنی بر شبکههای عصبی که در آن، مدل میکوشد با داشتن یک واژهٔ هدف، واژههای پیرامونی یا واژههایی را که معمولاً در همان بافت ظاهر میشوند پیشبینی کند.
در این ساختار، شبکهٔ عصبی دارای یک لایهٔ ورودی است که برای هر واژهٔ هدف یک واحد مشخص دارد. سپس یک لایهٔ پنهان کوچک—معمولاً با ۵۰ یا ۱۰۰ واحد (اما این تعداد قابل تغییر است)—وجود دارد که مقادیر حاصل از آن همان بازنمایی توزیعشدهٔ واژهها را شکل میدهد. هر واحد در این لایهٔ پنهان به تمامی واحدهای لایهٔ ورودی متصل است.
در نهایت، لایهٔ خروجی واژههایی را تولید میکند که احتمال دارد در همان بافت معناییِ واژهٔ هدف ظاهر شوند. همانند آنچه در جلسهٔ پیش مشاهده کردیم، این شبکه نیز باید با استفاده از یک مجموعهدادهٔ آموزشی و از طریق الگوریتم پسانتشار خطا (Backpropagation) آموزش داده شود تا بتواند بازنماییهای دقیق و معناداری از واژهها بیافریند.

آموزش هوش مصنوعی
این شبکهٔ عصبی در عمل توانمندی چشمگیری دارد. در پایان فرایند آموزش، هر واژه بهصورت صرفاً یک بردار یا سلسلهای از اعداد بازنمایی میشود. برای مثال:

بهخودیِ خود، این اعداد معنای خاصی ندارند. اما با سنجش اینکه کدام واژههای دیگر در پیکرهٔ زبانی، بردارهایی مشابهتر دارند، میتوان تابعی اجرا کرد که واژههای بیشترین قرابت معنایی با book را بازتولید کند. در مورد این شبکه، خروجی چنین خواهد بود: book، books، essay، memoir، essays، novella، anthology، blurb، autobiography، audiobook. این نتیجه برای یک رایانه چندان کماهمیت نیست!
مجموعهای از اعداد که بهتنهایی حامل هیچ معنای مشخصی نیستند، به شبکه اجازه میدهند واژههایی را بیابد که نه از نظر نوشتار یا آوا، بلکه از نظر معنا به book نزدیکاند.
آموزش هوش مصنوعی
همچنین میتوانیم با سنجش میزان اختلاف میان بردارها، فاصلهٔ معنایی میان واژهها را اندازهگیری کنیم. برای مثال، تفاوت میان king و man مشابه تفاوت میان queen و woman است. به بیان دیگر، اگر اختلاف بردارهای king و man را به بردار woman اضافه کنیم، نزدیکترین بردار به نتیجه، واژهٔ queen خواهد بود. بهطور مشابه، اگر اختلاف میان ramen و japan را به america بیفزاییم، خروجی به واژهٔ burritos میرسد.
با بهرهگیری از شبکههای عصبی و بازنمایی توزیعی واژهها، میتوانیم به هوش مصنوعی توانایی درک شباهتهای معنایی میان واژههای زبان را بدهیم؛ تواناییای که ما را یک گام دیگر به ساخت سامانههایی نزدیک میکند که قادر به فهم و تولید زبان انسانیاند.
شبکههای عصبی:
به یاد داریم که یک شبکهٔ عصبی ورودی را دریافت میکند، آن را در شبکه پردازش میکند و در نهایت خروجیای تولید میکند. هنگامی که دادههای آموزشی در اختیار شبکه قرار میگیرد، شبکه بهتدریج در تبدیل ورودیها به خروجیهای دقیقتر توانمندتر میشود. یکی از کاربردهای رایج این شبکهها، ترجمهٔ ماشینی است.
در عمل، هنگام ترجمهٔ واژهها، هدف ترجمهٔ یک جمله یا یک بند است. از آنجا که طول جمله ثابت نیست، با مسئلهٔ ترجمهٔ «یک دنباله به دنبالهای دیگر با طول متغیر» روبهرو میشویم. اگر تاکنون با یک چتبات گفتوگو کرده باشید، میدانید که سامانه باید یک دنبالهٔ از کلمات را درک کند و سپس دنبالهای مناسب را بهعنوان پاسخ تولید نماید.
شبکههای عصبی بازگشتی
شبکههای عصبی بازگشتی (RNN) با اجرای چندبارهٔ یک شبکه و نگهداشتن حالتی که اطلاعات مرتبط را ذخیره میکند، این چالش را مدیریت میکنند. ورودی نخست وارد شبکه میشود و یک «حالت پنهان» میسازد. سپس، ورودی دوم همراه با حالت پنهان قبلی وارد رمزگذار میشود و حالت پنهان جدیدی را شکل میدهد. این روند تا رسیدن به نشانهٔ پایان ادامه مییابد.
پس از آن، مرحلهٔ رمزگشایی آغاز میشود؛ شبکه یکی پس از دیگری حالتهای پنهان را میسازد تا سرانجام به واژهٔ نهایی و نشانهٔ پایان خروجی برسد.
چالشها
با وجود کارآمدی RNNها، دو مشکل اساسی در این روش دیده میشود:
- فشردهسازی تمام اطلاعات در یک حالت نهایی
در مرحلهٔ رمزگذاری، تمام اطلاعات ورودی باید در یک حالت نهایی ذخیره شود. برای دنبالههای طولانی، قرار دادن این حجم از اطلاعات در یک حالت منفرد بسیار دشوار است. - اهمیت نابرابر واژهها در توالی
در یک جمله، همهٔ واژهها اهمیت یکسان ندارند. برخی واژهها نقش کلیدیتری در معنا دارند. بنابراین پرسش این است که آیا میتوان روشی داشت که تعیین کند کدام حالتها (یا کلمات) از اهمیت بیشتری برخوردارند؟
توجه: (Attention)
«توجه» به توانایی شبکهٔ عصبی اشاره دارد که تشخیص دهد کدام بخشهای ورودی اهمیت بیشتری دارند. برای مثال، در جملهٔ «پایتخت ماساچوست چیست؟»، سازوکار توجه به شبکه کمک میکند هنگام تولید پاسخ، تصمیم بگیرد در هر مرحله بر کدام واژهها تمرکز کند.
در چنین محاسباتی، شبکهٔ عصبی نشان میدهد که هنگام تولید آخرین واژهٔ پاسخ، دو واژهٔ «capital» و «Massachusetts» بیشترین اهمیت را دارند. شبکه با گرفتن «امتیازهای توجه»، ضرب آنها در حالتهای پنهان تولیدشده و سپس جمعکردن نتیجهها، یک «بردار زمینهٔ نهایی» میسازد؛ برداری که رمزگشا از آن برای محاسبهٔ واژهٔ نهایی استفاده میکند.
با این حال، رویکردهای مبتنی بر شبکههای بازگشتی با چالشی مهم مواجهاند:
لزوم آموزش ترتیبی، واژهبهواژه و گامبهگام. این ویژگی فرایند آموزش را بسیار زمانبر میکند؛ مشکلی که با افزایش اندازهٔ مدلهای زبانی و گسترش مجموعههای داده هر روز شدیدتر میشود.
در نتیجه، نیاز به پردازش موازی بهطور چشمگیری افزایش یافته است. همین نیاز، زمینهساز معرفی معماری جدیدی شد که امروز اساس بسیاری از مدلهای پیشرفتهٔ زبانی به شمار میآید.
ترنسفورمرها (Transformers):
«ترنسفورمر» نسل جدیدی از معماریهای آموزش شبکههای عصبی است که در آن، تمام واژههای ورودی بهصورت همزمان وارد شبکه میشوند. هر واژه پس از ورود، از میان یک شبکهٔ عصبی عبور میکند و به شکلی «رمزشده» (encoded representation) بازنمایی میشود.
از آنجا که همهٔ واژهها به طور موازی پردازش میشوند، ترتیب واژهها ممکن است از دست برود.
به همین دلیل، رمزگذاری موقعیت (positional encoding) به ورودی اضافه میشود تا شبکه، علاوه بر خودِ واژه، از جایگاه آن در جمله نیز آگاه باشد.
علاوه بر این، مرحلهای به نام خودتوجهی (self-attention) به مدل افزوده میشود که به شبکه کمک میکند با توجه به سایر واژههای جمله، معنای دقیقتر و بافت مناسبتری از هر واژه استخراج کند. معمولاً چندین لایهٔ خودتوجهی پشتسر هم استفاده میشود تا شبکه بتواند وابستگیها و روابط پیچیدهتری را میان واژهها درک کند. این فرایند برای تمامی واژههای دنبالهٔ ورودی تکرار میشود و در نهایت، مجموعهای از بازنماییهای رمزشده به دست میآید که برای مرحلهٔ «رمزگشایی» بسیار کارآمد هستند.
در مرحلهٔ رمزگشایی، واژهٔ خروجی قبلی همراه با رمزگذاری موقعیت آن، وارد چندین مرحلهٔ خودتوجهی و سپس شبکهٔ عصبی میشود. علاوه بر این، لایههای توجه دیگری نیز وجود دارند که بازنماییهای رمزشدهٔ مرحلهٔ رمزگذاری را دریافت میکنند و در اختیار رمزگشا قرار میدهند. بدین ترتیب،
واژههای خروجی میتوانند انحصاراً بر یکدیگر و همچنین بر واژههای ورودی تمرکز کنند.
ترنسفورمرها این امکان را فراهم میکنند که پردازش بهطور کامل موازی انجام شود؛ نتیجه آن است که محاسبات سریعتر، دقیقتر و مقیاسپذیرتر از معماریهای پیشین—بهویژه شبکههای بازگشتی—خواهد بود. همین ویژگیها سبب شده است که ترنسفورمرها به معماری اصلی در مدلهای زبانی پیشرفتهٔ امروزی تبدیل شوند.
جمعبندی:
- در این مسیر، هوش مصنوعی را در مجموعهای گسترده از زمینهها بررسی کردیم. ابتدا با مسائل جستوجو آشنا شدیم و دیدیم که یک سامانهٔ هوشمند چگونه میتواند برای یافتن راهحلها در فضاهای پیچیده جستوجو کند. سپس آموختیم که هوش مصنوعی چگونه دانش را بازنمایی میکند و از آن دانش، آگاهیهای جدید به دست میآورد.
- در ادامه، با مفهوم عدم قطعیت روبهرو شدیم؛ شرایطی که در آن سیستم همه چیز را بهطور کامل نمیداند، اما همچنان باید بهترین تصمیم ممکن را اتخاذ کند. همچنین با بهینهسازی آشنا شدیم؛ فرایندی برای بیشینهسازی یا کمینهسازی یک تابع برای رسیدن به کاراترین نتیجه.
- در بخشهای بعد، وارد حوزهٔ یادگیری ماشین شدیم—جایی که سیستم با مشاهدهٔ دادههای آموزشی، الگوها را کشف میکند. سپس شبکههای عصبی را بررسی کردیم و دیدیم چگونه وزنها و پارامترها امکان تبدیل ورودیها به خروجیها را فراهم میکنند.
- در نهایت، به سراغ پردازش زبان طبیعی رفتیم و تلاش کردیم بفهمیم چگونه میتوان رایانه را قادر ساخت زبان انسان را درک کند و به آن واکنش نشان دهد. آنچه بررسی کردیم، تنها مقدمهای بر این جهان گسترده است.
- امیدواریم این مسیر یادگیری برای شما ارزشمند و الهامبخش بوده باشد. این دوره، مقدمهای بر هوش مصنوعی با پایتون بود.
خلاصهٔ :
- این درس به بررسی شیوههایی میپردازد که هوش مصنوعی از طریق آنها قادر میشود زبان انسانی را درک و پردازش کند. ابتدا مفهوم پردازش زبان طبیعی (NLP) و نمونههایی از کاربردهای آن معرفی میشود؛ از جمله خلاصهسازی خودکار، استخراج اطلاعات، تشخیص زبان، ترجمهٔ ماشینی، بازشناسی گفتار، طبقهبندی متون و تشخیص معنای درست واژهها در بافت جمله.
آموزش هوش مصنوعی
- در بخش نخست، دو مؤلفهٔ بنیادین زبان یعنی نحو (Syntax) و معناشناسی (Semantics) بررسی میشود. سپس مفهوم دستور زبان مستقل از متن (Context-Free Grammar) معرفی میگردد که امکان نمایش ساختار یک جمله از طریق قواعد صوری را فراهم میکند. کتابخانهٔ nltk نمونهای از ابزارهایی است که برای تحلیل نحوی و ساخت درختهای تجزیه مورد استفاده قرار میگیرد.
- در ادامه، درس به الگوهای آماری زبان میپردازد. n-gramها به عنوان توالیهای پرکاربردی از واژهها یا حروف معرفی میشوند که میتوانند احتمال رخداد واژهٔ بعدی را پیشبینی کنند. سپس اهمیت توکنسازی (Tokenization) توضیح داده میشود که نخستین گام در بیشتر پردازشهای زبانی است.
- پس از آن، مدلهای زبانی مبتنی بر مارکوف مطرح میشوند که میتوانند با تکیه بر احتمال رخداد توالیهای کوتاه، جملات جدید تولید کنند. هرچند این مدلها قادرند خروجیهایی شبیه زبان طبیعی ایجاد کنند، اما فاقد درک معناییاند.
آموزش هوش مصنوعی
- سپس درس به مدل کیسهٔ واژگان (Bag-of-Words) و کاربرد آن در تحلیل احساسات میپردازد. روش بیز ساده (Naive Bayes) معرفی میشود که با فرض استقلال سادهسازانهٔ واژهها، احتمال مثبت یا منفی بودن یک متن را محاسبه میکند. مسئلهٔ صفر بودن احتمالها و راهکار هموارسازی لاپلاس نیز بررسی میشود.
- در بخش بعد، موضوع نمایش عددی واژهها مطرح میشود. ابتدا محدودیتهای نمایش تکداغ (One-Hot) بررسی میشود و سپس نمایش توزیعی (Distributed Representation) توضیح داده میشود؛ نمایشی که شباهت معنایی واژهها را نیز حفظ میکند. این مفهوم زمینهساز معرفی الگوریتم word2vec است که با یادگیری بردارهای معنایی، توانایی کشف شباهتها و روابط معنایی میان واژهها را به هوش مصنوعی میدهد.
- در پایان، درس به شبکههای عصبی پردازش زبان میرسد. محدودیتهای شبکههای بازگشتی مطرح شده و نقش مکانیسم توجه (Attention) در تمرکز بر بخشهای مهم جمله توضیح داده میشود. نهایتاً، ساختار ترنسفورمر (Transformer) معرفی میشود که با بهرهگیری از توجه خود-بازگشتی و پردازش موازی، بنیان بسیاری از مدلهای زبانی مدرن را تشکیل میدهد.



دیدگاهتان را بنویسید