متد محتوا محور در مقایسه با متد فیلترینگ اشتراکی دارای مزایایی به شرح زیر است:
۳-۳-۱- استقلال کاربر
متد محتوا محور به امتیازهای کاربر فعال برای ساختن نمایه از او احتیاج دارد. در حالی که متد فیلترینگ اشتراکی به امتیازهای کاربران همسایه برای تشکیل مجموعه همسایگی کاربر فعال نیاز دارد.
( اینجا فقط تکه ای از متن پایان نامه درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
۳-۳-۲-شفافیت
به عنوان دلیل برای پیشنهاد یک قلم به کاربر در سیستمهای محتوا محور میتوان ویژگیهای آن قلم را ارائه داد. در حالی که متد فیلترینگ اشتراکی جعبه سیاه است و تنها دلیل برای پیشنهاد قلم به کاربر فعال این است که کاربرانی ناشناس که سلیقهشان مشابه با کاربر فعال بوده آن قلم را دوست داشته اند.
۳-۳-۳- قلم جدید
روش محتوا محور مشکل شروع سرد که در متد فیلترینگ اشتراکی موجود میباشد را ندارد. و می تواند قلمی را که تا کنون توسط هیچ کاربری امتیازدهی نشده است، به کاربر فعال پیشنهاد دهد.
۳-۴- معایب روش محتوا محور
متد محتوا محور دارای معایبی نیز میباشد که در ادامه شرح داده شده اند:
۳-۴-۱- کمبود محتوا
اگر اطلاعات توصیفی مربوط به اقلام کافی نباشد نمی توان به درستی اقلام مورد علاقه کاربر را از اقلامی که به آنها علاقهای ندارد متمایز کرد. بنابراین نمی توان توسط این متد پیشنهادات صحیح و مناسبی ارائه نمود
۳-۴-۲- خصوصی سازی افزون
متد محتوا محور اقلامی که مطابق با نمایه ساخته شده از علاقه مندیهای کاربر است را به او پیشنهاد میدهد. اقلامی که پیشنهاد میشوند شبیه به اقلامی هستند که در گذشته کاربر به آنها امتیاز بالایی داده است. بنابراین در این سیستمها هیچ گاه تازگی وجود ندارد.
۳-۴-۳- کاربر جدید
در متد محتوا محور کاربر باید به تعداد قابل ملاحظهای از اقلام امتیاز داده باشد تا نمایهای صحیح از علاقه مندیهای او ساخته شود. بنابراین پشنهاد ارائه شده به کاربر جدیدی که به تعداد کافی اقلام رای نداده است، قابل اطمینان نمی باشد.
فصل چهارم
روش پیشنهادی
۴- روش پیشنهادی
۴-۱- پیشگفتار
مبنای کار این پایان نامه، روش فیلترینگ اشتراکی مبتنی بر کاربران میباشد. در این روش، روند کار به این صورت است که کاربران مشابه بر اساس نحوه امتیازدهیشان به اقلام شناسایی شده سپس امتیاز اقلامی که تا کنون دیده نشدهاند پیش بینی و در نهایت اقلامی که امتیاز بالا دارند به کاربر پیشنهاد می شود. در این روش، تمامی اقلام به طور یکسان در تعیین میزان شباهت بین کاربران تاثیر گذارند. ولی در واقعیت برای پیش بینی امتیاز قلم هدف، شباهت نحوه امتیازدهی کاربران به اقلام شبیه به قلم هدف، دارای اهمیت بیشتری نسبت به سایر اقلام میباشد. راهکارهای گوناگونی برای تعیین میزان تاثیر گذاری اقلام در فیلترینگ اشتراکی ارائه شده است که در ادامه به اختصار شرح داده شده اند.
۴-۲- مروری بر کارهای انجام شده در این راستا
در [۴۷] از معیار فرکانس معکوس سند[۵۴] که معیاری معروف در بازیابی اطلاعات میباشد، برای وزندهی به اقلام در سیستمهای فیلترینگ اشتراکی استفاده شده است. ایده اصلی این راهکار فرکانس معکوس کاربر نام دارد. یعنی اقلامی که در بین عموم کاربران دارای محبوبیت هستند نمی توانند به درستی بیانگر علائق یک کاربر باشند. بنابراین باید به این اقلام وزن کمتری نسبت به سایر اقلام اختصاص داد.
در [۴۸] نیز ایده مشابه با ایده قبل مطرح شده است. در این روش برای کاهش وزن اقلام محبوب از راهکار پراکندگی استفاده شده است. بدین صورت که به اقلامی که از لحاظ امتیاز، پراکندگی بیشتری دارند وزن بیشتر اختصاص مییابد.
در [۴۹] راهکاری مبتنی بر تئوری اطلاعات ارائه شده است. در این راهکار با بهره گرفتن از معیار اطلاعات متقابل[۵۵] و آنتروپی[۵۶]، میزان وابستگی بین قلم هدف و اقلام دیگر تعیین و بر این اساس به اقلام وزن تخصیص داده می شود.
در [۵۰] یک روش وزندهی اتوماتیک ارائه شده است که از ایده مربوط به سیستمهای مبتنی بر مدل استفاده می کند. این روش توسط ماکزیمم کردن میانگین شباهت بین کاربران، به اقلام وزن میدهد. به گونه ای که کاربر را به کسانی که با او سلیقه مشابه دارند شبیهتر و از کسانی که با او اختلاف سلیقه دارند متمایزتر می کند.
به دلیل متناقض بودن نتایج گزارش شده از انواع روشهای ارائه شده، در [۵۱] مقایسه ای بین انواع روشهای وزندهی به اقلام انجام شده است. همچنین سه روش برای فیلتر کردن اقلام بر اساس وزنهای تخصیص یافته به آنها معرفی شده است.
در [۵۲]مشکل یکسان بودن وزن اقلام و پراکندگی سیستمهای فیلترینگ اشتراکی توسط شباهت محلی و سراسری کاربران حل شده است. بدین صورت که شباهت محلی بین کاربران با کاستن تاثیر اقلام محبوب در بین عموم محاسبه می شود. این کار با در نظر گرفتن امتیازهای هر قلم به عنوان یک متغیر تصادفی از توزیع لاپلاس انجام می شود.
در [۵۳] راهکاری نوین برای وزندهی به اقلام و غلبه بر مشکل پراکندگی ارائه شده است. این راهکار بر اساس تجزیه و تحلیل معنایی نهفته[۵۷] و استفاده از روش تجزیه منحصر به فرد[۵۸] میباشد.
در [۵۴] مشکل شروع سرد در خلال وزندهی به اقلام مورد بررسی قرار گرفته است. وزندهی به اقلام بر اساس کاهش تاثیر اقلام محبوب توسط دو روش فرکانس معکوس کاربر و وزندهی خطی انجام شده است.
۴-۳- مقدمهای بر روش پیشنهادی
اکثر روشهایی که تا کنون برای تخصیص وزن به اقلام ارائه شده اند از اطلاعات آماری اقلام یعنی امتیازهای تخصیص داده شده به آنها استفاده کرده اند. در حالی که میتوان از محتوای مربوط به اقلام برای تعیین شباهت و وزندهی به آنها استفاده نمود. به دلیل اینکه پایگاه داده های مورد استفاده در این پایان نامه MovieLens و EachMovie است و هر دو مربوط به فیلم میباشند، منظور از اقلام همان فیلمهای موجود در این پایگاه داده میباشد. در این پایان نامه به منظور استفاده از روش محتوا محور، ویژگی ژانرها، کارگردانان و بازیگران هر فیلم مورد بررسی قرار گرفته است. ژانر هر فیلم مشخص کننده دسته فیلم است. بعنوان مثال اگر ژانر فیلمی کمدی- درام باشد یعنی آن فیلم به دو دسته کمدی و درام تعلق دارد. در پایگاه داده های مذکور، اطلاعات مربوط به ژانر هر فیلم موجود میباشد. بعنوان مثال در پایگاه داده MovieLens، ۱۹ ژانر وجود دارد که هر فیلم حداقل ۱ و حداکثر ۳ ژانر دارد. علاوه بر ویژگی ژانر هر فیلم از داده های دیگر نظیر ویژگیهای کارگردانان و بازیگران هر فیلم نیز استفاده شده است. این ویژگیها در پایگاه داده وجود ندارند و باید از پایگاه داده های Linked Open Data(LOD)، نظیر DBpedia استخراج گردند. شایان ذکر است استفاده از داده های تکمیلی به منظور وزندهی دقیقتر اقلام توسط روش محتوا محور و به دنبال آن بالا بردن دقت پیش بینی در سیستمهای فیلترینگ اشتراکی میباشد.
۴-۴- روش پیشنهادی
روش ارائه شده از ۳ مرحله مجزا تشکیل شده است:
۱- پیش پردازش
۲- تخصیص وزن به اقلام بر اساس روش محتوا محور
۳- استفاده از وزنهای تخصیص داده شده به اقلام در دو فاز انتخاب همسایگی و پیش بینی، در روش فیلترینگ اشتراکی
در ادامه شرح مراحل بالا به تفصیل توضیح داده شده است.
۴-۴-۱- پیش پردازش
همانگونه که در قبل بیان شد برای استفاده از ویژگیهای بازیگران و کارگردانان مربوط به هر فیلم در روش محتوا محور ، نیازمند به استخراج آنها میباشیم. از آنجا که پایگاه داده های مورد استفاده در این پایان نامه MovieLensو EachMovie میباشد، در ادامه نحوه استخراج اطلاعات مورد نیاز مربوط به فیلمهای موجود در هر یک از این دو پایگاه داده توضیح داده شده است.
۴-۴-۱-۱- پیش پردازش بر روی پایگاه داده MovieLens
DBPedia اطلاعات موجود در WikiPedia را به صورت سازماندهی شده استخراج کرده و در دسترس قرار داده است. به منظور استفاده از اطلاعات سازماندهی شده مربوط به فیلمها، یک درخواست براساس عنوان فیلم در زبان SPARQL طراحی و با بهره گرفتن از متد PostURL به سرور DBPedia[59] ارسال می شود. نمونهای از درخواست طراحی شده در ادامه قابل مشاهده میباشد:
SELECT ?film_title ?star_name ?nameDirector {
{
SELECT DISTINCT ?movies ?film_title
WHERE {
?movies rdf:type
<http://dbpedia.org/ontology/Film>;
rdfs:label ?film_title.