خانه / آموزش ها / دانلود دیتا ست Epinions

دانلود دیتا ست Epinions

یک سیستم توصیه گر به دنبال پیش بینی نرخ کاربر هدف به هر یک از آیتم ها و سپس ارائه ی پیشنهاد آیتم هایی به کاربر هدف است که بالاترین مقدار نرخ محاسبه شده توسط سیستم را دارند. در واقع این نرخ پیش بینی شده نمایان گر تشخیص سیستم از میزان علاقه ای است که کاربر هدف به یک آیتم دارد. حال هر چه این مقدار پیش بینی شده به واقعیت نزدیک تر باشد، تشخیص سیستم و ارائه ی پیشنهاداتش دقیق تر خواهد بود. برای اندازه گیری خطای یک سیستم توصیه گر، به دو گونه عمل می شود: آفلاین و آنلاین.

روش عمده در ارزیابی آنلاین، محاسبه ی میزان رضایت کاربران از ارائه ی پیشنهادات است. به عنوان یک راه اندازه گیری این رضایت، می توان پس از پیش بینی نرخی که کاربر ممکن است به یک آیتم بدهد و ارائه ی پیشنهاد آیتم های با بالاترین مقدار نرخ، به طور مستقیم از کاربر انسانی، میزان نزدیکی این پیشنهادات را با علایق واقعی وی را پرسید و به بیانی دیگر، به کاربران هدف اجازه دهیم تا خودشان سیستم را ارزیابی کنند. هم چنین می توان به طور غیرمستقیم عمل کرد. به بیان دقیق تر، اندازه گیری میزان اشتراک مجموعه  آیتم های پیشنهادی با مجموعه آن هایی که کاربر در آینده نرخ می دهد، راهی غیر مستقیمی در محاسبه ی میزان رضایت کاربر در یک ارزیابی آنلاین می باشد. برای توضیح بیش تر، باید بگوییم که در این روش مجموعه ی پیشنهادی را تشکیل داده و سپس منتظر بازدید و نرخ های جدید کاربر می شویم. با محاسبه ی میزان اشتراک این در مجموعه، میزان ارزیابی نسبتاً دقیقی از سیستم را انجام داد. البته در ارزیابی آنلاین یک سیستم توصیه گر، باید مراقب تغییر سلیقه های کاربران باشیم. این تغییر معمولاً خیلی زیاد نیست و باز هم می توان گفت که ارزیابی آنلاین روشی مناسب در مقایسه ی یک الگوریتم توصیه گر با انواع مشابه می باشد.

به هرحال، یکی از مشکلات عمده ی ارزیابی آنلاین، زمان زیادی است که باید منتظر بود تا کاربران در سیستم ثبت نام کرده، از آیتم ها بازدید کنند و پس از مدتی نیز نرخی به آیتم های بازدیدی دهند. معمولاً زمان این روش آن قدر زیاد می باشد که می توان گفت انتخاب روش ارزیابی آنلاین، برای مقایسه ی یک الگوریتم پیشنهادی تحقیقاتی که در یک پایان نامه ارشد ارائه شده، تصمیم گیری درستی نیست. پس بنابراین ما در جهت ارزیابی الگوریتم پیشنهادی خود، روش آفلاین را انتخاب کرده ایم. منتهی ممکن است سؤال زیر در ابتدا به ذهن خطور نماید:

“علایق واقعی کاربران موجود در مجموعه داده های آفلاین خود را چگونه تشخیص می دهید؟ تا با استفاده از آن بتوانید مقدار صحت پیشنهادات خود را محاسبه کرده و در کل به ارزیابی سیستم خود بپردازید.”

در پاسخ باید گفت که:

برای ارزیابی آفلاین[۱] یک سیستم توصیه گر با استفاده از مجموعه داده ای موجودمثل EpinionsAll، نیازی به تشخیص علایق واقعی کاربران مورد ارزیابی نیست. در واقع می توان با پیش بینی درصدی از نرخ های یک کاربر و سپس مقایسه آن با مقادیر واقعی نرخ ها، مقدار خطا  و دقت سیستم توصیه گر را بدست آورد. روند کامل  این نوع ارزیابی در ادامه را توضیح داده شده است.

۱-۱- آزمایشات تجربی آفلاین با استفاده از مجموعه داده های آماده

راه اندازی آزمایشی که در علوم کامپیوتر و عموماً زیرحوزه های مثالی یادگیری ماشین یا استخراج اطلاعات پرکاربرد است، به مجموعه داده هایی گفته می شود که شامل داده های پیشینه ای /مصنوعی و ترکیبی  تعاملات کاربر  باشد.

ایده  اساسی روش مذکور این است که مجموعه ای از پروفایل های کاربران، شامل ترجیحات آن ها مثل نرخ ها و تعاملات خرید و یا پیشینه کلیک های آنها، موجود باشد که بتوان آن را به دو قسمت مجزای آموزش  و آزمون  تقسیم کرد. الگوریتم ها سپس قسمت آموزشی را استفاده می کنند تا پیش بینی ها را در مورد قسمت پنهان آزمونی انجام دهند. مزیت این روش در آن است که می توان عملکرد[۳] الگوریتم های مختلف را با هم مقایسه کرد. و هم چنین قابلیت تنظیمات دلخواه اولیه روی بستر ارزیابی یک الگوریتم خاص، وجود دارد. به عبارت دیگر، برای مثال، می توان جهت ارزیابی الگوریتمی که به سمت حل مشکل شروع آهسته در سیستم های توصیه گر حرکت می کند، داده های آموزشی را طوری انتخاب کرد تا تُنُکی داده ها، و در نتیجه تعداد آیتم ها و یا کاربران با نرخ کم، زیاد باشد. اما به هر حال این خطر احتمالی، برای ارزیابی صحت پیشنهادات یک سیستم توصیه گر، وجود دارد که مجموعه داده های مصنوعی و شبیه سازی شده به سمت الگوریتمی خاص گرایش داشته باشند و در نتیجه با دیگر الگوریتم ها نامنصفانه رفتار کنند.

تُنُکی داده ای در یک مجموعه داده از روی فرمول (۳۸) بدستمی آید. در این فرمول  و  و  به ترتیب به معنی تعداد نرخ ها، تعداد کاربران و تعداد آیتم های موجود در مجموعه داده ی مورد نظر می باشد.

در بخش بعد، در کنار معرفی مجموعه داده ی مورد استفاده در ارزیابی های خود، به محاسبه ی پراکندگی برای این مجموعه داده خواهیم پرداخت.

۱-۲- مجموعه داده ی مورد استفاده در ارزیابی ها

ما در ارزیابی های آفلاین خود از مجموعه داده ی Epinions استفاده کرده ایم. ما در ابتدا قصد استفاده از مجموعه داده ی جمع آوری شده توسط آقای Paolo Massa[77] را داشتیم. امّا الگوریتم های آیتم محور (در این جا منظور کتاب-محور است) پیشنهادی ما در این پایان نامه از سرموضوعات[۴] کتب هم استفاده می کنند. برای دسترسی به سرموضوعات هر کتاب بایستی ارتباط مجموعه داده ی Epinions با محیط داده های خارج از خود از جمله طبقه بندی موضوعی کتابخانه ی کنگره و آمازون، را برقرار کنیم. بنابراین به شماره کتاب سریال یکتای جهانی[۵] نیاز داشتیم.  از طرفی مجموعه داده ی فوق الذکر، برای کتب شماره ای مستقل و خود تعریف را داراست. در نتیجه ما تصمیم به خزش[۶] دوباره ی سایت Epinions گرفته و در طول پنجاه روز به جمع آوری اطلاعات کاربران و کتاب‎ ها از قسمت کتب سایت Epinions پرداختیم. این مجموعه داده ی جدید مزیت های بسیار زیادی را نسبت به نمونه ی قبلی [۷۷] دارد. معرفی کامل این مجموعه داده و تفاوت های کلیدی مزیت های بسیار نسبت به نمونه ی قبلی، به هم راه کاربردهای متنوع آن در حوزه های گوناگون (ارزیابی الگوریتم های اعتماد، ارزیابی روش های استخراج اطلاعات[۷]، ارزیابی روش های استنتاج موضوع یک کتاب و پردازش برچسب ها و نظرات در مورد یک کتاب، و مهم تر از همه ارزیابی الگوریتم های توصیه گر و پیش بینی نرخ) در ادامه آمده است.

در مجموعه داده ی جمع آوری شده توسط ما چهار جدول به شرح زیر وجود دارد:

  1. جدول کاربران
  2. جدول کتب
  3. جدول نرخ ها
  4. جدول اعتمادهای بین کاربران

جدول پنجمی، با نام فایل ها، نیز وجود دارد که در حال حاضر جهت ارزیابی های علمی کارایی ندارد اما محتوای صفحات سایت Epinions.com می باشد که حین جمع آوری داده ها، پردازش شده اند. هم چنین این جدول صفحات پردازش نشده ی مفیدی را نیز در خود جای داده است که از آن جمله می توان به صفحات نظرهای کاربران “روی نرخ ها و نظرات خوانندگان دیگر یک کتاب”، اشاره کرد. در جدول ۴ ساختار کلی این مجموعه داده نشان داده شده است.

جدول ۴- ساختار مجموعه داده ی جمع آوری شده (EpinionsAll)

جدول Files Infoجدول کاربران(user)جدول نرخ ها(userBookRating)جدول کتبجدول اعتمادهای بین کاربرانUsers-Trust
fileIDuserIDratingIDbookIDtrusted
pageLinkUsernameuserIDbookISBNtrusterUserID
filePathuserRegDatebookInfobookTitletrustedUserID
fileContentuserStatusbookInfoTypebookReviewsPagetrustValue
userLocationRateDate
 userPageratingDate
 userMailAddressreviewPage
 reviewRating

 

در جدول ۵ نیز مقایسه ای آماری بین تعداد رکوردهای جداول در مجموعه داده ی جمع آوری شده و فعلی آورده شده است.

جدول ۵- آمار مجموعه داده  Epinions

 EpinionsAll(by Mohsen Abasi)
کاربران۸۹,۹۲۶
آیتم ها۵۲,۱۹۴
نرخ ها۹۳,۷۰۸
اعتماد ها۵۷۶,۳۲۷

 

از روی مقادیر جدول ۵ این طور معلوم است که:  این مجموعه داده ی جمع آوری شده ی توسط ما در طی انجام این پایان نامه تعداد ۸۹۹۲۶ کاربر، ۵۲۱۹۴ کتاب به هم راه شماره سریال جهانی و مشخصات آن ها، ۹۳۷۰۸ نرخ کاربری روی کتب و ۵۷۶۳۲۷ رابطه ی اعتماد صریح کاربران به یکدیگر را داراست. بنابراین پراکندگی مجموعه داده ی Epinions جمع آوری شده توسط ما، بر طبق فرمول استاندارد ((۳۸، برابراست با: ۰.۹۹۹۹۸۰

چون این عدد نزدیک به یک است، پراکندگی این مجموعه داده بسیار زیاد می باشد و بسیار مناسب برای محک الگوریتم های توصیه گری است که قصد غلبه بر تُنُکی ماتریس نرخ ها را دارند. علاوه بر پراکندگی بسیار داده در این مجموعه، دلیل دیگر انتخاب آن برای ارزیابی، موجود بودن ارتباط بین کاربران می باشد. همان طور که در قبل نیز توضیح داده شد، در سیستم پیشنهادی از روی روابط بین کاربران و شباهت سلایق آن ها به یکدیگر، در واقع با استفاده از اسنادFOAF کاربران، اقدام به تکمیل پروفایل آن ها می شود که با این کار حوزه های بیش تر مورد علاقه شان تشخیص داده می شوند. این روابط بین کاربری در یک شبکه اجتماعی و توسط خود کاربران ایجاد شده است. به دلیل موجود بودن ارتباطات بین کاربران، مجموعه Epinions  یک شبکه اجتماعی نیز می باشد و با استفاده آن می توان تأثیر تکمیل پروفایل کاربران از روی کاربران مشابه مرتبط با آن ها را در افزایش صحت پیشنهادات سیستم مشاهده کرد. کاربران در این شبکه اجتماعی با بازدید نرخ ها و توضیحات دیگر کاربران، روی آیتم هایی که خودشان قبلاً بازبینی کرده اند، اقدام به برقراری ارتباط “اعتماد” از خود به کاربران با نطرات مشابه خود می کنند. به عنوان نمونه فرض کنید که کاربر A پس از خواندن کتابی به آن نرخ ۵ (بالاترین میزان علاقه) را می دهد. این کاربر وقتی با مشاهده نظرات و نرخ کاربر B متوجه می شود که او نیز به همان کتاب یا چندین کتاب مشابه دیگر ابراز علاقه بالا کرده است، به آن کاربر اعتماد کرده و سعی می کند سایر کتبی که کاربر B به آن ها علاقه دارد را نیز بخواند. در واقع کاربر A کاربر B را در نظرات و علاقه ها و روحیات شبیه خودش تشخیص می دهد. بنابراین از اعتماد کاربر A به کاربر B می توان در جهت تکمیل پروفایل A و تشخیص بیش تر علاقه های وی استفاده کرد. در این مجموعه داده تعداد ۵۷۶۳۲۷ روابط اعتماد از نوع صریح وجود دارد.

 

۱-۳- مجموعه داده ی کتب

این مجموعه داده از سایت آمازون جمع آوری شده است. در آن ۴ جدول به شرح زیر وجود دارد:

v     جدول Amazon Books

o       این جدول شامل اطلاعات کتب موجود در آمازون می باشد. این اطلاعات شامل شماره جهانی استاندارد ISBN کتاب، عنوان، رتبه ی فروش کتاب در آمازون، شماره ISBN کتب مشابه، شماره ID سرموضوعاتی که کتاب به آن ها تعلق دارد، و تعداد Reviewها و نرخ دهی میانگین به این کتاب

v     جدول Amazon Subject_Headings

o       این جدول حاوی اطلاعاتی درباره ی سرموضوعات کتب سایت آمازون می باشد. این اطلاعات شامل نام، شماره ی سرموضوع در سایت آمازون، و سرموضوع پدر (در سلسله مراتب سرموضوعات) می باشد.

v     جدول Amazon Book Subject_Heading

o       این جدول بیان می کند که هر کتاب در چه سرموضوعاتی جای دارد.

v     جدول Amazon Ratings

o       این جدول شامل شماره یکتای مشتری های آمازون، نرخ هایی که به کتب داده اند، تاریخ نرخ دهی و هم چنین تعداد نظراتی که در مورد هر نرخ داده شده است و نظر کلی مشتریان در مورد مفید بودن یا نبودن نرخ مورد نظر

جدول Amazon Books(393560 رکورد)جدول Amazon Subject_Headings(13171 رکورد)جدول Amazon Book Subject_Heading(1440213 رکورد)جدول Amazon Ratings(4591301 رکورد)
bookIDshIDbookIDbookID
ISBNnameshIDdate
TitleNumber (in Amazon)customer
Sales RankParentShIDrateValue
similarvotes
categorieshelpful
reviews

 

Dataset statistics
Nodes۷۵۸۷۹
Edges۵۰۸۸۳۷
Nodes in largest WCC۷۵۸۷۷ (۱٫۰۰۰)
Edges in largest WCC۵۰۸۸۳۶ (۱٫۰۰۰)
Nodes in largest SCC۳۲۲۲۳ (۰٫۴۲۵)
Edges in largest SCC۴۴۳۵۰۶ (۰٫۸۷۲)
Average clustering coefficient۰٫۱۳۷۸
Number of triangles۱۶۲۴۴۸۱
Fraction of closed triangles۰٫۰۲۲۹
Diameter (longest shortest path)۱۴
۹۰-percentile effective diameter۵

 

Source (citation)

 

Files

FileDescription
soc-Epinions1.txt.gzDirected Epinions social network

FilmTrust

FilmTrust is a small dataset crawled from the entire FilmTrust website in June, 2011 [download].

CiaoDVD

CiaoDVD is a dataset crawled from the entire category of DVDs from the dvd.ciao.co.uk website in December, 2013 [download].
  • movie-ratings.txt: 72.7K movie ratings

درباره ی گروه توسعه اندیشه نوین

همچنین ببینید

چه طور در کیک استارتر موفق شویم؟

تمام کسانی که به دنبال جذب سرمایه برای پروژه‌های خلاقانه و جاه طلبانه‌شان بوده‌اند، حتماً …

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *