خانه / آموزش ها / خوشه‎بندی در بیگ دیتا

خوشه‎بندی در بیگ دیتا

چکيده

مسئله پردازش و تحلیل داده‌های حجیم به لطف فراهم شدن امکانات آن بشدت مورد توجه است. داده‏هاي حجیم، اصطلاحی براي مجموعه‎ داده‎های بسیار بزرگ است که از نظر ساختار، پیچیدگی و منابع تولیـد بسـیار متنـوع هستند و ذخیره و تحلیل آنها کار پیچیده‎اي است. با رشد روزافزون سیستم‎های کامپیوتری و داده‎های ذخیره شده در آن ها، تکنیک ها و روش‎های مختلف داده کاوی توسعه داده شده است. یکی از این روش‎ها خوشه‎بندی داده است. خوشه‎بندی ابزاری قوی جهت پردازش داده‎های تولیدشده توسط برنامه‎های مختلف می‎باشد. اهمیت و کاربرد خوشه‎بندی بر هیچ محقق و متخصصی در زمینه سیستم‎های اطلاعاتی پوشیده نیست. خوشه‌بندی به عنوان یکی از روش‌های بدون نظارت تشخیص الگوهای پنهان شناخته می‌شود و با تحلیل حجم عظیم داده‌های شبکه می‌تواند به حل شدن مشکلاتی نظیر نرخ فراوان مثبت‌های اشتباه در تشخیص ناهنجاری منجر گردد. با نگاهی گذرا به حوزه تحقیقات در چند دهه اخیر، گستردگی دامنه کاربرد خوشه‎بندی داده‎ها به خوبی مشاهده می شود. با پیشرفت پایگاه داده‎ها و فناوری‎های اینترنت الگوریتم‎های خوشه‎بندی با چالش‎هایی در زمینه مدیریت رشد سریع و حجم زیاد داده مواجه هستند. علی رغم پیشرفت‎های قابل توجه در تکنولوژی پردازنده‎ها درزمینه سرعت، الگوریتم‎های خوشه‎بندی وظایف موردنیاز را در یک مدت زمان منطقی برای مجموعه داده‎های عظیم به طور کامل انجام نمی‎دهند. اما دو چالش بزرگ در این زمینه پیش روی دانشمندان و محققین بوده است. خوشه‎بندی داده‎ها به علت پیچیدگی محاسباتی بالا و همچنین گستردگی کاربرد با مشکلاتی روبرو است. به دلیل پیچیدگی محاسباتی بالا به دست آوردن بهترین مجموعه خوشه با روش‎های دقیق ممکن نیست بنابراین باید با تکنیک‎های مختلف حل مسئله ی NP سخت، نتیجه بهینه یا نزدیک به بهینه خوشه‎بندی را بدست آورد. اغلب محققین در این زمینه به این مهم پرداخته‎اند. از طرفی به دلیل گستردگی کاربرد خوشه‎بندی و حوزه کاربردی آن ایجاد الگوریتم جامع عمومی برای همه کاربردها غیر ممکن است.

 

واژگان کلیدی: خوشه‎بندی داده، مجموعه داده‎های بزرگ، داده‎کاوی.

 

  • مقدمه

 

امروزه با وجود ابزارهای فراوان برای جمع‎آوری داده‎ها و پیشرفت تكنولوژی پایگاه داده، حجم انبوهی از اطلاعات در انبار داده‎های مختلف ذخیره می‎شود. این رشد انفجاری داده‎ها نیازمند تكنیك‎ها و ابزارهای مناسب با توانایی پردازش هوشمندانه اطلاعات می‎باشد. داده‏كاوی با یافتن مجموعه الگوهای جالب از دل داده‎های موجود در انباره‎ها، می‎تواند این نیاز را رفع نماید. درحال حاضر انجام داده‎كاوی در پایگاه داده‎های بسیار بزرگ به عنوان موضوع تحقیقاتی مهمی نزد محققان محسوب می‎گردد. پژوهشگران در رشته‎های مختلفی نظیر پایگاه داده‎ها، یادگیری ماشین، آمار و غیره این موضوع را بررسی كرده و روش‎های مختلفی را برای داده كاوی، معرفی کرده و بکار می‎گیرند. در واقع داده كاوی از مهم ترین مراحل فرایند استخراج دانش در پایگاه داده محسوب می‎شود.

در این فصل، هدف از سمینار، توضیح موضوع و اهمیت موضوع بیان می‎گردد. همچنین مروری کوتاه بر ادبیات موضوع خواهیم داشت و کاربردها و کاربران موضوع را شرح می دهیم.

  • خوشه‎بندی[1] داده‎های حجیم

 

امروزه حجم انبوه داده‎ها در بسیاری از کاربردهای داده محور، ابزار و روش های تحلیل و مدیریت داده‎ها را نیازمند تغییر نموده است. داده‏هاي حجیم، اصطلاحی براي مجموعه‎ داده‎های بسیار بزرگ است که از نظر ساختار، پیچیدگی و منابع تولیـد بسـیار متنـوع هستند و ذخیره و تحلیل آنها کار پیچیده‎اي است. در دهه‎های اخیر يافتن الگوهاي مفيد در مجموعه هاي داده بزرگ بسيار مورد توجه مي باشد. خوشه‎بندی ابزاری قوی جهت پردازش داده‎های تولیدشده توسط برنامه‎های مختلف می‎باشد. این تکنیک به عنوان یکی از روش‌های بدون نظارت تشخیص الگوهای پنهان شناخته می‌شود. بواقع از مسائل مهم و بسيار مورد توجه در مجموعه‎هاي داده بزرگ، شناسايي خوشه‎ها يا نواحي داراي جمعيت متراکم در مجموعه داده چند بُعدي مي‎باشد. در زمینه خوشه‎بندی داده‎های حجیم تکنیک های مختلفی وجود دارند و الگوریتم های مختلفی توسعه داده شده‎اند. یافتن الگوریتم خوشه‎بندی مناسب با بهینه ترین خوشه ها، در مدت زمان معقول از چالش‎های مهم در این حوزه می باشد. براي ارائه الگوريتم با كيفيت مسائلي چون بهينه بودن، عدم افتادن در تله راه حل هاي بهينه محلي و مقاومت در برابر برون نهشت‎ها، به عنوان ويژگي هاي عمومي الگوريتم خوشه بندي، می‎باید مورد توجه قرار گیرد.

 

  • اهمیت موضوع

 

با ورود به عصر اطلاعات و ارتباطات و آغاز استفاده از داده‎ها و اطلاعات به عنوان سرمایه های اصلی در حرکت علمی، اقتصادی، اجتماعی و فرهنگی جوامع، سازمان ها و شرکت های مختلف و توسعه مشارکت افراد در جهان اینترنت و ارتباطات شبکه ای در دنیا، دغدغه ای بروز پیدا کرد که از جنس همین داده‎هایی بود که همه روز و با سرعت وحشتناک در دنیا و در عرصه های مختلفی که فناوری اطلاعات ورود پیدا کرده بود، تولید می شود و اینکه چگونه این حجم بزرگ و متنوع داده‎ها و اطلاعات را با توجه به ساختارهایی که در فضای فناوری اطلاعات وجود دارد، می توان مدیریت، کنترل و پردازش کرد و از آن در جهت بهبود ساختارها و سودآوری بیشتر بهره جست؟

مقیاس داده‎های بزرگ، به طور مداوم در حال رشد از محدوده ده‎ها ترابایت تا چندین پتابایت، در یک مجموعه داده واحد است. از سال 2012 به بعد در هر روز هزار پتا بایت[2] داده تولید می شود که به دنبال خود مستلزم ذخیره سازی، تحلیل، جستجوها، تمیزکاری داده‎ها، اشتراک ها و … در داده‎هاست که باید در حوزه مختلف انجام شود.

این موضوع باعث شده است که پژوهشگران و دانشمندان به دنبال ایجاد ساختارها، متدلوژی ها، روش ها و رویکردهای جدیدی برای مدیریت، کنترل و پردازش این حجم از داده‎ها باشند که این تلاش ها در ذیل سایه «داده‎های بزرگ» مطرح شده است. نـمونه‎هایی از داده‎های بزرگ شامل گزارش‎های وبی، شبکه‎های حسگر، شبکه‎های اجتماعی، متون و اسناد اینترنتی، نمایه‎های جستجوهای اینترنتی، نجوم، مدارک پزشکی، آرشیو عکس، آرشیو ویدیو، پژوهش‎های زمین‎شناسی و تجارت در مقیاس بزرگ می شوند. داده‎های بزرگ می تواند به اندازه اینترنت، برای کسب وکار  و جامعه مهم باشد.

امروزه، کلان داده[3] به یکی از مباحثی تبدیل شده است که در روند توسعه تکنولوژی بسیار به آن پرداخته می‎شود. در حقیقت چالش واقعی سازمان های بزرگ دریافت حداکثر اطلاعاتی است که در حال حاضر در دسترس است و همچنین پیش بینی این موضوع که چه نوعی از داده‎ها در آینده جمع آوری می شود. در واقع چگونه می توان به اطلاعات موجود، دست یافت و به آن معنا بخشید و به علاوه دستیابی به بینش دقیقی در مورد داده‎های گذشته یکی از نقاط کلیدی در بحث هایی است که در بسیاری از جلسات اجرایی در سازمان‎ها مورد انتظار است. با انفجار داده‎ها، کلان داده به یک واقعیت در بسیاری از سازمان ها تبدیل شده است.

خوشه‌بندی به عنوان یکی از روش‌های داده کاوی[4] می تواند به تشخیص الگوهای پنهان در داده‎ها و تحلیل حجم عظیم داده‌های شبکه بپردازد. كاربرد خوشه بندي داده‎ها تقريبا به وسعت همه حوزه هاي زندگي انسان است. مي‎توان گفت هركجا داده اي ذخيره و استفاده مي‎شود، پتانسيل فراواني براي ورود داده كاوي و خوشه بندي داده در آن مشاهده مي شود. بنابراين، روش هاي خوشه بندي داده با طيف وسيعي از انواع داده و دانش نهفته در داده‎ها روبرو است. داده‎های بیشتر به تحلیل‎های دقیق تر‎می‎انجامد؛ تحلیل‎های دقیق تر نیز منجر به تصمیم گیری‎های مطمئن‎تر شده و در پایان تصمیمات بهتر، می‎تواند به معنای کارایی بیشتر عملیات و کاهش هزینه ها و ریسک ها باشد.

[1] clustering

[2] Pebibyte

[3] Big Data

[4] Data Mining

درباره ی گروه توسعه اندیشه نوین

همچنین ببینید

چه طور در کیک استارتر موفق شویم؟

تمام کسانی که به دنبال جذب سرمایه برای پروژه‌های خلاقانه و جاه طلبانه‌شان بوده‌اند، حتماً …

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *