مبانی داده کاوی ( Data Mining ) – علم داده چیست؟

در زمینه علم داده مسلما اولین قدم شما برای حل مسئله یا پیدا کردن پاسخ، بدست آوردن داده هاست. در این راستا شما بایستی بدانید که چگونه میتوانید داده های مختلط را بدست آورید، هر داده چه اعتباری دارد یا اینکه داده های خود را از چه منابعی استخراج کنید؟

به مجموعه این فعالیت ها Data Mining یا به زبان فارسی داده کاوی میگوند. شما پس از خواندن این مقاله خواهید توانست به سوالات بالا پاسخ دهید.

فرآیند داده کاوی

داده کاوی چیست؟

داده کاوی، همچنین به عنوان کشف دانش در داده ها (KDD) شناخته می شود، فرآیند کشف الگوها و سایر اطلاعات ارزشمند از مجموعه داده های بزرگ است. با توجه به تکامل فناوری ذخیره‌سازی داده و رشد داده‌های بزرگ، پذیرش تکنیک‌های داده کاوی به سرعت در طی چند دهه اخیر شتاب گرفته است و به شرکت‌ها با تبدیل داده‌های خام خود به دانش مفید کمک می‌کند. با این حال، علی‌رغم این واقعیت که این فناوری به طور مداوم برای مدیریت داده‌ها در مقیاس بزرگ تکامل می‌یابد، رهبران همچنان با چالش‌هایی در زمینه مقیاس‌پذیری و اتوماسیون مواجه هستند.

داده کاوی (Data Mining) تصمیم گیری سازمانی را از طریق تجزیه و تحلیل داده های هوشمندانه بهبود بخشیده است. تکنیک های داده کاوی که زیربنای این تحلیل ها هستند را می توان به دو هدف اصلی تقسیم کرد. آنها می توانند مجموعه داده هدف را توصیف کنند یا می توانند نتایج را از طریق استفاده از الگوریتم های یادگیری ماشینی پیش بینی کنند. این روش‌ها برای سازمان‌دهی و فیلتر کردن داده‌ها، به نمایش گذاشتن جالب‌ترین اطلاعات، از کشف تقلب گرفته تا رفتارهای کاربر، تنگناها و حتی نقض‌های امنیتی استفاده می‌شوند.

فرآیند داده کاوی

فرآیند داده کاوی شامل چندین مرحله از جمع آوری داده تا تجسم برای استخراج اطلاعات ارزشمند از مجموعه داده های بزرگ است. همانطور که در بالا ذکر شد، تکنیک های داده کاوی برای ایجاد توصیف و پیش بینی در مورد مجموعه داده های هدف استفاده می شود. دانشمندان داده، داده ها را از طریق مشاهدات خود از الگوها، تداعی ها و همبستگی ها توصیف می کنند. آنها همچنین داده‌ها را از طریق روش‌های طبقه‌بندی و رگرسیون، طبقه‌بندی و خوشه‌بندی می‌کنند و موارد پرت را برای موارد استفاده، مانند تشخیص هرزنامه، شناسایی می‌کنند.

داده کاوی معمولاً از چهار مرحله اصلی تشکیل شده است: تعیین اهداف، جمع آوری و آماده سازی داده ها، اعمال الگوریتم های داده کاوی و ارزیابی نتایج.

1. تعیین اهداف تجاری: این می تواند سخت ترین بخش فرآیند داده کاوی باشد و بسیاری از سازمان ها زمان بسیار کمی را برای این مرحله مهم صرف می کنند. دانشمندان داده و ذینفعان کسب و کار باید با هم کار کنند تا مشکل تجاری را تعریف کنند، که به اطلاعات سوالات و پارامترهای داده برای یک پروژه خاص کمک می کند. تحلیلگران همچنین ممکن است نیاز به انجام تحقیقات بیشتری برای درک مناسب زمینه کسب و کار داشته باشند.

2. آماده سازی داده ها: هنگامی که دامنه مسئله مشخص شد، برای دانشمندان داده آسان تر است که تشخیص دهند کدام مجموعه از داده ها به پاسخگویی به سؤالات مربوط به کسب و کار کمک می کند. پس از جمع‌آوری داده‌های مربوطه، داده‌ها پاک می‌شوند و هرگونه نویز، مانند موارد تکراری، مقادیر از دست رفته، و مقادیر پرت را حذف می‌کنند. بسته به مجموعه داده، ممکن است یک گام اضافی برای کاهش تعداد ابعاد برداشته شود زیرا بسیاری از ویژگی ها می توانند هر محاسبات بعدی را کاهش دهند. دانشمندان داده به دنبال حفظ مهم ترین پیش بینی ها برای اطمینان از دقت مطلوب در هر مدل هستند.

  • این نکته شایان ذکر است که عمل پاکسازی داده ها خود امری مفصل است که بنده در مقاله مربوطه به آن اشاره کرده ام.

استخراج داده

3. مدل سازی و الگوکاوی: بسته به نوع تجزیه و تحلیل، دانشمندان داده ممکن است هر گونه روابط جالب داده مانند الگوهای متوالی، قوانین تداعی یا همبستگی ها را بررسی کنند. در حالی که الگوهای فرکانس بالا کاربردهای گسترده تری دارند، گاهی اوقات انحراف در داده ها می تواند جالب تر باشد و زمینه های تقلب بالقوه را برجسته کند.

همچنین ممکن است از الگوریتم های یادگیری عمیق برای طبقه بندی یا خوشه بندی یک مجموعه داده بسته به داده های موجود استفاده شود. اگر داده‌های ورودی برچسب‌گذاری شده باشند (یعنی یادگیری تحت نظارت)، یک مدل طبقه‌بندی ممکن است برای دسته‌بندی داده‌ها استفاده شود، یا به‌طور متناوب، ممکن است یک رگرسیون برای پیش‌بینی احتمال یک تخصیص خاص اعمال شود. اگر مجموعه داده برچسب‌گذاری نشده باشد (یعنی یادگیری بدون نظارت)، نقاط داده فردی در مجموعه آموزشی با یکدیگر مقایسه می‌شوند تا شباهت‌های اساسی را کشف کنند و آنها را بر اساس آن ویژگی‌ها خوشه‌بندی کنند.

  • اصطلاحات بالا که مربوط به زمینه یادگیری ماشینی میشود، در مقاله مربوطه به تفصیل توضیح داده شده است.

4. ارزیابی نتایج و اجرای دانش: پس از تجمیع داده ها، نتایج باید ارزیابی و تفسیر شوند. هنگام نهایی کردن نتایج، آنها باید معتبر، جدید، مفید و قابل درک باشند. هنگامی که این معیار برآورده شود، سازمان ها می توانند از این دانش برای اجرای استراتژی های جدید و دستیابی به اهداف مورد نظر خود استفاده کنند.

تکنیک های داده کاوی

داده کاوی با استفاده از الگوریتم ها و تکنیک های مختلف برای تبدیل حجم زیادی از داده ها به اطلاعات مفید عمل می کند. در اینجا برخی از رایج ترین آنها آورده شده است:

قوانین ارتباط: یک قانون ارتباط یک روش مبتنی بر قانون برای یافتن روابط بین متغیرها در یک مجموعه داده معین است. این روش‌ها اغلب برای تحلیل سبد بازار استفاده می‌شوند و به شرکت‌ها اجازه می‌دهند تا روابط بین محصولات مختلف را بهتر درک کنند. درک عادات مصرف مشتریان، کسب‌وکارها را قادر می‌سازد تا استراتژی‌های فروش متقابل و موتورهای توصیه بهتری را توسعه دهند.

شبکه‌های عصبی: شبکه‌های عصبی که عمدتاً برای الگوریتم‌های یادگیری عمیق ( Deep Learning ) استفاده می‌شوند، داده‌های آموزشی را با تقلید از اتصال مغز انسان از طریق لایه‌هایی از گره‌ها پردازش می‌کنند. هر گره از ورودی ها، وزن ها، یک سوگیری (یا آستانه) و یک خروجی تشکیل شده است. اگر آن مقدار خروجی از یک آستانه معین فراتر رود، گره را “آتش” یا فعال می کند و داده ها را به لایه بعدی شبکه ارسال می کند. شبکه های عصبی این تابع نگاشت را از طریق یادگیری نظارت شده، تنظیم بر اساس تابع از دست دادن از طریق فرآیند نزول گرادیان، یاد می گیرند. وقتی تابع هزینه نزدیک به صفر است، می‌توانیم به دقت مدل برای به دست آوردن پاسخ صحیح اطمینان داشته باشیم.

درخت تصمیم: این تکنیک داده کاوی از روش های طبقه بندی یا رگرسیون برای طبقه بندی یا پیش بینی نتایج بالقوه بر اساس مجموعه ای از تصمیمات استفاده می کند. همانطور که از نام آن پیداست، از تجسم درخت مانند برای نمایش نتایج بالقوه این تصمیمات استفاده می کند.

K-نزدیکترین همسایه (KNN): K-nearest neighbor که با نام الگوریتم KNN نیز شناخته می شود، یک الگوریتم ناپارامتریک است که نقاط داده را بر اساس نزدیکی و ارتباط آنها با سایر داده های موجود طبقه بندی می کند. این الگوریتم فرض می کند که نقاط داده مشابه را می توان در نزدیکی یکدیگر یافت. در نتیجه، به دنبال محاسبه فاصله بین نقاط داده، معمولاً از طریق فاصله اقلیدسی است، و سپس یک دسته را بر اساس پرتکرارترین دسته یا میانگین اختصاص می دهد.

کاربرد های داده کاوی

تکنیک های داده کاوی به طور گسترده ای در بین تیم های هوش تجاری و تجزیه و تحلیل داده پذیرفته شده است و به آنها کمک می کند تا دانش را برای سازمان و صنعت خود استخراج کنند. برخی از موارد استفاده از داده کاوی عبارتند از:

فروش و بازاریابی

شرکت ها حجم عظیمی از داده ها را در مورد مشتریان خود جمع آوری می کنند. با مشاهده جمعیت‌شناسی مصرف‌کننده و رفتار کاربران آنلاین، شرکت‌ها می‌توانند از داده‌ها برای بهینه‌سازی کمپین‌های بازاریابی خود، بهبود بخش‌بندی، پیشنهادات فروش متقابل و برنامه‌های وفاداری مشتری استفاده کنند و بازدهی بالاتری را در تلاش‌های بازاریابی به همراه داشته باشند. تحلیل‌های پیش‌بینی‌کننده همچنین می‌تواند به تیم‌ها کمک کند تا انتظارات خود را با ذینفعان خود تعیین کنند و تخمین بازدهی را از هرگونه افزایش یا کاهش در سرمایه‌گذاری بازاریابی ارائه دهند.

Data Mining

تحصیلات

مؤسسات آموزشی شروع به جمع‌آوری داده‌ها برای درک جمعیت دانش‌آموزی خود و همچنین محیط‌های مساعد برای موفقیت کرده‌اند. با ادامه انتقال دوره ها به پلتفرم های آنلاین، آنها می توانند از ابعاد و معیارهای مختلفی برای مشاهده و ارزیابی عملکرد استفاده کنند، مانند ضربه زدن به کلید، نمایه های دانشجویی، کلاس ها، دانشگاه ها، زمان صرف شده و غیره.

بهینه سازی عملیاتی

فرآیند کاوی از تکنیک های داده کاوی برای کاهش هزینه ها در عملکردهای عملیاتی استفاده می کند و سازمان ها را قادر می سازد کارآمدتر کار کنند. این عمل به شناسایی تنگناهای پرهزینه و بهبود تصمیم گیری در بین رهبران کسب و کار کمک کرده است.

تشخیص تقلب

در حالی که الگوهای مکرر در داده ها می تواند بینش ارزشمندی را برای تیم ها فراهم کند، مشاهده ناهنجاری های داده نیز مفید است و به شرکت ها در کشف تقلب کمک می کند. در حالی که این یک مورد استفاده شناخته شده در بانک ها و سایر موسسات مالی است، شرکت های مستقر در SaaS نیز شروع به اتخاذ این روش ها برای حذف حساب های کاربری جعلی از مجموعه داده های خود کرده اند.

یک دیدگاه درباره “مبانی داده کاوی ( Data Mining ) – علم داده چیست؟

دیدگاه شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد.