پاکسازی داده ها ( Data Cleaning ) – معرفی علم داده

در موضوعات پیرامون یادگیری علم داده ، هنگام استفاده از داده ها، اکثر مردم موافق هستند که بینش و تجزیه و تحلیل شما فقط به خوبی داده هایی است که استفاده می کنید. اساسا، داده های زباله در تجزیه و تحلیل زباله است. پاکسازی داده ها، که به آن پاکسازی داده ها یا Data Cleaning گفته می شود، یکی از مهم ترین مراحل برای سازمان شما است اگر می خواهید فرآیند پیرامون تصمیم گیری داده های با کیفیت ایجاد کنید.

پاکسازی داده ها چیست؟

پاکسازی داده ها فرآیند اصلاح یا حذف داده های نادرست، خراب، فرمت نادرست، تکراری یا ناقص در یک مجموعه داده است. هنگام ترکیب چندین منبع داده، فرصت های زیادی برای تکرار یا برچسب گذاری اشتباه داده ها وجود دارد. اگر داده ها نادرست باشند، نتایج و الگوریتم ها غیرقابل اعتماد هستند، حتی اگر درست به نظر برسند. هیچ راه مطلقی برای تجویز مراحل دقیق در فرآیند پاکسازی داده ها وجود ندارد زیرا فرآیندها از مجموعه داده ای به مجموعه دیگر متفاوت خواهند بود. اما بسیار مهم است که یک الگو برای فرآیند پاکسازی داده های خود ایجاد کنید تا بدانید هر بار آن را به درستی انجام می دهید.

پاکسازی داده ها

تفاوت بین پاکسازی داده و تبدیل داده چیست؟

پاکسازی داده ها فرآیندی است که داده هایی را که به مجموعه داده شما تعلق ندارند حذف می کند. تبدیل داده فرآیند تبدیل داده ها از یک فرمت یا ساختار به فرمت دیگر است. فرآیندهای تبدیل را می‌توان به‌عنوان جدال داده‌ها یا جابجایی داده‌ها، تبدیل و نگاشت داده‌ها از یک فرم داده «خام» به قالب دیگری برای نگه داری و تجزیه و تحلیل نام برد. این مقاله بر روی فرآیندهای پاکسازی داده ها تمرکز دارد.

چگونه داده ها را پاک می کنید؟

در حالی که تکنیک‌های مورد استفاده برای پاکسازی داده‌ها ممکن است بسته به نوع داده‌هایی که شرکت شما ذخیره می‌کند متفاوت باشد، می‌توانید این مراحل اساسی را برای ترسیم چارچوبی برای سازمان خود دنبال کنید.

1) مشاهدات تکراری یا نامربوط را حذف کنید

مشاهدات ناخواسته را از مجموعه داده خود حذف کنید، از جمله مشاهدات تکراری یا مشاهدات نامربوط. مشاهدات تکراری اغلب در طول جمع آوری داده ها اتفاق می افتد. وقتی مجموعه داده‌ها را از چندین مکان ترکیب می‌کنید، داده‌ها را می‌خرید یا داده‌هایی را از مشتریان یا چندین بخش دریافت می‌کنید، فرصت‌هایی برای ایجاد داده‌های تکراری وجود دارد. عدم تکرار یکی از بزرگترین حوزه هایی است که در این فرآیند باید در نظر گرفته شود. مشاهدات بی ربط زمانی است که متوجه مشاهداتی می شوید که با مشکل خاصی که می خواهید تجزیه و تحلیل کنید نمی گنجد. برای مثال، اگر می‌خواهید داده‌های مربوط به مشتریان هزاره را تجزیه و تحلیل کنید، اما مجموعه داده‌های شما شامل نسل‌های قدیمی‌تر است، ممکن است آن مشاهدات نامربوط را حذف کنید. این می تواند تجزیه و تحلیل را کارآمدتر کند و حواس پرتی را از هدف اصلی شما به حداقل برساند – و همچنین یک مجموعه داده قابل مدیریت و کارآمدتر ایجاد کند.

Data Cleaning

2) رفع خطاهای ساختاری

خطاهای ساختاری زمانی اتفاق می‌افتد که داده‌ها را اندازه‌گیری یا انتقال می‌دهید و متوجه نام‌گذاری‌های عجیب، اشتباهات تایپی یا حروف بزرگ نادرست می‌شوید. این ناهماهنگی‌ها می‌توانند باعث برچسب‌گذاری اشتباه دسته‌ها یا کلاس‌ها شوند. به عنوان مثال، ممکن است “N/A” و “Not Applicable” هر دو ظاهر شوند، اما باید به عنوان یک دسته تجزیه و تحلیل شوند.

3) فیلتر کردن داده های پَرت ( دور از بقیه داده ها )

اغلب، مشاهداتی یکباره وجود دارد که در یک نگاه، به نظر نمی رسد که با داده هایی که شما تجزیه و تحلیل می کنید، مطابقت داشته باشند. اگر دلیل موجهی برای حذف اطلاعات پرت دارید، مانند ورود نامناسب داده، انجام این کار به عملکرد داده هایی که با آنها کار می کنید کمک می کند. با این حال، گاهی اوقات ظاهر یک چیز پرت است که نظریه ای را که روی آن کار می کنید ثابت می کند. به یاد داشته باشید: صرفاً به این دلیل که یک نقطه دورتر وجود دارد، به این معنی نیست که نادرست است. این مرحله برای تعیین اعتبار آن عدد مورد نیاز است. اگر ثابت شد که یک نقطه پرت برای تجزیه و تحلیل نامربوط است یا اشتباه است، آن را حذف کنید.

4) داده های از دست رفته را مدیریت کنید

شما نمی توانید داده های از دست رفته را نادیده بگیرید زیرا بسیاری از الگوریتم ها مقادیر از دست رفته را نمی پذیرند. چند راه برای مقابله با داده های از دست رفته وجود دارد. هیچکدام بهینه نیستند، اما هر کدام را می توان در نظر گرفت.

  1. به عنوان اولین گزینه، می‌توانید مشاهداتی را که مقادیر گم شده‌اند رها کنید، اما انجام این کار باعث حذف یا از دست رفتن اطلاعات می‌شود، بنابراین قبل از حذف آن‌ها به این موضوع توجه داشته باشید.
  2. به عنوان گزینه دوم، می توانید مقادیر گم شده را بر اساس مشاهدات دیگر وارد کنید. دوباره، فرصتی برای از دست دادن یکپارچگی داده ها وجود دارد، زیرا ممکن است بر اساس فرضیات عمل کنید و نه مشاهدات واقعی.
  3. به عنوان گزینه سوم، ممکن است روش استفاده از داده ها را برای پیمایش موثر مقادیر تهی تغییر دهید.

بدست آوردن داده با کیفیت

5) اعتبارسنجی و QA

در پایان فرآیند پاکسازی داده ها، باید بتوانید به عنوان بخشی از اعتبارسنجی اولیه به این سؤالات پاسخ دهید:

  • آیا داده ها منطقی هستند؟
  • آیا داده ها از قوانین مناسب برای حوزه خود پیروی می کنند؟
  • آیا این نظریه کار شما را اثبات یا رد می کند، یا بینشی را آشکار می کند؟
  • آیا می توانید روندهایی را در داده ها پیدا کنید تا به شما در شکل گیری نظریه بعدی کمک کند؟
  • اگر نه، آیا این به دلیل مشکل کیفیت داده است؟

نتیجه گیری نادرست به دلیل داده های نادرست یا “کثیف” می تواند استراتژی و تصمیم گیری ضعیف کسب و کار را نشان دهد. نتیجه‌گیری‌های نادرست می‌تواند منجر به لحظات شرم‌آوری در جلسه گزارش‌دهی شود، زمانی که متوجه می‌شوید داده‌های شما قابل بررسی نیستند. قبل از رسیدن به آنجا، مهم است که فرهنگ داده های با کیفیت را در سازمان خود ایجاد کنید. برای انجام این کار، باید ابزارهایی را که ممکن است برای ایجاد این فرهنگ استفاده کنید و اینکه کیفیت داده برای شما چه معنایی دارد، مستند کنید.

اجزای داده های با کیفیت

تعیین کیفیت داده ها مستلزم بررسی ویژگی های آن است، سپس آن ویژگی ها را بر اساس آنچه برای سازمان شما مهم است و برنامه(هایی) که برای آنها استفاده خواهد شد، سنجید.

5 ویژگی داده های با کیفیت

  1. اعتبار. میزان انطباق داده های شما با قوانین یا محدودیت های تجاری تعریف شده.
  2. دقت. اطمینان حاصل کنید که داده های شما به مقادیر واقعی نزدیک است.
  3. کامل بودن. درجه ای که تمام داده های مورد نیاز شناخته شده است.
  4. ثبات. اطمینان حاصل کنید که داده‌های شما در یک مجموعه داده یکسان و/یا در چندین مجموعه داده سازگار است.
  5. یکنواختی. درجه ای که داده ها با استفاده از همان واحد اندازه گیری مشخص می شوند.

دیدگاه شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *