وبلاگ vdash

اخبار و مقالات مربوط به vdash، نرم افزار آنالیز اطلاعات و ساخت داشبورد مدیریتی

اکتشاف داده ها و نمودار پراکندگی

نمودار پراکندگی جز آن دسته از نمودار هایی است که می توان در ابتدای اکتشاف داده ها بر گزید.پراکندگی داده ها ، توزیع داده ها و رنج داده ها را می توان در آن دید.

نمودار پراکندگی نمودار جزئیات نیست ، نمودار پراکندگی نمودار کلیتی است به اسم رابطه. رابطه دو متغیر عددی را می توان بررسی کرد مثلا در واحد پشتیبانی رابطه تعداد تماس ها و تعداد سفارش ها .

در vdash این قابلیت را داریم که ضمن بررسی رابطه دو متغیر آن ها را دسته بندی کنیم. مثلا می خواهیم در فروش اینترنتی رابطه تعداد فروش و میزان فروش را بررسی کنیم که آیا هرچه تعداد فروش بیشتر می شود ، میزان فروش نیز بیشتر می شود (شکل1).

نمودار پراکندگی

شکل1

از نمودار بالا متوجه می شویم که روال تعداد فروش و میزان فروش تقریبا مشابه هم هست یعنی با کمی افزایش در تعداد فروش ، میزان فروش نیز افزایش می یابد.

رابطه در نمودار پراکندگی به 3 حالت خط نمایش داده می شود :

  • 1. خطی که نیمساز ربع اول و سوم است و شیب رو به بالا دارد و تقریبا از کانون نمودار شروع می شود (شکل2).
پراکندگی شیب مثبت

شکل2

در مثال شکل 2 همانطور که ملاحظه می کنید با افزایش ساعات مرخصی استعلاجی ، ساعات مرخصی در یک دپارتمان فرعی نیز افزایش می یابد.

  • 2. در بعضی مواقع شیب بر عکس می شود یعنی شیب منفی میشود.
  • 3. شیب صفر : نمودار به صورت صاف است ،یعنی دو متغیر هیچ رابطه ای با هم ندارند. (شکل 3).
شیب صفر

شکل3

آنچه در مقاله بعد خواهید خواند » نمودار حبابی

راز و رمز تحلیل آماری نمودار جعبه ای

تا اینجای کار با

آشنا شدید و در این مقاله به نمودار جعبه ای می پردازیم که

مورد بحث قرار میگیرد.

نمودار جعبه ای بر خلاف تصور خیلی از افراد سخت و پیچیده نیست و اتفاقاٌ اطلاعات مفید و قابل درکی به ما می دهد.

نمودار جعبه ای از یک جعبه و دو میله که از آن بیرون آمده تشکیل شده است که قسمت های مختلفی دارد که با هم بررسی می کنیم.

به نمودار جعبه ای نمودار 6 خلاصه نیز می گویند زیرا از 6 بخش به شرح زیر تقسیم می شود(شکل1) :

نمودار جعبه ای

شکل1

  • بخش اول » شامل ماکسیمم واقعی و مینیمم واقعی می باشد که ماکسیمم واقعی بیشترین مقدار داده در آن گروهی است که بررسی میگردد و در بالاترین نقطه قرار دارد (شکل2) و مینیمم واقعی کمترین مقدار از داده های ما در همان گروه است و در پایین ترین نقطه قرار دارد(شکل 3).
ماکسیمم واقعی

شکل2

در شکل بالا ماکزیمم های واقعی با کادر مستطیل نارنجی نمایش داده شده است.

مینیمم واقعی

شکل3

در شکل 3 مینیمم واقعی با مستطیل نارنجی نمایش داده شده است.

  • بخش دوم » بخش 4/1 : نمودار جعبه ای داده ها را به 4 قسمت تقسیم می کند. 4/1 اول (%25)، 4/1 دوم (%5)، 4/1 سوم (%75)، 4/1 چهارم

مینیمم مؤثر (%25) : نقطه ای است که حداقل %25 یا 4/1 داده ها از آن کمتر است (شکل 4).

مینیمم موثر

شکل4

نقطه میانه و میانگین (%50) : نقطه ای که حداقل نصف داده ها کمتر از %50 آن باشد "میانه" است (شکل 5).

میانه

شکل5

در شکل بالا نقاط نطقه چین میانگین و خط بیانگر میانه می باشد.

ماکسیمم مؤثر (%75) : نقطه ای که %75 یا 4/3 داده ها از آن نطقه مقدار کمتری دارند(شکل 6).

ماکسیمم موثر

شکل6

نمودار جعبه را نیز مانند سایر نمودار ها هم می توانیم دسته بندی کنیم و هم سری های مختلف به نمودار جعبه ای بدهیم(شکل 7).

تنظیمات نمودار جعبه ای

در محور افقی معمولا و تقریبا همیشه داده های دسته بندی شده قرار می گیرند و محور عمودی این نمودار را داده عددی ای که قابلیت محاسبه و شمارش دارد تشکیل می دهد.

برای تفسیر این نمودار بهتر است که اختلاف زیادی بین میانه و میانگین نباشد زیرا این کار باعث می شود که میانگین به شما دروغ بگوید. برای درک بهتر این مساله به مقاله "نمودار جعبه ای - هنگامی که میانگین دروغ می گوید !" مراجعه نمایید.

آنچه در مقاله بعد می خوانید » نمودار پراکندگی

این داده چه شکلی است ؟ - هیستوگرام

گاهی لازم است بدانیم که محصولات در کدام بازه های قیمتی، بیشترین فروش و کمترین فروش را دارند . گاهی لازم است وضعیت پرسنلی کارمندان را بررسی کنیم و بدانیم کدام گروه سنی اکثریت نیروی انسانی را تشکیل می دهند یا کدام رنج حقوقی بیشترین فراوانی را در شرکت دارد . گاهی می خواهیم نمود های غیرعادی و نقاط پرت را بررسی کنیم و از وجود آنها مطلع شویم و بسیار مواقعی که نیاز به یک شمای کلی از داده های خود به منظور تصمیم گیری داریم ولی نمی توانیم به راحتی و در زمان کم به آن دسترسی داشته باشیم. 



هیستوگرام : 

نموداری که موضوع بحث است نموداری بسیار کارآمد و مناسب در حوزه ارائه داده ها و هوش تجاری است که به دلیل شباهت زیاد به نمودار میله ای ، فراموش شده است . هیستوگرام نوعی ارائه گرافیکی توزیع ( پراکندگی ) داده های عددی است . این نمودار اولین بار در سال 1891 توسط کارل پیرسون معرفی شد و نام آن را از مخفف "historical diagram  " به معنی  "نمودار تاریخی " ساخت . 



تجربه نشان داده است که حتی بسیاری از افرادی که تجربه مصورسازی داده ها دارند، هنگام درک و یا خواندن هیستوگرام به مشکل بر می خورند . هیستوگرام گرافیست که از لحاظ ظاهری شبیه به نمودار میله ایست و گاهی با آن اشتباه گرفته می شود . البته که هر دو این نمودار می توانند تعداد داده ها را برای کاربر شمرده و به صورت گرافیکی به او نشان دهند ، اما یک نمودار میله ای تعداد واقعی داده ها در دسته بندی های متفاوت ابعاد گوناگون داده نشان میدهد  (طول میله نشان دهنده تعداد داده در آن دسته از بعد مورد نظر است)،  این در حالی است که هیستوگرام همان داده دسته بندی شده را در طبقه های متفاوت نشان می دهد .
در اصل بهتر است نتیجه گیری کنیم که هر نمودار اساسا نوع متغیرهای متفاوتی را به نمایش می گذارند . با تمام این توضیحات همیشه در نظر داشته باشید که فضاهای خالی بین میله های نمودار در نمودار میله ای معنی خاصی ندارند ، این در حالی است که اگر فضایی خالی بین میله ها در هیستوگرام ایجاد شود معنی می دهد و نشان دهنده ی خالی بودن آن طبقه از داده هاست . 


طبقه (bin) به چه معنی است ؟
وقتی که یک هیستوگرام می سازید در واقع در حال ساختن یک نمودار میله ای هستید که نشان میدهد  چه تعداد داده در آن بازه که طبقه نامیده می شود ، قرار دارند . معمولا تعداد این طبقات 5 تا 20 می باشد . قانون از پیش تعیین شده ای برای این اعداد وجود ندارد ، صرفا یک قانون سر انگشتی است به این منظور که کمتر از 5 طبقه هیستوگرام بدون پیام و بیشتر از 20 طبقه دارای پیچیدگی زیادی هنگام خواندن خواهد بود . البته لازم به ذکر است که در مواردی خاص هنگامی که داده ها دارای طبقه بندی خاص و از پیش تعیین شده مد نظر سازمان یا افراد بخصوص است ، هیستوگرام با توجه به خواسته و نیاز آنها با همان طبقه های از پیش تعیین شده کشیده می شود . به عنوان مثال گروه سنی در جوامع متفاوت ، متفاوت نام گذاری می شود . در هر جامعه ای به اقتضای فرهنگ ها و تعاریف اجتماعی گروه های سنی مثل جوان ، نوجوان و ... را در رنج سنی های متفاوت مشخص می کنند . 


همانطور که پیشتر هم اشاره کردیم یکی از اهداف اصلی استفاده از هیستوگرام ارائه گرافیکی توزیع داده هاست . در دنیای تغییرات ،سایه ها و مملو از پیوستگی ،معیارهای متوسط همیشه کافی نخواهند بود و گاهی باعث گمراهی می شوند .گاهی لازم است که شکل پراکندگی و توزیع داده به صورت کلی نمایش داده شود . سه ویژگی کلیدی از مصورسازی توزیع داده ها عبارتند از :
- گستره داده : مقادیر بیشینه و کمینه و همچنین فاصله بین آنها
- مرکزیت : طبقه ای از داده بیشترین فراوانی دارد ( معمولا اتفاق می افتد )
- شکل : شمای کلی داده در یک نگاه
موارد ذکر شده در تصمیم در مورد نوع توزیع داده ها و همچنین تصمیم گیری اساسی با توجه به داده های موجود بسیار تعیین کننده هستند . 
در بررسی یک هیستوگرام و به صورت کلی بررسی توزیع داده به موارد زیر دقت نمایید و در صورت مشاهده بررسی بیشتر انجام دهید :
نقطه اوج( peak  )  
فاصله های خالی
نقاط تمرکزی 
نقاط پرت