وبلاگ vdash

اخبار و مقالات مربوط به vdash، نرم افزار آنالیز اطلاعات و ساخت داشبورد مدیریتی

این داده چه شکلی است ؟ - هیستوگرام

گاهی لازم است بدانیم که محصولات در کدام بازه های قیمتی، بیشترین فروش و کمترین فروش را دارند . گاهی لازم است وضعیت پرسنلی کارمندان را بررسی کنیم و بدانیم کدام گروه سنی اکثریت نیروی انسانی را تشکیل می دهند یا کدام رنج حقوقی بیشترین فراوانی را در شرکت دارد . گاهی می خواهیم نمود های غیرعادی و نقاط پرت را بررسی کنیم و از وجود آنها مطلع شویم و بسیار مواقعی که نیاز به یک شمای کلی از داده های خود به منظور تصمیم گیری داریم ولی نمی توانیم به راحتی و در زمان کم به آن دسترسی داشته باشیم. 



هیستوگرام : 

نموداری که موضوع بحث است نموداری بسیار کارآمد و مناسب در حوزه ارائه داده ها و هوش تجاری است که به دلیل شباهت زیاد به نمودار میله ای ، فراموش شده است . هیستوگرام نوعی ارائه گرافیکی توزیع ( پراکندگی ) داده های عددی است . این نمودار اولین بار در سال 1891 توسط کارل پیرسون معرفی شد و نام آن را از مخفف "historical diagram  " به معنی  "نمودار تاریخی " ساخت . 



تجربه نشان داده است که حتی بسیاری از افرادی که تجربه مصورسازی داده ها دارند، هنگام درک و یا خواندن هیستوگرام به مشکل بر می خورند . هیستوگرام گرافیست که از لحاظ ظاهری شبیه به نمودار میله ایست و گاهی با آن اشتباه گرفته می شود . البته که هر دو این نمودار می توانند تعداد داده ها را برای کاربر شمرده و به صورت گرافیکی به او نشان دهند ، اما یک نمودار میله ای تعداد واقعی داده ها در دسته بندی های متفاوت ابعاد گوناگون داده نشان میدهد  (طول میله نشان دهنده تعداد داده در آن دسته از بعد مورد نظر است)،  این در حالی است که هیستوگرام همان داده دسته بندی شده را در طبقه های متفاوت نشان می دهد .
در اصل بهتر است نتیجه گیری کنیم که هر نمودار اساسا نوع متغیرهای متفاوتی را به نمایش می گذارند . با تمام این توضیحات همیشه در نظر داشته باشید که فضاهای خالی بین میله های نمودار در نمودار میله ای معنی خاصی ندارند ، این در حالی است که اگر فضایی خالی بین میله ها در هیستوگرام ایجاد شود معنی می دهد و نشان دهنده ی خالی بودن آن طبقه از داده هاست . 


طبقه (bin) به چه معنی است ؟
وقتی که یک هیستوگرام می سازید در واقع در حال ساختن یک نمودار میله ای هستید که نشان میدهد  چه تعداد داده در آن بازه که طبقه نامیده می شود ، قرار دارند . معمولا تعداد این طبقات 5 تا 20 می باشد . قانون از پیش تعیین شده ای برای این اعداد وجود ندارد ، صرفا یک قانون سر انگشتی است به این منظور که کمتر از 5 طبقه هیستوگرام بدون پیام و بیشتر از 20 طبقه دارای پیچیدگی زیادی هنگام خواندن خواهد بود . البته لازم به ذکر است که در مواردی خاص هنگامی که داده ها دارای طبقه بندی خاص و از پیش تعیین شده مد نظر سازمان یا افراد بخصوص است ، هیستوگرام با توجه به خواسته و نیاز آنها با همان طبقه های از پیش تعیین شده کشیده می شود . به عنوان مثال گروه سنی در جوامع متفاوت ، متفاوت نام گذاری می شود . در هر جامعه ای به اقتضای فرهنگ ها و تعاریف اجتماعی گروه های سنی مثل جوان ، نوجوان و ... را در رنج سنی های متفاوت مشخص می کنند . 


همانطور که پیشتر هم اشاره کردیم یکی از اهداف اصلی استفاده از هیستوگرام ارائه گرافیکی توزیع داده هاست . در دنیای تغییرات ،سایه ها و مملو از پیوستگی ،معیارهای متوسط همیشه کافی نخواهند بود و گاهی باعث گمراهی می شوند .گاهی لازم است که شکل پراکندگی و توزیع داده به صورت کلی نمایش داده شود . سه ویژگی کلیدی از مصورسازی توزیع داده ها عبارتند از :
- گستره داده : مقادیر بیشینه و کمینه و همچنین فاصله بین آنها
- مرکزیت : طبقه ای از داده بیشترین فراوانی دارد ( معمولا اتفاق می افتد )
- شکل : شمای کلی داده در یک نگاه
موارد ذکر شده در تصمیم در مورد نوع توزیع داده ها و همچنین تصمیم گیری اساسی با توجه به داده های موجود بسیار تعیین کننده هستند . 
در بررسی یک هیستوگرام و به صورت کلی بررسی توزیع داده به موارد زیر دقت نمایید و در صورت مشاهده بررسی بیشتر انجام دهید :
نقطه اوج( peak  )  
فاصله های خالی
نقاط تمرکزی 
نقاط پرت 


امکان ارسال نظر برای این موضوع وجود ندارد