بررسی data warehouse

بررسی انباره داده بخش سوم

 در اختيار گرفتن منابع برنامه نويسي/ تحليلگر براي انجام‌اين دو عمل.براي قرار دادن داده، چندين فايل و قالب داده بايد بررسی شود. بعضي فايلها از روش دستيابي به فضای ذخيره سازی مجازی استفاده مي‌كنند(VSAM)، بعضي از سيستمهاي مديريت اطلاعات (IMS) وبرخي از سيستم مديريت بانك مجتمع استفاده مي‌كنند. مجموعه مهارتهای متفاوتی به منظور دستيابي به داده مورد نياز است. از‌اين گذشته، عوامل پيچيده‌ای وجود دارد: مثلا، دو فايل مي‌توانند يك عنصر به نام BALANCE داشته باشند، اما هر يک از‌اين دو عنصر ممکن است با هم تفاوت داشته باشند. در مورد ديگر، يك بانك مي‌تواند يك فايل شناخته شده مثل CURRBAL و مجموعه داده ديگر ممکن است يك فايل به نام INVLEVEL داشته باشد كه همان اطلاعات CURRBAL را درخودجای داده باشد.در نظر گرفتن هر بخشی از اطلاعات (نه فقط با نام بلکه با تعريف و محاسبه- يك پردازش خيلي کسل کننده است. اما اگر گزارش سازمان توليد شده باشد، استفاده از آن بايد به موقع انجام گيرد .اگر تحليل و تفسير شود، با گزارشی مخلوطی از سيبها و پرتقالها مواجه مي‌شويم، که هنوز دارای درجه بالايی از پيچيدگي است.

عمل ديگر براي توليد گزارش گردآوری داده‌ای است كه قرار است در برنامه توليد شود .برنامه‌ای كه بايد نوشته شود، بايد قادر باشد داده را از منابع مختلف به سادگی اخذ كند .با وجود حقايق زير‌اين مورد پيچيده تر به نظر مي‌رسد:

خيلي از برنامه بايد نوشته شود.
هر برنامه بايد سفارشی سازی شود.
برنامه‌هاتحت تكنولوژي بايد باشد که سازمان از آن استفاده مي‌کند.
خلاصه آنكه برنامه توليد گزارش بايد برای نوشتن ساده باشد.در شركت بايد نماي كليي از مشكلات توصيف گرددو يك تحليلگر زمان خيلی طولانی را برای انجام‌اين اعمال تخمين بزند، همانطور كه در شكل  زیرنشان داده شده است.
اگر طراح فقط دو يا سه نفر - ماه از منابع را درگير کند، پس توليد گزارش نيازی به توجه زياد مديريت ندارد. اما وقتي يك تحليلگر منابع زيادی را درخواست مي‌كند، مديريت بايد رسيدگی بيشتری به درخواست نسبت به ساير در خواستهای منابع داشته باشد و بايد برای‌اين درخواستها اولويت قائل شود.
انباره داده
اگر زمان اضافی صرف شود،‌ايجاد گزارشات با استفاده از منابع زياد، خيلی نبايد سخت باشد. به بيان ديگر اگر ابتدا گزارش توليد شده شركت به منابع خيلی زيادی نياز داشته باشد، و اگر همه گزارشات به طور موفقيت آميزی بتوانند از اولين گزارش‌ايجاد شده، توليد شوند، پس متحمل شدن ‌اين هزينه مي‌تواند با ارزش باشد. اما موضوع آن نيست .
اگر نيازهاي گزارشگيري شركت در‌ اينده كاملا شناخته شده نباشد و براي ساخت گزارش اوليه استفاده شود، هر گزارش جديد شركت حتما همان مقدار سربار زيادي نياز خواهد داشت! به بيان ديگر بعيد است كه گزارش اوليه شرکت براي نيازهاي گزارشگيري شركت در‌اينده کافی باشد يا نه.
پس بهره وری در محيط شركت، پيامد اصلي سيستمهای توسعه يافته امروزی و سيستمهاي‌ اينده است. وقتي از سيستمهاي وب استفاده ‌كنيم، اطلاعات به منظور دسترسي و صرف زمان طولاني توليد پرهزينه مي‌شوند.
 از داده ها تا اطلاعات
همچنانکه بهره وری و اعتبار تنها مشكلات موجود نبودند، مشکل اصلي ديگر سيستمهای توسعه يافته امروزی - ناتواني در حركت وتبديل از داده به سمت اطلاعات مي‌باشد. در نگاه اول، موضوع حركت از داده به سمت اطلاعات يك مفهوم لطيف به نظر مي‌رسد. اما ‌اينطور نيست.
درخواست زير براي دريافت اطلاعات را درنظر بگيريد، چطور فعاليت حسابرسی امسال از پنج سال گذشته قابل تفکيک است؟شكل زیر درخواست را نشان مي‌دهد.
ابتدا تحليلگرسيستم پشتيبان تصميم سعي در پوشش درخواست برای اطلاعاتی مي‌کند كه در سيستمهاي موجود برای داده مورد نياز کافی باشد که‌اين بدترين کاری است که مي‌تواند انجام شود. تحليلگر بايد با مقادير زيادي نرم افزار غير متمركز سرو کار داشته باشد. براي مثال يك بانك مي‌تواند حسابها، و امها، سپرده مستقيم و نرم افزارهاي مطمئن داشته باشد. هر چند سعي براي جمع آوري اطلاعات از آنها بر طبق يك مبناي مناسب، غير ممكن است، چرا كه نرم افزارها هرگز با يك تفكر واحد ساخته نمي‌‌شود و براي تحليلگر آسان نيست که آنچه سايرين انجام داده اند را کشف کند.
انباره داده
 اما فقط جمع آوري اطلاعات براي تحليلگر مشکل نيست. مانع اصلي دوم آن است كه داده تاريخ دار ذخيره شده كافي در نرم افزارها براي پاسخگوي به درخواست مورد نظرموجود نمي‌‌باشد.
شكل بالا نشان مي‌دهد كه دپارتمان وام داراي بيشتر از دو سال داده است. دفتر حساب پس انداز بيشتر از يك سال داده دارد. نرم افزار DDA بيشتراز 60 روز داده ندارد. و پردازش CD بيشتر از 18 سال داده ندارد . نرم افزارهايی که براي ارائه خدمات پردازش عادی روزانه ساخته مي‌شوند، هرگز طوري طراحي نمی شوند كه داده تاريخدار رابراي تحليلهای سيستمهای پشتيبان تصميم نگهداري كنند. عجيب نيست که سيستمهاي موجود براي تحليلهای پشتيبان تصميم يك انتخاب ضعيف است . اما راه حل چيست؟
مواردی که درسيستمهای توسعه يافته بنيانگذاری مي‌شود، براي پشتيباني اطلاعات مورد نياز کافی نيستند. آنها فاقد يکپارچگی لازم هستند و يك اختلاف بين افق زمانی (يا پارامتر زمان) مورد نياز براي پردازش تحليلی و افق زمانی موجود در نرم افزارها وجود دارد.
يك تغيير در بحث
سيستمهای توسعه يافته موجود، كه بيشتر ازفروشگاهها شروع مي‌شود، براي پوشش نيازهاي‌اينده به اندازه کافی قوی نيستند.چه چيزی نياز است؟ يك تغيير در معماري؛ همان جاييكه معماري انبارداده مطرح مي‌شود.
اصولا دو نوع داده در قلب يك محيط معماري وجود دارد- داده اصلي Primitive (ابتدايي ) و داده مشتق شده.در زير موارد ديگر تفاوت بين آن دو دنبال شده است.
داده ابتدايي داده خيلي جزئي است كه با استفاده از اجراي روزانه عمليات شركت ‌ايجاد شده است و داده مشتق شده يا مختصر شده براي نيازهاي مديريتی شركت محاسبه شده است.
داده ابتدايي مي‌تواند به روز رساني شود. داده مشتق شده مي‌تواند دوباره محاسبه ‌شود اما نه به طور مستقيم.
داده ابتدايي اصولا مقدار جاري داده است داده مشتق شده اغلب داده تاريخ دار است.
داده ابتدايي در يك رويه تكراري عمل مي‌كند. داده مشتق شده توسط برنامه‌هاورويه‌های اکتشافی و غير تكراري عمل مي‌كنند.
داده عملياتي ابتداي است؛ داده سيستمهای پشتيبان تصميم داده مشتق شده است.
داده ابتدايي ازتوابع دفتری پشتيباني مي‌كنند. داده مشتق شده ازتوابع مديريتي پشتيباني مي‌كنند.
عجيب است كه در تجميع پردازش اطلاعات به نظر مي‌رسد كه هم داده ابتدايي و هم مشتق شده مي‌توانند با هم مطابقت داشته باشند و مي‌توانند درون يک بانک اطلاعاتی قرار گيرند.در حقيقت داده ابتدايي و مشتق شده آنقدر باهم تفاوت دارند كه در يك بانك يا در يك محيط قرار نگيرند.

 

0 نظر

نظر محترم شما در مورد مقاله های وب سایت برنامه نویسی و پایگاه داده

نظرات محترم شما در خدمات رسانی بهتر ما را یاری می نمایند. لطفا اگر مایل بودید یک نظر ما را مهمان فرمائید. آدرس ایمیل و وب سایت شما نمایش داده نخواهد شد.

حرف 500 حداکثر