بررسی data warehouse

بررسی انباره داده بخش هشتم

توسط maryam | گروه مقاله های کامپیوتر | 1394/09/09

نظرات 0

 تبديل داده

در پياده سازی هر سيستم، تبديل داده عمل مهمی است. برای مثال وقتی يك سيستم عملياتی مثل يك نرم افزاراشتراک مجله پياده سازی می شود، بايد در ابتدا بانک را با داده هايی از ركوردهای سيستم قبلی جمع آوری کرد. برای انجام آن می توان داده ها را از طريق يک سيستم دستی منتقل کرد، يا می توان اطلاعات را ازسيستم فايل گرا به يك سيستم مدرن پشتيبانی ‌شده توسط جداول بانک اطلاعاتی رابطه ای منتقل کرد. به همين ترتيب داده را می توان از سيستمهای قبلی تبديل کرد. پس چه چيزی است که در انبار داده  خيلی تفاوت دارد؟ چطورباعمل تبديل داده در يك انبار داده بيشتر از يك سيستم عملياتی در گير هستيم؟
همانطور كه می‌دانيد، داده  از منابع مختلف به يك انبار داده انتقال می يابد. اگر استخراج داده برای يك انبار داده به صورت رقابتهای بزرگ مطرح باشد، به همان اندازه تبديل داده نيز رقابتهای بزرگ را در پی دارد. فاكتور ديگر در انبار داده  آن است كه تغذيه داده فقط يك بارگذاری اوليه برای آن  نيست، بلکه بايد به صورت مداوم تغييرات از سيستمهای منبع روی انبار داده اعمال شود. هر عمل تبديل داده که از بارگذاری اوليه شروع می شود، به منظور تجديد نظرهای مداومی صورت می گيرد.
تعدادی از عملياتهای خاص به عنوان بخشی از اعمال تبديل داده انجام می شود. ابتدا داده استخراج شده از هر منبع پاكسازی می شود. پاكسازی می‌تواند فقط شامل تصحيح اشتباهات املائی ‌باشد يا می‌تواند شامل برطرف کردن ابهامات بين كدهای state و كدهای zip شده در داده منبع باشد يا می‌تواند ايجاد مقادير پيش فرض برای اجزاء گمشده ، ويا حذف موارد تكراری باشد برای وقتيکه همان داده ازچندين سيستم منبع منتقل می شود.
استانداردسازی اجزاء داده ،بخش بزرگی از عمليات تبديل داده است. انواع داده و طول فيلد برای اجزاء همان داده بازيابی شده ،از منابع مختلف نيزمی بايست استانداردسازی شوند. استاندارد سازی معنايی عمليات اصلی ديگری است. همچنين بايد واژه های مترادف و متشابه برطرف شوند. زمانيکه دو يا چند قلم داده ازسيستمهای منبع متفاوت به يک معنی هستند ، در اين مورد بايدبرای واژه های مترادف راهکاری درنظر گرفت. وقتی يك قلم داده به چندين معنی متفاوت در سيستمهای منبع مختلف وجود دارد،بايد برای واژه های متشابه نيز راهکاری اتخاذ کرد.
تبديل داده باچندين فرم تركيب بخشهای داده ای از منابع مختلف درگير است. داده از يك ركورد منبع يا اجزاء داده مرتبط ازركوردهای چندين منبع تركيب می شود. از طرف ديگر تبديل داده همچنين با پاکسازی داده منبع كه اين امر مفيدی نيست و با جداسازی رکوردهای منبع خارجی به يك تركيب جديد درگير است. مرتب سازی و ترکيب داده در مقياس بزرگ نيز دربخش Data staging انجام می گيرد.
دربيشترموارد، كليدهای انتخابی برای سيستمهای عملياتی مقاديرفيلدهای سازنده هرمفهوم است. برای مثال مقدار كليد محصول می‌تواند تركيبی از كاراكترهای تعيين کننده گروه محصول ، كدانباری كه محصول در آن  ذخيره شده،و چند كد برای نمايش محصول باشد. كليدهای اصلی درانبار داده نمی‌تواند مفاهيم سازنده داشته باشد.تبديل داده همچنين شامل انتساب كليدهای جانشين مشتق شده از كليدهای اصلی سيستم منبع است.
سيستم عملياتی يک فروشگاه زنجيره ای در نظر بگيريد، درهر فروشگاه ،فروشهای واحد و درآمدها به وسيله تراكنشهای مجزا نگهداری می شود. اما درانبار داده لازم نيست تا داده در اين سطح ازجزئيات نگهداری ‌شود. می توان تا کليات اطلاعات محصول را در هر فروشگاه برای يك روزمعين خلاصه کردوسپس کليات اطلاعات واحدهای فروش ودرآمدهارا درحافظه انبار داده ذخيره کرد. در چنين مواردی، عمليات تبديل داده يک عمل خلاصه سازی مناسب می باشد.
وقتی عمليات تبديل داده پايان يافت، مجموعه‌ای از داده‌های يكپارچه داريم كه پاكسازی ، استاندارد و خلاصه شده اند.اکنون می توان داده را جهت بارگذاری در هر مجموعه داده درانبار داده آماده سازی کرد.
 بارگذاری داده
دو گروه برجسته ازاعمال ،عمليات بارگذاری داده هستند. زمانيکه طراحی و ساخت انبار داده تکميل شد و برای اولين بار انبارداده شروع به کار کرد، بارگذاری اوليه داده به درون حافظه انبار داده انجام می شود. دربارگذاری اوليه مقادير زيادی داده را به همراه مقاديرزمانی مهم هر داده، انتقال داده می شود. همانطور كه انبار داده شروع به كار می‌كند، استخراج تغييرات از داده منبع ادامه می يابد، نسخه های جديد داده منتقل می شود ونسخه های جديد داده اضافه‌شده به صورت مداوم به روز رسانی می شود. شكل  زیر انواع عمومی انتقالات داده از ناحيه ذخيره سازی به حافظه انبار داده  را نشان می‌دهد.
انباره داده

 لايه Data Storage
لايه Data Storage در انبار داده يک مخزن (Repository) جداگانه است. سيستمهای عملياتی، عمليات روزانه را پشتيبانی می‌كنند، که عمليات پردازش تراكنش online هستند. اصولا مخازن داده در سيستمهای عملياتی فقط حاوی داده های جاری هستند. همچنين اين مخازن حاوی داده ساختيافته در سطح نرمال بالايی به منظور پردازشهای مؤثروسريع می باشند. متقابلا در مخزن داده انبار داده، نياز به نگهداری مقاير زيادی از داده های  زماندار جهت تحليل است. بعلاوه داده را درانبارداده بايد در ساختارهای کارآمد نه به منظوربازيابی سريع اطلاعاتی، بلکه به جهت تحليل نگهداری کرد. بنابراين لايه data storage در انبار داده جدا ازلايه data storage در سيستمهای عملياتی می باشد.
در سيستمهای عملياتی پشتيبانی شده توسط بانكهای اطلاعاتی، بروز رسانی داده به عنوان تراكنش رخ می دهد. اين تراكنشهابه روشهای تصادفی دربانكهای اطلاعاتی اتفاق می افتد. چگونگی و زمان تغيير داده توسط تراكنشها در بانک اطلاعاتی كاملا تحت كنترل نيست. داده در بانكهای اطلاعاتی عملياتی نمی‌تواند از لحظه‌ای به لحظه‌ای تغيير كند. وقتی تحليلگرها از داده درانبار داده  جهت تحليل استفاده می‌كنند، نياز به دانستن آن دارند كه داده پايا است و اينکه در دورهای خاصsnapshot ها بازسازی شوند. همانطور كه آنها با داده كارمی کنند لايه data storage نبايد متناوبا بروزسازی شود. به همين دليل انبارهای داده ،مخازن داده فقط خواندنی هستند.
عموما بانک اطلاعاتی درانبارداده بايد فعال باشد. انبارداده بايد برای به کارگيری ابزارهای مختلف آماده باشد. بيشتر انبارهای داده، سيستمهای مديريت بانک اطلاعاتی رابطه ای را به کار می برند.
همچنين بسياری از انبارهای داده سيستمهای مديريت  بانک اطلاعاتی  چندبعدی را به کار می برند. استخراج داده از حافظه انبارداده به چندين روش تجميع می‌شود و خلاصه داده در بانکهای  اطلاعاتی چند بعدی (MDDBs)نگهداری می‌شود. معمولا بعضی ازسيستمهای بانک اطلاعاتی چند بعدی ،  محصولات اختصاصی هستند.

 لايه تحويل اطلاعات 
كاربرانی كه به اطلاعات انبارداده نيازدارند، چه كسانی هستند؟ اين حوزه تقريبا وسيعی است. كاربرمبتدی از انبارداده بدون هيچگونه آموزشی استفاده می کند، بنابراين نيازبه گزارشات ازپيش ساخته شده و پرسجوهای ازپيش طراحی شده دارد. كاربرموردی به اطلاعات، نه به طور منظم بلکه در مقطعی از زمان نياز دارد. همچنين اين نوع كاربران نياز به اطلاعات از پيش ساخته شده دارند.

 

0 نظر

نظر محترم شما در مورد مقاله های وب سایت برنامه نویسی و پایگاه داده

نظرات محترم شما در خدمات رسانی بهتر ما را یاری می نمایند. لطفا اگر مایل بودید یک نظر ما را مهمان فرمائید. آدرس ایمیل و وب سایت شما نمایش داده نخواهد شد.

حرف 500 حداکثر