วันศุกร์ที่ 1 มีนาคม พ.ศ. 2556

กระบวนการของซอฟต์แวร์ ไอบีเอ็ม คอกโนส


กระบวนการของซอฟต์แวร์ ไอบีเอ็ม คอกโนส

1. เริ่มต้นที่การกำหนดแหล่งข้อมูล (Data Sources) ที่จะนำมาเข้าสู่คลังข้อมูล โดยแหล่งข้อมูลสามารถแบ่งออกได้เป็น 2 ประเภท
                                1.1 แหล่งข้อมูลภายใน (Internal Data Sources) ได้แก่ ข้อมูลการดำเนินงาน (Operation Transaction) ข้อมูลอดีต (Legacy Data) เป็นต้น
                                1.2 แหล่งข้อมูลภายนอก (External Data Sources) แหล่งข้อมูลภายนอก ได้แก่ ข้อมูลสถิติจากสถาบันต่างๆ ข้อมูลของโครงการสารสนเทศอื่นๆ บทวิเคราะห์และบทความวิชาการต่างๆ ซึ่งในการกำหนดแหล่งข้อมูลจำเป็นจะต้องคำนึงถึงผลลัพธ์ที่ต้องการ เพื่อที่ว่าข้อมูลที่นำเข้ามาใช้งานจะสามารถสอดคล้องกับผลลัพธ์ที่ต้องการ
                2. การออกแบบคลังข้อมูล (Data Warehouse Design) เพื่อรองรับระบบ Business Intelligence เพราะ BI จำเป็นต้องอาศัยแหล่งข้อมูลจากคลังข้อมูล (Data Warehouse) เป็นหลัก ซึ่งการออกแบบคลังข้อมูลมีอยู่ด้วยกัน 3 แบบ เช่น คลังข้อมูลแบบ Star Schema หรือ Multidimensional Schema คลังข้อมูลแบบ Relational Schema และ Snowflake Schema ทำได้หลายแบบ แต่แบบที่นิยมใช้เป็นฐานข้อมูลกันมากสุดคือ แบบ Star Schema หรือโครงสร้างแบบดาว มีลักษณะโครงสร้างที่ Fact Table ถูกล้อมรอบด้วย หลายๆ Dimension Table


แสดงภาพ Star Schema กับ Fact Table และ Dimension Table

Star Schema เป็น Dimensional data ที่ประกอบไปด้วยตารางสองชนิดด้วยกัน คือ Fact Table และ Dimension Table โครงสร้าง Star Schema จะประกอบไปด้วย Fact Table อยู่ตรงกลาง และล้อมรอบไปด้วย Dimension Table โดย Fact Table จะเป็นศูนย์รวมข้อมูลเพียง Table เดียว ซึ่งลักษณะแบบนี้ จะช่วยเพิ่มความสามารถในการ Query ข้อมูลได้ง่ายและรวดเร็ว โดยจะลดปริมาณข้อมูลที่ต้องอ่านจากฐานข้อมูล ดังตัวอย่างดังนี้

ตัวอย่างของโครงสร้างคลังข้อมูล
 
                        Snowflake Schema จะประกอบไปด้วย Face Table และมี Dimension Table อยู่หลายระดับ โดยมี Key เป็นตัวเชื่อมโยงระหว่าง Primary Dimension Table ที่ต่อเชื่อมกับ Fact Table และต่อเชื่อมกับ Secondary Dimension Table โครงสร้าง Dimension model แบบ Snow flake จะมีข้อเสีย คือการมีโครงสร้างที่ยุ่งยาก ซับซ้อนในการเก็บ ทำให้ผู้ใช้ระบบไม่สามารถทราบได้ว่าข้อมูลอยู่ที่ใดบ้าง และในการเข้าถึงข้อมูล จะช้าตามโครงสร้างที่ซับซ้อน ซึ่งจะมีตาราง Dimension ที่เพิ่มขึ้น การเข้าถึงข้อมูลจะต้อง Link เป็นอีก Dimension อีกระดับหนึ่ง

 
แสดงตัวอย่าง Snowflake Schema (3 tables)

              3.  คัดเลือก ปรับเปลี่ยนข้อมูลให้อยู่ในภาพที่เหมาะสมและสอดคล้องกับรูปแบบของคลังข้อมูลที่ได้ออกแบบไว้ เพื่อนำข้อมูลเข้าสู่คลังข้อมูลโดยกระบวนการ ETL (Extract, Transform, Load) ประกอบด้วย การดึงข้อมูล การแปลงรูปแบบ และการจัดเก็บข้อมูลลงฐานข้อมูลของระบบคลังข้อมูล

                                3.1 การดึงข้อมูล (Data Extraction) เป็นขั้นตอนในการนำข้อมูลจากแหล่งข้อมูล (Data Source) ที่เกี่ยวข้อง เข้ามาพักไว้ในพื้นที่ที่เตรียมไว้ (Data Staging Area) เพื่อรอการแปลงรูปแบบข้อมูลและจัดเก็บข้อมูลต่อไป

                                3.2 การแปลงรูปแบบข้อมูล (Data Transformation) เป็นการแปลงรูปแบบของข้อมูลจากแหล่งข้อมูลต่างกัน ให้อยู่ในรูปแบบเดียวกัน

                                3.3 การจัดเก็บข้อมูล (Data loading) เป็นการนำข้อมูลที่ผ่านการแปลงรูปแบบข้อมูลแล้ว ไปจัดเก็บลงฐานข้อมูลของระบบคลังข้อมูล ตามโครงสร้างของฐานข้อมูลที่ได้ออกแบบไว้ เพื่อนำไปใช้ในการวิเคราะห์ต่อไป
                                คลังข้อมูล (Data Warehouse) คือ ฐานข้อมูลที่ถูกออกแบบมาเพื่อใช้งานด้านการวิเคราะห์ ระบบคลังข้อมูลได้ถูกออกแบบมาเพื่อใช้ในการเก็บข้อมูลขนาดใหญ่ ซึ่งต่างจากฐานข้อมูลโดยปกติที่ใช้กับงานปฏิบัติการประจำวัน ข้อมูลในคลังข้อมูลจะเป็นข้อมูลที่ดึงมาจากฐานข้อมูลที่ใช้งานประจำวัน (Operational Database) และอาจจะรวมกับข้อมูลจากทั้งในและนอกองค์กรที่เกี่ยวข้องด้วย จากนั้นจึงนำมาทำให้อยู่ในรูปแบบที่เป็นข้อมูลสรุป (Summary Data) เพื่อให้เหมาะสมกับการนำไปวิเคราะห์ข้อมูล ซึ่งเป็นประโยชน์ในด้านอื่นๆ ต่อไป เช่น เป็นข้อมูลสนับสนุนการตัดสินใจ การวางแผน การแก้ปัญหาต่างๆ โดยข้อมูลสรุปนี้อาจจะเป็นข้อมูลในอดีต ข้อมูลอ้างอิง หรือข้อมูล ณ ปัจจุบัน เพื่อให้มีความสามารถในการวิเคราะห์ได้อย่างมีประสิทธิภาพ อีกทั้งยังลดภาระของระบบปฏิบัติการจากการทำรายงานเพื่อใช้ในการวิเคราะห์

แผนภาพกระแสข้อมูลระบบ (System Data Flow Diagram)
                      4. การจัดทำข้อมูลที่จัดเก็บในคลังข้อมูลให้อยู่ในรูปแบบ Multidimensional Model หรือ Cube ซึ่งเป็นรูปแบบการทำให้ข้อมูลเกิดมิติขึ้นในหลายๆด้าน ก่อนจะนำไปสร้างเป็นรายงานในรูปแบบต่างๆ โดยอาศัยเครื่องมือที่ช่วยในการ Query ข้อมูล เช่น Query, Analysis, Reporting เป็นต้น และการที่จะทำให้ Business Intelligence มีประสิทธิภาพนั้น จะประกอบไปด้วย 2 ปัจจัยหลัก คือ

                                4.1 IT Network ซึ่งครอบคลุมทั้ง Intranet, Extranet และ Internet ซึ่งจะช่วยให้ผู้ใช้งานสามารถเข้าถึงข้อมูลได้อย่างง่าย
                           4.2 การประมวลผลเชิงวิเคราะห์แบบออนไลน์ (On-Line Transaction Processing: OLTP) ซึ่งถูกจัดเก็บอยู่ในรูปแบบที่ง่ายต่อการใช้งาน เป็นกระบวนการที่ใช้กับการวิเคราะห์ข้อมูล โดยข้อมูลจะเก็บไว้ในฐานข้อมูลที่เป็นแบบจำลองหลายมิติ (Dimension Modeling) ซึ่งสามารถเรียกดูข้อมูลได้หลายมุมมองที่เป็นเชิงมิติ โดยสามารถเจาะลงไปดูรายละเอียดข้อมูลของแต่ละมิติได้ โดยโอแล็ปแบ่งออกเป็น 3 ประเภท ดังนี้

                4.2.1 โอแล็ปแบบเชิงสัมพันธ์ (Relational OLAP: ROLAP) เป็นการประยุกต์ใช้รูปแบบฐานข้อมูลเชิงสัมพันธ์ (RDBMS) โดยมีรูปแบบการเก็บข้อมูลเป็นแบบตารางเหมือน RDBMS และสามารถกำหนดความสัมพันธ์ระหว่างตารางได้ โดยจะกำหนดเป็นรูปแบบดาว

                4.2.2 โอแล็ปแบบหลายมิติ (Multidimensional OLAP: MOLAP) เป็นการเก็บข้อมูลแบบหลายมิติ ข้อมูลจึงมีลักษณะเหมือนลูกบาศก์ หรือ คิวป์ (Cube) และสามารถสร้างมุมมองข้อมูลได้หลายมิติ

                4.2.3 โอแล็ปแบบผสม (Hybrid OLAP: HOLAP) เป็นการรวมเอาข้อดีของ ROLAP และ MOLAP มารวมไว้ด้วยกัน โดยจะใช้คุณสมบัติของ MOLAP ในกรณีที่ข้อมูลมีจำนวนมาก แต่ถ้าข้อมูลไม่มากก็จะใช้คุณสมบัติของ ROLAP

  ตารางแสดงการเปรียบเทียบประเภทข้อมูลและดูข้อมูล โดยทำการเปรียบเทียบข้อมูล   ระหว่าง OLAP,MOLAP และ HOLAP

แนวคิดของซอฟต์แวร์ ไอบีเอ็ม คอกโนส
 

แนวคิดของซอฟต์แวร์ ไอบีเอ็ม คอกโนส
                Framework Manager จะทำการดึงข้อมูลจากฐานข้อมูลมาเก็บไว้ เพื่อสร้างความสัมพันธ์และกำหนดรูปแบบของข้อมูล โดยข้อมูลที่ออกมาจาก Framework Manager จะอยู่ในรูปของ Package โดย มี 2 ลักษณะคือ Relational และ DMR (Dimensionally Modeled Relational) จากนั้นเราสามารถนำ Package เหล่านี้ไปใช้สร้างรีพอร์ทได้หรือจะทำการสร้างเป็น Cube โดย COGNOS Transformer ก่อนแล้วนำไปสร้างรีพอร์ทก็ได้ ซึ่ง Cube ซึ่งเมื่อนำไปออกรายงานก็จะรวดเร็ว กว่าข้อมูลรูปแบบอื่น เพราะจะถูกสร้าง Index ในมุมต่างๆ ไว้




ไม่มีความคิดเห็น:

แสดงความคิดเห็น