隨著高校信息化建設進入深水區,如何整合不同來源的數據并在統一平臺上使用,成為當前高校大數據管理平臺建設面臨的重大挑戰。文章提出了一種基于消息傳遞的異構信息接入及標準化處理的方法和相應的軟件架構。
異構數據集成方法
數據集成是將互相關聯的分布式異構數據源集成到一起,使用戶能夠以透明的方式訪問這些數據源。異構數據源主要有自治性、分布性和異構性三個特征。目前,對異構數據資源進行集成和管理的方法主要有模式集成和數據復制。
模式集成是人們最早采用的數據集成方法。其基本思想是,在構建集成系統時將各數據源的數據視圖集成為全局模式,使用戶能夠按照全局模式透明地訪問各數據源的數據。全局模式描述了數據源共享數據的結構、語義及操作等。用戶直接在全局模式的基礎上提交請求,由數據集成系統處理這些請求,轉換成各個數據源在本地數據視圖基礎上能夠執行的請求。模式集成方法的特點是直接為用戶提供透明的數據訪問。由于用戶使用的全局模式是虛擬的數據源視圖,一些學者也把模式集成方法稱作虛擬視圖集成方法。典型的模式集成方法包括聯邦數據庫和中間件集成。
數據復制是指將各個數據源的數據復制到與其相關的其它數據源上,并維護數據源整體上的一致性、提高信息共享利用的效率,也被稱為實體化方法。最常見的數據復制方法就是數據倉庫法。其體系結構可以劃分為客戶端、數據倉庫和數據源三部分。數據倉庫需要有效的數據加載和增量式更新維護等技術。
系統設計與實現
大數據平臺架構
高校大數據平臺一般由數據源、數據層、應用層三層架構組成。數據源層全面感知學校的人員、設備、資源及各業務系統產生的數據信息。數據層將通過各類網絡采集來的異構信息進行全面集成和匯聚。應用層主要為用戶提供個性化的服務,如教學、科研、管理等各類應用,實現輔助決策、按需服務。據圖1可知,數據接入及標準化系統位于數據層,主要實現各類異構系統數據適配、轉換、共享等工作,起到前方的異構系統與后方數據匯聚平臺聯通的橋梁作用,提供給上層用戶透明的訪問和使用,仿佛在訪問一個數據源一樣,為學校的數據治理、分析決策及數據挖掘提供數據支撐。
數據接入及標準化系統由通用數據采集適配器和數據適配中間件構成,主要實現消息格式適配、消息數據格式轉換、消息傳輸功能。其功能描述如下:
消息格式適配,通過通用數據采集適配器對用戶提供協議適配界面,通過該界面,設置需傳遞消息的數據格式,便于適配器進行解析及轉換。消息數據格式轉換,主要將獲取的消息內容轉換成標準格式的數據形式。消息傳輸,與異構系統建立消息通道,獲取該系統的消息內容,并分發給分布式數據總線。
數據采集適配器
通用數據采集適配器為用戶提供界面化的工具,實現了對數據采集端點的有效配置。數據端點配置包括數據源(數據來源)配置和數據訂閱者(數據去向)配置。通用數據采集適配器實現數據的接入轉發、狀態監測、信息路由、鏈路管理等。數據適配中間件為用戶提供界面化操作,實現轉換規則配置及輸入數據的解析及格式化。轉換規則配置包括數據源的數據格式配置,數據訂閱者的數據格式配置,以及它們之間的數據轉換規則配置。
通用數據采集適配器基于管道或過濾器架構設計,包括通用數據采集適配配置工具及通用數據采集適配服務。
數據采集適配器主要接收數據生產者發送過來的數據信息,為每一個外部系統分配一條管道,通過不同的消息通道處理不同種類的信息,采用推模式對消息進行處理。將轉換為標準格式的信息分發給數據訂閱者(包括數據庫中間件)。
信息路由模塊根據消息類型完成消息的路由。數據分發子模塊將消息轉發到相應的訂閱者。鏈路管理模塊管理鏈路的連接、關閉、異常信息,在生產者與訂閱者之間建立連接關系。異常信息處理模塊處理異常信息。數據適配接口模塊進行消息聚合及分解,同時調用數據適配中間件進行消息處理。數據映射關系管理模塊管理信息生產者和消費者通道。運行狀態監控模塊查看各個通道狀態信息,并統計生產者和訂閱者的數量。
通用數據采集適配配置工具主要包括數據源配置、訂閱者配置、運行狀態監控、日志查看及系統數據審查等功能。
數據采集適配服務對業務數據的處理包括數據接收、格式化及分發。根據通用數據采集適配器的業務數據處理配置,包括數據直接透傳、異構數據標準化供內部訂閱者進行訂閱、標準數據個性化供特定訂閱者進行訂閱。
通信組件與數據生產者、數據訂閱者建立通信鏈路,保存識別該鏈路的ID。信息路由子模塊接收到通信組件發送過來的數據信息,并將信息分發到各個子模塊。如果出現Accept、Connect、鏈路Error、心跳等,就將該消息發送到鏈路管理子模塊。業務數據消息如果未經轉換就路由到數據適配接口子模塊,由適配接口子模塊對消息進行分包及聚合,獲取消息的數據結構,并調用數據適配中間件完成數據解析,將結果返回給消息路由子模塊。數據分發子模塊接收到信息路由子模塊發送過來的數據信息,通過向數據映射關系管理子模塊獲取訂閱者信息,并將發送任務發送到通信組件,由通信組件完成信息的分發。
數據適配中間件
數據適配中間件采用責任鏈設計模式完成該中間件總體構建。消息傳輸系統按照層設計模式分為四個層次,包括消息傳輸、數據表示、數據類型、數據結構,數據適配中間件實現后三個層次的消息轉換。按照分層的設計模式理念,層與層之間是相互不干擾,只是通過接口實現層與層之間的通信,包括中間件配置工具及數據適配服務。中間件配置工具為用戶提供界面化操作,數據適配服務負責對輸入的數據進行解析并格式化。
數據適配中間件配置工具組件啟動后通過添加或修改數據格式,輸入相應格式數據的屬性參數,系統輸出對應XML格式的配置文件。數據適配服務讀取相應的配置文件,包括數據格式、類型、轉換規則,建立規則責任鏈,對讀入的數據進行解析獲取數據類型,并轉換為新的數據結構。數據解析支持每秒500條以上。
結 語
本文根據校園應用系統中數據資源的結構特點提出了一個靈活性強、易擴展的數據接入及標準化系統,以實現異構數據源的集成,為高校大數據平臺的建設打下基礎。通過異構數據接入及標準化系統,將一卡通消費數據、門禁刷卡統計數據、教學科研數據等標準化,為各類應用系統進行分析研判提供了統一的訪問接口和數據標準。
該系統的優勢在于,可以使用可定制格式頻繁的、可靠的、實時的傳輸數據,并保證了源應用與目的應用的松耦合。該系統在百兆網速內,高網絡負載下可穩定運行,支持二進制、文本數據格式之間的相互轉換,對相應數據字段進行標準化。支持二進制、文本數據格式配置,支持TCP、UDP網絡傳輸協議。兼容各種網絡傳輸采集(WebService、HTTP、TCP、UDP、RS232/485),兼容關系型數據庫和非關系型數據庫??梢愿鶕枰?,擴展更多的數據格式及標準化函數。
本文章來源于:中國教育網絡,如有異議請及時聯系我們刪除!