?
Sci論文 - 至繁歸于至簡,Sci論文網。 設為首頁|加入收藏

SCI論文網開場白:為SCI創作者提供分享合作的小而美圈子

當前位置:首頁 > 歷史論文 > 正文

談明清數字化檔案的存儲管理方法與實踐(附論文PDF版下載)

發布時間:2018-08-10 22:23:41 文章來源:SCI論文網 我要評論














SCI論文(www.zzyljfls.com):
 
Study on the Storage of Digital Archives of the Ming and Qing Dynasty
Hu Fangfang
 
中國第一歷史檔案館 (以下簡稱一史館) 是保管明清檔案的中央級檔案館, 館藏量巨大, 有近千萬件檔案, 歷史跨度大, 從明朝洪武年間到溥儀小朝廷時代, 歷時近600年。館藏檔案以紙質載體為主, 存在著部分檔案破損、紙張變脆等問題。為進一步保護明清檔案, 深化歷史檔案的開發利用, 2011年5月起, 一史館進行了大規模的館藏檔案數字化工作, 經過幾年努力, 截至2017年底, 一史館已完成館藏檔案數字化圖像超7500萬畫幅, 數據存儲備份數據總量 (含在線、近線、離線數據) 達6.4PB。如何對海量的數字化檔案進行存儲和管理是明清檔案信息化工作中的重點和難點, 本文就此問題, 結合一史館實際情況, 進行論述。

一、數字化檔案存儲管理的難點重點及解決思路

檔案是一種最真實、最可靠、最具權威性與憑證性的原聲信息資源。從概念上看, 檔案的數字化是指利用計算機等技術手段將經過鑒選、本來存儲于傳統載體上的檔案信息進行數字化轉換并加以存儲、保護、檢索利用的系統功能。從工作流程上看, 檔案的數字化包括檔案整理、著錄、掃描、格式轉化、數據存儲等多個環節。

(一) 數字化檔案存儲管理中的難點和重點

1. 檔案數字化工作中, 如何不斷提高從業者的業務水平。

檔案的數字化工作, 從涉及學科看, 不僅需要檔案學相關知識, 還需要計算機與信息應用相關的知識, 如網絡技術、存儲技術、數據庫技術等。如果自身對技術了解不深刻, 認為存儲系統的擴容就是多加幾個擴展柜, 認為存儲系統的安全穩定就是挑大廠家產品, 數字資源的正式、完整與安全必然無法得到保證。技術過硬是數字化檔案安全管理的強有力保障, 隨著科技的進步, 計算機技術的發展日新月異, 如何能夠在檔案數字化工作中, 不斷更新相關知識, 跟上時代的發展, 是檔案數字化工作的重點。

2. 檔案數字化生產時, 如何快速地實現數據存儲備份。

在數字化的各個階段, 都需要數據的存儲, 并且數據存儲容易形成瓶頸, 直接影響數字化工作的進度。數據量不斷增大并需要進行備份, 而存儲設備數量有限, 且受限于存儲的讀寫速度、網絡速度, 如何安全有效且快速地進行數據存儲是工作的難點問題之一。

3. 檔案數字化完成時, 如何做好數字化檔案的保護和維護。

對于歷史檔案館而言, 生產數字檔案是一時的行為, 而存儲管理需要花費大功夫, 也非常重要。首先, 存儲系統的性能影響到數字化工作的效率。其次, 存儲系統的穩定是數字化工作進行的重要保證, 數據很難進行第二次生產, 如果存儲系統存在數據丟失、頻繁宕機等現象, 將對數字化成果產生致命影響。再次, 存儲系統的擴展性影響到數字化工作的全局發展, 存儲系統的容量不是一蹴而就的, 隨著工作進展, 存儲需求增大, 需要對存儲系統進行擴展, 并合理進行存儲資源的分配, 存儲資源擴展能力是支持數字化工作進行的重要指標。后期的存儲管理和維護也是工作的難點問題。

(二) 數字化檔案存儲管理的難點重點問題的解決思路

1. 努力提高館內工作者的技術水平并引入專業的運維公司。

網絡處一直很重視本處室人員技術的提高, 通過自身學習不斷提高技術水平, 并通過產品公司的技術培訓、相關單位的調研學習等, 不斷提高業務能力。此外, 一史館充分調動社會力量, 引入專業的運維公司, 通過對運維公司的工作進行指導監督, 確保在大方向上無誤, 在細節上精準把握, 保證檔案數字資源的正式、完整與安全。

2.經過多年的檔案數字化工作, 一史館已經建成了比較完善的網絡存儲系統, 搭建了與之匹配的網絡環境, 并通過數據專線實現了館內存儲系統和館外數據機房存儲系統的互聯, 實現了存儲劃分、文件共享、數據備份、遠程容災等功能。數據存儲囊括了在線存儲、近線存儲、離線存儲三級存儲模式。實踐證明, 我館現有的存儲管理能夠滿足檔案數字化的生產, 并做到了數字化檔案的安全完整。

從存儲架構上看, 存儲系統可以分為三類:DAS (Direct Access Storage, 即直接連接存儲) , NAS (Network Attached Storage, 即網絡附加存儲) 和SAN (Storage Area Network, 即存儲區域網絡) 。以上存儲系統各有特色, 如何揚長避短, 為我所用, 是在檔案數字化工作中的一個重點。

DAS是存儲設備和使用存儲設備的服務器直接相連的架構。通過SCSI塊的方式發送數據, 為服務器提供塊級的存儲服務, 具有部署簡單、復雜度低、投資小的優點, 但是可擴展性低, 資源共享性差, 容易導致資源孤島, 并且存儲設備和服務器之間連接距離最多只能有25米, 這些缺點導致在海量數據面前應用性較差, 一史館沒有使用此種存儲架構。

經過多年發展, 一史館當前已經形成以網絡交換機為核心的IP網和以光纖交換機為核心的SAN網, 包括NAS架構和SAN架構兩種網絡存儲架構。

現以我館在線存儲為例, 介紹我館如何實現快速地數據存儲備份和如何做好數字化檔案的保護和維護。

二、一史館NAS架構的搭建及使用

一史館的NAS存儲是集群式的存儲設備, 即沒有機頭、主節點、元數據服務器的概念, 所有節點平等并且都負載任務。單個文件系統貫穿集群的每個節點。當前NAS集群由8個節點組成, 總容量超過850TB, 增加新的節點時, 空間會動態增加, 內容會被均衡到各個節點上, 通過管理軟件對NAS集群進行管理。

(一) 一史館的NAS架構

NAS是基于IP協議的直接連接到網絡上的文件服務和存儲共享設備, 可通過TCP/IP協議和文件共享協議 (CIFS和NFS) 實現異構平臺之間的文件級數據共享。

一史館的IP網采用的是核心層、接入層的兩層網絡拓撲結構。接入層把所有的終端連入網絡, 核心層作為網絡的主干部分, 實現高速轉發通信。一史館的NAS架構依托于館內IP網, 通過網絡直接與核心交換機相連。簡化的網絡架構如圖1所示。

(二) 一史館的NAS主要應用

NAS的優點非常突出:首先是能夠實現異構平臺的客戶機對存儲數據的共享, 其次由于采用了TCP/IP技術, 所以系統環境搭建簡單, 同時可擴展性和可訪問性較好, 總體成本較低, 所以在檔案數字化中, NAS是不錯的選擇。但是NAS也有一些缺點, 如由于占用IP網, 在存儲備份中會有大量的帶寬消耗, 所以無法進行大容量的存儲備份應用;適用于非結構化數據的存放, 不支持數據庫服務;傳輸速率慢, 系統不穩定等。

\
圖1 NAS網架構示意圖 

由于NAS具有文件級數據共享功能, 可以很方便地進行文件級數據權限設置, 同時對Unix客戶端和Windows客戶端都有很好的兼容性, 因此NAS在以文件處理為基礎的多用戶網絡計算環境中, 應用較廣。當前, 在一史館的NAS設備的應用主要分為三類:

1.工區提交的成品數據的存儲和服務。工區提出存儲資源需求后, 網絡處根據存儲空間情況動態分配資源, 工區以訪問文件夾的方式, 定期將成品數據存放在NAS設備上。

2. 各處室的工作數據存放。

如部分處室的項目文件較大, 放置此處用于共享。由各處室提出需求, 網絡處進行設置, 通過NAS設備進行集中數據存儲, 減少客戶端工作站的重復數據, 簡化數據管理, 并提供更高的數據保護。

3. 館內常用數據集中存放。

常用數據即為了方便館內使用而放置的數據。

(三) 一史館NAS設備的數據保護措施

NAS設備的數據保護和訪問保護上充分考慮了冗余。

1. 一史館的NAS設備的文件系統依據N+M∶B保護級別。

其中N代表集群節點的總數目, M代表可以不同節點上同時損壞的磁盤數, B表示可以同時損壞的節點數。一史館設置NAS的文件系統保護級別為N+2∶1的保護級別, 即同時損壞1個節點的兩個磁盤的情況下存儲數據不會丟失。

2. 數據可以從集群的任一個節點讀取或者寫入。

NAS設備有內部交換機, 數據條帶化后被放置在不同的節點上, 信息通過內部網絡在節點之間共享。我館NAS設備的每個節點都通過網卡和核心交換機連接, 每個節點分配一個IP地址, 當某節點的網絡連接不通, 則通過此節點訪問NAS設備的請求, 自動跳轉到其他節點, 不會造成業務中斷。

3. NAS采用冗余的網絡組建, 提供多連接選項。部分重要業務服務器采用多網卡和NAS節點連接, 實現鏈路冗余。

三、一史館SAN架構的搭建及使用

SAN是一個用在服務器和存儲資源之間的、專用的、高性能的網絡體系。SAN采用可擴展的網絡拓撲結構連接服務器和存儲設備, 每個存儲設備不隸屬于任何一個服務器, 所有的存儲設備可以在全部的網絡服務器之間作為對等資源分享。

SAN網架構中主要包括光纖交換機、存儲設備和服務器等。隨著項目的發展, 一史館對SAN網存儲進行了多次擴容, 當前在線存儲總容量達到3.5PB。目前, 一史館共有兩套SAN架構, 其中一套在西山數據機房, 一套在館內機房。

(一) 一史館的SAN架構

館內的SAN網設備由兩臺48口的光纖交換機提供服務, 共連接物理服務器18臺 (包括數據庫服務器、工區加工生產服務器、虛擬化服務器等) , 磁帶庫1臺, 在線存儲設備4臺, 在線存儲總容量達到1.7PB。

簡化的一史館的SAN網架構如圖2所示:

\
圖2 SAN網架構 

(二) 一史館的SAN主要應用

SAN把網絡上的存儲容量整合為一個邏輯存儲資源池, 按照需求分配給各個應用系統使用。它的優點是擴展性強, 理論上可以無限擴容;體系結構靈活;可不占用局域網網絡資源, 在SAN網內實現數據的存儲遷移和備份。它的缺點是體系結構復雜, 導致管理復雜;不同供應商的產品存在兼容性問題;價格比較昂貴。由于在存儲性能上的巨大優勢, 現在SAN在海量數據存儲中使用非常廣泛。

當前一史館的SAN應用主要有以下幾類:

1. 工區的生產數據存放所需存儲空間。由網絡處根據工區存儲規劃, 提前為工區分配存儲空間。生產數據實時傳送到SAN網存儲上。

2. 數據庫的主庫和備庫所需存儲空間。SAN以數據為中心, 支持結構化數據, 對數據庫有很好的支持。

3. 虛擬化集群所需存儲空間。一史館通過6臺物理服務器虛擬出30余臺虛擬服務器, 在SAN上為這些虛擬服務器分配資源。由于SAN采用了網絡結構, 服務器可以訪問存儲網絡上的任何一個存儲設備, 因此用戶可以自由地在該網絡上增加磁盤陣列、帶庫和服務器等設備。

4. 數據備份和數據回滾所需存儲空間。采用SAN網絡, 數據備份和回滾操作可以獨立于原來的網絡, 提供操作的性能。

5. JP2等數據的在線存放。

6. 應急管理、分布式存儲系統等服務所需要空間。

(三) 一史館SAN網數據的保護措施

1. 光纖交換機通過采用雙鏈路級聯, 鏈路帶寬增加1倍, 數據流量由兩條鏈路平均分攤, 并且任何一條鏈路中斷, 數據傳輸不受影響。

2. 磁帶陣列采用raid和熱備盤技術實現數據冗余。通過采用raid 5和raid 6的技術, 可以在一定程度上實現數據冗余, 部分存儲配置全局熱備盤, 它將替換任何硬盤組中的任何失效硬盤。

3. 多服務器可以通過多個光纖交換機與存儲設備冗余連接, 消除了交換機單點故障帶來的業務中斷。

四、SAN網和NAS網在數字化加工過程中的典型應用

在數字化生產中, SAN網和NAS網的結合應用非常重要?,F在以復制處某數字化工區為例, 說明其加工數據的存儲過程。

(一) 數字化加工典型存儲架構

數字化加工典型存儲架構如圖3所示。

\
圖3 數字化加工典型存儲架構圖 

數字化加工區客戶端用于生產數字化數據。工區生產服務器用于安裝數字化工區所需要的軟件、常用服務, 并做為生產數據和成品數據上傳的中介。NAS集群設備用于存放成品數據。SAN網存儲陣列用于存放生產數據。

工區生產服務器共有12個網口, 在IP網與核心交換機、NAS集群設備相連。在SAN網, 與光纖交換機相連, 并根據網絡處規劃, 和存儲陣列中的特定存儲空間劃到一個zone里。

(二) 數字化加工流程

數字化加工的路程, 從存儲管理的角度分為生產數據的上傳和成品數據的上傳兩大塊。

1. 生產數據的上傳:

數字化加工區客戶端生產數字化數據后, 通過生產服務器上掛載的SAN盤實時存放到SAN網的存儲陣列中。此時的數據流為:客戶端→接入交換機→核心交換機→加工服務器 (通過業務網絡A) →光纖交換機→存儲陣列。

在整個業務生產過程中, 網絡速度和穩定性非常重要, SAN網的網絡帶寬足夠大, 不會對業務造成影響。為解決客戶端訪問生產服務器的網絡瓶頸問題, 啟動生產服務器富余的網卡, 通過鏈路聚合和分配多個IP地址的方式, 提高網絡速度。如圖3中所示, 生產服務器五個網口用于和核心交換機相連接, 四個網口進行了鏈路聚合, 分配了一個IP地址, 用于傳送生產數據, 一方面擴大了帶寬, 一方面提高了網絡穩定性, 如圖中業務網絡A所示。為了避免業務上傳時對網絡的占用過大, 無法進行服務器管理, 故有一個網口分配另一個IP地址專門用于管理。

2. 成品數據的上傳:

當工區生產一定數量的數據后, 把數據從SAN存儲陣列轉存到NAS集群設備上。

由于NAS不是針對存儲應用而設計的專用網絡, 存在傳輸速度慢的問題, 但是因為不需要實時上傳, 并不影響公司生產, 同時成品數據提交后, 網絡處對文件夾需要進行多次權限修改, 此時工區的訪問權限要收回, 待網絡處進行校驗等操作后, 如果發現問題需要工區修改, 再重新下發權限。所以數據存放到NAS集群上很有必要。

數據流為:SAN存儲陣列→光纖交換機→生產服務器→NAS集群設備。為盡可能提高速度, 不通過核心交換機進行數據交換, 在生產服務器和NAS集群設備間搭建了一條數據專線, 共有4個網線, 分配了4個IP地址, 其中一個網線連接NAS設備的節點3, 一個網線連接NAS設備節點5, 這兩個做了端口聚合, 一個網線連接NAS設備節點2, 一個網線連接NAS設備節點1, 共配四個ip地址, 如圖中業務網絡B所示。

經過實際測試和長時間的運行, 此種數據化加工的性能較好, 可以滿足工區的數據生產強度。

數字化檔案的有效存儲和管理是數字化成果穩妥保存并得以展現的基礎, 是檔案信息化的重要課題, 更是下一步建設數字化檔案館的基石。在大數據、云計算技術迅速發展之際, 如何利用大數據和云計算, 實現數字化檔案的存儲升級, 并做好數字化檔案的數據挖掘工作是難點也是重點, 檔案信息化工作大有所為。
      
       《談明清數字化檔案的存儲管理方法與實踐》附論文PDF版下載:
       http://www.zzyljfls.com/uploadfile/2018/0810/20180810102511959.pdf

關注SCI論文創作發表,尋求SCI論文修改潤色、SCI論文代發表等服務支撐,請鎖定SCI論文網!

文章出自SCI論文網轉載請注明出處:http://www.zzyljfls.com/lishilunwen/439.html
0

相關內容

發表評論

Sci論文網 - Sci論文發表 - Sci論文修改潤色 - Sci論文期刊 - Sci論文代發
Copyright ? Sci論文網 版權所有 | SCI論文網手機版
真人实拍女处被破的视频