韩国三级伦理久久影院,www.222me.com,黄色免费在线网址

admin

2024年11月10日 9:49 本文熱度 525

01 什么是結構化、半結構化和非結構化數(shù)據(jù)？

①結構化數(shù)據(jù)：指關系模型數(shù)據(jù)，即以關系數(shù)據(jù)庫表形式管理的數(shù)據(jù)，結合到典型場景中更容易理解，比如企業(yè)ERP、OA、HR里的數(shù)據(jù)。

②非結構化數(shù)據(jù)：指數(shù)據(jù)結構不規(guī)則或不完整，沒有預定義的數(shù)據(jù)模型，不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。如word、pdf、ppt及各種格式的圖片、視頻等。

③半結構化數(shù)據(jù)：指非關系模型的、有基本固定結構模式的數(shù)據(jù)，例如日志文件、XML文檔、JSON文檔、E-mail等；

①表結構不同，需要做到不同類型的字段映射

②假如要新增表字段的時候，需要新增列

③若有表字段需要進行二次處理規(guī)范，需要支持字段轉換，比如公式或其他

④新增表設計時，需要保證三大范式，這里就不展開講了，可參考：數(shù)據(jù)庫三大范式

⑤數(shù)據(jù)同步的時效性，例如實時同步、半小時一次、或者一天一次、或者說是需要實時同步融合，這個要根據(jù)具體業(yè)務場景來確認。

目前有兩種方式來處理半結構、非結構化數(shù)據(jù)：

①提取半結構、非結構化數(shù)據(jù)中的關鍵信息，到結構化數(shù)據(jù)中進行二次利用，比較好處理的是半結構化（json、xml）、excel、csv，因為這種數(shù)據(jù)的結構比較統(tǒng)一。

②向word、PDF這種文件提取關鍵信息，假如是單個文本的話，市面上有些工具可能可以實現(xiàn)，但假如是大批量的話，可能就需要通過程序，去自定義一些正則表達式，去進行關鍵信息的提取。這種一般來說，因為格式不一致，以及用途不一致，所以程序自定義的比較多。

針對這種的話，會綜合考慮數(shù)據(jù)價值和投入產(chǎn)出比，因為這部分的數(shù)據(jù)處理較為復雜。

若想提高投入產(chǎn)出比，可以使用例如FineDataLink這類專業(yè)工具，去支持結構化/半結構化數(shù)據(jù)的融合集成，面向ETL數(shù)據(jù)處理場景，也可以讓數(shù)據(jù)編排更簡單一些，提高數(shù)據(jù)的使用價值。

另外，如若這部分歷史文件需要做到備份的話，會通過FTP或者SFTP將文件進行備份存儲到文件服務器，進行文件業(yè)務分類、文件名、路徑的統(tǒng)一管理，提供統(tǒng)一入口，通過權限管理的方式給到大家下載使用。

該文章在 2024/11/11 10:19:04 編輯過

關鍵字查詢

結構

數(shù)據(jù)

正在查詢...

<center id="55ghx"></center>