測繪地理信息技術災害信息提取方法-信息技術論文-通信傳播論文
發(fā)布時間:2020-11-15 來源: 疫情防控 點擊:
測繪地理信息技術災害信息提取方法- 信息技術論文- 通信傳播論文 ——文章均為 WORD 文檔,下載后可直接編輯使用亦可打印——
摘要:隨著網絡技術迅速發(fā)展,海量數據分布在萬維網內,如何從數據中挖掘到特定的需要的數據成為時下研究的熱點。網絡爬蟲是一種按照一定的規(guī)則,自動抓取萬維網信息的程序或者腳本。本文探討使用網絡爬蟲的概念和方法,開發(fā)基于互聯網的聚焦網絡爬蟲軟件,迅速通過互聯網搜索山洪災害點相關及時的第一手資料,形成對災害的第一認識。再經過人工判讀,精確動態(tài)提取、更新山洪災害信息專題成果。
關鍵詞:萬維網;聚焦網絡爬蟲;山洪災害;動態(tài)提取
1.引言
隨著網絡的迅速發(fā)展,萬維網成為大量信息的載體。網絡信息更新及時,傳遞速度快,只要信息收集者及時發(fā)現信息,就可以保證較強的信息時效性。面對海量數據,如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。定向抓取相關網頁資源的聚焦爬蟲可提取特定的需要的信息。網絡爬蟲(又被稱為網絡機器人,網頁蜘蛛),是一種按照一定的規(guī)則,自動地抓取萬維網信息的程序或者腳本。聚焦爬蟲是一個自動下載網頁的程序,它根據既定的抓取目標,有選擇的訪問萬維網上的網頁與相關的鏈接,獲取所需要的信息。與通用爬蟲(generalpurposewebcrawler)不同,聚焦爬蟲并不追求大的覆蓋,而將目標定為抓取與某一特定主題內容相關的網頁,為面向主題的用戶查詢準備數據資源。物聯網蘊含了大量的動態(tài)災害信息,是及時獲取目標區(qū)域災害點信息的重要途徑。傳統搜索引擎技術缺乏基于空間語義的認知和推理能力,無法識別災害發(fā)生的空間位置信息,無法提供基于互聯網的區(qū)域化災害動態(tài)監(jiān)控服務。本文基于聚焦網絡爬蟲有效收集網絡上的災害信息,精準過濾反映災害信息內容的網頁,獲取災害 的時間、空間位置以及災害點信息。依托該系統,可結合傳統的人工判讀技術,依據地物波譜特性、空間特征和成像機制以及所掌握的地學規(guī)律,通過分析地物影像特征來識別災害點,準確提取、更新災害信息專題數據,及時發(fā)布,輔助決策者參考使用。
2.聚焦網絡爬蟲概述
聚焦網絡爬蟲可以在較短的時間里,使用較少的硬件資源,獲取到更多與主題相關的信息。相對于通用網絡爬蟲,聚焦爬蟲的工作原理較為復雜,根據一定的網頁分析算法過濾掉主題無關的鏈接,保留有用的鏈接并將其放入等待抓取的 URL 隊列。然后,它將根據一定的搜索策略從隊列中選擇下一步要抓取的網頁 URL,并重復上述過程,直到達到系統的某一條件時停止。本文網絡爬蟲引擎采用聚焦網絡爬蟲(FocusedCrawler),又稱主題網絡爬蟲(TopicalCrawler),是指選擇性地爬行那些與預先定義好的主題相關頁面的網絡爬蟲。和通用網絡爬蟲相比,聚焦爬蟲只需要爬行與主題相關的頁面,極大地節(jié)省了硬件和網絡資源,保存的頁面也由于數量少而更新快,還可以很好地滿足一些特定人群對特定領域信息的需求。聚焦網絡爬蟲和通用網絡爬蟲相比,增加了鏈接評價模塊以及內容評價模塊。聚焦爬蟲爬行策略實現的關鍵是評價頁面內容和鏈接的重要性,不同的方法計算出的重要性不同,由此導致鏈接的訪問順序也不同。
3.山洪災害信息
山洪是指山區(qū)溪溝中發(fā)生的暴漲洪水。山洪具有突發(fā)性,水量集中流速大、沖刷破壞力強,水流中挾帶泥沙甚至石塊等,常造成局部性洪災,一般分為暴雨山洪、融雪山洪、冰川山洪等。山洪災害常伴有山體崩塌、山體滑坡、泥石流等。山洪災害信息是救災工作的重要決策依據,直接關系到自然災害應急處置、救援救助等救災工作的有效開展。
4.基于聚焦網絡爬蟲的災害信息動態(tài)提取方法研究
開發(fā)基于互聯網的網絡爬蟲軟件,能迅速通過互聯網搜索災害點相關及時的第一手資料,形成對災害的第一認識。通過已開發(fā)的網絡爬蟲軟件,能將所有與某一主題相關的所有信息羅列并進行綜合分析篩選。通過借鑒國內外語義相似度在信息檢索方面的研究成果,開發(fā)
基于互聯網的網絡爬蟲軟件,從各類信息數據庫中巨大的新聞 類文本數據中及時發(fā)現并提取災害專題新聞報道信息。結合高分遙感影像數據、基礎地理信息矢量數據,輔以人工判讀,以確定各災害專題信息發(fā)生的空間們位置信息,輸出災害信息動態(tài)提取成果專題圖,為災害信息動態(tài)更新提供服務。具體的技術路線參見下圖。(1)專題數據管理子系統負責災害信息描述數據(如泥石流、山洪、暴雨、地震等)、政府網站數據(網絡爬蟲目標網站)、語義規(guī)則庫(災害專題信息檢索模型的研究成果)的維護和更新。
。2)信息檢索利用網絡爬蟲工具,從政府網站中抓取相關網頁并收集到本地,經過加工處理建立本地網頁快照庫,對本地網頁快照庫進行分析、整理,針對災害信息描述關鍵詞建立一種利于快速查找的數據結構即索引,并建立索引數據庫,以便在抓取到的網頁中進行快速深入的災害信息提取。(3)信息提取網頁信息數據庫中存儲的是 HTML 格式的文檔,這類文檔通常含有很多與網頁主題信息不相關的內容,比如導航條、廣告信息、版權信息等內容,它們只適合使用網頁瀏覽器進行瀏覽,而不宜作為數據交換方式由計算機處理。因此,需要開發(fā)網頁主題信息提取工具,從 HTML這類非結構化的文檔中提取出主題信息,輸出并保存為結構化的文本,以便于對其進行下一步的分析處理。(4)信息過濾通過網頁主題信息提取后獲取的結構化文本數量多、數據冗余度高、不包含有效災害信息描述的文本比重高,需要采用正向過濾(文本中必須包含的關鍵詞組合)、反向過濾(文本中不能包含的關鍵詞組合)等技術手段盡可能刪除那些不包含有效災害信息的文本。最后,根據災害專題信息檢
索模型,從剩下的文本中檢索并提取出有效的災害信息描述內容。
。5)人工判讀通過軟件自動提取到的災害信息屬性并不精確,需要后期進行人工輔助判讀,結合高分影像,確定災害發(fā)生的具體位置、進一步明確災害屬性信息,同時剔除通過程序獲取到的重復信息。人工判讀確認的災害信息主要包括空間信息及屬性信息?臻g信息包括災害發(fā)生的位置信息及災害發(fā)生的幾何類型;屬性信息包括災害分類、災害發(fā)生時間信息、災害發(fā)生的區(qū)域、災害發(fā)生的文字描述等信息。(6)成果輸出及發(fā)布經過人工判讀后的災情信息是比較準確的,可直接用于更新災害專題信息數據庫。結合其他影像、矢量等數據發(fā)布災情信息動態(tài)提取成果專題,將山洪災害信息及時發(fā)布并打印輸出。同時提供網絡調用的服務接口,能通過設置地名關鍵詞、災害類型、發(fā)生時間范圍、行政區(qū)域或坐標范圍等篩選條件,可以將某一個位置周圍的歷史災害相關信息全部羅列出來供決策者輔助參考。
5.結語
在山洪災害信息提取中,基于聚焦網絡爬蟲方法對物聯網中海量數據信息利用程度較高,能夠綜合考慮災害 的時間、空間位置以及
災害點信息,快速獲取第一手資料數據,再結合人工判讀,即可精確動態(tài)提取、更新山洪災害專題成果。也可以采集往年信息,建立預報模型,預測未來災害發(fā)生區(qū)域,災害種類等,可為決策者提供預防。本文基于聚焦網絡爬蟲,通過動態(tài)提取災害信息,結合人工判讀,研究了山洪災害信息的提取、更新方法,可為決策者提供輔助依據。本文關于采集往年信息,建立模型,預測未來災害發(fā)生區(qū)域、災害種類,未作進一步研究,希望拋磚引玉,引發(fā)一些思考。
參考文獻:
[1]袁文,袁武,張海冬.基于互聯網的區(qū)域性災害空間信息動態(tài)監(jiān)測技術[C].國家綜合防災減災與可持續(xù)發(fā)展論壇,2010:200-207.
[2]程向榮.分析測繪技術在地質災害中的作用[J].西部資源,2018(01):123-124.
[6]孫立偉,何國輝,吳禮發(fā).網絡爬蟲技術的研究:電腦知識與技術,2010.
[7]張玉東,郭俊鋒,王林生.測繪技術在地質災害中的作用[J].科技與企業(yè),2012(20):251+253.
[8]尹訓志,王俊亮,張杰.測繪技術在地質災害中的作用探究[J].大科技,2018,000(030):221-222.
熱點文章閱讀