大數據下水行業網絡輿情監控系統的設計與實現發表時間:2020-04-21 14:31 關鍵詞:輿情;網絡輿情;網絡輿情監控系統 一、引言 中國互聯網絡信息中心(CNNIC)2016 年 1 月 22 發布的《第 37 次中國互聯網發展狀況統計報告》顯示:“我國網民規模達 6.88 億,互聯網普及率為 50.3%,中國居民上網數已過半上網設備正在向手機端集中,手機成為拉動網民規模增長的主要因素。截至 2015 年 12 月,我國手機網民規模達 6.2 億,90.1%網民通過手機上網。眾所周知,互聯網作為繼電視、廣播、報紙之外的第四媒體,已經成為反映社會輿情的一個最重要的載體。 水務行業是關乎國計民生的重大行業,與民眾的生活、生產息息相關,影響巨大。隨著水企逐年的改革,水行業的競爭格局初步形成,水行業外,媒體對水企的關注度空前提高,特別關注智慧水務、用水安全、水資源利用等等;在水行業內,水價聽證、調整、歸口管理、行業競爭、公共服務、社會責任、官員廉政建設等重大事件受到廣大網民、境內、境外媒體的強烈關注。網絡輿情的監控和引導,已經成為水行業各企事業單位必須解決好的一項重要工作。網絡輿情正在成為水企決策的重要依據,因此新形勢下,在每次突發性事件發生后,水企相關職能部門如何以最快速度收集網上相關輿情信息,跟蹤事態發展,及時向有關部門通報,快速應對處理等,是水行業亟需解決的問題,以下是最近一段時間以來部分涉水典型 輿情事件: 2016 年 6 月 26 日:江蘇沭陽城區自來水出現大面積異味 2016 年 5 月 25 日:北京回龍觀部分小區自來水現異味停水,官方稱突發性中水污染 2016 年 4 月 9 日:媒體報道中國“超八成地下水不能飲用”水利部澄清 2016 年 3 月 8 日:一位二年級小學生寫信給北京市水務局:我家門前的河好臭 2015 年 6 月 15 日:廣東練江水污染 2015 年 3 月 4 日:蘭州市自來水異味事件 第二屆中國城市智慧水務高峰論壇 網絡輿情監控通過對熱點問題和重點領域比較集中的網站信息(如傳統媒體網頁、論壇、貼吧、微博、微信公眾號等)進行二十四小時全天候監控,隨時抓取最新的信息內容和網民評論意見。對所采集到的信息,進行初步過濾和預處理,對熱點問題和重要領域實施監控,通過人際交互建立輿情監控的知識庫,用來指導智能分析的過程。對熱點問題的智能分析通過傳統基于向量空間的特征分析技術,對抓取的內容進行分類、聚類和摘要分析,對信息完成初步的再組織,然后在監控知識庫的指導下進行基于輿情的語義分析,使管理者看到的網民意見更有效,更符合現實;最后將監控的結果,分別推送到不同的職能部門,以供重大決策。 二、監控系統原理 由于網上信息量十分巨大,且水企沒有專門的部門或人員負責輿情收集、分析、研判的工作,僅靠機械式人工搜索的方法,難以應對大數據信息的收集和處理,而利用計算機網絡技術可以實現自動化的網絡輿情預警與分析,解決網絡輿情管理過程中的輿情采集、分析、表達、干預等難題,從而客觀呈現互聯網上的熱點輿情。以下從普通用戶使用網絡輿情監控系統的角度按照自上而下的方法描述輿情監控執行過程。 1、用戶通過瀏覽器查詢或者提交查詢的詞或者短語“水務集團”,輿情監控引擎根據用戶的查詢返回匹配的網頁信息列表 2、上述過程涉及到 2 個問題: 如何匹配用戶的查詢以及網頁信息列表從何而來,如何進行排序。用戶的查詢“水務集團”經過分詞器被切割成小詞組<水務集團 1,水務集團 2…水務集團 n>,并被剔除停用詞(的、了、是等字),根據系統維護的一個倒排索引可以查詢某個詞水務集團 i 在哪些網頁中出現過,匹配那些 <水務集團 1,水務集團 2…水務集團 n>都出現的網頁集即可作為初始結果,下一步,返回的初始網頁集通過計算與查詢詞的相關度從而得到排名,按照網頁的排名順序即可得到最終的網頁列表。 3、假設分詞器和網頁排名的計算公式都是既定的,確定倒排索引以及原始網頁集就變得至關重 要。原始網頁集由采集網頁組成并被保存在本地;而倒排索引,即詞組到網頁的映射表則建立在正排索引的基礎上,后者是分析了網頁的內容并對其內容進行分詞后,得到的網頁到詞組的映射表,將正排索引倒置即可得到倒排索引。 4、由于爬蟲收集來的原始網頁中可以包含很多信息,如 HTML 表單以及一些垃圾信息等,網頁分析可以去除這些信息,并抽取其中的正文信息作為后續的基礎數據。采集子系統從 Internet 中抓取眾多的網頁作為原始網頁庫存儲于本地,然后網頁分析器抽取網頁中的主題內容交給分詞器進行分詞,得到的結果用索引器建立正排和倒排索引,這樣就得到了索引 第二屆中國城市智慧水務高峰論壇 數據庫,用戶查詢時,通過分詞器切割輸入的查詢詞組,并通過檢索器在索引數據庫中進行查詢,得到的結果返回給用戶。 三、數據采集系統 數據采集系統根據用戶信息需求,設定主題目標,使用人工參與和自動信息采集結合的方法完成信息收集任務。用戶只需輸入一個待采集的目標網址即可實現將圖文結合的信息采集到本地的目的。 上一篇智慧排水概述智慧城市
下一篇中國智慧水務發展白皮書
|