无码成人A片在线观看,性欧美videofree高清变态,中文字幕有码无码av,国产无人区卡一卡二扰乱码 ,最近高清日本免费

CNTXJ.NET | 通信界-中國通信門戶 | 通信圈 | 通信家 | 下載吧 | 說吧 | 人物 | 前瞻 | 智慧(區(qū)塊鏈 | AI
 國際新聞 | 國內(nèi)新聞 | 運營動態(tài) | 市場動態(tài) | 信息安全 | 通信電源 | 網(wǎng)絡(luò)融合 | 通信測試 | 通信終端 | 通信政策
 專網(wǎng)通信 | 交換技術(shù) | 視頻通信 | 接入技術(shù) | 無線通信 | 通信線纜 | 互聯(lián)網(wǎng)絡(luò) | 數(shù)據(jù)通信 | 通信視界 | 通信前沿
 智能電網(wǎng) | 虛擬現(xiàn)實 | 人工智能 | 自動化 | 光通信 | IT | 6G | 烽火 | FTTH | IPTV | NGN | 知本院 | 通信會展
您現(xiàn)在的位置: 通信界 >> 互聯(lián)網(wǎng)絡(luò) >> 技術(shù)正文
 
國外互聯(lián)網(wǎng)開源信息處理研究綜述
[ 通信界 | 汪明達 劉世鈺 聶大成 楊 慧 | www.k-94.cn | 2023/10/22 21:41:29 ]
 

汪明達,劉世鈺,聶大成,楊 慧,張 翔,邱鴻杰

(中國電子科技集團公司第三十研究所,四川 成都 610041)

0 引言

隨著全球數(shù)字化、信息化進程的深度推進,互聯(lián)網(wǎng)逐漸成為人類最重要的基礎(chǔ)設(shè)施之一,承載了涉及人類生活工作方方面面的海量信息。與此同時,互聯(lián)網(wǎng)的普及極大簡化了從門戶網(wǎng)站、社交媒體、博客等公開信息源獲取信息數(shù)據(jù)的過程,這些開源信息數(shù)據(jù)可為人們提供有價值的決策支撐信息,幫助人們更好地認知、理解甚至預(yù)測特定實體或概念對象的屬性和行為,進而掌握事件的規(guī)模、熱度、發(fā)展趨勢等。為此,互聯(lián)網(wǎng)開源信息處理逐漸成為世界各國爭相研究的熱點。

互聯(lián)網(wǎng)開源信息處理(以下簡稱“開源信息處理”)是指從互聯(lián)網(wǎng)上的公開信息源獲取數(shù)據(jù)并分析處理,進而獲得有價值的開源信息的過程。開源信息處理中涉及的信息范圍十分廣泛,涵蓋了政治、軍事、商業(yè)、社會等眾多領(lǐng)域。在政治領(lǐng)域,開源信息處理可以用于分析其他國家的政策和決策,幫助決策者預(yù)測目標國家的行為趨勢。在商業(yè)領(lǐng)域,開源信息處理可以用于分析競爭對手的戰(zhàn)略和市場趨勢,幫助企業(yè)制定更好的市場營銷策略。在社會領(lǐng)域,開源信息處理可用于分析犯罪活動和社會趨勢,幫助執(zhí)法部門和政府機構(gòu)制定更好的政策和措施。

本文將對國外開源信息處理的有關(guān)研究進行綜述,包括開源信息處理的定義、技術(shù)手段、應(yīng)用系統(tǒng)等,總結(jié)現(xiàn)有研究存在的問題,提出未來可能的研究方向,旨在為有關(guān)領(lǐng)域的從業(yè)人員提供一個可參考的系統(tǒng)性知識框架,助力開源信息處理技術(shù)發(fā)展。

1 技術(shù)流程

開源信息處理的主要技術(shù)流程包括4 個部分,分別是數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、信息分析和決策支撐,如圖1 所示。

圖1 開源信息處理主要技術(shù)流程

一是數(shù)據(jù)采集,是指從互聯(lián)網(wǎng)公開數(shù)據(jù)源采集信息數(shù)據(jù),為開源信息處理分析提供基礎(chǔ)數(shù)據(jù)支撐。采集的信息需要經(jīng)過初步篩選和過濾,以保證基本的數(shù)據(jù)準確性和有效性,避免采集資源浪費。數(shù)據(jù)預(yù)處理是指對采集到的開源數(shù)據(jù)進行分析前的預(yù)先處理。二是數(shù)據(jù)預(yù)處理,其目的是在于提高數(shù)據(jù)的質(zhì)量和可用性,以便后續(xù)分析能夠更加有效地利用,常見的預(yù)處理包括數(shù)據(jù)清洗、格式轉(zhuǎn)換、數(shù)據(jù)重構(gòu)和存儲管理等,能夠使數(shù)據(jù)更加規(guī)范化,降低數(shù)據(jù)冗余和錯誤。三是信息分析,指利用分析算法對預(yù)處理數(shù)據(jù)進行深度的統(tǒng)計、分析和判斷,從中挖掘出有價值的信息和規(guī)律,生成有價值的決策支撐信息,為用戶決策管理提供信息支撐,是開源信息處理整體流程中的核心環(huán)節(jié)。四是決策支撐,指將分析的結(jié)果通過合理的方式傳遞給用戶,方式主要包括信息可視化、報告生成和信息共享,以便用戶更好地理解和使用決策支撐信息。

2 數(shù)據(jù)采集

2.1 人力整編

人力整編也稱眾包數(shù)據(jù)收集,是指通過數(shù)據(jù)工作者手工收集、完善和優(yōu)化從公開數(shù)據(jù)源獲得的數(shù)據(jù)的過程。人力整編的優(yōu)勢主要在于通過引入專家知識,一定程度上提高數(shù)據(jù)質(zhì)量,對于輕量級的數(shù)據(jù)采集工作能夠保證數(shù)據(jù)采集和管理的效率。然而,人力整編面臨數(shù)據(jù)隱私安全、人為偏見、眾包質(zhì)量參差不齊等問題。

Chai 等人[1]在其綜述研究中提到,眾包數(shù)據(jù)庫系統(tǒng)能夠有效解決現(xiàn)有公共眾包平臺(如Amazon Mechanical Turk、CrowdFlower 等)交互設(shè)計非常不便的問題。該綜述對眾包平臺有關(guān)研究進行了梳理,概述了眾包的概念,總結(jié)了設(shè)計眾包數(shù)據(jù)庫的基本技術(shù),其中包含任務(wù)設(shè)計、任務(wù)分配、解決方案推理及延遲減少等,并回顧了眾包操作符設(shè)計策略,包括選擇、連接、排序、前k項、最大/最小值、計數(shù)、收集和填充等。

2.2 網(wǎng)絡(luò)爬蟲

網(wǎng)絡(luò)爬蟲是一種用于自動化采集公開數(shù)據(jù)的程序,數(shù)據(jù)類型覆蓋包括網(wǎng)頁文本、圖片、音頻、視頻等在內(nèi)的多媒體數(shù)據(jù)。經(jīng)過多年發(fā)展,網(wǎng)絡(luò)爬蟲逐漸成為大數(shù)據(jù)分析、搜索引擎、推薦系統(tǒng)等技術(shù)的數(shù)據(jù)采集基礎(chǔ)。

Khder 等人[2]在其2021 年發(fā)表的研究綜述中提到,網(wǎng)絡(luò)爬蟲的近期研究主要關(guān)注于爬蟲技術(shù)的智能化及爬取效率的提高。相較于人工整編,使用網(wǎng)絡(luò)爬蟲不僅可以獲得更全面、準確和一致的數(shù)據(jù),還可從深暗網(wǎng)中大量獲取灰黑產(chǎn)數(shù)據(jù)以支撐執(zhí)法打擊決策,應(yīng)用場景更為廣泛。同時,該文強調(diào)了爬蟲應(yīng)用導致的倫理和法律問題,尤其是個人隱私泄露、版權(quán)侵犯、不正當競爭、網(wǎng)絡(luò)攻擊等。

Neelakandan 等人[3]提出了一種用于定向網(wǎng)絡(luò)爬蟲的自動參數(shù)調(diào)整深度學習詞嵌入模型。該模型涉及多個步驟,包括預(yù)處理、基于負采樣的增量式跳躍語法模型詞嵌入、雙向長短期記憶分類以及基于鳥群優(yōu)化的超參數(shù)調(diào)整。該研究的實驗結(jié)果表明,所提出的模型在網(wǎng)頁收集方面獲得了更高的采集成功率,達到了85%。

3 數(shù)據(jù)預(yù)處理

在開源信息處理中,數(shù)據(jù)預(yù)處理包括很多方面的內(nèi)容,例如數(shù)據(jù)的目標抽取、清洗、格式轉(zhuǎn)換、取值標準化、多源數(shù)據(jù)集成、信息精煉等。

Johnsen 等人[4]提出了一種基于主題模型的隱式狄利克雷分布(Latent Dirichlet Allocation,LDA)的文本預(yù)處理方法。該研究基于對大量有關(guān)研究文獻的總結(jié),設(shè)計了一組預(yù)處理規(guī)則,并在真實的網(wǎng)絡(luò)論壇中進行了演示應(yīng)用。該研究的實驗結(jié)果表明,如果要保證主題建模的結(jié)果可以實際運用于開源信息處理,其建模過程需要遵循非常嚴格的流程,且通過調(diào)整LDA 的超參數(shù)和主題數(shù)可以產(chǎn)生更可靠的結(jié)果。該研究通過對主題模型進行迭代改善,保證了所提取主題內(nèi)容的連貫性和針對性。

Chandrasekar 等人[5]為提高C4.5 決策樹算法信息挖掘的準確性,提出通過在數(shù)據(jù)預(yù)處理中利用監(jiān)督過濾離散化操作來構(gòu)建決策樹,并將結(jié)果與未經(jīng)離散化的C4.5 決策樹進行了比較。實驗結(jié)果表明,經(jīng)離散化預(yù)處理后的C4.5 決策樹能夠取得更高的準確度。Garcia 等人[6]對大數(shù)據(jù)分析場景下的數(shù)據(jù)預(yù)處理方法進行了綜述,描述了大數(shù)據(jù)中數(shù)據(jù)預(yù)處理方法的定義、特征和分類方式,探討了大數(shù)據(jù)和數(shù)據(jù)預(yù)處理在各種方法和大數(shù)據(jù)技術(shù)族群中的作用。該綜述總結(jié)了現(xiàn)有研究面臨的挑戰(zhàn),重點描述了不同大數(shù)據(jù)框架(如Hadoop、Spark 和Flink)的發(fā)展狀況,以及一些數(shù)據(jù)預(yù)處理方法和新大數(shù)據(jù)挖掘模式的應(yīng)用。

4 信息分析

4.1 基于規(guī)則判斷的開源信息處理

基于規(guī)則判斷的開源信息處理是指從專家的先驗知識出發(fā),手工設(shè)計開源信息處理分析所需的判定規(guī)則,如閾值判定規(guī)則、類型判定規(guī)則、規(guī)則匹配方式等,并利用這些規(guī)則對開源信息數(shù)據(jù)進行分析處理,進而達到信息分析目的的方法。

規(guī)則判斷在開源信息處理中的應(yīng)用優(yōu)勢主要有兩點。一是由于規(guī)則判斷能夠根據(jù)領(lǐng)域?qū)<业慕?jīng)驗進行快速設(shè)計,因此相較于其他基于復(fù)雜算法的開源信息處理,基于規(guī)則判斷的開源信息處理能夠快速、高效地滿足輕量數(shù)據(jù)的分類和篩選需求。二是手工規(guī)則可以充分利用專家的主觀經(jīng)驗判斷力,能夠在某些數(shù)據(jù)分析領(lǐng)域中準確描述分析需求,定位關(guān)鍵問題,例如對于具體自然語言的解釋和推斷等。但與此同時,手工規(guī)則對專家的專業(yè)知識的高要求導致規(guī)則維護所需的人工開銷大,容易被專家知識的偏向性影響,且囿于數(shù)據(jù)的復(fù)雜性而難以處理大量數(shù)據(jù)。

Tariq Soomro 等人[7]分析了收集自2020 年3月1 日至2020 年5 月31 日的超過1 800 萬條與冠狀病毒有關(guān)的Twitter 消息,并利用基于規(guī)則的監(jiān)督機器學習工具Vader 來進行情感分析,以評估公眾情緒與新型冠狀病毒肺炎(Corona Virus Disease 2019,COVID-19)病例數(shù)之間的關(guān)系。此外,該研究還分析了在推文中提到一個國家的數(shù)量與該國COVID-19 每日病例數(shù)的增加之間的關(guān)系。該研究發(fā)現(xiàn),一些結(jié)果表明在意大利、美國和英國提到的推文數(shù)量與這些國家每日新COVID-19 病例數(shù)的增加之間存在相關(guān)性。

4.2 基于機器學習的開源信息處理

在開源信息處理中廣泛應(yīng)用的傳統(tǒng)機器學習算法主要包括決策樹類算法、樸素貝葉斯、最近鄰居算法、支持向量機、邏輯回歸等。開源信息處理中應(yīng)用機器學習的優(yōu)勢主要在于能夠有效平衡專家經(jīng)驗知識和算法自動化的影響,能夠處理結(jié)構(gòu)化和非結(jié)構(gòu)化等多種數(shù)據(jù)類型,具有較高的容錯性、可擴展性。然而,傳統(tǒng)機器學習仍然存在對數(shù)據(jù)預(yù)處理要求高、過度依賴手工特征等問題,特征提取中專家知識的專業(yè)性和偏向性將對算法輸出產(chǎn)生較大影響。

Balaji 等人[8]對使用機器學習進行開源信息處理分析,尤其是社交媒體分析方面的研究進行了綜述。該綜述認為,機器學習已經(jīng)成為社交媒體分析的基礎(chǔ)技術(shù)手段,在社交媒體的情感分析、用戶畫像、社交網(wǎng)絡(luò)分析、事件檢測和推薦系統(tǒng)等方面發(fā)揮著重要作用,技術(shù)類型包括監(jiān)督學習、無監(jiān)督學習、半監(jiān)督學習等。現(xiàn)有研究面臨的挑戰(zhàn)主要在于數(shù)據(jù)獲取、數(shù)據(jù)質(zhì)量、算法效率、模型解釋性等方面,可以在算法的效率和準確性,如特征選擇、深度學習、自適應(yīng)算法等角度開展進一步研究。

Khadjeh Nassirtoussi 等人[9]對文本挖掘在開源股市預(yù)測方面的應(yīng)用研究進行了綜述。文本挖掘在股市預(yù)測方面的應(yīng)用已經(jīng)得到了廣泛的研究,數(shù)據(jù)源主要包括新聞、社交媒體、公司報告、股市評論等方面的數(shù)據(jù)。在方法和模型方面,研究者們主要采用了機器學習、自然語言處理、情感分析等技術(shù)來進行文本挖掘和預(yù)測。該論文指出,文本挖掘在股市預(yù)測方面的應(yīng)用可以提高預(yù)測的準確性和效率,但數(shù)據(jù)來源不確定、模型過度擬合等問題帶來的預(yù)測效果下降的情況不容忽視。因此,在進行文本挖掘的時候需要注意數(shù)據(jù)的質(zhì)量并選擇合適的模型和方法,以提高預(yù)測的準確性和可靠性。

Abbass 等人[10]提出了一個基于開源數(shù)據(jù)進行社交媒體犯罪行為預(yù)測的技術(shù)框架,涉及的網(wǎng)絡(luò)犯罪類型包括網(wǎng)絡(luò)跟蹤、網(wǎng)絡(luò)欺凌、網(wǎng)絡(luò)黑客、網(wǎng)絡(luò)騷擾和網(wǎng)絡(luò)詐騙。該框架由三個模塊組成,包括數(shù)據(jù)(推文)預(yù)處理、分類模型構(gòu)建和預(yù)測。為構(gòu)建預(yù)測模型,該研究使用了多項式樸素貝葉斯(Multinomial Naïve Bayes,MNB)、K 近 鄰(K Nearest Neighbors,KNN)和支持向量機(Support Vector Machine,SVM)對數(shù)據(jù)進行分類,以確定不同的犯罪類別。使用這些機器學習算法的N-Gram語言模型來識別n的最佳值,并測量系統(tǒng)在不同n取值(例如Unigram、Bigram、Trigram 和4-gram)下的準確性。實驗結(jié)果表明,所有三個算法的精確度、召回率和F 值均超過0.9,其中支持向量機表現(xiàn)略優(yōu)。

Ghazi 等人[11]提出采用有監(jiān)督的機器學習從不規(guī)整、高噪聲、海量的開源非結(jié)構(gòu)化威脅信息數(shù)據(jù)中提取威脅數(shù)據(jù)源,提取精度約為70%,且該方法能生成符合STIX 等標準的全面的威脅報告,進而幫助組織主動防御已知和未知的威脅,減少手動分析的煩瑣工作。

4.3 基于神經(jīng)網(wǎng)絡(luò)的開源信息處理

神經(jīng)網(wǎng)絡(luò)系列算法已經(jīng)廣泛應(yīng)用于開源信息處理分析領(lǐng)域,主要包括前向全連接網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)、圖卷積神經(jīng)網(wǎng)絡(luò)、自編碼器、生成對抗網(wǎng)絡(luò)、殘差網(wǎng)絡(luò)等,以及深度學習、注意力機制、預(yù)訓練模型、增強學習、遷移學習、少樣本學習等新型學習框架的應(yīng)用。神經(jīng)網(wǎng)絡(luò)分析方法的優(yōu)勢在于能夠自適應(yīng)和自我學習,可以進行端到端的學習和操作,對非線性和復(fù)雜數(shù)據(jù)具有良好的擬合能力,適合進行預(yù)測和分類任務(wù)。然而,神經(jīng)網(wǎng)絡(luò)的模型訓練需要大量的數(shù)據(jù)和計算資源,模型的可解釋性有待提高,難以評估網(wǎng)絡(luò)的魯棒性,模型容易出現(xiàn)過擬合情況。

Martins 等人[12]提出了一種基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合學習框架,將命名實體識別(Named Entity Recognition,NER)和實體鏈接(Entity Linking,EL)兩個任務(wù)結(jié)合在一起進行學習,實現(xiàn)協(xié)同優(yōu)化。該方法主要包括三個組件。一是共享編碼器,用于將輸入的文本轉(zhuǎn)化為向量表示。二是NER 解碼器,用于預(yù)測文本中的命名實體。三是EL 解碼器,用于將預(yù)測出的命名實體鏈接到知識庫中的實體。該框架的主要特點是可以同時考慮文本中的命名實體和知識庫中的實體,從而能夠提高NER 和EL 兩個任務(wù)的準確率。此外,該框架還可以通過聯(lián)合訓練來減少模型的訓練時間和資源消耗,提高模型的效率。以CoNLL 2003 和AIDA CoNLL-YAGO 為數(shù)據(jù)輸入的實驗結(jié)果表明,與單獨訓練NER 和EL 模型相比,該聯(lián)合學習框架可以顯著提高NER 和EL 兩個任務(wù)的準確率,并且可以在保持準確率的同時減少模型的訓練時間和資源消耗。

Su 等人[13]對基于深度學習的社團發(fā)現(xiàn)研究進行了綜述。該綜述認為從算法的角度來說,現(xiàn)有研究主要分為兩類,即基于節(jié)點表征學習的方法和基于圖表征學習的方法。前者主要通過學習節(jié)點的向量表征來判斷節(jié)點之間的相似性,后者則是通過學習圖的嵌入表征來捕捉社區(qū)結(jié)構(gòu)和節(jié)點間的關(guān)系。其中,基于圖表征學習的方法相對于基于節(jié)點表征學習的方法更具優(yōu)勢,因為它能夠更好地捕捉節(jié)點之間的結(jié)構(gòu)和關(guān)系,從而更精確地刻畫社區(qū)結(jié)構(gòu),F(xiàn)有研究的挑戰(zhàn)主要在于如何利用深度學習方法更好地發(fā)現(xiàn)社區(qū)結(jié)構(gòu),如何應(yīng)對噪聲、稀疏性和異質(zhì)性等問題,以及如何處理大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)的問題。

Garcia 等人[14]針對COVID-19 病例數(shù)和死亡數(shù)均較高的巴西和美國兩個國家開展了基于開源數(shù)據(jù)的主題識別和情感分析研究。該研究使用了共計六百萬條英語推文和葡萄牙語推文,比較和討論兩種語言的主題識別和情感分析的效果,并基于討論熱度排名的10 個主題進行了話題演化分析。該研究填補了葡萄牙語開源分析方面的研究空白,并對情感趨勢的長期分析及其與新聞報道的關(guān)系進行了探究,比較了疫情下兩個不同地區(qū)的人類行為。

Hashida 等人[15]提出了一種基于深度學習的分類方法,采用一種新的分布式單詞表示方法——多通道分布式表示法,表示一個單詞潛在特征的單詞向量。在此基礎(chǔ)上,為了進一步增強分布式表示的能力,該研究在多通道分布式表示中使每個項都包含多個通道值。與其他CNN 模型和長短期記憶模型(Long Short-Time Memory,LSTM)進行的對比實驗結(jié)果表明,深度學習模型的分類性能優(yōu)于樸素貝葉斯分類器,同時具有多通道分布式表示的CNN在分類推文方面表現(xiàn)更好。

4.4 基于復(fù)雜網(wǎng)絡(luò)的開源信息處理

開源信息處理中采用的復(fù)雜網(wǎng)絡(luò)分析主要面向圖結(jié)構(gòu)的開源信息處理數(shù)據(jù)進行處理,常用于傳播分析、用戶關(guān)聯(lián)關(guān)系挖掘等任務(wù)。復(fù)雜網(wǎng)絡(luò)分析通過模擬分析大規(guī)模圖結(jié)構(gòu)的復(fù)雜系統(tǒng),包括網(wǎng)絡(luò)拓撲結(jié)構(gòu)和系統(tǒng)動力學,在系統(tǒng)演化方面具有分析優(yōu)勢、較高的容錯性和魯棒性。然而,復(fù)雜網(wǎng)絡(luò)分析對數(shù)據(jù)量的要求很高,計算復(fù)雜度高,可解釋性和可控制性較弱。

Berahmand 等人[16]提出了一種改進歐幾里得隨機游走有效的方法進行鏈路預(yù)測。該方法鼓勵隨機游走向具有更強影響力的節(jié)點移動,每一步都根據(jù)所在節(jié)點的影響力選擇下一個節(jié)點。該研究基于互信息度量,提出了節(jié)點之間的非對稱互惠影響的概念。實驗結(jié)果表明,與其他鏈路預(yù)測方法相比,所提出的方法有更高的預(yù)測準確性。

Li 等人[17]提出了一種基于自因果推斷中的混雜因素分析的無偏網(wǎng)絡(luò)混淆技術(shù),以解決推薦系統(tǒng)中非隨機缺失(Missing-Not-At-Random,MNAR)的問題。該方法通過控制社交網(wǎng)絡(luò)的混淆保留觀測到的曝光信息,同時可以通過平衡表示學習實現(xiàn)去混淆,以保留主要的用戶和物品特征,在推薦評級預(yù)測方面具有很好的泛化能力。

Naik 等人[18]面向社交網(wǎng)絡(luò)復(fù)雜社團劃分的并行處理和共享/分布式技術(shù)應(yīng)用情況開展了綜述研究。該研究全面討論了在現(xiàn)有的社群檢測方法中應(yīng)用并行計算、共享內(nèi)存和分布式內(nèi)存的情況。

5 決策支撐

5.1 信息可視化

信息可視化通過將數(shù)據(jù)呈現(xiàn)為可交互的實體,幫助用戶更快捷、更直觀地理解信息,并在分析過程中更快捷地定位信息中的關(guān)鍵結(jié)構(gòu)和重點內(nèi)容。

Gonzalez-Granadillo 等人[19]使用Gephi 和D3.js兩種工具進行開源信息處理的網(wǎng)絡(luò)可視化及界面交互。該研究將網(wǎng)絡(luò)中的節(jié)點和邊用圖結(jié)構(gòu)的形式在屏幕上呈現(xiàn),方便用戶直觀地了解文本或其他類型數(shù)據(jù)中的關(guān)系,并提供更為豐富的交互式可視化,比如通過鼠標拖拽、縮放和篩選等手段,實現(xiàn)對可視化數(shù)據(jù)的自定義和過濾。Hoppa 等人[20]使用多種數(shù)據(jù)可視化技術(shù),如熱力圖、時間線、餅圖和條形圖等,以幫助用戶更好地理解和分析收集到的Twitter 開源信息處理數(shù)據(jù)。

5.2 報告生成及信息共享

信息報告生成有助于總結(jié)分析過程和結(jié)果,有利于信息的共享。信息共享的技術(shù)特點和效果通過提高安全性、可持續(xù)性和可擴展性,使得安全生態(tài)系統(tǒng)的不同組織和應(yīng)用程序之間可以更好地協(xié)作和共享信息數(shù)據(jù),支持更有效的安全決策和風險管理。

Cerutti 等人[21]利用語言生成技術(shù)生成報告,并對分析過的數(shù)據(jù)進行整理和歸納,該報告能夠清晰地反映事件的發(fā)展過程、現(xiàn)狀和未來預(yù)測。該技術(shù)的優(yōu)點在于將已有數(shù)據(jù)進行人類語言轉(zhuǎn)化的同時,能夠提高報告生成的效率和準確性。生成的報告還可以提供交互式的方式,使用戶能夠根據(jù)自己的需求自由地選擇并瀏覽報告中的信息

Schwarz 等人[22]根據(jù)抓取到的數(shù)據(jù)和分析的結(jié)果,自動化地生成報告。報告生成的過程中可以完成報告格式的設(shè)定,包括報告樣式、字體大小等。同時,也可以根據(jù)用戶的需求進行調(diào)整,并且可以輸出多種格式的文件,如PDF、WORD、HTML 格式的文檔等。

Suryotrisongko 等人[23]將可解釋人工智能(Explainable Artificial Intelligence,XAI)引入到開源信息處理中,實現(xiàn)了威脅信息的報告生成及共享。該研究利用XAI 技術(shù)解釋機器學習算法的特征決策貢獻,從而加強對惡意域名生成算法的識別、查找和分析。同時,XAI 技術(shù)也可以讓分析人員更直觀地理解和分析算法的結(jié)果,提高了分析的準確性和可靠性。對于報告生成,通過數(shù)據(jù)庫技術(shù)來存儲搜集到的威脅信息,并利用可視化技術(shù)將數(shù)據(jù)進行匯總和組織。報告不僅可以反映出威脅信息的趨勢和異常點,還可以展示詳細的信息內(nèi)容和歷史數(shù)據(jù),讓用戶能夠更好地理解和利用數(shù)據(jù)。

6 應(yīng)用系統(tǒng)

互聯(lián)網(wǎng)大數(shù)據(jù)時代,世界各國不斷加大對開源信息處理的研究部署和系統(tǒng)開發(fā)的投入,形成的有關(guān)成果系統(tǒng)已紛紛得到應(yīng)用。

美國中央情報局、國家安全局等機構(gòu)支持研發(fā)并應(yīng)用了由Palantir 公司設(shè)計開發(fā)的Gotham 開源信息處理分析系統(tǒng)[24]。該系統(tǒng)的特點是能夠處理大量的多源異構(gòu)信息數(shù)據(jù),進行數(shù)據(jù)的全方位整合與挖掘,并提供強大的數(shù)據(jù)可視化、模擬分析、信息查詢和預(yù)測建模等功能。在美國政府和軍隊部門方面,Palantir Gotham 系統(tǒng)被廣泛使用。在阿富汗和伊拉克戰(zhàn)爭期間,該系統(tǒng)被用于收集、整理和分析情報信息,發(fā)現(xiàn)恐怖組織的嫌疑人并進行定位。

I2-Analyst’s Notebook(i2AN)[25]是美國IBM公司開發(fā)的一款面向情報分析領(lǐng)域的數(shù)據(jù)分析軟件,主要用于互聯(lián)網(wǎng)開源犯罪情報分析、反恐調(diào)查、金融欺詐案件分析、情報綜合分析等。i2AN 擁有多種分析功能,包括人物、地點、組織關(guān)系的可視化分析、時間線分析等,能夠挖掘出隱藏在數(shù)據(jù)中的潛在線索,理清有關(guān)事件的脈絡(luò),幫助用戶更加快速準確地做出判斷,并可將所提供的信息、證據(jù)和結(jié)論生動展示給申請人和決策者。i2AN 的用戶包括了全球許多機構(gòu)和部門,特別是在美國政府和軍隊部門方面,包括聯(lián)邦調(diào)查局、中央情報局、國土安全部等部門都在使用該軟件。

Rosette[26]是美國Babel Street 公司的開源信息處理產(chǎn)品,旨在幫助分析人員從多種非結(jié)構(gòu)化數(shù)據(jù)源中獲取信息,并進行相關(guān)的分析和預(yù)測,包括社交媒體、博客、新聞報道、圖片和音頻等。與傳統(tǒng)的信息分析方法不同,Rosette 采用了自然語言處理、機器學習和人工智能等前沿技術(shù)來輔助分析人員進行信息分析。它具有多種語言支持、實時數(shù)據(jù)收集和處理、可視化分析和用戶定制等特點。Babel X在美國和其他國家的軍隊和情報機構(gòu)中得到了廣泛的應(yīng)用。

此外,現(xiàn)在已有很多開源信息處理分析工具供世界范圍內(nèi)的研究者使用。SpiderFoot[27]是一款開源的自動化信息收集工具,可幫助用戶收集數(shù)據(jù)、分析數(shù)據(jù)、生成報告及進行關(guān)聯(lián)分析,可用于情報分析、網(wǎng)絡(luò)偵察、趨勢分析和風險評估等。theHarvester[28]是一款使用Python 編程語言開發(fā)的命令行工具,可幫助安全研究人員、滲透測試人員、信息安全企業(yè)、國家安全機構(gòu)等用戶,從互聯(lián)網(wǎng)上收集各種類型的信息,如電子郵件、域名、虛擬主機、URL、IP 地址等。Metagoofil[29]是一款開源的可定制搜索引擎,支持從Google、Bing 和Yahoo 等搜索引擎中獲取有關(guān)目標的信息,旨在幫助安全研究人員、滲透測試人員和安全顧問等用戶,從互聯(lián)網(wǎng)上搜索與目標公司或組織相關(guān)的文件,如文檔、圖片、代碼和其他文件。Mitaka[30]可以將多源數(shù)據(jù)聚合,自動檢測并刪除無用數(shù)據(jù),并提供各種圖表和視圖,幫助用戶更好地理解數(shù)據(jù)和信息。

7 現(xiàn)有挑戰(zhàn)

在世界各國和學術(shù)界的共同推動下,開源信息處理技術(shù)已取得長足進步,但仍面臨以下3 個方面的挑戰(zhàn)。

一是數(shù)據(jù)質(zhì)量方面的挑戰(zhàn)。數(shù)據(jù)是一切開源信息處理分析的基石,而開源信息處理通常面對巨大的數(shù)據(jù)量,且不同源的數(shù)據(jù)結(jié)構(gòu)不統(tǒng)一,信息缺損的情況頻繁發(fā)生,數(shù)據(jù)可靠性評估過于依賴專業(yè)知識,提高了人力、時間和空間開銷。

二是分析算法方面的挑戰(zhàn)。如今,開源信息處理常面臨跨域目標分析需求,如何構(gòu)建合理的目標行為表征,將跨域多源信息與目標進行有效關(guān)聯(lián),實現(xiàn)對目標的全面分析,是如今開源信息處理研究面臨的關(guān)鍵技術(shù)挑戰(zhàn)。

三是法律倫理方面的挑戰(zhàn)。開源信息處理使用開源數(shù)據(jù)時須遵守相應(yīng)的倫理規(guī)范和法律法規(guī),尤其是在處理敏感領(lǐng)域及個人隱私方面的信息時,如何從技術(shù)上實現(xiàn)敏感及個人信息保護,防范化解敏感信息泄露風險,是如今開源信息處理分析面臨的挑戰(zhàn)之一。

8 未來展望

未來開源信息處理的研究大致有三個方向。一是先進技術(shù)在開源信息處理中的應(yīng)用,尤其是以深度學習為代表的人工智能技術(shù),其在開源信息處理領(lǐng)域的應(yīng)用將會有效支撐開源數(shù)據(jù)的快速處理和信息的精準分析。二是跨學科研究。由于開源信息處理涉及很多不同的領(lǐng)域,如商業(yè)、政治、軍事、國際關(guān)系等,如何將領(lǐng)域知識與開源信息處理相結(jié)合,在實際領(lǐng)域應(yīng)用中解決實際的信息分析問題,將成為開源信息處理未來的研究熱點。三是決策支撐和信息檢索優(yōu)化。如何將開源信息處理數(shù)據(jù)通過信息可視化的方式呈現(xiàn)出來,生成信息分析報告并有效地傳遞到用戶手中,提供高效的信息檢索方式,將是未來開源信息處理的研究方向之一。

9 結(jié)語

開源信息處理具有數(shù)據(jù)獲取簡易、信息覆蓋面廣等優(yōu)勢,現(xiàn)已成為世界各國研究的熱點,相關(guān)成果已應(yīng)用于社會各領(lǐng)域并發(fā)揮著重要作用。本文對當前國外開源信息處理研究的進展進行了綜述。在技術(shù)方面,本綜述覆蓋了數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、信息分析和決策支撐4 個開源信息處理關(guān)鍵步驟的有關(guān)技術(shù),其中人工智能技術(shù)在開源信息處理中的應(yīng)用最為廣泛。在應(yīng)用系統(tǒng)方面,本綜述對國外流行的開源信息處理系統(tǒng)進行了介紹,包括商業(yè)系統(tǒng)和開源系統(tǒng)。在現(xiàn)有挑戰(zhàn)方面,數(shù)據(jù)質(zhì)量、算法分析和法律倫理是現(xiàn)有研究面臨的主要挑戰(zhàn),而先進技術(shù)的應(yīng)用、跨學科研究、決策支撐和信息檢索優(yōu)化將是未來開源信息處理的研究熱點。

 

1作者:汪明達 劉世鈺 聶大成 楊 慧 來源:通信技術(shù) 編輯:顧北

 

聲明:①凡本網(wǎng)注明“來源:通信界”的內(nèi)容,版權(quán)均屬于通信界,未經(jīng)允許禁止轉(zhuǎn)載、摘編,違者必究。經(jīng)授權(quán)可轉(zhuǎn)載,須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標注作者信息并注明“來源:通信界”。②凡本網(wǎng)注明“來源:XXX(非通信界)”的內(nèi)容,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多行業(yè)信息,僅代表作者本人觀點,與本網(wǎng)無關(guān)。本網(wǎng)對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。③如因內(nèi)容涉及版權(quán)和其它問題,請自發(fā)布之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將在第一時間刪除內(nèi)容。 
熱點動態(tài)
普通新聞 第六屆“綻放杯”5G應(yīng)用征集大賽全國總決賽在滬圓滿落幕
普通新聞 新紫光集團賦能驅(qū)動,紫光展銳5G躍進 一往無前
普通新聞 “數(shù)字賦能、智創(chuàng)未來”第三屆中國(寧波)軟件峰會暨程序員節(jié)即將
普通新聞 中國移動與中國南水北調(diào)簽署戰(zhàn)略合作框架協(xié)議
普通新聞 印度政府:允許筆記本電腦和平板電腦進口不受限制
普通新聞 中國VR產(chǎn)業(yè)有聲有色有望助力行業(yè)走出低谷
普通新聞 主流廠商競逐折疊屏手機賽道 關(guān)鍵技術(shù)不斷實現(xiàn)突破
普通新聞 工業(yè)互聯(lián)網(wǎng)發(fā)展成效顯著 下一步需加速與重點產(chǎn)業(yè)鏈深度融合
普通新聞 一帶一路高峰論壇|深耕“一帶一路”共建“數(shù)字絲綢之路”
普通新聞 融智賦行,共見智能交通發(fā)展與創(chuàng)新——中信科智聯(lián)精彩亮相第29屆智
普通新聞 德國科隆無線通信展覽會PMRExpo 2023—安全通信領(lǐng)域的盛事
普通新聞 暢享數(shù)字生活,中國聯(lián)通領(lǐng)航全新網(wǎng)絡(luò)互聯(lián)體驗
普通新聞 歐盟計劃對“最強大”人工智能生成模型實施更嚴格規(guī)定
普通新聞 庫克今天參觀的立訊精密 是蘋果公司與中國供應(yīng)商共同發(fā)展的縮影
普通新聞 華為云、阿里云被評選為中國云計算市場的"Champions 冠軍"
普通新聞 蘋果據(jù)稱正在開發(fā)可折疊屏iPad 最早明年發(fā)布
普通新聞 中信科移動完成IMT-2020(5G)推進組5G-A通感融合演示驗證
普通新聞 非洲電信領(lǐng)導者探討5G潛力,但挑戰(zhàn)仍存
普通新聞 華為旗下“花瓣支付”來了,稱“不與微信和支付寶搶份額”
普通新聞 手機頭一次落地70億AI大模型,聯(lián)發(fā)科天璣9300再添新實力,三殺8G3
通信視界
鄔賀銓:移動通信開啟5G-A新周期,云網(wǎng)融合/算
普通對話 中興通訊徐子陽:強基慧智,共建數(shù)智熱帶雨
普通對話 鄔賀銓:移動通信開啟5G-A新周期,云網(wǎng)融合
普通對話 華為輪值董事長胡厚崑:我們正努力將5G-A帶
普通對話 高通中國區(qū)董事長孟樸:5G與AI結(jié)合,助力提
普通對話 雷軍發(fā)布小米年度演講:堅持做高端,擁抱大
普通對話 聞庫:算網(wǎng)融合正值挑戰(zhàn)與機遇并存的關(guān)鍵階
普通對話 工信部副部長張云明:我國算力總規(guī)模已居世
普通對話 鄔賀銓:我國互聯(lián)網(wǎng)平臺企業(yè)發(fā)展的新一輪機
普通對話 張志成:繼續(xù)加強海外知識產(chǎn)權(quán)保護工作 為助
普通對話 吳春波:華為如何突破美國6次打壓的逆境?
通信前瞻
亨通光電實踐數(shù)字化工廠,“5G+光纖”助力新一
普通對話 亨通光電實踐數(shù)字化工廠,“5G+光纖”助力新
普通對話 中科院錢德沛:計算與網(wǎng)絡(luò)基礎(chǔ)設(shè)施的全面部
普通對話 工信部趙志國:我國算力總規(guī)模居全球第二 保
普通對話 鄔賀銓院士解讀ChatGPT等數(shù)字技術(shù)熱點
普通對話 我國北方海區(qū)運用北斗三號短報文通信服務(wù)開
普通對話 華為云Stack智能進化,三大舉措賦能政企深度
普通對話 孟晚舟:“三大聚力”迎接數(shù)字化、智能化、
普通對話 物聯(lián)網(wǎng)設(shè)備在智能工作場所技術(shù)中的作用
普通對話 軟銀研發(fā)出以無人機探測災(zāi)害被埋者手機信號
普通對話 AI材料可自我學習并形成“肌肉記憶”
普通對話 北斗三號衛(wèi)星低能離子能譜儀載荷研制成功
普通對話 為什么Wi-Fi6將成為未來物聯(lián)網(wǎng)的關(guān)鍵?
普通對話 馬斯克出現(xiàn)在推特總部 收購應(yīng)該沒有懸念了
普通對話 臺積電澄清:未強迫員工休假或有任何無薪假
普通對話 新一代載人運載火箭發(fā)動機研制獲重大突破
推薦閱讀
Copyright @ Cntxj.Net All Right Reserved 通信界 版權(quán)所有
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像