【研究池】TwitterOSINT:自动化开源情报收集,分
开源情报、大数据、社交媒体、推特、推特开源情报
目录摘要
1. 绪论
2.?背景及相关工作
3. 方法
4. 结论
?
TwitterOSINT(OpenSource Intelligence,开源情报)是一种用于提取数据和将开源数据可视化的工具,该数据可以直接从Twitter中在线公开获得(例如推文)。
本文讨论了作为Twitter OSINT概念证明开发的两个用途:一是以学术为导向的网络安全防御策略,其中涉及监视有关网络安全漏洞和威胁的近实时趋势;二是探索性数据收集方案,用于跟踪网络心理学研究中相关的关键字。
调查结果表明,TwitterOSINT可以近乎实时地从Twitter用户的公开推文中收集和处理相关英文文本,并且该工具适用于需要免费(或低成本)选项来收集各种开源大数据的不同学科。
1. 绪论
人们出于各种原因在电子媒体中使用关键字和标签,从普通的主流娱乐到民权和社会正义运动,无所不包。例如,在美国#MeToo运动#通过社交媒体获得了可观的动力,#黑人生存问题#也是如此。在社交媒体上捕捉趋势事件,尤其是可能会“病毒化”的新兴趋势(即在相对较短的时间内被大量社交媒体用户看到),为研究人员提供了即时观察和分析社会现象和主要文化影响因素的机会。
病毒式传播,无论是社会趋势的结果,还是有针对性且资金充足的营销活动的成果,都需要与口碑相称的网络空间“遍布个人和社区,并随着每个周期呈指数增长”。社交媒体具有改变整个社会文化规范基础的能力(例如标签行动主义),类似于报纸,广播和电视在过去几十年中帮助记录和塑造全球事件的方式。
要了解为促进当今世界的形成而出现的高度复杂和相互关联的在线通信网络,就需要一个非常高层次的视角来看待一个庞大的相互关联的变量库。“大数据”这一术语指的是非常大的数据集,其中包含嵌入复杂结构中的各种数据点,并且该结构也可能会抑制数据的发现,传输,分析和可视化。
从新闻,博客和社交媒体等公共可用来源收集的信息可以称为开源情报(OSINT),并且OSINT的来源每天可以轻松产生数亿个新数据点。当下载用于其他目的时,信息存储库可以被视为大数据。
在社会科学领域,经典的观察研究正在发生前所未有的变化,基本上允许(人类行为的)观察者检查公共场所发生的事情,利用自动化的力量,依靠技术记录来自世界各地和任何特定时间的数百万人的直接报告。这种形式的大数据分析独特地依赖于可公开访问的终端用户数据和计算机筛选这些数据的能力,这些数据可能提供数十亿的评分供审查。
不仅有大量的数据需要检查,而且对这些原始数据进行手动处理通常超出了人类的能力。尽管有价值的数据唾手可得,但大数据让分析师无法理解这些数据的潜在相关性,因此,对于试图发现有用、可操作信息的人们来说,大数据造成了某种形式的认知过载。
更重要的是,大数据可以很容易地阻止人们及时地对重要数据采取行动。例如,Twitter是一个明显的 ?数据源,可以轻松访问其用户生成的数据(即Twitter社交媒体平台上的在线发布)和服务,并且命令流量由每分钟1亿个字符-每秒约6,000个帖子,每个帖子最多280个字符。
2. 背景及相关工作?
情报数据有一个重要的时间成分,这意味着任何解释数据的人都必须在数据仍然有用和有效的时候识别并对其相关性做出反应。换言之,只有在迅速采取行动,使其对预期结果产生影响时,情报才是有用的。在多数情况下都是如此。
例如,在商业领域,基于大数据分析获得市场洞察力的速度能够带来战略机会和相对于竞争对手的竞争优势。在医疗保健领域,公共机构和医学研究人员与患者互动,并通过挖掘数据来研究人们的习惯和偏好。在网络安全领域,大数据分析在检测新出现的威胁时是不可或缺的。
大型公司和政府实体可能能够负担与高性能分析工具相关的硬件,软件和人员成本。OSINT收集和分析工具的商业例子包括Recorded Future(),SpiderFoot(),Hootsuite()和Infongen?()。采用这些工具需要面临的的挑战包括成本(从几千到几万美元)和它们实现的专有性质。