QQ泡沫乐园 · 免费提供游戏辅助,破解软件,活动资讯,喜欢记得收藏哦!
综合软件_线报活动_游戏辅助_最新电影_最优质的的辅助分享平台

社交媒体网络分析的研究可以追溯到1930年代(图)

网络 2022-12-15 11:02

社交媒体数据挖掘方式

与社交网路剖析相关的其他研究领域相比,将数据挖掘技术应用于社交媒体相对较新。当我们承认对社交媒体网路剖析的研究可以溯源到1930年代。使用由工业界和学术界开发的数据挖掘技术的应用程序早已在商业上使用。例如,“社交媒体剖析”组织向我们提供服务并跟踪社交媒体,以向顾客提供有关怎样通过社交媒体网路辨识和讨论商品和服务的数据。该组织中的分析师早已应用了文本挖掘算法,并监测到博客的传播模型,从而创建了可以更好地理解数据怎么在博客圈中联通的技术。

可以对社交媒体站点施行数据挖掘技术,以更好地理解信息,并将数据用于剖析,研究和商业目的。代表性领域包括社区或群体测量,数据传播,受众传播,主题检查和跟踪,个人行为剖析,群体行为剖析以及组织的市场研究。

数据表示

广东刷赞点赞软件_社交媒体中的点赞行为分析_社交媒体与传统媒体

与其他社交媒体数据类似,使用图形表示来研究社交媒体数据集也是可以接受的。图包括一组包含顶点(节点)和边(链接)的图。用户一般显示为图中的节点。个人(节点)之间的关系或公司在图中显示为链接。

对于从社交网站提取的信息,人们与同事,家人和商业伙伴进行交互时,图形勾勒很常见。它有助于构建由同学,家人或业务伙伴组成的社交网络。图结构是怎样应用于博客,Wiki,意见挖掘和类似类型的在线社交媒体平台的,这一点还不太显著。

如果我们考虑博客,则一个图形表示以博客方式发布为节点,可以视为“博客网路”,而另一个图形描述以博客贴子为节点,可以视为“后网路”。当另一博客文章引用另一博客文章时,将在博客文章网路中创建边沿。用于表示博客网路的其他技术同时考虑了个人,关系,内容和时间,称为Internet在线分析处理(iOLAP)。可以从将作者描画为节点的上下文中考虑Wiki,并且当作者为某个对象作出贡献时会创建边沿。

图形表示准许应用精典的物理数论,分析社交媒体平台和研究图数据的传统技术。用于勾勒社交媒体平台的图表可能很大,可能会因为计算机显存的限制而给手动处理带来困难。在尝试处理庞大的社交媒体数据集时,处理速率将最大化,并且一般会超过处理速率。实施自动化程序以容许社交媒体数据挖掘的其他挑战包括辨识和处理垃圾邮件,社交媒体的同一子类别中使用的各类格式以及不断修改内容和结构。

数据挖掘-一个过程

无论正在研究哪种类型的社交媒体,都必须考虑一些基本问题,以使最有意义的结果可行。每种类型的社交媒体和应用于社交媒体的每种数据挖掘目的都可能涉及奇特的方式和算法,以从数据挖掘中获得益处。各种数据集和数据问题包括不同种类的工具。如果晓得怎样组织数据,则可以使用分类工具。如果我们了解数据的含意,但未能确定数据的趋势和模式,则使用群集工具可能是最好的技巧。

问题本身可以得出最佳方式。在应用数据挖掘技术以及了解可用的各类数据挖掘工具之前,没有其他选择可以尽可能地了解数据。可能须要主题分析师来帮助更好地理解数据集。为了更好地理解可用于数据挖掘的各类工具,有大量的数据挖掘和机器学习文本以及可用于支持有关各类特定数据挖掘技术和算法的更准确信息的不同资源。

了解问题并选择适当的数据挖掘方式后,请考虑须要进行的任何预处理。还可能须要系统的过程来开发足够的数据集,以容许合理的处理时间。预处理应包括适当的隐私保护机制。尽管社交媒体平台包含大量可公开访问的数据,但是重要的是要确保个人权力,并确保社交媒体平台的版权。垃圾邮件的影响应与时间表示方式一起考虑。

除了预处理之外,还必须考虑时间的影响。根据查询和研究的结果,虽然时间段是特定领域的可考虑诱因,但我们可能一次获得的结果会与另一个时间有所不同。例如,主题检查,影响传播和网路发展,时间对网路辨识,群体行为和营销的影响不太显著。在一个时间点定义网路的内容在另一个时间点可能会显着不同。一段时间后,小组的行为和兴趣将发生变化,今天提供给个人或小组的东西今天可能不会流行。

将数据描画为图形,任务从选取数目的节点(称为种子)开始。从种子的排列开始遍历图形,并使用来自种子节点的链接结构,收集数据,并对结构本身进行检测。利用链接结构从种子集中延展并搜集新信息称为对网路进行爬网。作为搜寻器执行的应用程序和算法应有效管理强悍的社交媒体平台中存在的挑战,例如受限站点,格式修改和结构错误(无效链接)。搜寻器发觉新数据时,会将新数据存贮在储存库中以进行进一步剖析。找到链接数据后,搜寻器将更新有关网路结构的数据。

一些社交媒体平台(例如Facebook,Twitter和Technorati)提供了应用程序程序员接口(API),这些API容许搜寻器应用程序直接与数据源进行交互。但是,这些平台一般依赖于API用户与平台之间的隶属关系来限制每晚API交易的数目。对于个别平台,无需使用API即可搜集数据(抓取)。鉴于可用的社交媒体平台数据量巨大,可能有必要限制搜寻器搜集的数据量。搜寻器搜集到数据后,可能须要进行一些后处理能够验证和清除数据。可以应用传统的社交媒体平台剖析方式,例如,集中度检测和群体结构研究。在许多情况下,其他数据将与节点或链接相关,这将为更复杂的方式提供机会,以考虑可以通过文本和数据挖掘技术公开的更周到的语义。

现在,我们将重点置于两个特定的社交媒体平台数据上,以进一步表示数据挖掘技术怎么应用于社交媒体网站。两个主要领域是社交媒体平台,博客功能强悍,并且丰富的数据源在这两个领域都有彰显。这两个领域为更广泛的科学网路和商业组织提供了潜在的价值。

社交媒体平台:示例

社交媒体平台(如Facebook或LinkedIn)由具有奇特个人资料的关联用户组成。用户可以与她们的同事和家人互动,并可以共享新闻,照片,故事,视频,喜欢的链接等。用户可以选择依照个人喜好自定义个人资料,但一些常用数据可能包含关系状态,生日,电子邮件地址和故乡。用户可以选择在个人资料中包含多少数据以及有权访问那些数据的人。通过社交媒体平台访问的数据量导致了安全问题,并且是一个相关的社会问题。

在此,该图说明了典型社交媒体平台的假定图结构图,箭头表示指向该图较大部份的链接。

在使用社交媒体平台数据时,确保个人身分很重要。最近的报告指出了保护隐私的必要性,因为早已证明,当使用中级数据剖析策略时,即使匿名化这种数据仍旧可以显示单个数据。安全设置还可能限制数据挖掘应用程序考虑社交媒体平台上的每位数据的能力。但是,可以使用一些令人发指的技术来接管安全设置。