
自2014年底开始5118运营,我们结识了SEO业内很多朋友,在和他们聊天中,对大数据认可的同时也对这些数据是如何产生表示浓厚的兴趣,经常被问到每天是如何分析如此庞大的数据,这些数据的理论依据是什么?
为了让更多的朋友对这些大数据背后运作的原理有一个完整的认识,今天我们就来聊一聊这个话题:每天必看的SEO大数据是怎么来的?
熟悉5118的朋友都知道,5118首页已经罗列出所有常用功能:网站和熊掌号搜索引擎排名趋势监控、网站和熊掌号SEO内参、长尾词挖掘和需求图谱、移动流量词挖掘、相似网站、子域名挖掘、历史竞价词挖掘、素材搜索、改写工具,接下来我将逐一介绍这些功能的数据来源和背后的算法。
https://www.5118.com/seo/m.tmall.com
https://www.5118.com/xz/name/%E6%98%93%E7%8E%A9
做为5118小伙伴每日必看的一项数据,经常给大家带来排名增长的欢喜和排名暴跌的忧伤,为什么5118会掌握这些数据呢?
其实5118是不能穷尽所有关键词在百度中排名的,因为这样消耗的成本太大,毕竟百度后台的数据是保密的,加上中文博大精深,用户每天在百度的查询词是一个无法企及的数量级,所以我们要用一套效率和成本上比较可行的方案,于是我们利用了样本词库的方法。
这个方法大致是这样的,我们选择了在百度上每天查询量最靠前的360万关键词,其中包含了百度指数大于0的所有关键词,数量超过一百多万个,另外包含了百度竞价后台关键词规划大师中搜索量靠前的关键词两百多万个,这基本涵盖了各行各业最多人查询的词汇,然后通过爬虫程序,每天凌晨12点到早上8点,自动在百度中模拟人进行查询,并且记录下每词查询前100名的域名,这样360万次查询乘以100,我们每天需要把3亿6千万的排名数据在8个小时内处理完成,要完成这样的工作量,光在服务器上我们就投入了百万资金,以尽量满足用户能在8点上班之前看到新一轮的数据,当然这还仅仅是百度PC排名一项。
为了让大家更直观的了解这些数据,才有5118首页大家看到的进度条,这里能够看到样本词库的规模3600000个,能够看到三个搜索引擎每天采集排名的进度与大概预估的时间,能够看到我们每天会把新的流量关键词加入,把不好的样本关键词淘汰,通过可视化的数据让大家大致的了解数据采集分析的工作进度与状态。
有的时候我们会发现当日呈现数据过晚或者卡在99%不动,这可能是因为我们遇到了某些技术问题导致数据处理超出常规时间,技术人员一般会在当天介入努力修复好,让接下来新的一天采集周期恢复正常。
有的时候我们发现一些排名和自己本地的查询有些出入,这可能是由于地区不同的原因,也可能是时间不同的原因,还可能是百度分配的缓存服务器不同的原因,我们无法做到100%准确,就算人工查询,因为百度自身的复杂性,前一分钟和后一分钟的排名都有一定的区别,所以我们建议排名趋势数据主要用于网站趋势的监控,例如我的SEO策略是否让整体排名趋势向上,例如我的网站最近是不是受到了新算法的影响。
如果需要更加精准的对特定关键词的准确监控,可以用5118专门排名监控工具:https://monitor.5118.com/keywords。
像第1点所说,监控着如此庞大的排名数据,可以轻易掌握整个搜索引擎波动的情况,计算出波动最剧烈的网站是哪些,排名掉落最多的网站是那些,于是我们将这些数据自动整理归纳成几个大的分类,让大家能够从中吸取经验,改善自身的SEO运营。
https://www.5118.com/xz/best/day
作为5118核心数据之一,长尾词在SEO中扮演举足轻重的角色,能玩转长尾词是每个网站运营者需要掌握的技能,随着搜索引擎权重格局越来越固化,热门词汇的排名基本难以撼动,通过长尾词来获取更多的流量,是一门重要的功课。
5118截至到2018年12月8日拥有51.87亿关键词和长尾词数据,每天以千万级别在增长,基本能够监控互联网上所有的热门查询和词汇,我们的数据来自于:百度、360、搜狗、百度竞价、今日头条、微信公众号、淘宝、京东,这些查询数据代表着用户的需求,代表着用户希望寻找什么,掌握了这些关键词,就像战争中破译了密码,可以更高效率的进行流量运营的工作,知道如何用最少的精力来获取最大的流量。
从上图的右侧也看到,我们会周期性的对所有的关键词的百度指数数据和竞价流量数据进行更新,从2018年10月开始基本上1-2周会对这些指数和流量数据完成一次更新,我们掌握的流量关键词数据已经过千万,所以大家在此获得的流量数据是相对比较及时的。
https://www.5118.com/seo/newwords/%E5%B0%8F%E7%A8%8B%E5%BA%8F
另外我们会把所长尾词归纳到一起进行高频词和疑问词分析,得出结论供大家直接使用。
https://www.5118.com/naotu/detail/0abf2c09c9394126b2c4e40e8b9bd890
众所周知,现在是移动时代,网民大部分上网时间都是和手机一起度过,手机流量已经超越PC流量,所以移动端SEO对流量运营来说至关重要,如何从百度和其他移动搜索引擎获得更多的流量,有别于PC端的技巧,例如下图来自于百度的推荐关键词。
我们在使用百度移动时经常能够看到这样的推荐出现在搜索结果的中间,这类推荐比起PC端是非常容易被点击的(人类手贱),具有非常高的SEO价值,只要做好这些内容将会获得大量流量。
5118的移动流量词挖掘就是针对这些词进行挖掘,并且是深层次累积挖掘,也就是说从1个词挖出10个词,再从10个词挖出1000个词,在从1000个词挖出10000个词,然后观察每个词在推荐中的次数,推荐次数越多就证明被用户看到的概率也就越高,做了这些内容越容易带来流量。
这套理论已经被数万用户证明是行之有效的,用这些关键词作为文章标题为移动网站带来了大量流量,这个功能也是用户用的最频繁的工具之一。
说到相似网站,其实原理很简单,两个网站讲述的内容相似,我们就认为两个网站是相似的,但是面对全互联网数以千亿计的网页,如何统计得了这么多数据呢?
这里我们就要利用百度关键词排名来进行统计了,也就是说我们换了一种比较投机取巧的方法,我们将“讲述的所有网页内容相似”改为了“排名的所有关键词相似”,也就是说两个网站拥有相似的关键词排名,那么我们就认为两个网站相似。
5118恰恰掌握了所有网站的排名数据,这项工作就变得异常轻松,我们利用2年的累积记录了50亿关键词前20名的排名,把1000亿排名利用Spark分布式计算工具进行聚合,得出了每个网站关键词相似比率最高的那些网站并记录到数据库里,这样就看到了下面这些数据了(to8to.com的相似网站)。
https://www.5118.com/seo/relatedsites/www.to8to.com
我们在每天记录所有网站排名的同时,也记录了所有网站子域名的排名,这样我们将所有根域名相同的域名合并在一起,就形成了某个根域名的子域名列表,这样用户查询某个域名的子域名时,我们可以从数据库中非常轻松的提取。
https://www.5118.com/seo/subdomains/www.to8to.com
5118爬虫每天要采集数百万的关键词排名数据,此时所有的竞价排名数据也正好在这些网页当中,我们每次都将这些竞价网站和标题都记录下来,久而久之就形成了一个超大的竞价词数据库,可以知道某个网站历史上都投入过哪些关键词竞价,将这些词导出后,可以快速进行竞价实验,减少自己竞价摸索时间。
https://www.5118.com/seo/bidrank/www.to8to.com
在SEO过程中,内容为王、链接为皇,寻找优质的内容作为自己文章的灵感来源,是非常花费时间的,我们经常切换各种媒体中搜索,知乎、头条、公众号等等,而5118素材搜索(http://www.5ce.com/sc/)的原理,就是利用爬虫程序模拟人类将各个媒体中的搜索引擎中的结果按照一定规律汇总合并到一个搜索结果中,供需要寻找内容灵感的朋友高效的进行整合查询,找到自己想要呀的内容。
http://www.5ce.com/sc/%E9%99%88%E7%BE%BD%E5%87%A1
转换列表:
2018年12月底将推出 海量关键词 在线分析管理功能
2019年初推出 改写工具(https://wyc.5118.com/)二期
2019年初推出 5118SEO浏览器插件:SEO强大的外挂
2019年初推出行业流量暴涨词功能:了解行业中暴涨的词汇
2019年初推出内容运营智能编辑器:内容运营终极武器
近期干货
▼
www.5118.com
享受大神级运营视野
关注一个,我们只推有用的