18720358503 在线客服 人才招聘 返回顶部
企业动态 技术分享 行业动态

Python3脚本制作取百度搜索站长服务平台外链数据

2021-04-09分享 "> 对不起,没有下一图集了!">

Python3脚本制作取百度搜索站长服务平台外链数据信息剖析


短视頻,自新闻媒体,达人种草1站服务

以便对百度搜索站长专用工具外链专用工具中查寻的外链数据信息开展剖析,特地写了个Python的脚本制作,根据立即get站长服务平台的数据信息,将全部数据信息储存开展剖析后导出来站内被连接网页页面+次数,外链根域+该网站域名下连接数量,锚文字+锚文字应用次数,自然了,既然能够获得到数据信息便可以对数据信息开展更多维度度的剖析,本脚本制作只开展以上3层面的剖析,如有其它要求可自主拓展。

下面贴出编码及表明:

下面是脚本制作的第1个涵数:

表明:这1段涵数关键获得百度搜索站长服务平台外链专用工具中查寻到的网站外链的全部数据信息并写入all_data这个目录中。

#coding=utf⑻

import json#启用json控制模块

import urllib.request#启用urllib.request控制模块

def url_outerlink_anchor(url):#获得站长服务平台数据信息

html1 = urllib.request.urlopen(''%url).read().decode('utf⑻')#开启第1个外链目录

data1 = json.loads(html1)#变换为json文件格式

outerlink_num = int(data1['count'])#获得外链总数

range_page_num = outerlink_num//100+2#每页显示信息100条,外链总网页页面数

range_page_num_list = range(1,range_page_num)#例如测算后range_page_num=4,则range_page_num_list = [1,2,3],每页显示信息100条外链则有3页

#上边的测算关键是以便下边能够获得所有数据信息

all_data = []

for i in range_page_num_list:#for循环系统提取数据信息并追加到all_data目录中

html=urllib.request.urlopen(''%(url,i)).read().decode('utf⑻')

data = json.loads(html)

urls=[]

for item in data['list']:

urls.append([item['url'],item['outer_url'],item['anchor']])#提取url,外链,锚文字

all_data.extend(urls)

return all_data#回到全部数据信息目录all_data

下面是脚本制作的第2个涵数:

表明:这1段涵数关键获得网站被连接的全部网页页面及其被连接的次数并写入csv文档。

def every_page_num(url):#获得每一个网页页面被连接次数

all_data = url_outerlink_anchor(url)#全部数据信息

url_list = []

for item in all_data:#取网页页面数据信息追加到url_list中

url_list.append(item[0])

quchong_url_list = {}.fromkeys(url_list).keys()#去重网页页面数据信息

file = open('%s_every_page_num.csv'%url,'a+')#建立并开启csv文档

for item in quchong_url_list:

file.write(item+','+str(url_list.count(item))+'\n')#写入网页页面,网页页面被联接次数

file.close()

return True

融合本涵数得到的数据信息制作出饼图实际效果:

 

融合以上数据信息可制订网站后期连接基本建设方案。

下面是脚本制作的第3个涵数:

表明:这1段涵数关键获得全部外链根域并统计分析根域下全部指向网站的连接数量并写入csv文档。

def outer_url_num(url):#获得外链根域及每一个网站域名下的连接数量

all_data = url_outerlink_anchor(url)#全部数据信息

outer_url_list = []

for item in all_data:#取外链数据信息追加到outer_url_list中

outer_url_list.append(item[1])

genyu = []

for link in outer_url_list:#取外链根域并追加到genyu中

genyu.append(link[:link.index('/')])

qu_chong_genyu = {}.fromkeys(genyu).keys()#genyu中数据信息去重,以便下边统计分析次数

file = open('%s_outer_url_num.csv'%url,'a+')#建立并开启csv文档

for item in qu_chong_genyu:#统计分析每一个根域下连接次数并写入文档

file.write(item+','+str(genyu.count(item))+'\n')

file.close()

return True

融合本涵数得到的数据信息制作出饼图实际效果:

 

融合以上数据信息可均衡外链的普遍度和来源于域数量。

下面是脚本制作的第4段涵数:

表明:这1段涵数关键获得全部锚文本并统计分析锚文本连接次数并写入csv文档。

def anchor_num(url):

all_data = url_outerlink_anchor(url)

anchor_list = []

for item in all_data:

anchor_list.append(item[2])

quchong_anchor_list = {}.fromkeys(anchor_list).keys()

file = open('%s_anchor_num.csv'%url,'a+')

for item in quchong_anchor_list:

file.write(item+','+str(anchor_list.count(item))+'\n')

file.close()

return True

融合本涵数得到的数据信息制作出饼图实际效果:

 

融合以上数据信息关键对网站锚文字基本建设作出整体规划,自然了,假如再次对数据信息开展剖析,统计分析到每一个网页页面的锚文字便可定植全站的连接方案。

下面是实行涵数,改动url='.****/'中的.****/为自身的网站便可。

if __name__ == '__main__':

url='.***/'

url_outerlink_anchor(url)#实行第1个涵数获得数据信息

every_page_num(url)#实行第2个涵数

outer_url_num(url)#实行第3个涵数

anchor_num(url)#实行第4个涵数

以上便是本脚本制作全部內容,自然根据第1个涵数获得数据信息后便可以随便开展多维度度的剖析了,以上只简易详细介绍了关键的3种,大伙儿还可依据自身必须开展拓展。

本文由老姜为可伶的磨料站(金刚砂)营销推广所作,请重视别人劳动者成效,转载请注明出处。


"> 对不起,没有下一图集了!">
在线咨询