当前位置: 首页 > news >正文

网站的支付接口对接怎么做淘宝指数转换

网站的支付接口对接怎么做,淘宝指数转换,seo网站优化报价,erp系统是什么软件题目 链接 爬虫往往不能在一个页面里面获取全部想要的数据,需要访问大量的网页才能够完成任务。 这里有一个网站,还是求所有数字的和,只是这次分了1000页。 思路 找到调用接口 可以看到后面有个参数page来控制页码 代码实现 import reques…

题目
链接

爬虫往往不能在一个页面里面获取全部想要的数据,需要访问大量的网页才能够完成任务。
这里有一个网站,还是求所有数字的和,只是这次分了1000页。

思路

  • 找到调用接口

-
可以看到后面有个参数page来控制页码

代码实现

import requests
import reurl = 'http://www.glidedsky.com/level/web/crawler-basic-2'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.54','Cookie': ''
}res = 0
for i in range(1, 1001):temp_url = url + '?page=' + str(i)response = requests.get(temp_url, headers=headers)html = response.textpattern = re.compile('<div class="col-md-1">.*?(\d+).*?</div>', re.S)n_list = re.findall(pattern, html)for n in n_list:res += int(n)print(f'Result: {res}')

使用多线程实现更快爬取:

import requests
import re
import threadingurl = 'http://www.glidedsky.com/level/web/crawler-basic-2'
total_threads = 10  # 设置线程数量
lock = threading.Lock()  # 创建一个锁,用于线程间的数据同步
res = 0def worker(thread_id):global resfor i in range(thread_id, 1001, total_threads):temp_url = url + '?page=' + str(i)response = requests.get(temp_url, headers=headers)html = response.textpattern = re.compile('<div class="col-md-1">.*?(\d+).*?</div>', re.S)n_list = re.findall(pattern, html)with lock:for n in n_list:res += int(n)threads = []
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.54','Cookie': ''
}# 创建并启动线程
for i in range(total_threads):thread = threading.Thread(target=worker, args=(i,))thread.start()threads.append(thread)# 等待所有线程执行完成
for thread in threads:thread.join()print(f'Result: {res}')

使用异步函数

import aiohttp
import asyncio
import reurl = 'http://www.glidedsky.com/level/web/crawler-basic-2'
total_requests = 1000  # 总共地请求次数
concurrent_requests = 10  # 同时并发的请求数量
res = 0headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.54','Cookie': ''
}async def fetch_url(session, temp_url):async with session.get(temp_url, headers=headers) as response:html = await response.text()pattern = re.compile('<div class="col-md-1">.*?(\d+).*?</div>', re.S)n_list = re.findall(pattern, html)return [int(n) for n in n_list]async def main():async with aiohttp.ClientSession() as session:tasks = []for i in range(1, total_requests + 1):temp_url = url + '?page=' + str(i)tasks.append(fetch_url(session, temp_url))if len(tasks) >= concurrent_requests or i == total_requests:results = await asyncio.gather(*tasks)for n_list in results:for n in n_list:global resres += ntasks = []loop = asyncio.get_event_loop()
loop.run_until_complete(main())print(f'Result: {res}')

时间统计:同步的方式大概80s,多线程和异步时间差不多都是20s左右

http://www.shuangfujiaoyu.com/news/34838.html

相关文章:

  • 做网站免费模板怎么上传到空间免费文件外链网站
  • 购物网站订单状态模板企业查询天眼查
  • wordpress 鼠标 效果青岛关键词优化seo
  • 婚庆公司网站模板下载韩国vs加纳分析比分
  • 网站备案号的区别重庆seo网站推广优化
  • 如何做直播类网站电商网站订烟平台
  • 查看一个网站开发语言app下载推广
  • 有什么可以做任务赚钱的网站阿里云域名注册入口官网
  • wordpress 更好 知乎一个网站的seo优化有哪些
  • 域名对网站有什么影响推广计划书怎么写
  • 中国的网站建设数据分析网络优化工程师前景如何
  • aspcms上传到虚拟主机后打开网站苏州seo网站优化软件
  • 网络营销的主要工作有哪些百度推广账户优化
  • 电商网站建设与管理 教案模板建站平台
  • 新疆兵团建设网站某个网站seo分析实例
  • 做网站打算套用模板aso优化注意什么
  • 推广赚钱的平台爱站工具seo综合查询
  • 注册个网站怎么注册上海seo推广
  • 手机网站建设推荐seo整站优化推广
  • 更换网站程序百度问问首页登录
  • 淘客网站开发源代码太原网络推广价格
  • 一起做彩票网站的人seo模拟点击
  • 网站建设计划书 模板下载营销推广有哪些形式
  • 南昌高端网站建设杭州优化seo公司
  • 台州高端网站建设百度指数数据分析报告
  • 建行移动门户网站首页国际新闻界
  • 外链数是网站反向链接码seo 优化 工具
  • 小白如何做网站高端网站建设案例
  • 能买源码的网站有哪些百度推广竞价排名
  • 学校网站建设评审会议通知网络营销环境分析