当前位置: 首页 > news >正文

襄阳网络推广公司网站关键词优化怎么弄

襄阳网络推广公司,网站关键词优化怎么弄,用java怎么做游戏下载网站吗,网站打不开了CrawpSpider和Spider的区别 CrawlSpider使用基于规则的方式来定义如何跟踪链接和提取数据。它支持定义规则来自动跟踪链接,并可以根据链接的特征来确定如何爬取和提取数据。CrawlSpider可以对多个页面进行同样的操作,所以可以爬取全站的数据。CrawlSpid…

CrawpSpider和Spider的区别

CrawlSpider使用基于规则的方式来定义如何跟踪链接和提取数据。它支持定义规则来自动跟踪链接,并可以根据链接的特征来确定如何爬取和提取数据。CrawlSpider可以对多个页面进行同样的操作,所以可以爬取全站的数据。CrawlSpider可以使用LinkExtractor用正则表达式自动提取链接,而不需要手动编写链接提取代码。
Spider和CrawlSpider都是Scrapy的Spider类的子类。
注意:CrawlSpider是不支持请求传参的!(多个parse函数的参数之间的来回传递)

CrawlSpider使用步骤

  1. 创建一个工程 XXXPro scrapy startproject XXXPro
  2. cd XXXPro
  3. 创建爬虫文件(CrawlSpider):scrapy genspider -t crawl xxx www.xxxx.com
    • 链接提取器LinkExtractor:根据指定的规则(allow)(正则表达式)进行指定链接的提取
    • 规则解析器Rule:将链接提取器提取到的链接进行指定规则(callback)的解析

爬取全页的链接

在这里插入图片描述
我们可以根据每页的链接形式,使用正则表达式来进行提取。
通过使用下面的链接提取器,可以得到所有页面的链接,而且虽然提取到的链接是不全的,CrawlSpider还会自动补全。

    link = LinkExtractor(allow=r"/content/node_21745_")    # 这个链接提取器是用于在页面源码中根据制定规则进行正则匹配的

爬取每个新闻详情页的url

    link_detail = LinkExtractor(allow=r"/content/20")

补充规则解析器

    rules = (Rule(link, callback="parse_item", follow=False),   # #follow=True:可以将链接提取器 继续作用到 连接提取器提取到的链接 所对应的页面中Rule(link_detail, callback="parse_detail", follow=False))

parse解析函数

# 解析新闻标题def parse_item(self, response):# 注意:xpath表达式中不可以出现tbody标签a_list = response.xpath('/html/body/section[2]/div[3]/div[2]/div[1]/div[4]/ul/a')# print(li_list)for a in a_list:title = a.xpath('./li/p/text()').extract_first()item = SunproItem()item['title'] = title# print(" title:", title)yield itemprint(len(a_list))
    # 解析新闻内容def parse_detail(self, response):# print("parse_detail正在执行")content = response.xpath('//*[@id="news_con"]//text()').extract()content = ''.join(content)item = DetailItem()item['content'] = content# print("news content:", content)yield item

pipelines管道类

class SunproPipeline:def process_item(self, item, spider):if item.__class__.__name__ == 'SunproItem':print(item['title'])else:print(item['content'])return item

注意要在setings.py中开启管道类

http://www.shuangfujiaoyu.com/news/46254.html

相关文章:

  • 徐州网站开发信息绍兴百度seo排名
  • 杭州网站建设很 棒网址大全123
  • 微网站开发平台 知乎网站seo优化建议
  • 什么网站可以在线做考教师岗位的题百度排名优化专家
  • 自己做项目的网站即时热榜
  • 国内网站建设阿里云百度精准营销获客平台
  • c2c商城网站建设二次开发查网站域名
  • 北京建设集团网站seo网站推广收费
  • 宁波网站建设哪里好外贸seo网站推广
  • 福建省委常委百度seo招聘
  • 哪些网站做的好看的国内10大搜索引擎
  • 做网站也分内存大小的吗腾讯企点怎么注册
  • 自己做的网站让别人看到武汉排名seo公司
  • 深圳正规制作网站搜狗seo
  • 重庆点优建设网站公司吗什么软件可以刷网站排名
  • 青岛网站有限公司广州seo网站排名
  • 在百度里面做网站要多少钱bing搜索国内版
  • 网站开发好吗vue seo 优化方案
  • wordpress 连接flickrgoogleseo优化
  • 南宁高端网站建设公司推广方案怎么写
  • html手机网页制作成都官网seo服务
  • 做网站需要的参考文献如何创建一个自己的网站
  • 之梦网站怎么做seo千万别在百度上搜别人名字
  • 做网站的人是什么职位想做游戏推广怎么找游戏公司
  • 设计企业网站流程东莞网站排名提升
  • 想做外贸去哪个网站做2023年6月份疫情严重吗
  • 先做网站还是先解析seo的中文含义是
  • 用wix做网站需要备案吗营销手段和技巧
  • 大兴模版网站开发公司哪家好统计网站流量的网站
  • 中国做网站知名的公司100个裂变营销案例