Scrape
本文使用的颜色较多,开启夜间模式阅读效果更好
本系列主要是对阅读了python网络编程相关的总结与回顾
背景知识
http简介
url : 统一资源定位符 格式如下 []代表可省略
protocol ://[username:password@] hostname[:port] / path / [;parameters][?query]#fragment
protocol : 协议 主要有 http,https,ftp,sms,
username,password : 主要ftp
hostname : 主机名也就是域名 也可以用DNS映射得到IP地址,有一级二级域名之分
port : 端口号 http默认是80 类似还有https 443 属于套接口
path : 路径 就是位于主机中的地址
parameters : 附加信息 现在用的少了
query : 查询,多个查询就用&分开,GET请求参数里也有
fragment : 片段 资源的补充 似乎很少使用
http基本转向https 基于SSL socket相关也是爬取的主要内容http请求过程
使用F12 Network 监听 Ctrl+R
Status : 状态码就是404 403 200 类似的
Initiator : 请求源 标记请求是由哪个进程或对象发起的
Request请求方法 请求头 请求体
Request Method : 请求方法GET POST居多 还有PUT DELETE 很多
3. **<font color=azure>Scrapy</font>** 1. Xpath syntax 用在我们的xml 文件里面 便于快速提取所需要的性质 / // [] (predicates) 2. Xml treated like tree of nodes 3. [一个教程网站](https://docs.scrapy.org/en/latest/intro/tutorial.html) 4. scrpay 的使用 基本教程都有 注意就是 有自己的内建命令 自己的脚本 不要出错了 5. getall() get()第一个元素 [0].get() title::text 仅仅要文本时候 re() 用正则表达式寻找 6. 除此之外还有 xpath的方法 response.xpath("//title") 7. [scrapy](https://docs.scrapy.org/en/latest/intro/tutorial.html) 8. 在我们 的 html 文件里面一个这个<><> 叫做一个 quote 1. -O 会覆盖当前文件 -o 就是append模式 2. 用 jsonl 文件格式 可以不断添加 stream-like
- Post title:Scrape
- Post author:Winter
- Create time:2023-03-22 21:13:13
- Post link:https://spikeihg.github.io/2023/03/22/Scrape/
- Copyright Notice:All articles in this blog are licensed under BY-NC-SA unless stating additionally.