新手使用爬虫最好从pandas表格爬虫开始,这个是最简单最易学的。
环境依赖
生成requirements.txt文件
pip freeze > requirements.txt
1
这个命令不好,因为会把所有项目的依赖生成。 如果只是单纯生成本地的依赖,应该使用pipreqs。
#通过以下命令安装:
pip install pipreqs
#运行:
pipreqs ./
1
2
3
4
5
6
7
2
3
4
5
6
7
安装项目依赖的文件
pip install -r requirements.txt
1
爬虫中的坑点
- 作为循环迭代的i应该用str(i)包裹。
- pd.read_html(url)[3] # 这个3应该在括号外面
时间函数datetime的用法
引入
import datetime
end_time = datetime.datetime.now()
x_time = end_time - start_time
print(f"全部爬取完毕,总耗时{x_time.seconds}秒")
1
2
3
4
2
3
4
计算两者的时间差
参数secondes表示秒。还有其他用法
- days 天
- hours 小时
- minutes 分
- seconds 秒
- microseconds 毫秒
← python首页