新手使用爬虫最好从pandas表格爬虫开始,这个是最简单最易学的。

环境依赖

生成requirements.txt文件

pip freeze > requirements.txt
1

这个命令不好,因为会把所有项目的依赖生成。 如果只是单纯生成本地的依赖,应该使用pipreqs。

#通过以下命令安装:

pip install pipreqs
#运行:

pipreqs ./

1
2
3
4
5
6
7

安装项目依赖的文件

pip install -r requirements.txt
1

爬虫中的坑点

  1. 作为循环迭代的i应该用str(i)包裹。
  2. pd.read_html(url)[3] # 这个3应该在括号外面

时间函数datetime的用法

引入

import datetime
end_time = datetime.datetime.now()
x_time = end_time - start_time
print(f"全部爬取完毕,总耗时{x_time.seconds}秒")
1
2
3
4

计算两者的时间差

参数secondes表示秒。还有其他用法

  • days 天
  • hours 小时
  • minutes 分
  • seconds 秒
  • microseconds 毫秒