爬虫项目中引用的包及其用法
写在前面
- 爬虫项目,需要用到一下几个包
- fs
- request
- iconv
- cheerio
fs模块
fs模块是内置模块,无需通过npm下载,只要在一开始通过这行代码引用就行了
1 | var fs = require('fs'); |
作用
fs里面的api很多,但是在爬虫项目中,我们只用了一次
1 | fs.writeFileSync(filename, JSON.stringify(fetch)); |
- writeFileSync()这个函数主要是用来同步写入文件的,第一个参数是文件路径,第二个是写入文件的字符串,第三个是文件编码,默认是utf8
request模块
request模块需要调用npm导入
1 | npm install request --save |
作用
1 | var headers = { |
- 写好request函数之后我们需要在以下两个函数中调用
读取种子页面,遍历新闻链接的时候(此时在母网站)
读取新闻链接的时候(此时在子网站)
因为这篇文章知识介绍各个模块的作用和功能,所以函数具体如何展开不予以讨论
iconv-lite模块
iconv-lite模块需要用npm导入
1 | npm install iconv-lite --save |
作用
iconv-lite的作用就是转码,比如在这行代码中
1 | var html = myIconv.decode(body, myEncoding); |
- 我们可以看到 用iconv-lite.decode( , )可以转码,这里myEncoding已经设置成了’utf-8’
- 通过转码能规避乱码现象
cheerio模块
cheerio 模块需要用npm导入
1 | npm install cheerio --save |
作用
- cheerio 模块是爬虫中很重要的一个模块最主要的作用就是加载你想要访问的HTML页面,可以说,就是把html页面翻译给我们的处理器。有了它我们才能对网页做进一步处理操作
1 | var myCheerio = require('cheerio') |
关于 $ 符号的问题
1 | var seedURL_format = "$('a')"; |