您的位置:首页 > 资讯资讯

如何用 python 爬取简单网页

admin2024-03-24人已围观

一、如何用 python 爬取简单网页

测试环境:Windows10+Python3.5.2

打开命令提示符(管理员),输入pip3 install requests安装requests模块

import requests,re

#获取网页

r = requests.get('')

#正则表达式获取标题

res = re.search(r'<title>([^<]*)</title>',r.text)

print(res.group(1))

>>>哔哩哔哩弹幕视频网 - ( ゜- ゜)つロ  乾杯~  - bilibili

二、webcollector 如何爬取最新的数据

1.用浏览器打开 这是新浪微博面对手机用户的一个入口.建议不要使用自己的账号来做爬虫.之所以选择weibo.cn来爬去,是因为这个手机版的限制较少,但是weibo.cn的账号密码都是以明文传输,所以为了防止盗号,建议新申请账号进行爬取.

2.登陆进去后,进入个人微博界面(不是),使用firebug查看网页的cookie,找到cookie中的gsid_CTandWM的属性

记录gsid_CTandWM的值,以后爬虫登陆新浪,全靠这个值.

3.代码:

代码是基于WebCollector的: WebCollector官网

假设我们要爬取周鸿祎的微博信息.周鸿祎的微博主页:(不登陆只能看第一页)

我们爬取前10页.

public static void main(String[] args) throws IOException{

CollectionGenerator generator=new CollectionGenerator();

for(int i=1;i<=10;i++){

generator.addUrl(?page=+i);

}

Fetcher fetcher=new Fetcher();

三、抓取别人网站新闻 会不会犯法

抓取不犯法

但是要看内容 和你自己的使用范围

比如人家本身就公开声明 严禁转载的 你非要转载还说是自己写的

那就是侵犯著作权

比如一些谣言 反对。。。之类的 你明知道还去大量转载

你就是公开反。。。

而且新法规定 恶意传播谣言转发超过50的 就要严惩罚款加拘留

还有一种情况 人家的东西 你拿去收费 销售

而且不给任何来源的回报 都是不对的

你要清楚的知道 你是拿别人的东西

再怎么考虑 你自己酌情

四、请问什么是网络爬虫啊?是干什么的呢?

网络爬虫(Web crawler)也叫网络蜘蛛(Web spider)、蚂蚁(ant)、自动检索工具(automatic indexer),或者(在FOAF软件概念中)网络疾走(WEB scutter),是一种“自动化浏览网络”的程序,或者说是一种网络机器人。

用途:它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检整理下载的页面),而使得用户能更快的检索到他们需要的信息。

网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。 实际的网络爬虫系统通常是几种爬虫技术相结合实现的。

工作原理:网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

参考资料

.知乎[引用时间2018-4-29]

五、百度爬虫是什么意思?

百度是搜索引擎,爬虫就是沿着网站的链接不断搜索,并下载到本地的机器人程序。

搜索引擎在一定程度上会给网站造成负担。

所以现在有很多网站都有反爬虫设置,把自己想要被搜索出的东西直接提供给爬虫,而不让爬虫去抢占带宽。

六、java怎么爬取指定网页的数据

把下面代码复制到文本文档中,然后将文本文档改成.html形式这个是提取表格中的数据的方法,看看是你想要的不NewDocument

很赞哦! ()

上一篇:知名汽车行业的媒体有哪些?'>谈谈自媒体、新媒体和融媒体

下一篇:返回列表'>返回列表

随机图文