首页 » 新闻 » 为什么需要用 Python 进行网页抓取?

为什么需要用 Python 进行网页抓取?

源数据是数据分析和处理领域成功工作的基础。数据来源有很多,网站就是其中之一。通常它们可以作为次要信息来源,例如:数据聚合网站(Worldometers)、新闻网站(CNBC)、社交媒体(Twitter)、电子商务平台(Shopee)等等。这些网站提供数据分析和处理项目所需的信息。

但应该如何收集数据?我们不能手动

复制并粘贴它们,可以吗?在这种情况下,问题的解决方案将是用 Python 解析网站。该编程语言有一个强大的库BeautifulSoup,以及一个自动化工具Selenium。专业人士经常使用它们来收集不 台灣電話 同格式的数据。在这一节中,我们首先来介绍一下BeautifulSoup。

步骤 1. 安装库

首先我们需要安装必要的库,即:

  1. BeautifulSoup4
  2. 请求
  3. 熊猫
  4. xml文件

“Requests”是我们接下来要安装的库。其目的是如果我们想从其网站获取数据,就需要向服务器请求许可。然 白俄罗斯商业名录 后您需要安装pandas来创建数据框和lxml来将 HTML 更改为 Python 友好的格式。

步骤 2. 导入库

一旦安装了库,让我们打开您最喜欢的 提高网速的方法有哪些? 开发环境。我们建议使用 Spyder 4.2.5。以后在工作的某些阶段,我们会遇到输出数据量很大的情况,这时候Spyder会比Jupyter Notebook使用起来更加方便。

因此,Spyder 已打开,我们可以导入所需的库:

 

步骤 3. 选择页面

在这个项目中,我们将使用webscraper.io。由于该网站是用 HTML 构建的,因此即使对于初学者来说代码也更简单、更易理解。我们选择此页面进行数据解析:

它是一个在线商店网站的原型。我们将解析有关计算机和笔记本电脑的数据,例如产品名称、价格、描述和评论。

步骤 4. 请求许可

一旦我们选择一个页面,我们就会复制它的 URL 并使用请求来请求服务器从其站点检索数据的权限。

 

 

<Response[200]> 结果意味着服务器允许我们从他们的网站收集数据。为了检查,我们可以使用 request.get 函数。

 

当你运行此代码时,你会得到一些混乱的文本作为输出,这不适合 Python。我们需要使用解析器来使其更具可读性。

 

步骤 5. 查看元素代码

对于用Python解析网站,我们推荐使用Google Chrome,它非常方便且易于使用。让我们学习如何使用 Chrome 查看网页的源代码。首先,您需要右键单击要检查的页面,然后单击“查看源代码”,您将看到以下内容:

然后单击选择页面上的元素进行测试,您会注意到,当您将光标移动到页面上的每个元素时,元素菜单都会显示其代码。

 

例如,如果我们将光标移动到测试站点,元素将显示测试站点位于h1标签中。在Python中,如果你想查看一个站点元素的代码,你可以调用标签。标签的一个特点是它们总是以 < 作为前缀并且通常为紫色。

 

滚动至顶部