为什么需要用 Python 进行网页抓取？

源数据是数据分析和处理领域成功工作的基础。数据来源有很多，网站就是其中之一。通常它们可以作为次要信息来源，例如：数据聚合网站（Worldometers）、新闻网站（CNBC）、社交媒体（Twitter）、电子商务平台（Shopee）等等。这些网站提供数据分析和处理项目所需的信息。

但应该如何收集数据？我们不能手动

复制并粘贴它们，可以吗？在这种情况下，问题的解决方案将是用 Python 解析网站。该编程语言有一个强大的库BeautifulSoup，以及一个自动化工具Selenium。专业人士经常使用它们来收集不台灣電話同格式的数据。在这一节中，我们首先来介绍一下BeautifulSoup。

首先我们需要安装必要的库，即：

使用 Python 进行网页抓取：初学者指南

“Requests”是我们接下来要安装的库。其目的是如果我们想从其网站获取数据，就需要向服务器请求许可。然白俄罗斯商业名录后您需要安装pandas来创建数据框和lxml来将 HTML 更改为 Python 友好的格式。

一旦安装了库，让我们打开您最喜欢的提高网速的方法有哪些？开发环境。我们建议使用 Spyder 4.2.5。以后在工作的某些阶段，我们会遇到输出数据量很大的情况，这时候Spyder会比Jupyter Notebook使用起来更加方便。

因此，Spyder 已打开，我们可以导入所需的库：

在这个项目中，我们将使用webscraper.io。由于该网站是用 HTML 构建的，因此即使对于初学者来说代码也更简单、更易理解。我们选择此页面进行数据解析：

Webscrapper.io

它是一个在线商店网站的原型。我们将解析有关计算机和笔记本电脑的数据，例如产品名称、价格、描述和评论。

一旦我们选择一个页面，我们就会复制它的 URL 并使用请求来请求服务器从其站点检索数据的权限。

<Response[200]> 结果意味着服务器允许我们从他们的网站收集数据。为了检查，我们可以使用 request.get 函数。

当你运行此代码时，你会得到一些混乱的文本作为输出，这不适合 Python。我们需要使用解析器来使其更具可读性。

使用解析器之前和之后

对于用Python解析网站，我们推荐使用Google Chrome，它非常方便且易于使用。让我们学习如何使用 Chrome 查看网页的源代码。首先，您需要右键单击要检查的页面，然后单击“查看源代码”，您将看到以下内容：

查看元素代码

然后单击选择页面上的元素进行测试，您会注意到，当您将光标移动到页面上的每个元素时，元素菜单都会显示其代码。

例子

例如，如果我们将光标移动到测试站点，元素将显示测试站点位于h1标签中。在Python中，如果你想查看一个站点元素的代码，你可以调用标签。标签的一个特点是它们总是以 < 作为前缀并且通常为紫色。