首页 > 文章列表 > 使用 PHP 爬取 Steam 游戏信息

使用 PHP 爬取 Steam 游戏信息

php 爬取 Steam
431 2023-06-13

随着游戏行业的发展,越来越多的游戏玩家通过 Steam 平台购买游戏。作为全球最大的PC游戏分销平台,Steam提供了丰富的游戏和社区功能,吸引了来自全球的大量游戏爱好者。如果你是一名Steam游戏爱好者,或者是想要了解Steam游戏信息的开发者,那么本文将介绍如何使用 PHP 语言爬取Steam游戏信息。

一、了解Steam API

Steam 提供了官方 API (Application Program Interface,应用程序编程接口),如果你是一个开发者,可以使用官方 API 来获取游戏信息。但是,使用官方API需要先进行身份验证,而且官方API 的限制较多。比如说,获取游戏的价格、评分、推荐等信息都需要用户登录 Steam。因此,本文将介绍如何使用 PHP 爬取 Steam 游戏信息的网页数据。

二、获取 Steam 游戏页面源代码

在使用 PHP 爬取 Steam 游戏信息之前,我们需要先了解如何获取 Steam 游戏页面的源代码。打开任意一款Steam游戏详情页,在浏览器中打开开发者工具,切换到“Network”选项卡,将请求类型设置为“all”,刷新页面。你会看到所有的请求记录,其中有一个名为“store.steampowered.com”的请求记录,这是我们需要的请求。

将光标移至该请求下方,在右侧的“Headers”选项卡下找到“Request URL”,这个 URL 就是该游戏详情页的完整地址,将该地址复制下来,在 PHP 代码中使用 file_get_contents() 函数获取该页面源代码。

三、解析 Steam 游戏页面源代码

爬取 Steam 游戏信息的下一步是解析 Steam 游戏页面源代码。我们可以使用 PHP 中的 DOMDocument 和 DOMXPath 类来解析 HTML 文档。 首先,我们需要将下载的页面源代码传递给 DOMDocument 类的 loadHTML() 方法来创建一个 DOM 对象,然后通过 DOMXPath 类的 query() 方法来查询元素。

下面是一个示例代码,可以解析出 Steam 游戏的名字和发布日期:

$url = "https://store.steampowered.com/app/105600/";
$html = file_get_contents($url);

$doc = new DOMDocument();
$doc->loadHTML($html);

$xpath = new DOMXPath($doc);

$name = $xpath->query('//div[@class="apphub_AppName"]')->item(0)->nodeValue;
$date = $xpath->query('//div[@class="date"]')->item(0)->nodeValue;

echo "游戏名字:".$name."
";
echo "发布日期:".$date."
";

上面的代码中,我们使用了 XPath 查询语言来查询 Steam 游戏页面中的元素。其中,“//@class=” 参数指向了需要查询的类名, item() 方法用于获取第一个匹配的元素, nodeValue 属性用于获取元素的文本内容。

四、爬取 Steam 游戏的更多信息

有了前几步的基础,现在你可以使用相同的方法来获取 Steam 游戏的其他信息。以下是一些常见的 Steam 游戏信息的查询 Xpath:

  1. 游戏价格:
$price = $xpath->query('//div[@class="game_purchase_price"]')->item(0)->nodeValue;
  1. 游戏评分:
$score = $xpath->query('//div[@class="user_reviews_summary_row"]')->item(0)->getAttribute("data-tooltip-text");
  1. 游戏开发商和发行商:
$developer = $xpath->query('//div[@id="developers_list"]//a')->item(0)->nodeValue;
$publisher = $xpath->query('//div[@id="publishers_list"]//a')->item(0)->nodeValue;
  1. 游戏推荐配置:
$config = $xpath->query('//div[@class="sysreq_contents"]')->item(0)->nodeValue;

在实际使用中,你可以根据需求自定义需要查询的元素。但是需要注意,Steam 网站的 HTML 结构可能会改变,所以请检查你的代码是否正常运行,如果网页结构发生变化,你需要更新你的查询方法。

五、提交 Steam 游戏信息

完成了对 Steam 游戏信息的爬取,我们可以将这些信息提交到你的数据库或者其他的数据存储中。在实践中,你可能会遇到一些反爬虫的机制,比如说限制 IP 地址、验证码等,所以在编写 PHP 代码时请注意遵守 Steam 对爬虫的条款,并合理使用数据抓取方法。

结语

本文介绍了如何使用 PHP 语言爬取 Steam 游戏信息的基本方法。通过使用 DOMDocument 和 DOMXPath 等技术,我们可以从 Steam 游戏页面中提取出有用的信息,如游戏名字、发行商、价格、评分和推荐配置等。希望这篇文章可以对爬虫爱好者、Steam 游戏开发者和Steam 玩家提供帮助。