[Day 09] 實戰:用Requests&bs4 爬PTT (1) | 美容美體一站式資訊網
![[Day 09] 實戰:用Requests&bs4 爬PTT (1)](https://i.imgur.com/MR2bkhM.jpg)
如下圖可以看出它在標籤內且被
![[Day 09] 實戰:用Requests&bs4 爬PTT (1)](https://i.imgur.com/MR2bkhM.jpg)
嗨大家,今天我們要來說明如何爬ptt的文章啦!只需要用requests&beautifulSoup就行啦! (關於此內容會拆分成兩天說明哦!)
在開始爬取一個網站之前一定要觀察該網頁的變化:
這次我們以爬美食板為例(下圖):
可以發現ptt的url都會有規律: https://www.ptt.cc/bbs/<看板名稱>/index.html (也就是說今天你可以爬自己有興趣的版)抓取該頁面所有文章連結:對一個文章右鍵>檢查,可以看到該文章標題與href,而href就是我們需要的內容。如下圖可以看出它在<a>標籤內且被<div class="title"></div>包覆。
為什麼需要找href呢?點進去可以發現href就是文章的連結(如圖):
好了之後就開始寫程式碼吧!
建立一個list變數article_href。 發送請求 透過soup解析response回傳的文字(r.text) 因為<a>標籤在<div class="title"></div>,用select取得所有div且class="title"的物件 import requests from bs4 import BeautifulSoup article_href = [] r = requests.get("https://www.ptt.cc/bbs/Food/index.html") soup = BeautifulSoup(r.text,"html.parser") results = soup.select("div.title") print(results)應該會得到以下結果:是一個list,裡...