Pythonによるスクレイピング＆機械学習[開発テクニック]のコード訂正①

TIP
Pythonによるスクレイピング＆機械学習[開発テクニック]のコードが一部動かなかったので、その修正。

クジラ飛行机さんの「Pythonによるスクレイピング＆機械学習(開発テクニック)」に手を付けているのですが、一章の最後の動かなかったコードを改定して動くように出来たので、同じように困っている人がいた場合の改善案として書き記しておきます。

これから機械学習勉強したいという方はぜひ一緒に勉強しましょう。

本題に入ります。まず、動いた方のコードを書いておきます。詳しくは本の方をお読みください。

本でのコードのタイトルは　cr-getall.py　です。

1
from bs4 import BeautifulSoup
2
from urllib.request import urlretrieve
3
from urllib.parse import urljoin
4
from urllib.parse import urlparse
5
from os import makedirs
6
import os.path, time, re
7
# 処理済み判断変数
8
proc_files = {}
9
# HTML内にあるリンクを抽出する関数
10
def enum_links(html, base):
11
   soup = BeautifulSoup(html, "html.parser")
12
   links = soup.select("link[rel='stylesheet']") #CSS
13
   links += soup.select("a[href]") # リンク
14
   result = []
15
   # href属性を取り出し、リンクを絶対パスに変換
16
   for a in links:
17
       href = a.attrs['href']
18
       url = urljoin(base, href)
19
       result.append(url)
20
   return result
21
# ファイルをダウンロードし保存する関数
22
def download_file(url):
23
   o = urlparse(url)
24
   savepath = "./" + o.netloc + o.path
25
   if re.search(r"/$", savepath): # ディレクトリならindex.html
26
       savepath += "index.html"
27
   savedir = os.path.dirname(savepath)
28
   # すでにダウンロード済み？
29
   if os.path.exists(savepath): return savepath
30
   # ダウンロード先のディレクトリ―を作成
31
   if not os.path.exists(savedir):
32
       print("mkdir=", savedir)
33
       makedirs(savedir)
34
   # ファイルをダウンロード
35
   try:
36
       print("download=", url)
37
       urlretrieve(url, savepath)
38
       time.sleep(1) # 礼儀として１秒スリープ
39
       return savepath
40
   except:
41
       print("ダウンロード失敗:", url)
42
       return None
43
# HTMLを解析してダウンロードする関数
44
def analyze_html(url, root_url):
45
   savepath = download_file(url)
46
   if savepath is None:
47
       return
48
   if savepath in proc_files:
49
       return # 解析済みなら処理しない
50
   proc_files[savepath] = True
51
   print("analyze_html=", url)
52
   # リンクを抽出
53
   html = open(savepath, "r", encoding="utf-8").read()
54
   links = enum_links(html, url)
55
   for link_url in links:
56
       # リンクがルート以外のパスを指していたら無視
57
       if link_url.find(root_url) != 0:
58
           if not re.search(r".css$", link_url):
59
               continue
60
       # HTMLか？
61
       if re.search(r".(html|htm)$", link_url):
62
           #再帰的にHTMLファイルを解析
63
           analyze_html(link_url, root_url)
64
           continue
65
       # それ以外のファイル
66
       download_file(link_url)
67
if __name__ == "__main__":
68
   # URLを丸ごとダウンロード
69
   url = "https://docs.python.jp/3.6/library/"
70
   analyze_html(url, url)

おかしかったのは最初のモジュールのインポートの

1
from urllib.request import urlretrieve
2

3
from urllib.parse import urljoin
4
from urllib.parse import urlparse

の部分だけでした。

ただ、自分の方ではanalizeという謎の綴りが本家なせいでanalyzeと書き間違えるドジを踏んだので、analyzeで統一したりもしました。

それでは今回はこの辺で。