Rubyによるクローラ開発技法 読書メモ その3

DSC03930

Chapter2

いままでMecanizeとかだったクローラですが、ブラウザタイプ(Capybara)の場合どうなるか という章がありました。
これは、すごい楽しい。
Capybaraを使ってjsとかも動かせるようになると、Ajaxを使ったサイトやSPAみたいなサイトもクロールできますね。
いままでRailsのテストとかでしか使ったこと無かったので、クローラとして動かすのが単純に面白かった。 

ところで、このパートは
「Amazonのアフィリエイトプログラムのレポートをスクレイピングする」
という、ユースケースなのだが、そもそもアフィリエイトやってない人はちょっと動かす楽しさがないかも・・
そして動かしている人も売上がないと面白味がない・・かも・・(;^ω^)

けど、これを自分のSlackとかにパスパス投げるバッチ作ったら楽しそう。
※毎日売上0円を眺める辛さ

Chapter3

文字コード・正規表現・形態素解析についての基礎を一通り学んだ。
逆に、基礎の基礎だから既に知っている人も多いのでは? とも思う。
けど、MeCabの形態素解析の話とか初めてRubyを書きだした頃ハマったので初心者にはいいのかも・・ 

XMLとHTMLのパースをNokogiriでやる

XMLの名前空間の説明を初めてちゃんと読んだ。
NokogiriでXMLのパースする時、RSS1.0では名前空間の定義をちゃんと渡さないといけないの初めて知った。

けど、自分はRssフィードの解析はNokogiriよりActiveSupportHash#from_xml使っちゃうんですが、どうなんでしょうかね。
http://xoyip.hatenablog.com/entry/2014/03/31/205837
目標の要素がわかってるのだら最初からHashで扱う方が楽じゃないかな?
けど、階層が深くなるとXpathの方が簡潔に書けると思うんですが、RSS程度なら・・ とおも思ったりして。

というわけで、Chapter3まで終了しました\(^o^)/

2016-01-27 | Posted in RubyNo Comments » 


関連記事

Comment





Comment



*