
批處理采集網站的文章+作者我想采集http://www.juzimi.com/這個網站的文章+作者。里面的文章其實就是一句話。我用火車頭采集了,但是效果不理想。 很多頁面采集不到。網站的url規則為http://www.juzimi.com/ju/***** (http://www.juzimi.com/ju/1399、http://www.juzimi.com/ju/11等等)但是里面有很多404頁面,這個需要判斷下。如果不是404就可以采集了。采集的時候能設置頁數范圍(比如說我想采集200頁-1200頁的內容)采集回來所有文章+作者都整理到 一行。 txt輸出。

