久久精品国产亚洲高清|精品日韩中文乱码在线|亚洲va中文字幕无码久|伊人久久综合狼伊人久久|亚洲不卡av不卡一区二区|精品久久久久久久蜜臀AV|国产精品19久久久久久不卡|国产男女猛烈视频在线观看麻豆

    1. <style id="76ofp"></style>

      <style id="76ofp"></style>
      <rt id="76ofp"></rt>
      <form id="76ofp"><optgroup id="76ofp"></optgroup></form>
      1. 千鋒教育-做有情懷、有良心、有品質(zhì)的職業(yè)教育機構

        手機站
        千鋒教育

        千鋒學習站 | 隨時隨地免費學

        千鋒教育

        掃一掃進入千鋒手機站

        領取全套視頻
        千鋒教育

        關注千鋒學習站小程序
        隨時隨地免費學習課程

        當前位置:首頁  >  技術干貨  > Python Selenium爬取數(shù)據(jù)

        Python Selenium爬取數(shù)據(jù)

        來源:千鋒教育
        發(fā)布人:xqq
        時間: 2023-11-06 21:11:06 1699276266

        最近公司有一項Python爬取數(shù)據(jù)的工作,借鑒以往的代碼將爬蟲重新更新并整理

        將現(xiàn)有爬蟲分成幾部分

        0.文件讀取器

        其實文件讀取和4中的文件存儲是在一個部分的

        這里簡單介紹下xls的讀取

        defdeal_xls_col(name,sheet_name):

        body=xlrd.open_workbook(name)

        try:

        sh=body.sheet_by_name(sheet_name)

        except:

        print"EORR"

        returnsh.col_values(0)格式請忽略

        這里讀取了一豎行的xls的數(shù)據(jù)

        返回的格式為list

        1.總調(diào)度器

        這里主要是寫邏輯,及0234的順序。

        2.網(wǎng)頁下載器

        網(wǎng)頁下載器主要是來模擬瀏覽器訪問對應url

        一個簡單的例子

        classHtmlDownloader(object):

        defdownload(self,url):

        ifurlisNone:

        returnNone

        response=urllib2.urlopen(url,timeout=300)

        ifresponse.getcode()!=200:

        returnNone

        returnresponse.read()

        例子只是去訪問url并沒有對cookie等相關限制信息做處理(需要請自行添加)

        3.網(wǎng)頁分析器

        網(wǎng)頁分析器其實就是來處理下載器返回的html的源碼,比如用selenium來處理的話則有

        company_info_text=driver.find_element_by_class_name('company_info_text')

        company_text=driver.find_element_by_class_name('rowb-c-whitecompany-content')

        就是用selenium的一些方法來獲取你需要的數(shù)據(jù)而已

        4.文件存儲器

        這里以xls為例:

        defcreat_xls_6(xls_name):

        styleBoldRed=xlwt.easyxf('font:color-indexred,boldon')

        headerStye=styleBoldRedwb=xlwt.Workbook()

        ws=wb.add_sheet(xls_name)

        ws.write(0,0,"name",headerStye)

        ws.write(0,1,"oper_name",headerStye)

        ws.write(0,2,"start_date",headerStye)

        ws.write(0,3,"xfsSearchStatus",headerStye)

        wb.save(xls_name)

        創(chuàng)建xls表格

        definsert_xls_6(xls_name,id,name,oper_name,start_date,xfsSearchStatus):

        oldWb=xlrd.open_workbook(xls_name)

        newWb=copy(oldWb)

        newWs=newWb.get_sheet(0)

        newWs.write(id,0,name)

        newWs.write(id,1,oper_name)

        newWs.write(id,2,start_date)

        newWs.write(id,3,xfsSearchStatus)

        newWb.save(xls_name)

        插入數(shù)據(jù)到表格

        這里面沒有什么高深的秘密,只要你封裝好自己的函數(shù)就好了

        上面的例子還不是最好的版本,因為每次使用都要重新修改,應該傳入一個數(shù)據(jù)來代替那些變量,這樣就可以適配各種數(shù)據(jù)的表格創(chuàng)建和添加了

        還有要說的就是:一些網(wǎng)站會限制你爬取數(shù)據(jù),但是大多數(shù)網(wǎng)站都是友好的,但是這并不表示你可以肆無忌憚的毫無限制的去爬取。爬取的時間最好設置成晚上或者。。。。

        還有就是不要對目標網(wǎng)站造成不必要的‘傷害’。

        爬蟲并不難,且行且珍惜!

        以上內(nèi)容為大家介紹了PythonSelenium爬取數(shù)據(jù),希望對大家有所幫助,如果想要了解更多Python相關知識,請關注IT培訓機構:千鋒教育。http://www.2667701.com/

        tags: python培訓
        聲明:本站稿件版權均屬千鋒教育所有,未經(jīng)許可不得擅自轉載。
        10年以上業(yè)內(nèi)強師集結,手把手帶你蛻變精英
        請您保持通訊暢通,專屬學習老師24小時內(nèi)將與您1V1溝通
        免費領取
        今日已有369人領取成功
        劉同學 138****2860 剛剛成功領取
        王同學 131****2015 剛剛成功領取
        張同學 133****4652 剛剛成功領取
        李同學 135****8607 剛剛成功領取
        楊同學 132****5667 剛剛成功領取
        岳同學 134****6652 剛剛成功領取
        梁同學 157****2950 剛剛成功領取
        劉同學 189****1015 剛剛成功領取
        張同學 155****4678 剛剛成功領取
        鄒同學 139****2907 剛剛成功領取
        董同學 138****2867 剛剛成功領取
        周同學 136****3602 剛剛成功領取
        相關推薦HOT
        博罗县| 邻水| 桑植县| 小金县| 什邡市| 石渠县| 江津市| 安化县| 宁河县| 定安县| 青海省| 淮阳县| 鄄城县| 博爱县| 霞浦县| 新巴尔虎右旗| 民权县| 台前县| 资中县| 浦城县| 澎湖县| 霍城县| 武鸣县| 广昌县| 石嘴山市| 天等县| 民勤县| 灯塔市| 雷山县| 叶城县| 常州市| 包头市| 宁安市| 辽阳市| 黄骅市| 玉门市| 施秉县| 龙口市| 温泉县| 富川| 宁武县|