思维导图备注

Python网络数据采集 - [美] Ryan Mitchell
首页 收藏书籍 阅读记录
  • 书签 我的书签
  • 添加书签 添加书签 移除书签 移除书签

2.1 不是一直都要用锤子

浏览 9 扫码
  • 小字体
  • 中字体
  • 大字体
2022-02-19 06:12:13
请 登录 再阅读
上一篇:
下一篇:
  • 书签
  • 添加书签 移除书签
  • 版权声明
  • O'Reilly Media, Inc. 介绍
  • 业界评论
  • 译者序
  • 前言
  • 什么是网络数据采集
  • 为什么要做网络数据采集
  • 关于本书
  • 排版约定
  • 使用代码示例
  • Safari® Books Online
  • 联系我们
  • 致谢
  • 第一部分 创建爬虫
  • 第 1 章 初见网络爬虫
  • 1.1 网络连接
  • 1.2 BeautifulSoup简介
  • 第 2 章 复杂 HTML 解析
  • 2.1 不是一直都要用锤子
  • 2.2 再端一碗BeautifulSoup
  • 2.3 正则表达式
  • 2.4 正则表达式和BeautifulSoup
  • 2.5 获取属性
  • 2.6 Lambda表达式
  • 2.7 超越BeautifulSoup
  • 第 3 章 开始采集
  • 3.1 遍历单个域名
  • 3.2 采集整个网站
  • 3.3 通过互联网采集
  • 3.4 用Scrapy采集
  • 第 4 章 使用 API
  • 4.1 API概述
  • 4.2 API通用规则
  • 4.3 服务器响应
  • 4.4 Echo Nest
  • 4.5 Twitter API
  • 4.6 Google API
  • 4.7 解析JSON数据
  • 4.8 回到主题
  • 4.9 再说一点API
  • 第 5 章 存储数据
  • 5.1 媒体文件
  • 5.2 把数据存储到CSV
  • 5.3 MySQL
  • 5.4 Email
  • 第 6 章 读取文档
  • 6.1 文档编码
  • 6.2 纯文本
  • 6.3 CSV
  • 6.4 PDF
  • 6.5 微软Word和.docx
  • 第二部分 高级数据采集
  • 第 7 章 数据清洗
  • 7.1 编写代码清洗数据
  • 7.2 数据存储后再清洗
  • 第 8 章 自然语言处理
  • 8.1 概括数据
  • 8.2 马尔可夫模型
  • 8.3 自然语言工具包
  • 8.4 其他资源
  • 第 9 章 穿越网页表单与登录窗口进行采集
  • 9.1 Python Requests库
  • 9.2 提交一个基本表单
  • 9.3 单选按钮、复选框和其他输入
  • 9.4 提交文件和图像
  • 9.5 处理登录和cookie
  • 9.6 其他表单问题
  • 第 10 章 采集 JavaScript
  • 10.1 JavaScript简介
  • 10.2 Ajax和动态HTML
  • 10.3 处理重定向
  • 第 11 章 图像识别与文字处理
  • 11.1 OCR库概述
  • 11.2 处理格式规范的文字
  • 11.3 读取验证码与训练Tesseract
  • 11.4 获取验证码提交答案
  • 第 12 章 避开采集陷阱
  • 12.1 道德规范
  • 12.2 让网络机器人看起来像人类用户
  • 12.3 常见表单安全措施
  • 12.4 问题检查表
  • 第 13 章 用爬虫测试网站
  • 13.1 测试简介
  • 13.2 Python单元测试
  • 13.3 Selenium单元测试
  • 13.4 Python单元测试与Selenium单元测试的选择
  • 第 14 章 远程采集
  • 14.1 为什么要用远程服务器
  • 14.2 Tor代理服务器
  • 14.3 远程主机
  • 14.4 其他资源
  • 14.5 勇往直前
  • 附录 A Python 简介
  • 附录 B 互联网简介
  • 附录 C 网络数据采集的法律与道德约束
  • C.1 商标、版权、专利
  • C.2 侵犯动产
  • C.3 计算机欺诈与滥用法
  • C.4 robots.txt和服务协议
  • C.5 三个网络爬虫
  • 作者简介
  • 封面介绍
暂无相关搜索结果!
    展开/收起文章目录

    二维码

    手机扫一扫,轻松掌上学

    《Python网络数据采集 - [美] Ryan Mitchell》电子书下载

    请下载您需要的格式的电子书,随时随地,享受学习的乐趣!
    EPUB 电子书

    书签列表

      阅读记录

      阅读进度: 0.00% ( 0/0 ) 重置阅读进度