爬虫项目练习之爬取猫眼电影排行榜

本文爬取了猫眼电影top100电影信息。
网址：https://maoyan.com/board/4

import requests
from bs4 import BeautifulSoup
import time

def get_content(url):
    #获取html
    headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36',
          'Accept-Language': 'zh-CN,zh;q=0.9'
            }
    r = requests.get(url,headers=headers)
    if r.status_code ==200:
        return r.text
    return None
def get_info(html):
    #从html中获取信息
    soup = BeautifulSoup(html,'lxml')
    movie_list = soup.find('dl',class_='board-wrapper').find_all('dd')
    l_ = []
    for i in movie_list:
        rank = i.find('i').text
        name = i.find('p',class_='name').text
        actor = i.find('p',class_='star').text.strip()[3:]
        time = i.find('p',class_='releasetime').text.strip()[5:]
        score = i.find('p',class_='score').text
        l_.append([rank,name,actor,time,score])
    return l_
def write_to_file(l_):
    with open('result.txt','a',encoding='utf-8') as f:
        for i in l_:
            f.write(str(i)+'\n')
def main(i):         
    url = 'https://maoyan.com/board/4?offset={}'.format(i)
    html = get_content(url)
    l_ = get_info(html)
    write_to_file(l_)
if __name__ == '__main__':
    for i in range(0,100,10): 
        try:
            main(i)
        except:
            main(i)
    time.sleep(1)

微信截图_20200419121658.png

爬虫项目练习之爬取猫眼电影排行榜

HH丶丶

引用和评论

机器学习基础之模型集成

Anaconda安装教程以及Anaconda和pip配置国内镜像

怎么来爬取代理服务器ip地址？（python）

科学计算编程涉及到的技术栈简介

使用 chardet 判断文件编码需要注意的坑——过大的文件会导致高耗时

Python3 格式化时间（qbit）

manus 的替代品有哪些？使用LLM大模型技术做手机/网页/浏览器自动化操作技术汇总