Python爬虫智能提取东方财富贴吧内幕信息

2022-07-30,,,,

所谓内幕信息,是指证券交易活动中,涉及公司的经营、财务或者对该公司证券的市场价格有重大影响的尚未公开的信息。

内幕信息所具备的三大特质。

1、是该信息所在集体,内部运作人员所知悉的信息。

2、是该信息所在集体,尚未对外公开的信息。

3、是对于信息所在集体或行业具备商业价值的信息。

本文思路:通过网络爬虫获取贴吧信息,进行智能提取疑似的内幕信息

工具:PYTHON

目标:东方财富贴吧

源码如下:

import requests
import re
import time
from bs4 import BeautifulSoup

import io
import sys




# 抓取网页的通用框架,获取页面的内容
def getHtml(url):
    try:
        r = requests.get(url, timeout=30)
        # 状态码不是200就发出httpError的异常
        r.raise_for_status()
        # 获取正确的编码格式
        # r.encoding=r.apparent_encoding
        r.encoding = "utf-8"
        # 打印内容
        return r.text


    except:
        return "wrong!"

def get_author(url):
    # 将网页内容格式化利用bs4库
    authorsoup = BeautifulSoup(getHtml(url), 'lxml')

    # 获取所有的li标签属性为 j_thread_list clearfix,用列表接收
    divTag = authorsoup.find('div', attrs={"id": "mainlist"}).text.strip()

    s = in

本文地址:https://blog.csdn.net/supperling/article/details/108242643

《Python爬虫智能提取东方财富贴吧内幕信息.doc》

下载本文的Word格式文档,以方便收藏与打印。