一个完整的大作业-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

一个完整的大作业

阅读量：7143 次

发布时间：2019-06-29

本文共 1884 字，大约阅读时间需要 6 分钟。

一个完整的大作业——新闻

1.选一个自己感兴趣的主题。

2.网络上爬取相关的数据。

3.进行文本分析，生成词云。

4.对文本分析结果解释说明。

5.写一篇完整的博客，附上源代码、数据爬取及分析结果，形成一个可展示的成果。

本次大作业选择的主题是新闻，其链接是http://news.sina.com.cn/world/：

网络上爬取相关的数据：

import requestsfrom bs4 import BeautifulSoupurl = 'http://news.sina.com.cn/world/'res = requests.get(url)res.encoding = 'UTF-8'soup = BeautifulSoup(res.text, 'html.parser')for news in soup.select('.news-item'):    h2 = news.select('h2')    if len(h2) > 0:        time = news.select('.time')[0].text        title = h2[0].text        href = h2[0].select('a')[0]['href']        print(title,time,href)

进行文本分析，生成词云：

import requestsfrom bs4 import BeautifulSoupfrom os import path  from scipy.misc import imread    import jieba  import sys  import matplotlib.pyplot as plt  from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator    text = open('D:\\world.txt').read()  wordlist = jieba.cut(text)     #cut_all = True  wl_space_split = " ".join(wordlist)  #print wl_space_split d = path.dirname(__file__)  nana_coloring = imread(path.join(d, "D:\\1.jpg"))  my_wordcloud = WordCloud( background_color = 'white',                                mask = nana_coloring,                                     max_words = 5000,                                        stopwords = STOPWORDS,                              max_font_size = 80,                                    random_state = 20,            )   # generate word cloud   text_dict = {   'you': 2993,   'and': 6625,   'in': 2767,   'was': 2525,   'the': 7845,}my_wordcloud = WordCloud().generate_from_frequencies(text_dict)#my_wordcloud.generate(text_dict)  image_colors = ImageColorGenerator(nana_coloring)   my_wordcloud.recolor(color_func=image_colors)  plt.imshow(my_wordcloud)    plt.axis("off")             plt.show()   my_wordcloud.to_file(path.join(d, "cloudimg.png"))

生成云图：

由词云可以看出，在国际里面，美国特朗普是最大关注点。

转载于:https://www.cnblogs.com/diaowen/p/7764019.html

你可能感兴趣的文章

在CI框架中如何实现伪静态

ORACLE Postgresql中文排序

UBOOT到内核到文件系统设置需要注意点

卡尔曼滤波简介——4.方差比较

mysql -- 预处理语句

Silverlight如何调用淘宝API

ESP8266- AP模式的使用

hdu 1503 LCS输出路径【dp】

博客园开张第一天

The Semantic Web, Linked Data and Open Data

用PHP逐行读取TXT文件

从Android中Activity之间的通信说开来[转]

SSH 常用命令

模型思维_第1-4课_学习笔记

linkin大话面向对象--方法详解

Linkin大话Java和internet概念

Linux指令--cp

【物联网智能网关-01】通过AD采集获取温湿度

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-02-10 13:50:03 当前IP: 13.59.176.80 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我