2022-12-14 21:15来源:m.sf1369.com作者:宇宇
19:17:28
弹吉他的羊驼
码龄4年
关注
聚焦爬虫:爬取页面中指定的页面内容。
数据解析的分类:
正则
bs4
xpath(*)
数据解析原理概述:
解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储。
1.进行指定标签的定位
2.标签或者标签对应的属性中存储的数据值进行提取(解析)
pandas专门为处理表格和混杂数据设计
import pandas as pd
from pandas import Series,DataFrame
Series 类似于一维数组+索引
data = pd.Series([1,2,3,4,5]) 生成Series数据
data.values data.index
pd.Series([1,2],index = ['a','b']) 设置索引
data['a'] 通过索引选取Series中单个或一组值
data[data%2==0] 进行类似numpy数组的运算index仍会保留
'a' in data
pd.Series(python字典) 可以通过python字典创建Series
可以通过设置index改变Series元素顺序
缺失值用NaN表示
pd.isnull(data) 检测缺失数据
pd.notnull
data1 + data2 可以根据索引自动对齐数据进行运算,类似join操作
data.name data.index.name 可赋值
index可以通过赋值方式修改
pd.DataFrame(XXX)传入元素为等长列表或np数组组成的字典可以生成DataFrame数据,字典key值为列名
frame.head() 前五行
pd.DataFrame(XXX, columns = [xxx], index = [xxxxx]) 可能产生NaN
frame['a'] 取列名为a的一列数据 等价于 frame.a(此时a需要是合理的变量名) 可以以列表形式取多列数据 返回的Series序列索引与原DataFrame相同
frame.loc[0] 行选取
可以用一个Series/值对某列赋值,需要长度相等
对不存在的列赋值可创建新列
del frame[列名] 删除列
通过索引方式返回数据视图,修改此返回数据也会影响源数据,Series.copy()可以创建副本
嵌套字典传给DataFrame,外层字典的键作为列名,内层键作为行索引
frame.T 转置
frame.reindex(新索引列表) 根据新索引重排,若索引值当前不存在则NaN
列可以用columns关键字重新索引
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3.reindex(range(6), method='ffill') ffill实现前向值填充
reindex可以修改(行)索引和列。只传递一个序列时,会重新索引结果的行,列可以用columns关键字重新索引
Series索引
series(索引列表/数值范围切片) 选取对应元素
大数据的方向:方向一:运维方向,涵盖linux基础,原生Hadoop,华为Hadoop搭建运维,华为数据挖掘工具使用,数学算法方向二:运维方向,涵盖linux基础,原生Hadoop搭建运维,数学算法。方向三,开发方向,涵盖linux基础,原生Hadoop搭建运维,数学算法,Python(后期)所以,开发语言在大数据里面是必不可少的,而简单易学,上手快的Python语言,将作为大数据的首选语言!
这两个目前的前景都挺好的,应用也很广泛。Python学会了你可以做web开发、运维、大数据、数据分析、人工智能、科学与计算等等。学了Python一样可以做大数据、数据开发。但是学大数据的话就不行做web开发,人工智能、运维这些。相对来说Python的就业方向要多一些。并且现在人工智能是未来的大趋势。当然,具体哪个好,还要看你对哪个更感兴趣,毕竟兴趣是最好的老师。