В материале приведен листинг, показывающий принципы работы с pandas. В частности чтение файла с исходными данными и базовые операции.
Импорт библиотеки
import pandas as pd
Чтение файла с присвоение результата переменной
data = pd.read_table('http://bit.ly/chiporders')
data
data.tail()
data.shape
col_names= [«ID», «Age», «Gender», «Ocupation», «Salary», «Revenue»]
data = pd.read_table('http://bit.ly/movieusers', sep=»|», header=None, names=col_names)
data.Age
data['new'] = data.Ocupation + data.Gender
data = pd.read_csv('http://bit.ly/imdbratings')
data.describe(include=['object'])
data.dtypes
data.columns
data.rename(columns={'star_rating':'starrating'}, inplace=True)
data_cols = ['StarRating', 'Title', 'ContentRating', 'Genre', 'Duration', 'ActorList']
data_columns=data_cols
data = pd.read_table('http://bit.ly/imdbratings', sep=',', names=data_cols )
data_columns=data.columns.str.replace('_', »)
data.drop('title', axis=1, inplace=True)
data.drop(['genre', 'duration'], axis=1, inplace=True)
Сортировка
data['duration'].sort_values()
data['duration'].sort_values(ascending=False)
data.sort_values('duration')
data.sort_values(['genre','duration'])
booleans = []
for length in data.duration:
if length >= 175:
booleans.append(True)
else:
booleans.append(False)
data[booleans]
data[data.duration >= 175].genre