Iteration

강의 홍보

취준생을 위한 강의를 제작하였습니다.
본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다.
- 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다.
[비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기

Numpy ndarray 개요

넘파이 array()는 ndarray로 변환 가능
생성된 ndarray배열의 shape변수는 ndarray의 크기, 행과 열의 수를 튜플 형태로 가지고 있으며, 이를 통해 ndarray 배열의 차원까지 알 수 있음

(1) 배열이란?

NumPy에서 배열은 동일한 타입의 값을 가짐
shape는 각 차원의 크기를 튜플로 표시한다.
차원이란 무엇일까?
- 1차원은 보통 하나의 선을 의미
- 2차원은 평면을 의미하고, 데이터 분석에서는 보통 데이터프레임을 의미한다.
- 3차원은 공간을 의미하고, 딥러닝에서는 보통 이미지를 의미한다. (RGB)

shape와 ndim

코드를 통해서 shape와 ndim 함수를 확인해본다.

(1) 함수 활용 예제

우선 소스코드를 통해 1차원, 2차원, 3차원 함수를 만들어 봅니다.

import numpy as np

array1 = np.array([1,2,3,4,5])
print('array1 type:',type(array1))
print('array1 array 형태:',array1.shape)

array2 = np.array([[1,2,3,4,5],
                  [2,3,4,5,6]])
print('array2 type:',type(array2))
print('array2 array 형태:',array2.shape)

array3 = np.array([[[1,2,3,4,5,6]], [[3,4,5,6,7,8]]])
print('array3 type:',type(array3))
print('array3 array 형태:',array3.shape)

array1 type: <class 'numpy.ndarray'>
array1 array 형태: (5,)
array2 type: <class 'numpy.ndarray'>
array2 array 형태: (2, 5)
array3 type: <class 'numpy.ndarray'>
array3 array 형태: (2, 1, 6)

(2) shape

1차원의 shape는 (3, )인데, 이는 array로 5개의 데이터를 가지고 있다는 뜻임
2차원의 shape는 (2, 5)이며, 이는 array로 2차원 데이터로 2 x 5 = 10, 즉 총 10개의 데이터가 있음
3차원의 shape는 (2, 1, 6)이며, 이는 array로 3차원 데이터로 2 x 1 x 6 = 12, 즉 총 12개의 데이터가 있음
차원을 직관적으로 확인하려면 ndim 메서드를 사용하면 된다.

print('array1: {:0}차원, array2: {:1}차원, array3: {:2}차원'.format(array1.ndim, array2.ndim, array3.ndim))

array1: 1차원, array2: 2차원, array3:  3차원

데이터 타입

ndarray내 데이터값은 숫자 값, 문자열 값, 불 값 모두 가능
숫자형의 경우 int형, float형 등이 제공됨
- int: 8, 16, 32
- float: 16, 32, 64, 128
간단한 예제로 확인한다.

num_list = [7, 8, 9, 10]
print(type(num_list))
num_array = np.array(num_list)
print(type(num_array))
print(num_array, num_array.dtype)

<class 'list'>
<class 'numpy.ndarray'>
[ 7  8  9 10] int64

reshape의 중요성

shape를 통해 데이터를 이해하는 것은 매우 중요하다.
머신러닝 알고리즘 또는 선형대수를 잘 모른다 할지라도, 머신러닝 및 데이터 세트 간의 입출력과 변환 수행 시, 1차원 데이터 또는 다차원 데이터를 요구하는 경우가 있다.
- 이 때, 차원이 달라서 오류가 발생할 가능성이 크니, 주의를 해야 한다.
이 때, 차원을 맞추는 방법으로 reshape()를 활용한다.

(1) 소스 예제

다음 예제는 0~14까지의 1차원 ndarray를 2x5형태로, 그리고 5x2 2차원 ndarray로 변환한다.

array1 = np.arange(15)
print('array1:\n', array1)

array2 = array1.reshape(3,5)
print('array2:\n',array2)

array3 = array1.reshape(5,3)
print('array3:\n',array3)

array1:
 [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]
array2:
 [[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
array3:
 [[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]
 [12 13 14]]

array1.reshape(4,3)

---------------------------------------------------------------------------

ValueError                                Traceback (most recent call last)

<ipython-input-8-a40469ec5825> in <module>()
----> 1 array1.reshape(4,3)


ValueError: cannot reshape array of size 15 into shape (4,3)

위 에러는 변경이 불가능한데, 당연한 얘기이지만, size가 맞지 않다.

(2) -1의 활용

실전에서는 주로 -1을 활용한다.
-1을 인자로 사용하면 원래 ndarray와 호환되는 새로운 shape로 변환해준다.
예제를 통해서 살펴보도록 한다.

array_1 = np.arange(15)
print(array_1)

array_2 = array_1.reshape(-1,5)
print('array2 shape:',array_2.shape)

array_3 = array_1.reshape(5,-1)
print('array3 shape:',array_3.shape)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]
array2 shape: (3, 5)
array3 shape: (5, 3)

array_1은 1차원 ndarray로 0~14까지의 데이터를 가지고 있다.
array_2는 array_1과 호환될 수 있는 2차원 ndarray로 변환되고, 고정된 5개의 칼럼에 맞는 로우를 자동으로 새롭게 생성해 변환하는 의미를 가진다.
- array_3도 반대로 적용할 수 있다.
그런데, 호환될 수 없는 형태는 에러가 날 것이다.

(3) 차원변환

3차원을 2차원으로, 1차원을 2차원으로 변경하는 코드를 작성할 수 있다.
이 때, reshape(a1, a2, a3)에서, b = a1 x a2 x a3의 값이 arrange(b)이 된다.

array_1 = np.arange(27)
array_3d = array_1.reshape((3,3,3))
print('array3d:\n',array_3d.tolist())

# 3차원 ndarray를 2차원 ndarray로 변환
array_5 = array_3d.reshape(-1,1)
print('array5:\n',array_5.tolist())
print('array5 shape:',array_5.shape)

# 1차원 ndarray를 2차원 ndarray로 변환
array_6 = array_1.reshape(-1,1)
print('array6:\n',array_6.tolist())
print('array6 shape:',array_6.shape)

array3d:
 [[[0, 1, 2], [3, 4, 5], [6, 7, 8]], [[9, 10, 11], [12, 13, 14], [15, 16, 17]], [[18, 19, 20], [21, 22, 23], [24, 25, 26]]]
array5:
 [[0], [1], [2], [3], [4], [5], [6], [7], [8], [9], [10], [11], [12], [13], [14], [15], [16], [17], [18], [19], [20], [21], [22], [23], [24], [25], [26]]
array5 shape: (27, 1)
array6:
 [[0], [1], [2], [3], [4], [5], [6], [7], [8], [9], [10], [11], [12], [13], [14], [15], [16], [17], [18], [19], [20], [21], [22], [23], [24], [25], [26]]
array6 shape: (27, 1)

선형대수 연산

행렬 내적은 행렬 곱이며, np.dot()을 활용한다.

강의 홍보

취준생을 위한 강의를 제작하였습니다.
본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다.
- 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다.
[비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기

I. 개요

지난 시간에 for_loop의 기본적인 개념에 대해 살펴봤다.
- 참조: [Python] for loops in different ways
이번 시간에는 for_loop의 실제 다양한 활용 방안에 대해 살펴본다.

II. 데이터 시각화

변수의 개수에 상관없이 for-loop를 활용하면 무한대로 시각화를 작성할 수 있다.
빠르게 코드로 확인해본다.
IRIS 데이터를 수집하는 코드를 작성한다.

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import datasets

iris = datasets.load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
print(df.head())

   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0                5.1               3.5                1.4               0.2
1                4.9               3.0                1.4               0.2
2                4.7               3.2                1.3               0.2
3                4.6               3.1                1.5               0.2
4                5.0               3.6                1.4               0.2

변수별로 시각화를 작성하기 위해, 우선 변수명을 List에 포함한다.

feature_names = iris.feature_names
print(feature_names)

['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

다음 코드는 시각화 작성을 위한 기본 환경설정이다.
figsize는 Jupyter Notebook에 맞게 최적화 되어 있기는 하지만, 수정할 수 있다.
- 본인만의 스타일 수정을 원한다면 다음 링크 참조 하기 바란다. Customizing Matplotlib with style sheets and rcParams

%matplotlib inline
import matplotlib.pylab as plt

plt.rcParams["figure.figsize"] = (14,4)
plt.rcParams['lines.linewidth'] = 2
plt.rcParams['lines.color'] = 'r'
plt.rcParams['axes.grid'] = True

그리고 마지막으로 for-loop 활용하는 시각화를 작성한다.

for fea in feature_names:
  data = df.copy()
  # iris.sepal_length[:20].plot(kind='bar', rot=0)
  data[fea].plot(kind='hist', rot=0)
  plt.xlabel(fea)
  plt.title(fea)
  plt.show()

png

강의 홍보

취준생을 위한 강의를 제작하였습니다.
본 블로그를 통해서 강의를 수강하신 분은 게시글 제목과 링크를 수강하여 인프런 메시지를 통해 보내주시기를 바랍니다.
- 스타벅스 아이스 아메리카노를 선물로 보내드리겠습니다.
[비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기

I. 개요

여러 형태의 반복문을 배우고 실습한다.
한줄로 작성하는 반복문을 배우고 실습한다.

II. For Loop Basic Syntax

파이썬의 기본 문법은 아래와 같다.

for <변수> in <iterable>:
    <코드>

여기에서 iterable의 개념은 list와 tuple을 의미한다.
간단하게 for_loop 코드를 작성해보자.
- 우선, A라는 리스트 객체를 작성한다.
- for_loop를 활용해서 리스트 안에 있는 것을 하나씩 출력한다.

A = ["철수", "영희", "길동"]
for i in A:
  print(i)

철수
영희
길동

(1) Iterables

Iteration을 한국어로 번역하면 되풀이다.
그런데, 어떤 데이터 유형이 되풀이를 할 수 있을가?
- List와 Tuple이 되풀이가 될 수 있는 소재인 것은 확실하다.
어떤 객체(=Object)가 있을 때, 이 객체가 iterable 한것인지, 또는 아닌지 확인하는 함수(iter())도 있다.

print(iter("ABC"))

<str_iterator object at 0x7f2464faeb00>

print(iter(["A", "B", "C"]))

<list_iterator object at 0x7f2464faedd8>

print(iter(("A", "B", "C")))

<tuple_iterator object at 0x7f2464faedd8>

print(iter({"A": 1, "B": 3, "C": 3}))

<dict_keyiterator object at 0x7f2464fdd458>

그런데, 수치형의 경우에는 iteration이 적용되지 않는다.

iter(100)

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-48-f3bbc5ecfc9b> in <module>()
----> 1 print(iter(100))

TypeError: 'int' object is not iterable

iter(3.14)

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-12-eb85da4c3f57> in <module>()
----> 1 iter(3.14)

TypeError: 'float' object is not iterable

단일 수치형 데이터를 제외하고는 사실상 모든 데이터가 iterable의 성질을 가지고 있다.

(2) next()

next()는 iterator에서의 next value를 의미한다.
다음 코드를 확인해보자.

A = ["철수", "영희", "길동"]
iterable = iter(A)
iterable

<list_iterator at 0x7f2464fb7dd8>

Iteration

NumPy with ndarray

강의 홍보

Numpy ndarray 개요

(1) 배열이란?

shape와 ndim

(1) 함수 활용 예제

(2) shape

데이터 타입

reshape의 중요성

(1) 소스 예제

(2) -1의 활용

(3) 차원변환

선형대수 연산

Python for loop example

강의 홍보

I. 개요

II. 데이터 시각화

Python for loops in different ways

강의 홍보

I. 개요

II. For Loop Basic Syntax

(1) Iterables

(2) next()