#input_dim의 문제점 = 4차원 데이터라면? dim을 어떻게 설정할것인가
#이럴때 사용하는 input_shape

from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from tensorflow.python.keras.models import Sequential
from tensorflow.python.keras.layers import Dense
import numpy as np
from sklearn.preprocessing import MinMaxScaler, StandardScaler   

#1. 데이터

datasets = load_boston()
x= datasets.data
y= datasets['target']

x_train, x_test, y_train, y_test = train_test_split (x,y,
                                                     train_size=0.8,
                                                     random_state=333,
                                                     )

# scaler = MinMaxScaler()
scaler = StandardScaler()
scaler.fit(x_train)     #scaler의 fit의 범위가 x_train이라는 뜻. (x_train을 0~1로 변환)
x_train = scaler.transform(x_train)
x_test = scaler.transform(x_test)             # fit에서 변환한 비율에 맞춰서 x_test를 변환해라.
print(np.min(x_test), np.max(x_test))          #-0.00557837618540494 1.1478180091225068 실제로 범위 밖으로 빠진 데이터가 있다.

#2. 모델
model=Sequential()
# model.add(Dense(1, input_dim=13))   #2 차원 데이터에서 행을 무시한 13 열
model.add(Dense(1, input_shape=(13,)))    #마찬가지로 2차원 데이터에서 행을 무시했으므로 13 콤마로 한다. 

#데이터가 3차원이라면?(시계열 데이터)
#(1000,100,1)  ->>> input_shape=(100,1)     가장 앞이 행이다.
#데이터가 4차원이라면?(이미지 데이터)
#(60000,32,32,3)  ->>> input_shape=(32,32,3)  
#데이터를 받으면 가장 먼저 shape를 찍어봐라.   앞으로는 input_shape로 쓸 것.
#모델은 input_shape와 output만 잘 맞춰주면 잘 돌아감

#3. 컴파일, 훈련

model.compile(loss = 'mse', optimizer='adam',)
model.fit(x_train,y_train,
          epochs=10,
          batch_size=32,
          verbose=1,
          )

#4. 평가, 예측
loss = model.evaluate(x_test, y_test)
print('loss :', loss)