본문 바로가기

분류 전체보기64

[Python]머신러닝 용어 정리 supervised, unsupervised 차이점, 종류 머신러닝은 주로 지도학습(Supervised Learning)과 비지도학습(Unsupervised Learning)으로 나뉜니다. Supervised지도학습(Supervised Learning)은 머신러닝의 한 분야로, 입력 데이터와 그에 대응하는 정답 데이터(레이블)를 사용하여 모델을 학습하는 방법이다. 이 방법은 입력과 출력 사이의 매핑을 학습하여 주어진 입력에 대한 적절한 출력을 예측할 수 있도록 한다.지도학습은 다음과 같은 특징을 가지고 있다:학습 데이터에 레이블이 존재: 지도학습에서는 학습을 위한 데이터에 레이블이 포함되어 있다. 이 레이블은 우리가 원하는 출력값을 나타낸다. 예를 들어, 스팸 메일 필터링을 학습하기 위한 데이터셋에서는 각 이메일이 스팸인지 햄(정상 메일)인지를 나타내는 레이블이.. 2024. 4. 22.
[Python] 딥러닝 tensorflow 라이브러리 자주 쓰는 클래스, 매서드 텐서플로우 import tensorflow as tf텐서플로우(TensorFlow)는 구글에서 개발한 오픈소스 기계 학습 프레임워크이다. 딥 러닝 모델을 구축하고 학습시키는 데 사용되고 데이터 플로우 그래프를 사용하여 수치 연산을 수행한다. 이는 복잡한 수학적 연산을 효율적으로 처리하고 다양한 하드웨어 환경에서 실행할 수 있도록 해준다.텐서플로우의 주요 특징과 장점은 다음과 같습니다:유연성과 확장성: 텐서플로우는 다양한 작업과 모델을 지원하는 유연한 프레임워크이다. 이미지 분류, 자연어 처리, 음성 인식 등 다양한 분야에서 사용될 수 있다.다양한 플랫폼 지원: 텐서플로우는 CPU, GPU, TPU(Tensor Processing Unit)와 같은 다양한 플랫폼에서 실행될 수 있다.자동 미분: 텐서플로우는.. 2024. 4. 18.
[Python] 딥러닝, 오버피팅 확인법, 조기종료 방지 오버피팅(Overfitting, 과적합)오버피팅은 머신 러닝 모델이 훈련 데이터에 너무 맞춰져서 새로운 데이터에 대한 일반화 성능이 떨어지는 현상이다.  똑같은 훈련 데이터를 너무 오래 학습하면 모델이 기존 훈련 데이터에 너무 맞춰 학습하다보니 새로운 데이터에 대한 일반화 능력이 떨어지는 현상을 나타낸다. 자동차 연비를 구해야 하는 데이터 프라임이 있다.이 데이터를 전처리 과정(생략) 을 한 후에 Sequential 모델을 사용하여 신경망을 구축했다.def build_model(): model=Sequential() model.add(Dense(64, activation='relu',input_shape=(X_train.shape[1],))) model.add(Dense(64,activa.. 2024. 4. 17.
[Python]Deep Learning 딥러닝 인공지능 이해 머신러닝 차이점 딥러닝(Deep Learning)은 인공신경망을 사용하여 복잡한 패턴을 학습하고 문제를 해결하는 머신러닝의 한 분야입아. 딥러닝은 여러 층의 신경망을 사용하여 데이터로부터 고수준의 추상적인 특징을 학습한다. 이러한 층이 깊어질수록 더욱 복잡한 특징을 추출할 수 있으며, 이를 통해 다양한 종류의 문제를 해결할 수 있다.   딥러닝과 머신러닝의 차이점머신러닝은 사람이 데이터에서 찾을 특성을 직접 정의하고, 그 특성을 이용하여 모델을 학습시키는 반면, 딥러닝은 데이터로부터 특성을 자동으로 학습한다. 딥러닝은 이러한 점에서 데이터에 대한 사람의 개입이 적고, 보다 복잡한 패턴을 학습할 수 있다. 딥러닝 작동원리딥 러닝 알고리즘은 인간의 뇌를 모델로 한 신경망이다. 예를 들어 인간의 뇌 안에는 함께 작동하여 정보.. 2024. 4. 16.
[Python] 머신러닝 원핫 ,레이블 인코딩 데이터 분리 전처리하는 방법,순 데이터 전처리데이터 전처리는 데이터를 분석하고 모델링하기 전에 데이터를 정제하고 준비하는 과정을 말한다. 이는 데이터의 품질을 향상시키고 모델의 성능을 향상시키는 데 중요한 단계이다..나이와 연봉을 이용하여 물건을 구매할 사람인지 아닌지 예측하는 데이터(df)가 있다.데이터 가공을 하기위해 데이터에 누락된 값( Nan) 이 있는지 확인해보자.df.isna() isna()는 데이터에 Nan이 있으면 True로 출력한다.df.isna().sum()#출력값User ID 0Gender 0Age 0EstimatedSalary 0Purchased 0True는 1임으로 sum()을 통해 더해서 1의 갯수를 확인한다.여기선 nan.. 2024. 4. 15.
[Python] Logistic Regression 이진 분류, 예측 Logistic Regression 은  주로 이진 분류(binary classification) 문제에 사용되는 머신러닝 알고리즘 중 하나이다. 이 알고리즘은 선형 회귀 모델을 기반으로 하지만, 출력을 범주형 값(0 또는 1)으로 변환하여 확률을 예측하는 데 사용된다. 이메일 클릭을 할 사람과 안할 사람으로 분류할 것이다. 빨간점이 바로 데이터이며, 액션의 0과 1이 바로 레이블이다.레이블이 있다는 것은 수퍼바이저드 러닝 이라는 뜻이다. "슈퍼바이저드 러닝" 은 기계 학습의 한 유형으로, 모델이 입력과 해당 출력 간의 관계를 학습하는 방법이다. 이러한 관계는 레이블된(labelled) 데이터셋에서 관찰된다. 각 입력에는 해당 출력에 대한 "정답"이 제공된다. 이러한 방식으로 모델은 주어진 입력에 대해 .. 2024. 4. 15.