Updated:

인공지능 수업에서 텀프로젝트 과제가 나왔다.
내가 직접 캐글 리더보드를 제작해야 한다.

나는 입력받은 이미지에 대한 성별을 예측하는 문제를 만들려고 한다.

우선 데이터셋을 준비해야 한다.
전에 gan을 공부했을 때 사용했던 celebA 데이터셋을 사용하면 되겠다고 쉽게 생각했다.
근데 성별 예측 관련해서 구글링을 하다 보니 celebA 데이터셋은 서양 사람들의 얼굴 데이터셋이라 동양인 얼굴은 모델이 잘 예측하지 못한다는 글을 봤다 .. !

동양인 얼굴을 내가 직접 크롤링해서 데이터를 수집해야 하나 ..
일단은 celebA 데이터셋만으로 해보고 ..
테스트 데이터로 친구들 사진을 넣어보려고 했는데 .. 서양인만 잘 예측이 된다면 .. 안되는데 ..
모르겠다 일단은 celebA 로만 해볼 거다.

👀celebA dataset 준비

공식 홈페이지에서 zip파일을 다운받았다.
처음에는 zip 파일을 내 컴퓨터에서 압축 해제를 하고 모든 이미지들을 (코랩을 사용할 예정이기 때문에) 구글 드라이브에 올리려고 했다.
그런데 이미지 양이 워낙 많아서 인지 구글 드라이브에 잘 올라가지 않았다.
구글링을 해보니 코랩에서 코드로 압축을 해제하고 구글 드라이브에 해제한 이미지들을 저장하는 방법이 있었다. !


!unzip '압축 해제할 파일 경로'zip -d '압축 해제한 파일 저장 경로'

이렇게 일단 이미지 파일을 불러오는 건 했다.


이렇게 겨우 불러온 jpg 파일들을 train.csv, test.csv 파일 형태로 만들어야 한다.
이미지 사이즈를 모두 똑같이 크롭하고 ..?
이 많은 이미지들을 train 이라는 변수 안에 딱 어떻게 넣나 ..
이건 내일 찾아봐야 겠다.
사실 이것저것 해보다 실패했다.
지금 이 단계에서 시간이 이렇게나 오래 걸리는 게 맞는건가 🤯

Tags:

Updated:

Leave a comment