목록Language/Python (22)
생각하는 감쟈
18일차 (23.04.05) ml: 머신러닝데이터에서 지식을 추출하는 작업통계학 인공지능 컴퓨터 과학이 얽혀있는 연구 분야예측분석, 통계적 머신러닝 머시러닝을 사용한 애플리케이션영화추천 음식 주문 쇼핑 맞춤형 온라인 라디오 방송사진에서 친구 얼굴을 찾아주는 앱페이스북, 아마존, 넷플릭스 가장 많이 사용되는 머신러닝 알고리즘일반화 된 모델을 만들어 의사 결정 프로세스를 자동화 하는것 (지도학습)사용자 - 알고리즘에 입력과 기대되는 출력을 제공알고리즘 - 주어진 입력에서 원하는 출력을 만드는 방법 찾기학습된 알고리즘 - 사람의 도움 없이도 새로운 입력이 주어지면 저절한 출력 생성 가능 지도학습 알고리즘입력과 출력으로 학습하는 머신러닝 알고리즘 머신러닝 알고리즘아무런 정보가 없는 데이터로는 그 어떤 것도 ..
14일차 (23.03.30) 2. 데이터 수집3) 정규표현식4) 네이버 뉴스에서 URL과 제목 가져와서 파일로 저장6) 표에서 내용 가져오기 3. 워드클라우드1) 네이버에서 오늘자 랭킹뉴스 가져오기2) 워드클라우드 만들기2-1 글자이상 명사만 추출2-2 한글폰트 설치하고 지정2-3 파일로 저장3) 마스크 씌우기4) 스탑워드 적용하기정규 표현식[abc] 대괄호 안에 있는 문자 1개 인식 a or b or c와 같음[^abc] 대괄호 안에 있는 문자가 아닌 문자를 인식(NOT 연산) a, b, c 이외의 문자[0-9] 0부터 9까지의 범위 중 한 문자 인식[a-zA-Z] 소문자, 대문자를 인식[a-z&&[def]] a~z까지 1문자 and d/e/f 중 1글자 인식[ ] 문자의 집합 또는 범위를 나타냄 대..
13일차 (23.03.29) ✔데이터 분석이 필요한 이유 1 데이터는 모든 현상과 가설의 근거가 되는 정보를 담고 있음2 직접 경험하지 않아도 데이터를 통해 경험을 얻을 수 있음3 데이터 분석을 통해 데이터에서 의미를 찾고 비래를 예측하는 등 새로운 가치를 창출 가능 비즈니스에 대한 정보가 매 순간 데이터로 기록 > 데이터의 종류, 양, 접근성> 데이터를 이해하고 활용할 수 있는 능력 > 데이터 분석을 통한 가치 창출 `✔웹 스크래핑/크롤링 requestsBeautifulSoupimport requestsfrom bs4 import BeautifulSoup # import requests# from bs4 import BeautifulSoupurl = f"https://search.naver.com/se..
imshow imshow 데이터 처럼 행과 열을 갖는 2차원 데이터는 imshow 명령으로 2차원 자료의 크기를 색깔로 표시from sklearn.datasets import load_digitsdigits = load_digits()#손글씨데이터X = digits.images[0]X array([[ 0., 0., 5., 13., 9., 1., 0., 0.], [ 0., 0., 13., 15., 10., 15., 5., 0.], [ 0., 3., 15., 2., 0., 11., 8., 0.], [ 0., 4., 12., 0., 0., 8., 8., 0.], [ 0., 5., 8., 0., 0., 9., 8., 0..
12일차 (23.03.28) 라인 플롯plt.title("plot")plt.plot([1,4,7,13])plt.show() plt.title("x ticks")plt.plot([10,20,30],[1,5,15])plt.show() plt.plot([10,20,30,40],[1,5,15,24],'rs--') plt.show() 'rs--' : 점 실선 스타일 색깔blue -bgreen - gred - rcyan - cmagenta - myellow - yblack - kwhite - w 마커 : 데이터 위치 기호 선 스타일- solid line-- dashed line-. das-dot line: dotted line 기타 스타일색 - c선 굵기 - lw선스타일 - ls마커 종류 - mark..
11일차 (23.03.27) cut/qcut실수 값을 카테고리 값으로 변환cut : 실수값의 경계선을 지정하는 경우qcut : 갯수가 똑같은 구간으로 나눈는 경우 ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 101] bins = [1, 20, 30, 50, 70, 100]labels = ["미성년자", "청년", "중년", "장년", "노년"]cats = pd.cut(ages, bins, labels=labels)cats cats.codes array([-1, 0, 0, 1, 1, 2, 2, 3, 0, 2, 2, -1], dtype=int8) df4 = pd.DataFrame(ages, columns=["ages"])df4["age_cat..