데이터공부기록

고정 헤더 영역

글 제목

메뉴 레이어

데이터공부기록

메뉴 리스트

  • 홈
  • 태그
  • 방명록
  • 분류 전체보기 (58)
    • Django (14)
    • Python (26)
    • 데이터분석 by파이썬 (16)
    • 머신러닝 정리 (2)

검색 레이어

데이터공부기록

검색 영역

컨텐츠 검색

Python

  • 22. 자연어 처리(Natural Language Processing: NLP)

    2021.05.10 by evaseo

  • 21. 데이터 시각화

    2021.05.07 by evaseo

  • 20. Selenium

    2021.05.07 by evaseo

  • 19. schedule 모듈

    2021.05.07 by evaseo

  • 18. json 모듈

    2021.05.07 by evaseo

  • 17. BeautifulSoup

    2021.05.06 by evaseo

  • 16. pandas - (2) DataFrame

    2021.05.02 by evaseo

  • 16. pandas - (1) 개요, Series

    2021.05.01 by evaseo

22. 자연어 처리(Natural Language Processing: NLP)

1. 자연어: 사람들이 일상생활에서 자연스럽게 사용하는 언어 2. 자연어처리: 컴퓨터 공학적으로는 자연어를 입, 출력으로 사용하는 컴퓨터(프로그램)에 사용되는 처리과정 (1) NLU(Natural Language Understanding) 1) 자연어를 입력으로 받아들인 경우 자연어 이해라고 한다 2) 문자로 된 언어를 입력으로 직접 받아들여서 목적에 맞게 내부적으로 처리해내는 과정 ex) “카메라 실행해” -> 실제 카메라 실행 (2) NLG(Natural Language Generation) 1) 자연어를 출력하는 경우 자연어 생성이라고 한다. 2) 주어진 수치 등의 정보를 바탕으로 문자를 생성하여 사용자에게 자연어로 돌려줌 ex) 날씨앱: 온도를 숫자로 보여주면 ‘서늘한~’ 이라고 반환 3. 코퍼스..

Python 2021. 5. 10. 19:55

21. 데이터 시각화

1. matplotlib: ploting library. 그래프(차트) 생성을 위한 다양한 함수 지원 - import matplotlib.pyplot as plt (1) 차트 용어 1) tick ① Axis의 값들 ② tick은 숫자만 취급 ③ tick의 값을 설정할 때는 순서가 있는 List타입과 Tuple타입 사용가능 => List와 Tuple은 0번부터 시작하는 index가 부여됨 예를 들어 ['서울', '인천', '수원']인 경우에 서울은 0, 인천은1, 수원은 2인 index가 부여됨. 이 index로 tick값으로 처리 ④ 순서가 없는 set 타입은 사용 불가 ⑤ plt.xticks(값): x축 tick 설정 ⑥ plt.yticks(값): y축 tick 설정 ⑦ plt.xlim(범위): x축 ..

Python 2021. 5. 7. 19:24

20. Selenium

1. selenium (1) 웹 브라우저를 원격 조작할 때 사용하는 도구. 주로 웹 앱을 테스트하는데 이용하는 프레임워크 (2) Selenium은 webdriver라는 API를 통해 운영체제에 설치된 Chrome등의 브라우저를 제어 (3) 브라우저를 직접 제어한다는 것은 JavaScript를 이용해 비동기적으로 혹은 뒤늦게 불러와지는 컨텐츠들을 scraping할 수 있다는 것이다. (4) Selenium은 실제 웹 브라우저가 동작하기 때문에 JS로 렌더링이 완료된 후의 DOM 결과물에 접근이 가능하다. (5) PC에서 설치되어 있는 웹 브라우저를 Selenium 라이브러리를 통해 컨트롤 (6) 예를 이용하면 자동으로 URL 열기를 할 수 있고, 크롤링, 문자 입력, 화면 캡처 등의 다양한 작업이 가능하다..

Python 2021. 5. 7. 18:43

19. schedule 모듈

1. 특정한 작업(함수)를 주기적으로 실행/작업하기 위하여 사용하는 스케줄러 2. 리눅스 OS 환경의 crontab, 윈도우 OS 환경의 작업 스케줄러와 같은 역할 3. 실행할 주기, 날짜, 시간, 요일 등을 지정하여 원하는 시점에 작업을 실행하거나 원하는 주기로 반복 실행하도록 구현가능 4. 리눅스의 crontab, 윈도우의 작업 스케줄러와 차이점: 어플리케이션 레벨에서 스케줄러가 수행 5. 사용 예시 (1) 업데이트 확인 (2) 바이러스 검사 (3) 신규 게시글 확인 (4) 일정시간마다 자동저장 (5) 자동백업 (6) 매수, 매도 거래가 실시간으로 생성 6. schedule.jobs = []: Scheduler에 등록된 Job 리스트를 보관하는 변수 7. 함수 (1) schedule.every(int..

Python 2021. 5. 7. 17:41

18. json 모듈

1. JSON 데이터를 처리하기 위해 사용되는 파이썬의 내장 모듈 2. import json 로딩 3. 함수 (1) json.load(fp, *, cls=None, object_hook=None, parse_float=None, parse_int=None, parse_constant=None, object_pairs_hook=None, **kw) 1) json 파일을 읽어 dict 형태로 저장 2) JSON 문서를 포함한 read()를 지원하는 텍스트 파일이나 바이너리 파일를 파이썬 객체로 역 직렬화(파일을 읽을 때 사용) 3) parse_float가 지정되면, 디코딩 될 모든 JSON float의 문자열로 호출 4) parse_int가 지정되면, 디코딩 될 모든 JSON int의 문자열로 호출 (2) ..

Python 2021. 5. 7. 16:24

17. BeautifulSoup

1. 의미 (1) HTML과 XML 파일로부터 데이터를 뽑아 내기 위한 파이썬 라이브러리 (2) 웹 크롤링(Web crawling) 또는 스크래핑(Scraping)은 웹 페이지들을 긁어와서 데이터를 추출 (3) 웹 크롤러는 자동화된 방식으로 웹 페이지들을 탐색하는 컴퓨터 프로그램 2. 설치 (1) anaconda3이 설치되어 있다면 별도의 설치 불필요 (2) BeautifulSoup: 명령 프롬프트에서 ‘pip install beautifulsoup4‘로 설치 (3) HTML해석기 lxml 설치: pip install lxml 3. 사용순서 (1) xml, html의 문서나 url을 텍스트 객체 생성 (2) 텍스트 객체를 BeautifulSoup 생성자로 BeautifulSoup객체 생성 = 파싱 1) ..

Python 2021. 5. 6. 17:35

16. pandas - (2) DataFrame

1. DataFrame (1) 표 모양(2차원)의 자료구조, Series가 여러 개 합쳐진 형태. (2) 형식: DataFrame(object, columns=[컬럼명], index=[row명]) (3) 행마다 자동으로 index 생성 (4) 각각의 컬럼이 Series가 됨 (5) 2차원 배열과의 차이점: 각 컬럼마다 type이 다를 수 있다 ☞ dict의 key들이 DataFrame의 컬럼이 되는데 컬럼의 형태는 다양 # DataFrame: 표 모양(2차원)의 자료구조, Series가 여러 개 합쳐진 형태. # 2차원 배열과 의 차이점: 각 컬럼마다 type이 다를 수 있다 from pandas import DataFrame df = DataFrame() data = { 'irum':['홍길동', '한..

Python 2021. 5. 2. 12:28

16. pandas - (1) 개요, Series

1. 개요 (1) 고수준의 자료구조(Series, DataFrame)를 지원 (2) 축약연산, 누락된 데이터 처리, sql query, 데이터 조작, 인덱싱, 시각화 등 다양한 기능 (3) numpy기반 (4) import pandas as pd 2. Series (1) 일련의 데이터를 기억할 수 있는 1차원 배열과 같은 자료구조로 명시적인 색인(index)을 갖는다. (2) index는 0부터 시작 (3) 형식: Series(object, index = [ind1, ind2, …]) 1) object요소의 타입이 혼용되어 있을 경우 문자열>실수(float)>정수(int) 순으로 지정됨 2) 단, object에서 set{}타입은 사용불가 => index를 갖기 때문에 순서가 있어야 한다. but set타..

Python 2021. 5. 1. 16:08

추가 정보

인기글

최신글

페이징

이전
1 2 3 4
다음
TISTORY
데이터공부기록 © Magazine Lab
페이스북 트위터 인스타그램 유투브 메일

티스토리툴바