본문 바로가기

Data Science : Study

R : 이중 for문으로 key 값 부여 썸네일 목표 GA 데이터의 user_id, page_location별 key 값 부여 구현 코드 unique_user_ud 더보기
R : n_distinct 실행 시 1 높게 나옴 이유 (n_distinct ignore NA) 썸네일 문제 r 활용하여 데이터 집계 진행하고, 엑셀로 집계 전 raw data 내려서 검증 진행했는데 두 값이 일치하지 않는다. 문제 발생 이전 과정 data_raw %>% group_by(key) %>% summarise( gr1_cnt = n_distinct(cust_no[gr1_key == "O"]), gr2_cnt = n_distinct(cust_no[gr2_key == "O"]), gr3_cnt = n_distinct(cust_no[gr3_key == "O"]) ) # 코드결과 # keygr1_cntgr2_cntgr3_cnt # 1O760 88807 # 2X232 1051010 data_raw에서 각 gr 기준을 만족하는 cust_no의 개수를 세고자 했다. gr 기준이 여러개이기 때문에 fi.. 더보기
Python : Dictionary ※ 매번 비슷한 내용을 구글링하는 것에 답답해서 항목별로 정리하는 글 dict = {'one'=1, 'two'=2} dict['three'] = 3 Dictionary 추가 : key와 value를 추가 dict = {'one'=0, 'two'=2} dict['one'] = 1 Dictionary 수정 : 해당 key의 value를 수정 dict = {'one':1, 'two':2, 'three':3} del(dict['one']) Dictionary 삭제 list_key = ['A','B','C'] list_value = [1,2,3] ### 1 dict = {string : 0 for string in list_key} # {'A':0, 'B':0, 'C':0} dict = {string : i fo.. 더보기
Python : list ※ 매번 비슷한 내용을 구글링하는 것에 답답해서 항목별로 정리하는 글 list = [] 기본 형태 : []로 묶인 item의 집합. 괄호 안에는 다양한 타입의 데이터가 들어갈 수 있다. len(list) list의 길이. series, dataframe에서도 동일하게 사용. list[-1] 리스트의 마지막 원소. if item in list: print('리스트에 값이 있습니다.') else: print('리스트에 값이 없습니다.') if item not in list: print('리스트에 값이 없습니다.') else: print('리스트에 값이 있습니다.') 리스트에 특정 값이 있는지 체크하기 리스트에 특정 값이 없는지 체크하기 더보기
5강-1. AWS DynamoDB 데이터베이스 생성 썸네일 DynamoDB AWS에서 제공하는 noSQL : dynamic schema - 테이블의 구조를 정의하지 않고도 데이터를 저장(유연성) - 필드의 지속적인 추가 가능 생성하기 1. AWS - 데이터베이스 - DynamoDB 2. 테이블 - 테이블 만들기 선택 3. 테이블명: 원하는 대로 설정 - 기본 키: 어떤 key 값을 가지고 빠르게 액세스할 것이냐. partition key. primary key. - 정렬 키: 기본 키 외에 key로 쓸 값 추가 가능. sort key. - 테이블 설정: 기본인 상태로 두지만, 설정 내용이 궁금하면 기본설정 제외시키면 확인 가능. +) 이후 인덱스 추가 가능(새로운 키를 추가, 인덱스 탭) 같은 테이블이지만 키가 다르기 때문에 해당 키로 조회하는 용량이 추.. 더보기
4강-8. Python API batch 형식으로 데이터 가져오기 썸네일 "파일로 데이터 가져오기"는 single item hit : artist 하나씩 url의 parameter에 넣어서 하나씩 requests 실행 (https://hellominji.tistory.com/66) "batch 형식"에서는 artist를 여러개 묶어서 requests 실행 (※모든 API가 이 기능을 제공하는 것은 아니다. get several artists(docs-web apis에서 확인)) 1. batch로 데이터 가져오기 현재까지 DB(artists 테이블)에 있는 id값을 모두 불러온다 cursor.execute("SELECT id FROM artists") artists = [] for (id, ) in cursor.fetchall(): artists.append(id) 50.. 더보기
4강-7. Python API 파일 형식으로 데이터를 여러번 요청하기 썸네일 Search API로 데이터를 검색할 때 artist명을 하나씩 입력해서 찾아야 했다. (https://hellominji.tistory.com/55) 3강-4. Python Search API 사용해보기 (Spotify) 썸네일 * Spotify Search API에 대한 상세한 설명은 url 참고할 것! https://developer.spotify.com/documentation/web-api/reference/#category-search ! 목표 검색어를 입력해서 데이터를 불러온다. 1. 필요한.. hellominji.tistory.com ! 목표 artist명을 파일에 모두 입력해놓고, 파일 형식으로 데이터를 여러번 요청하려고 한다. 파일로 데이터 가져오기 필요한 패키지 불러오기 imp.. 더보기
4강-6. DB에 데이터 넣기 (Python, Insert, Update) 썸네일 ! 목표 - API로 가져온 데이터를 DB에 INSERT - 중복 데이터가 INSERT되지 않도록 한다 - 데이터를 정확히 몰라도 INSERT되도록 한다 1. Hard coding : 하나씩 INSERT header 설정 후에 data INSERT 부분을 작성한다. (https://hellominji.tistory.com/54) 3강-3. Python API 토큰 가져오기 (Spotify) 썸네일 * Spotify API에 대한 상세한 설명은 url 참고할 것! https://developer.spotify.com/documentation/general/guides/authorization-guide/#client-credentials-flow ! 목표 API 사용을 위한 access token... 더보기