2021-08-29 읽을거리
python
1. python에서 사용하는 os 명령어 10가지
해당 글은 디렉토리 생성, 경로 확인 등 os 레벨에서 사용되는 기능들을 python 함수로 사용하는 것을 소개하고 있다.
기본적으로 많이 사용하고 있지만, 모를 수도 있는 사람들을 위해 소개한다.
https://levelup.gitconnected.com/10-python-os-module-functions-that-you-should-know-a320aba36c87
10 Python OS Module Functions That You Should Know
Must know OS module functions in python
levelup.gitconnected.com
2. python에서 유용하게 쓰일 수 있는 문법 5가지
해당 글은 python 문법들 중 아주 많이 쓰이지는 것들에 대해 예제와 함께 소개하고 있다.
사용하고 있거나, 이미 알고 있는 문법들도 있겠지만, 복기하는 차원에서 다시 공유한다.
https://towardsdatascience.com/hidden-gems-of-python-76020b14e42f
Hidden Gems of Python
Features of Python that I had no idea even existed
towardsdatascience.com
3. list를 생성할 때, []와 list() 의 차이
해당 글은 list를 생성할 때의 두가지 방법인 [] 와 list() 함수에 대한 차이점을 서술하고 있다.
컴퓨터 적으로 매우 low한 부분까지 가져다 설명을 하고 있기 때문에, 넓은 인사이트를 가져갈 수 있을 것이라 생각된다.
https://towardsdatascience.com/no-and-list-are-different-in-python-8940530168b0
No, [] And list() Are Different In Python
Special Python literal constants make your program faster and more Pythonic
towardsdatascience.com
4. vscode extension 5가지
해당 글은 vscode에서 python 코딩을 할 때 기본적으로 필요한 5가지 extension에 대해 소개하고 있다.
기본적으로 기능이 있지만, 추가적으로 설치하여 더 편하게 사용할 수 있는 extension 들까지 포함하여 소개하고 있다.
https://betterprogramming.pub/is-vs-code-not-python-friendly-try-these-5-extensions-d4d51e41e072
Is VS Code Not Python-Friendly? Try These 5 Extensions
Make VS Code better serve your Python projects
betterprogramming.pub
5. pandas에서 inplace를 쓰면 안되는 이유
해당 글은 pandas의 함수들에서 보이는 inplace 인자를 True로 쓰지 말아야 하는 이유에 대해 코드 관리 측면에서 설명하고 있다.
inplace는 dataframe 내에서 변환시키기 때문에 메모리 측면에서는 효율적이지만,
데이터 객체를 관리하는 측면에서는 비효율적인 점에 대해서 설명하고 있다.
https://towardsdatascience.com/why-you-should-probably-never-use-pandas-inplace-true-9f9f211849e4
Why You Should Probably Never Use pandas inplace=True
Truly it is a curse on the library and a pox on thee if you use it
towardsdatascience.com
ML / DL
1. shap 라이브러리
해당 글은 데이터 특성에 대한 중요도를 알 수 있는 SHAP를 사용하는 라이브러리이다.
해당 라이브러리와 비슷한 것으로는 shapash라는 것이 있다.
둘의 차이는 shapash는 툴에 가까운 반면, shap는 파이썬 코드 내에서 사용하는 라이브러리로 설명할 수 있겠다.
https://github.com/slundberg/shap
GitHub - slundberg/shap: A game theoretic approach to explain the output of any machine learning model.
A game theoretic approach to explain the output of any machine learning model. - GitHub - slundberg/shap: A game theoretic approach to explain the output of any machine learning model.
github.com
2. quantile regression
해당 글은 deep learning 기반 quantile regression에 대해 예제를 통해 설명하고 있다.
quantile loss를 사용하여 분위수로 데이터를 예측하는 regression으로, 기존 regression은 평균 값 예측을 하는 것과 차이가 있다.
https://hackmd.io/@cgarciae/quantile-regression
Quantile Regression - HackMD
# Quantile Regression _A simple method to estimate uncertainty in Machine Learning_ hackmd.io
3. fraud detection
해당 글은 unsupervised anomaly detection을 사용한 fraud detection에 대해 소개하고 있다.
금융 분야를 기본으로 설명하고 있지만, 전체적으로는 unsupervised anomaly detection 을 예제로 설명하고 있다.
https://medium.com/spero-engineering/fraud-detection-unsupervised-anomaly-detection-1fedc2b345b1
Fraud detection — Unsupervised Anomaly Detection
An 100% unsupervised approach to discover frauds on credit card transactions
medium.com
4. bayesian machine learning 이 작동하는 방식
해당 글은 bayesian ML에 대해 기본 수식과 개념들에 대해 설명하고 있다.
다만, 통계 쪽의 기초 지식이 있어야 해당 글을 이해하기 수월할 것으로 보인다.
https://medium.com/@ODSC/how-bayesian-machine-learning-works-5fd1a746734
How Bayesian Machine Learning Works
Bayesian methods assist several machine learning algorithms in extracting crucial information from small data sets and handling missing…
medium.com
5. spotify EDA
해당 글은 spotify에서 사용한 EDA를 예제를 포함해서 설명하고 있다.
spotify에서 수집한 데이터들이 무엇인지에 대해서도 설명하고 있고, 데이터셋 링크도 공유하고 있어서 연습하기 좋다고 생각된다.
https://medium.com/m2mtechconnect/spotify-data-exploration-with-python-74dcc292031d
Spotify Data Exploration with Python
How we can use data science to discover the latest trends in the music industry
medium.com
6. time series 분석을 위한 python package 3가지
해당 글은 python package 중 time series 분석에 탁월한 라이브러리 3가지를 예제를 통해 소개하고 있다.
현재로써는 여기서 소개되는 라이브러리들이 stable하고 유명하여 읽어보는 것을 추천한다.
https://medium.com/geekculture/3-top-python-packages-for-time-series-analysis-21873eac6dde
3 Top Python Packages for Time Series Analysis
Elevate your time series analysis with this Python Packages
medium.com
UI / UX
1. sankey plot 예제
해당 글은 그래프를 그리는 라이브러리인 plotly를 사용하여 sankey plot을 그리는 방법을 예제를 통해 단계 별로 설명하고 있다.
코드가 간단하고 쉬워서 sankey plot을 모르는 사람이라면 읽어보는 것을 추천한다.
https://medium.com/analytics-vidhya/how-to-do-a-sankey-plot-in-python-5298869f5e8e
How to do a Sankey Plot in Python
If you have been more than five seconds on r/dataisbeautiful/, you will have probably encountered a Sankey plot. Everyone uses to track…
medium.com
논문
1. Pitfalls in Machine Learning Research
해당 논문은 ML 프로세스 혹은 개발 상에서 문제가 될만한 부분들에 대해 지적하고 있다.
각 프로세스 별로 차근차근 쓰여져 있기 때문에 전체 flow를 만들 때, 해당 논문을 읽고 고려해야할 사항들에 대해 되짚기 좋다고 생각된다.
https://arxiv.org/abs/2011.02832?utm_campaign=Data_Elixir&utm_source=Data_Elixir_350
Pitfalls in Machine Learning Research: Reexamining the Development Cycle
Machine learning has the potential to fuel further advances in data science, but it is greatly hindered by an ad hoc design process, poor data hygiene, and a lack of statistical rigor in model evaluation. Recently, these issues have begun to attract more a
arxiv.org
기타
1. 무료로 웹호스팅, 서비스 이용하기
해당 글은 무료로 웹호스팅을 할 수 있는 서비스들에 대해 소개하고 있다.
생각보다 꽤나 다양한 서비스들을 소개하고 있어서, 웹 서버를 연습하고 있는 사람들은 해당 글을 보고 이용해보는 것을 추천한다.
https://uznam8x.tistory.com/84
무료로 웹호스팅, 서비스 이용하기
들어가며 간단하게 도메인 1개, API 서버, Database, Github action CI/CD 구성, SSL, DNS, 통계만 하면 되는 작은 Toy project를 만들일이 생겼다. 일단 웹페이지는 추후에 SEO도 붙일까 해서 nextjs로 만들었고,..
uznam8x.tistory.com
2. 유럽 코로나 확진자 수 프로젝트 개발/실패기
해당 글은 국내에서의 코로나 확진자 수 사이트와 동일한 서비스를 유럽에 제공하기 위해 웹 서비스를 만든 스토리를 서술하고 있다.
나는 모든 일에는 실패가 뒷받침되고, 그 실패마저도 중요한 경험이 된다라고 생각하고 있다.
그런 점에서, 해당 글은 개발자에게 개발에 대한 생각 뿐만 아니라 비즈니스라는 관점에서도 좋은 글이라고 생각된다.
https://iamsang.com/blog/2021/08/25/corona-project/
이상현 IN 베를린 :: 유럽 코로나 확진자 수 프로젝트 개발/실패기
유럽 코로나 확진자 수 프로젝트 개발/실패기 작년 7월 유럽의 COVID-19 상황을 모바일 폰에서 한눈에 보고 싶어 Europe COVID-19 Cases 사이트를 출시하였다. "이런 사이트가 있으면 좋겠다. 나에게 필요
iamsang.com