Python 92

Understanding Data Engineering 1-Data engineering and big data

데이터는 21세기의 가장 중요한 자산으로 자리 잡았다. 하지만 데이터를 제대로 활용하려면 데이터를 관리하고 처리할 수 있는 전문적인 역할이 필수다. 바로 데이터 엔지니어가 그 중심에 있다. 이 글에서는 데이터 엔지니어링과 빅데이터에 대한 기초 개념을 정리하고, 데이터가 조직 내에서 어떻게 흐르고 활용되는지 살펴보겠다.1. 데이터 엔지니어링이란 무엇인가?데이터 엔지니어링은 데이터 파이프라인을 구축하고 관리하는 과정이다. 데이터 엔지니어는 데이터 사이언티스트와 다르게 데이터를 분석하기 위한 토대를 만든다. 이 과정에는 데이터 수집, 저장, 처리 및 준비가 포함된다. 데이터 엔지니어의 역할은 데이터가 조직에서 효율적이고 신뢰성 있게 사용될 수 있도록 하는 데 중점을 둡니다.2. 데이터 워크플로우   데이터는 ..

정규식을 사용해 여러개의 구분자로 split 하는 방법

Python의 string 내장함수인 split을 사용하면 구분자를 기준으로 string을 list로 나눌 수 있다.str = "Hello Aloo! I love how you treat me!"str = str.split()print(str)# ['Hello', 'Aloo', 'I', 'love', 'how', 'you', 'treat', 'me!']str = "What's up, Aloo, Nice to meet you!"str = str.split(',')print(str)# ['What's up', ' Aloo', ' Nice to meet you!'] 알고리즘 문제를 풀다 보면, 여러 개의 구분자로 string을 list로 나누고 싶을 때가 있다.이와 같은 경우에 re(정규식) library 를..

리스트 원소 중에서 가장 길이가 긴(최대길이) 원소 찾기

알고리즘 문제를 풀다가 map을 활용해서 리스트 원소 중에서 가장 길이가 긴 원소를 찾는 방법을 배웠다.사실 map의 원리를 잘 이해하면 알 수 있는 내용이지만, 빠르게 찾는 방법을 알아두면 좋으니 배워보자. 먼저, 방법부터 말하자면 아래와 같이 활용할 수 있다.n = max(map(len,list)) 편의상 list를 nums 라는 리스트라고 가정해보자. map(len, nums) 는 nums가 리스트라고 가정할 때, map 함수는 리스트 nums 의 각 요소에 대해 len 함수를 적용한다는 의미다.즉, nums 에 있는 각 요소의 길이를 계산하여 반환하는 작업이라 할 수 있다.예시를 살펴보자.nums = [[1,2,3], [4,5], [6]] 위와 같은 nums 리스트가 있다고 한다면, map(len..

[리트코드/leetcode/python] 40. Combination Sum II

오늘 소개할 문제는 LeetCode 40번 문제 "Combination Sum II"입니다. 이 문제는 전형적인 백트래킹 문제라고 판단해서 실수할 수 있는 문제입니다. 백트래킹 알고리즘에서 어떤 부분을 주의해야 할지, 최적화는 어떻게 하면 좋은지에 대한 실마리를 포함하고 있는 문제입니다. 아래의 한 유저가 말씀해주신 것 처럼, 대부분의 회사의 채용 코딩인터뷰 문제 목록에 포함되어 있는 문제이기도 합니다. 문제 설명리트코드 40번 Combination Sum II 문제에서는 중복된 숫자가 포함된 배열에서 합이 특정 목표값(target)이 되는 모든 고유한 조합을 찾아야 합니다. 주어진 배열의 각 숫자는 한 번만 사용할 수 있으며, 같은 조합이 중복되어 결과에 포함되지 않도록 해야 합니다.문제 해결 과정1...

[리트코드/leetcode/python] 1334. Find the City With the Smallest Number of Neighbors at a Threshold Distance

오늘 소개할 문제는 LeetCode 1334번 문제 "Find the City With the Smallest Number of Neighbors at a Threshold Distance"입니다. 이 문제는 그래프 이론과 최단 경로 알고리즘을 이해하는 데 중요한 문제로, 특히 다익스트라 알고리즘을 활용합니다.문제 설명리트코드 1334번 Find the City With the Smallest Number of Neighbors at a Threshold Distance 문제에서는 n개의 도시와 도로 정보(edges)가 주어집니다. 각 도로는 두 도시를 연결하며, 그 사이의 거리가 주어집니다. 주어진 distanceThreshold 이하의 거리 내에 있는 이웃 도시의 수가 가장 적은 도시를 찾아야 합니다..

[코테] 코딩 테스트 합격자 되기 2주차 - 배열

배열은 인덱스와 값을 일대일 대응에 관리하는 자료구조입니다. 데이터를 저장할 수 있는 모든 공간은 인덱스와 일대일 대응하므로 어떤 위치에 있는 데이터든 한 번에 접근할 수 있습니다. 데이터에 한 번에 접근할 수 있으니 어디에 있는지만 알면 빠르게 탐색할 수 있는 것이죠. 이런 접근 방식을 임의 접근(random access)라고 합니다. 📖 배열 선언 배열을 선언하는 방법은 다음과 같습니다. 이름이 arr 이고 길이가 8인 정수형 배열을 리스트를 활용해서 선언하는 3가지 방법을 예제를 통해서 알아보겠습니다. 1) 일반적인 방법 arr = [0,0,0,0,0,0,0,0] arr = [0] * 8 # 결과는 둘 다 동일합니다. 2) 리스트 생성자를 사용하는 방법 arr = list(range(8)) # [0..

반응형