강의 기록용 포스팅입니다.https://www.youtube.com/watch?v=hRtInGQhBxs&list=PLJlKGwy-7Ac6ASmzZPjonzYsV4vPELf0x총 9개의 영상으로 제작된 유튜브 강의이고, 하둡과 스파크에 대한 기초지식을 배우는 것이 목표입니다.하둡은 리눅스에서 작동하고, 윈도우를 사용하는 경우 윈도우용 리눅스를 사용할 수 있음데비안을 사용해서 설치하고, 사용함윈도우10을 사용하고 있어서, 마이크로소프트 스토어에서 데비안을 설치함https://www.microsoft.com/store/productId/9MSVKQC78PK6?ocid=pdpshare영상에서는 VMware를 사용하여 데비안을 설치함가상머신으로 해야할까..? 고민중 영상은 가상환경으로 GUI 환경의 데비안을 설치..
다양한 라이브러리를 활용하여 문자열 유사도를 측정할 수 있지만, 각 라이브러리마다 성능과 결과가 다를 수 있음diff, fuzzywuzzy, rapidfuzz 라이브러리를 사용하여 한글 문자열 유사도를 비교함비교 대상 라이브러리diff (공식문서: https://docs.python.org/3/library/difflib.html#difflib.get_close_matches)fuzzywuzzy (공식문서: https://github.com/seatgeek/thefuzz)rapidfuzz (공식문서: https://rapidfuzz.github.io/RapidFuzz/Usage/process.html#rapidfuzz.process.extractOne)코드 비교df라는 데이터프레임은 기관코드 데이터(co..
유튜브에서 간단히 개념과 예제를 제공하는 강의가 있어서 공유코딩애플의 '2시간만에 웹서버 쉽게 개발하기 (Node.js+MongoDB)'일부 강의만 유튜브이고, 나머지는 강의수강을 해야 볼 수 있음https://codingapple.com/https://youtu.be/pTm5E3jcOeY?si=PDDn7leIFBWiGMWyJavascript는 HTML을 조작하기 위한 것이고, 크롬에서 만든 자바스크립트 해석 엔진이 독자적으로 발전해서 Node.js가 됨Event-drive, Non-blocking이란?영화관 웹서버가 있다고 할 때, 티켓을 제공하는 일반적인 서버가 있음일반 언어로 개발하면, 웹 서버는 순차적으로 해결함. 오래걸리는 요청(200석 예매)을 하면, 다 처리할 때까지 다른 요청을 못받음반면,..
difflib.get_close_matches를 사용하여 데이터명 매칭하기데이터 정제와 분석을 할 때, 여러 데이터프레임 간의 데이터명을 비교하고 유사한 항목을 찾는 작업이 종종 필요합니다. 이때 Python의 difflib 모듈을 사용하면 매우 유용합니다. 이번 글에서는 difflib.get_close_matches 함수를 활용하여 두 데이터프레임 간의 유사한 데이터명을 찾아 매칭하는 방법을 소개합니다.사용 예시1. 데이터프레임 준비우선, 예시 데이터를 포함한 두 개의 데이터프레임을 준비합니다. import pandas as pd# 예시 데이터프레임df1 = pd.DataFrame({ '데이터명': ['서울특별시', '부산광역시', '대구광역시', '인천광역시', '광주광역시']})d2f = pd..
지식그래프는 주어-술어-목적어로 구성되어 데이터의 엔티티를 의미적인 관계로 표현함최근 LLM에 사실정보를 추가하기 위한 방안으로 KG를 사용하면서 '지식그래프 임베딩 (Knowledge Graph Embedding, KGE)' 기법에 대한 글, 논문이 생겨나고 있음 관련 프로젝트를 진행해야해서 참고할만한 글을 스크랩하려고 한다.대부분 medium의 메일링을 통해서 얻는 정보이고, 종종 논문에 대한 것도 함께 있다. Knowledge Graph Embeddings: Unraveling the What, Why, and How Knowledge Graph Embeddings: Unraveling the What, Why, and HowKGEs map knowledge graphs into vectors, p..
https://ieeexplore.ieee.org/document/10387715/ Unifying Large Language Models and Knowledge Graphs: A RoadmapLarge language models (LLMs), such as ChatGPT and GPT4, are making new waves in the field of natural language processing and artificial intelligence, due to their emergent ability and generalizability. However, LLMs are black-box models, which often fall sieeexplore.ieee.org 최근 KG와 LLM을 연..
RAG+KG와 관련된 글, 논문, 영상을 최근 자주 접하고 있다.스크랩용으로 링크와 짧게 어떤 내용인지 AI요약으로 정리하고, 추후 천천히 볼 예정 지식그래프와 LLM에 대한 글을 찾아보면 체감상 90%는 neo4j의 데이터베이스를 사용한 경우라 property graph위주로 보인다. 실제로 neo4j가 공격적으로 KG+LLM 연구를 진행하고 있다고 봄 Neo4j가 Going Meta라는 프로그램을 유튜브에서 공개하는데 오늘(2024-05-20)기준으로 27개 영상이 있는데, 기본적인 지식그래프, 온톨로지 지식이 있다면 필요한 부분만 들어도 될 것 같다. 아래는 들으면 좋을 것 같은 영상 몇개를 골라봄 Going meta - Ep 7: Generating natural language from your..
import jsonimport pandas as pddef flatten_json(d, parent_key="", results=[]): """ JSON 또는 딕셔너리 데이터를 평평한 구조로 변환하고, 키-값 쌍을 데이터프레임으로 저장합니다. Args: d (dict or json): JSON 또는 딕셔너리 데이터 parent_key (str): 상위 키 (재귀 호출 시 사용) results (list): 데이터프레임에 저장될 결과 목록 Returns: pandas.DataFrame: 키-값 쌍을 포함하는 데이터프레임 """ if isinstance(d, dict): for k..
# 1. 데이터프레임의 null 값 개수 계산 null_count = df.null_count() # 2. Series 객체의 첫 번째 행만 추출 head_row = null_count.head(1) # 3. 첫 번째 행의 첫 번째 값만 추출 (리스트 형태) value = [value[0] for value in head_row] # 4. 리스트를 변환하여 최종 결과 반환 result = pl.Series(value).to_list() # 한번에 조합한 코드 pl.Series([value[0] for value in df.null_count().head(1)]).to_list() data.null_count() 함수를 사용하여 데이터프레임의 각 컬럼에 대한 null 값의 개수를 계산함 이 때, 출력값은 ..
- Total
- Today
- Yesterday
- Postgis
- ChatGPT
- writerow
- pdfmathtranslate
- p-tuing
- vscode
- hadoop
- 지식그래프임베딩
- cursorai
- difflib
- python'
- PEFT
- 키워드추출
- python
- 지식그래프
- pandas
- psycopg
- LLM
- Encoding
- rdflib
- Claude
- TextRank
- MongoDB
- SPARQL
- knowlegegraph
- polars
- knowledgegraph
- PostgreSQL
- Vue3
- vervel
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |