RDFlib은 RDF 데이터를 처리하기 위한 파이썬 라이브러리다. 간단한 예제를 통해 그래프를 만들고, SPARQL 쿼리를 수행한 후 데이터를 pandas.DataFrame으로 변환하는 과정을 소개합니다.1. RDFlib 설치pip install rdflib2. 그래프 불러오기 또는 그래프 생성하기참고: RDFlib 공식 문서 - 그래프 파싱2-1. 그래프 데이터 불러오기Turtle(.ttl), XML/RDF(.rdf) 형식의 데이터가 있다면, .parse() 메서드를 사용한다.예시 파일: sample.ttlimport rdflibfrom rdflib import Graph# 파일 불러오기g = Graph()g.parse("sample.ttl", format="ttl")2-2. 그래프 데이터 생성하기RD..
원격 DB를 전제로 한 경우, 추가 설정이 필요합니다.MongoDB 원격 접속 설정1. 방화벽 설정먼저, MongoDB가 사용하는 기본 포트(27017)에 대한 인바운드 연결을 허용해야 합니다. Ubuntu나 Debian 기반 시스템에서는 UFW(Uncomplicated Firewall)를 사용하여 이를 설정할 수 있습니다.sudo ufw allow 27017이 명령은 27017 포트로의 모든 인바운드 연결을 허용합니다.2. MongoDB 설정 파일 수정MongoDB의 설정 파일을 수정하여 원격 접속을 허용해야 합니다. 설정 파일의 위치는 일반적으로 /etc/mongod.conf입니다.설정 파일을 엽니다:sudo nano /etc/mongod.confnet 섹션을 찾아 다음과 같이 수정합니다:net: ..
필요한 라이브러리를 설치해주기pip install--upgrade sqlalchemy pip install --upgrade geopandaspip install --upgrade psycopg2 pip install --upgrade GeoAlchemy2pip install "psycopg[binary,pool]" 테스트 데이터는 주소정보누리집의 도로도형의 SHP 파일을 사용했다.필요한 라이브러리를 불러온 뒤, 테이블을 생성해준다.import psycopg # psycopg3으로 쿼리나 스키마 만드는 작업import psycopg2 # sqlalchemy로 연결할 때 사용. sqlalchemy는 psycopg2를 사용함import osfrom dotenv import load_dotenv, set_ke..
몽고DB 설치하기공식 홈페이지: https://www.mongodb.com/try/download/community공식 가이드문서: https://www.mongodb.com/ko-kr/docs/manual/tutorial/install-mongodb-on-windows/#std-label-install-mdb-community-windows친절하게 OS 환경별로 어떻게 설치해야하는지 알려준다step by step을 원할경우, 아래 블로그를 참고하시길!https://velog.io/@chloe1205/STUDY-MongoDB-%EC%84%A4%EC%B9%98%EB%B0%A9%EB%B2%95-Community-Server [STUDY] MongoDB 설치방법 (Community Server)MongoDB를..
데이터 처리를 하려는 데 아래와 같은 데이터를 pd.read_csv로 읽어오려니 에러가 났다. ParserError: Error tokenizing data. C error: Expected 9 fields in line 2, saw 24 이 데이터는 여러 헤더를 가진 데이터가 하나로 제공되고 첫번째 열(11, 15)로 데이터를 구분해야한다.pandas는 헤더를 추론하기 때문에 계속 에러가 났고, 파이썬으로 하나의 CSV를 아예 분리하는 방법으로 생각했다. 코드는 Claude를 사용해 샘플데이터와 원하는 작업을 프롬프트에 작성해 얻은 것이다. import csvimport osdef split_csv(input_file, output_dir, column_index): if not os.path.e..
하둡의 단일 클러스터 구성문득..꼭 데비안을 써야하는가에 대한 의문이 들어서 찾아보니, 안정성을 위해선 데비안이 가장 안정적이라고 함어차피 우분투도 데비안 기반이라서 사용하는 명령어가 크게 다를 것 같지 않음.그리고 데비안 너무 아무것도 안깔려서 새로 다 설치해야하는 문제점이 있음..따라서 아래부터는 우분투 기준으로 실행하였습니다java 설치참고: https://settembre.tistory.com/516 Ubuntu 20.04 - OpenJDK 11 설치1. Install OpenJDK ( Using apt) $ sudo apt-get update && sudo apt-get upgrade 2. Install openjdk-11-jdk $ sudo apt-get install openjdk-11-jd..
강의 기록용 포스팅입니다.https://www.youtube.com/watch?v=hRtInGQhBxs&list=PLJlKGwy-7Ac6ASmzZPjonzYsV4vPELf0x총 9개의 영상으로 제작된 유튜브 강의이고, 하둡과 스파크에 대한 기초지식을 배우는 것이 목표입니다.하둡은 리눅스에서 작동하고, 윈도우를 사용하는 경우 윈도우용 리눅스를 사용할 수 있음데비안을 사용해서 설치하고, 사용함윈도우10을 사용하고 있어서, 마이크로소프트 스토어에서 데비안을 설치함https://www.microsoft.com/store/productId/9MSVKQC78PK6?ocid=pdpshare영상에서는 VMware를 사용하여 데비안을 설치함가상머신으로 해야할까..? 고민중 영상은 가상환경으로 GUI 환경의 데비안을 설치..
다양한 라이브러리를 활용하여 문자열 유사도를 측정할 수 있지만, 각 라이브러리마다 성능과 결과가 다를 수 있음diff, fuzzywuzzy, rapidfuzz 라이브러리를 사용하여 한글 문자열 유사도를 비교함비교 대상 라이브러리diff (공식문서: https://docs.python.org/3/library/difflib.html#difflib.get_close_matches)fuzzywuzzy (공식문서: https://github.com/seatgeek/thefuzz)rapidfuzz (공식문서: https://rapidfuzz.github.io/RapidFuzz/Usage/process.html#rapidfuzz.process.extractOne)코드 비교df라는 데이터프레임은 기관코드 데이터(co..
유튜브에서 간단히 개념과 예제를 제공하는 강의가 있어서 공유코딩애플의 '2시간만에 웹서버 쉽게 개발하기 (Node.js+MongoDB)'일부 강의만 유튜브이고, 나머지는 강의수강을 해야 볼 수 있음https://codingapple.com/https://youtu.be/pTm5E3jcOeY?si=PDDn7leIFBWiGMWyJavascript는 HTML을 조작하기 위한 것이고, 크롬에서 만든 자바스크립트 해석 엔진이 독자적으로 발전해서 Node.js가 됨Event-drive, Non-blocking이란?영화관 웹서버가 있다고 할 때, 티켓을 제공하는 일반적인 서버가 있음일반 언어로 개발하면, 웹 서버는 순차적으로 해결함. 오래걸리는 요청(200석 예매)을 하면, 다 처리할 때까지 다른 요청을 못받음반면,..
difflib.get_close_matches를 사용하여 데이터명 매칭하기데이터 정제와 분석을 할 때, 여러 데이터프레임 간의 데이터명을 비교하고 유사한 항목을 찾는 작업이 종종 필요합니다. 이때 Python의 difflib 모듈을 사용하면 매우 유용합니다. 이번 글에서는 difflib.get_close_matches 함수를 활용하여 두 데이터프레임 간의 유사한 데이터명을 찾아 매칭하는 방법을 소개합니다.사용 예시1. 데이터프레임 준비우선, 예시 데이터를 포함한 두 개의 데이터프레임을 준비합니다. import pandas as pd# 예시 데이터프레임df1 = pd.DataFrame({ '데이터명': ['서울특별시', '부산광역시', '대구광역시', '인천광역시', '광주광역시']})d2f = pd..
- Total
- Today
- Yesterday
- MongoDB
- PostgreSQL
- knowlegegraph
- LLM
- hadoop
- 지식그래프임베딩
- Postgis
- elasticsesarch
- 키워드추출
- rdflib
- SPARQL
- writerow
- psycopg
- KRworkrank
- pandas
- 3d-force-graph
- TextRank
- python
- knowledgegraph
- 지식그래프
- p-tuing
- Vue3
- Encoding
- python'
- difflib
- vscode
- PEFT
- volar
- polars
- v-tooltip
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |