티스토리 뷰
pytextrank 설치
pip install pytextrank
dependency로 spacy가 함께 설치됨
한국어 키워드 추출 예시
근데 성능 진짜 안좋은거같음...파라미터 조작이나 한글 모델을 더 정교한거 아니면 힘든것같음
encoding 깨지면 # -*- coding: utf-8 -*- 추가하기
# -*- coding: utf-8 -*-
import spacy
import pytextrank
# scapy의 한국어모델인 ko_core_news_sm을 사용함 https://spacy.io/models/ko/
# example text
text = "서울 지진 피해에 대한 데이터 분석을 위해서는 어떤 종류의 데이터를 사용해야 할지 먼저 생각해보아야 합니다. 예를 들어, 지진 발생 시간, 지진 규모, 지진 발생 지역, 피해 규모 등의 정보가 필요할 것입니다. 서울 지진 피해 분석 예시: 서울 지역에서 최근 몇 년간 발생한 지진 데이터를 수집하여 지진 발생 건수, 지진 규모, 지진 발생 지역 등의 정보를 파악할 수 있습니다. 이를 바탕으로 서울 지역에서 지진 발생이 가장 많은 지역, 지진 규모와 피해 규모 간의 상관 관계, 지진 발생 시간대 등을 분석할 수 있습니다. 또한, 특정 지역에서의 지진 발생 시 피해 규모가 어떻게 나타나는지 분석하여 지진 대비 대응 전략을 마련할 수 있습니다. 서울 지진에 대한 데이터는 국가지진정보센터에서 제공하는 '국내 지진 정보 시스템'에서 확인할 수 있습니다. 이 시스템에서는 지난 1년간의 국내 지진 정보를 확인할 수 있으며, 서울 지역에서 발생한 지진 정보도 포함되어 있습니다. 이를 바탕으로 데이터를 수집하고 분석할 수 있습니다."
# load a spaCy model, depending on language, scale, etc.
nlp = spacy.load("ko_core_news_sm")
# add PyTextRank to the spaCy pipeline
nlp.add_pipe("textrank")
doc = nlp(text)
# # examine the top-ranked phrases in the document
# for phrase in doc._.phrases:
# print(phrase.text)
# print(phrase.rank, phrase.count)
# print(phrase.chunks)
keywords_textrank = []
keywords_textrank_rank = []
for phrase in doc._.phrases[:10]:
keywords_textrank.append(phrase.text)
keywords_textrank_rank.append(phrase.rank)
print(keywords_textrank)
>> ['서울', '서울 지진에', '지난 1년간의']
참고 사이트
https://github.com/DerwenAI/pytextrank
https://derwen.ai/docs/ptr/sample/
https://jehyunlee.github.io/2022/08/27/Python-DS-111-textprocfn/
Github 코드 공유
https://github.com/shinysong/korean-keyword-extract/tree/main
반응형
'개발일지' 카테고리의 다른 글
[Elasticsearch] 검색 쿼리 단어 중 특정 단어에 가중치 - multi_match, match, should (1) | 2023.05.01 |
---|---|
[NLP] Kiwi 설치와 keyBert 한글 키워드 추출 (0) | 2023.04.28 |
[TextRank] KR-WordRank 한국어 키워드 추출 (0) | 2023.04.27 |
[TextRank] textrankr과 konlpy를 사용한 한국어 요약 (0) | 2023.04.27 |
[django+elasticsearch+vue.js] (1) - 엘라스틱서치와 장고 설치하기 (0) | 2022.10.24 |
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- vervel
- Claude
- LLM
- difflib
- 지식그래프임베딩
- knowlegegraph
- hadoop
- pandas
- vscode
- polars
- knowledgegraph
- python
- python'
- ChatGPT
- Encoding
- PEFT
- cursorai
- writerow
- PostgreSQL
- TextRank
- 지식그래프
- rdflib
- Postgis
- psycopg
- p-tuing
- 3d-force-graph
- MongoDB
- 키워드추출
- SPARQL
- Vue3
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
글 보관함