자연어처리 3

자연어 처리 : 검색

검색엔진 기초대부분의 검색엔진을 위해 필요한 기능의 기초는 다음 네개면 해결할 수 있다.색인 생성파일, 웹사이트, 데이터베이스 레코드를 검색가능하게 만든다. 색인이라는 뜻이 와닿지 않으면 모든 책장의 소개 부분에 목차가 있는데 이와 비슷한 것이라고 생각하면 이해가 빠르다.사용자 입력사용자가 무엇을 검색할지 입력하고, 입력 인터페이스를 제공하기도 한다.순위화결과를 사용자가 입력한 것과 가까운 순으로 정렬한다.결과 보여주기사용자가 입력한 내용을 보여준다.색인화색인화는 보통 문서를 분석한뒤 토큰 단위로 나누고 선택적으로 각 토큰을 색인어라고 하는 정규화된 토큰을 만들기 위한 하나이상의 변경 작업으로 구성된다. 색인어를 만들기 위해선 어간 추출, 소문자화, 완전한 제거를 포함하여 토큰 변경을 정하고 (혹은 정..

자연어처리 2024.05.13

텍스트 길들이기 기초

텍스트 길들이기 사전 준비이는 수학을 배우기전에 마치 사칙연산을 공부하는 것과 같다.토큰 분리어간 추출품사구 와 절컴퓨터가 언어를 이해하게 하려면 원시 문자열을 개별 단어로 나누는 기능, 각 단어가 문자에서 수행하는 역할(품사)과 같은 질문을 이해하고 질문을 분석해서 답이 고유명사라는 것과 단어가 출현한 문장에서 답을 찾아야 함을 알아내야 한다."민수의 삼촌은은 누구인가" 라는 질문을 이해하고 "민수"와 삼촌이 출현한 문장에서 답을 찾아야 함을 알아내야 한다.단어와 범주단어는 소수의 어휘 범주 또는 품사로 나뉜다. 이 범주는 명사, 동사, 형용사, 한정사, 전치사, 접속사 등을 포함한다.형용사명사를 수식하거나 서술하기 위해 명사에 추가되거나 문법적으로 연결돼 속성을 지정하는 어휘나 구부사다른 어휘범주를 ..

자연어처리 2024.05.06

텍스트 길들이기

개인적으로 생성형 인공지능의 등장으로 텍스트 길들이기의 중요도가 떨어졌다라고 생각이 들지만... 그래도 잘 생각해보면 여전히 인터넷 세상에는 엄청나게 많은 텍스트 데이터들이 있고 생성형 인공지능을 사용하는 데에 어려움을 느끼거나 혹인 생성형 인공지는이란것을 사용하여 정보를 얻는다는 것이 대중들에게 익숙해지기 까지는 시간이 더 필요하며 기술적 해결점도 아직까지는 많은것같다. 그렇기때문에 자연어를 핸들링하고 분류하는 기술은 웹 개발자로써 중요한 덕목이라고 생각한다.애플리케이션에 조회를 할때 사용자들은 검색했을때 결과페이지를 뒤져서 원하는 정보를 얻기보단 알고싶은 것에 대한 답을 곧바로 알고싶어 한다.결국 궁극적으로 사용자는 본인의 삶과 일에 집중하게 도와주는 도구를 원할 뿐이지 기술이 뭔지는 알필요도없고 알..

자연어처리 2024.04.28