IT 프로그래밍/빅데이터

[Bigdata 수집] Selenium 크롤링 예시 (+실행영상)

잉휴 2021. 3. 4. 14:11


지역검색과 같이 '펼쳐보기' 기능이 필요한

동적 스크래핑은

javascript로 표시되었음을 알 수 있다

 

항목 중 '서울'도 javascript 형태로 되어있고

서울이라는 단어를 찾기(search)해도 나오지 않은 것으로 보아

동적 페이지이다


<WebDriver 설치하기>

먼저 Selenium은 브라우저 지원을 위한 WebDriver API를 이용한다

 

크롬 도움말에서 정보를 확인후 

맞는 버전으로 chrondriver를 다운받고

jupyter notebook을 실행하는 작업공간 경로에 복사한다

 

selenium 내부에서 조작할 수 있는 브라우저를 연결해준다


위 과정이 끝나면 구글 페이지를 연동해 보겠습니다

 

예시1

 

Enter문장 전까지만 입력하면

검색직전, 내용을 입력한 화면까지만 나옵니다

 

마지막으로 driver.quit( )이라는 문장을 넣어주면

검색 후 창이 사라집니다

 

 

[name='q'] 이건 무슨 뜻일까?

구글의 검색창인 input을 들여다보면 name=q라는 속성이 있습니다!


예시2

외부 접근시 보안을 위해 

이런 문제(?)를 풀어야 하지만 

코드에 오류가  나온다해도  정상적으로 작동합니다 :)


예시3

아래 영상은 '매장찾기-지역검색-제주-전체-제주중문점'

순으로 입력한 실제 실행화면입니다

 

 

매장찾기-지역검색-제주-전체-제주중문점

이렇게 추출도 해보았습니다!

코드는 너무 길어 생략