Увы, статистические данные часто размещены в неудобном старинном вордовском формате .doc
:)
docxtractr
.library(docxtractr)
set_libreoffice_path("C:/Program Files/LibreOffice/program/soffice.exe")
На linux и macos из командной строки можно набрать:
which libreoffice
И далее, например:
set_libreoffice_path("/usr/bin/libreoffice")
Sys.setenv(LD_LIBRARY_PATH = "/usr/lib/libreoffice/program/")
Если на ubuntu появляется ошибка с ненайденным libreglo.so, то дело в LD_LIBRARY_PATH
.
url = 'http://www.gks.ru/bgd/regl/b18_02/IssWWW.exe/Stg/d010/1-08.doc'
tbl = docxtractr::read_docx(url)
table_1 = docx_extract_tbl(tbl, tbl_number = 1, header = TRUE, preserve = FALSE, trim = FALSE)