Лучших работников в сфере IT РАБОТА-КА Вам поможет найти! о нас ✈
Я ищу работу в IT сфере ✈ Я ищу резюме в IT сфере ✈
Инженер схемотехник! 80000-100000 руб. ТК. соц.пак. Подробнее ✈

Взаимодействие через Интернет с помощью CURL и libcurl

Взаимодействие через Интернет с помощью CURL и libcurl: Эта статья знакомит читателя с утилитой командной строки cURL, а затем демонстрирует, как с использованием libcurl построить клиент HTTP на языках C и Python.
Разрабатывать приложения, опирающиеся на протоколы уровня приложений, такие как HTTP и FTP, не очень трудно, но и не тривиально. К тому же такая разработка не находится в центре внимания, поскольку в большинстве случаев гораздо важнее то, что лежит выше этих протоколов. Libcurl как раз и интересен тем, что делает акцент на приложение, а не на преходящий аспект разработки. Отметим, что не многие приложения имеют свой собственный стек TCP/IP – ведь повторное использование всего, что только можно, минимизирует нагрузку на программиста и повышает надежность приложения.
Эта статья начинается с краткого введения в протоколы прикладного уровня, а затем переходит к изучению cURL, libcurl и их применению.
Разработка современных приложений существенно отличается от того, что было в недавнем прошлом. Сегодня приложения должны поддерживать связь через сеть или Интернет, предоставляя в распоряжение пользователей сетевой API или интерфейс, а также обеспечивать гибкость посредством пользовательских сценариев. Как правило, современные приложения экспортируют Web-интерфейс с помощью HTTP и передают уведомления о нештатных ситуациях посредством Simple Mail Transport Protocol (SMTP). Эти протоколы позволяют передавать Web-браузеру, работающему в устройстве, конфигурацию или статус и принимать от устройств стандартные сообщения на стандартный клиент электронной почты (соответственно через HTTP и SMTP).
Эти Web-сервисы, как правило, построены поверх уровня сокетов стека сетевых протоколов (рисунок 1). Уровень сокетов реализует API, который восходит к операционной системе Berkeley Software Distribution (BSD) и изолирует детали нижележащих протоколов транспортного и сетевого уровней.

Рисунок 1. Стек сетевых протоколов и libcurl
Рисунок 1. Стек сетевых протоколов и libcurl

Web-сервисы обеспечивают взаимодействие между протоколами клиента и сервера. В контексте HTTP сервер – это оконечное устройство, а клиент – браузер в удаленной точке. Для SMTP сервер – это почтовый шлюз или удаленный пользователь, а клиент – оконечное устройство. В некоторых случаях взаимодействие протоколов происходит в два этапа (запрос и ответ), а в других для поддержания связи требуется гораздо больше трафика. Такое взаимодействие может создать значительные трудности, которые преодолеваются с помощью API, таких как libcurl.

Происхождение и содержание cURL

cURL предложил Даниель Штенберг, но вклад в разработку внесли свыше 600 программистов. Бесспорно, это полезная технология с широкой областью применения.
Первоначально cURL разработан как средство перемещения файлов между конечными точками с использованием различных протоколов, таких как FTP, HTTP, SCP и другие. Сначала это была утилита командной строки, но теперь это также библиотека с привязками более чем к 30 языкам. Так что теперь, вместо того чтобы использовать cURL из командной строки, можно создавать приложения, которые включают в себя эти важные функции. Библиотека libcurl также переносима и поддерживает Linux®, IBM® AIX®, BSD, Solaris и многие другие варианты UNIX®.
Получить и установить libcurl легко, но процесс зависит от дистрибутива Linux. На Ubuntu эти пакеты можно установить с помощью утилиты apt-get. Две следующие строки показывают, как установить libcurl и Python-привязки для libcurl:
$ sudo apt-get install libcurl3 $ sudo apt-get install python-pycurl 

Утилита apt-get гарантирует соблюдение всех зависимостей в процессе установки.
cURL начинался как инструмент командной строки для передачи данных с использованием синтаксиса Uniform Resource Locator (URL). Ввиду популярности этой функции в форме командной строки была создана библиотека для ее интеграции в приложения. Сегодня cURL для командной строки служит оболочкой библиотеки cURL. Эта статья начинается с изучения cURL в командной строке, а затем углубляется в использование этой утилиты в качестве библиотеки.
Две типичных области применения cURL – это передача файлов с использованием протоколов HTTP и FTP. cURL предоставляет простой интерфейс к этим и другим протоколам. Чтобы извлечь файл из Web-сайта с помощью HTTP, достаточно указать cURL имя локального файла, в который нужно записать Web-страницу, а также URL Web-сайта и файл для передачи. Слишком много слов для той простой командной строки, которая приведена в листинге 1.

Листинг 1. Пример использования cURL для извлечения файла с Web-сайта
  $ curl -o test html www.exampledomain.com   % Total    % Received % Xferd  Average Speed    Time    Time     Time    Current                                  Dload  Upload    Total   Spent    Left    Speed 100 43320  100 43320    0     0  55831       0 --:--:-- --:--:-- --:--:--  89299 $  

Обратите внимание: я указал домен, а не файл, так что получу корневой файл (index.html). Чтобы передать этот файл на сайт FTP с использованием cURL, нужно указать файл для загрузки с опцией -T, а затем ввести URL FTP-сайта и путь к файлу (листинг 2).

Листинг 2. Пример использования cURL для загрузки файла на FTP-сайт
  $ curl -T test.html ftp://user:password@ftp.exampledomain.com/ftpdir/   % Total    % Received % Xferd  Average Speed    Time    Time     Time    Current                                  Dload  Upload    Total   Spent    Left    Speed 100 43320    0     0  100 43320      0  38946   0:00:01 0:00:01  --:--:--    124k $   

Бывает ли проще? Достаточно освоить несколько простых моделей, и cURL окажется предельно простым в применении. Но многообразие имеющихся опций очень велико – запрос помощи из командной строки cURL (--help) выводит 129 строк. Большое число опций позволяет управлять всем – от многословия до безопасности и различных зависящих от протокола настраиваемых элементов.
С точки зрения разработчика, это не самый приятный аспект cURL. Углубимся в библиотеку cURL и посмотрим, как добавить эти протоколы передачи файлов в свое приложение.
Если вы наблюдали за языками сценариев на протяжении последних 10 лет, то заметили явные изменения в их составе. Такие языки сценариев, как Python, Ruby, Perl и многие другие включают не только уровень сокетов, как C или C++, но и интерфейсы протокола прикладного уровня. Эти языки сценариев содержат высокоуровневые функции, которые делают тривиальным, например, создание сервера или клиента HTTP. Библиотека libcurl добавляет функциональность, схожую с такими языками, как C и C++, но таким образом, что можно работать с множеством языков. Libcurl примерно одинаково ведет себя во всех языках, которые поддерживает, хотя, так как эти языки могут значительно различаться (C и Scheme), могут различаться и способы обеспечения этого поведения.
Библиотека libcurl включает в себя функции, которые иллюстрируются в листингах 1 и 2, в форме API, поэтому ее можно использовать в высокоуровневых языках (на сегодняшний день более 30). В этой статье представлены два примера применения libcurl. Первый исследует простой клиент HTTP на языке C (подходит для создания Web-пауков), а второй представляет собой простой клиент HTTP на Python.
API для C обеспечивает два API поверх функциональности libcurl. Простой интерфейс – это простой синхронный API (т. е. при обращении к libcurl с запросом она выполняет его до конца или до сообщения об ошибке). Мультиинтерфейс обеспечивает контроль над libcurl, позволяя приложению выполнять несколько одновременных передач и управлять тем, куда и когда libcurl переносит данные.
В этом примере используется простой интерфейс. Этот API все же предоставляет некоторый контроль над процессом перемещения данных (с использованием функций обратного вызова), но при этом соответствует своему названию. В листинге 3 приводится пример на языке С для HTTP.

Листинг 3. Клиент HTTP на языке С с использованием простого интерфейса libcurl
  #include  #include  #include   #define MAX_BUF 65536  char wr_buf[MAX_BUF+1]; int wr_index;  /*  * Write data callback function (called within the context of * curl_easy_perform.  */ size_t write_data( void *buffer, size_t size, size_t nmemb, void *userp ) {  int segsize = size * nmemb;   /* Check to see if this data exceeds the size of our buffer. If so,   * set the user-defined context value and return 0 to indicate a  * problem to curl.  */  if ( wr_index + segsize > MAX_BUF ) {  *(int *)userp = 1;  return 0;  }   /* Copy the data from the curl buffer into our buffer */  memcpy( (void *)&wr_buf[wr_index], buffer, (size_t)segsize );   /* Update the write index */  wr_index += segsize;   /* Null terminate the buffer */  wr_buf[wr_index] = 0;   /* Return the number of bytes received, indicating to curl that all is okay */  return segsize; } /*  * Simple curl application to read the index.html file from a Web site.  */ int main( void ) {  CURL *curl;  CURLcode ret;  int wr_error;   wr_error = 0;  wr_index = 0;   /* First step, init curl */  curl = curl_easy_init();  if (!curl) {  printf("couldn't init curl\n");  return 0;  }   /* Tell curl the URL of the file we're going to retrieve */  curl_easy_setopt( curl, CURLOPT_URL, "www.exampledomain.com" );   /* Tell curl that we'll receive data to the function write_data, and  * also provide it with a context pointer for our error return.  */  curl_easy_setopt( curl, CURLOPT_WRITEDATA, (void *)&wr_error );  curl_easy_setopt( curl, CURLOPT_WRITEFUNCTION, write_data );   /* Allow curl to perform the action */  ret = curl_easy_perform( curl );   printf( "ret = %d (write_error = %d)\n", ret, wr_error );   /* Emit the page if curl indicates that no errors occurred */  if ( ret == 0 ) printf( "%s\n", wr_buf );   curl_easy_cleanup( curl );   return 0; }  

В верхней части расположены необходимые файлы include, в том числе корневой файл cURL. Далее я определил пару переменных для передачи. Первая, wr_buf, представляет собой буфер, в который будут записываться входные данные.wr_index отражает индекс текущей записи буфера.
Опустимся к функции main, которая выполняет установку с помощью простого API. Все вызовы cURL проходят через указатель, который хранит состояние конкретного запроса. Он определен как CURL pointer reference. Этот пример создает также специальный возвратный код, называемый CURLcode. Перед использованием любых функций libcurl нужно вызывать curl_easy_init, чтобы получить указатель CURL. Далее обратите внимание на несколько вызовов функции curl_easy_setopt. Это настройки указателей для конкретной операции. Для этих вызовов вводится указатель, команда и опция. Сначала в этом примере применяется оператор CURLOPT_URL для задания URL извлекаемых данных. Затем следует CURL_WRITEDATA для создания контекстной переменной (в нашем случае это внутренняя переменная записи ошибок). Наконец, CURLOPT_WRITEFUNCTION определяет функцию, которую нужно вызвать при наличии данных. API вызовет эту функцию один или несколько раз с данными, считанными им после сигнала запуска.
Чтобы начать передачу, вызовите функцию curl_easy_perform. Ее задача заключается в выполнении передачи с учетом предварительно заданной конфигурации. При вызове этой функции она возвращает результат только после успешной передачи или ошибки. Последние элементы main предназначены для передачи возвращаемых статусов, запуска чтения страницы и, наконец, для очистки с помощью функции curl_easy_cleanup (по завершении операции).
Теперь рассмотрим функцию write_data. Эта функция обратного вызова, которая вызывается, когда данные по конкретной операции получены. Обратите внимание, что когда данные считываются с Web-сайта, они записываются к вам (write_data). Обратный вызов содержит буфер (с готовыми данными), число элементов и их размер (их произведение дает общий объем данных в буфере), а также указатель контекста. Первая задача заключается в том, чтобы обеспечить достаточную емкость буфера (wr_buf) для записи данных. В противном случае он устанавливает указатель контекста и возвращает ноль, что указывает на наличие проблемы. Иначе, он копирует данные из буфера cURL в ваш буфер и наращивает индекс, указывая на следующее место для записи. В этом примере строка завершается, так что впоследствии к нему можно применить printf. Наконец, он возвращает в libcurl количество обработанных байтов. Это говорит libcurl о том, что данные приняты, и их можно удалить. Вот и все – не правда ли, простой способ считать файл с Web-сайта в память?
В этом разделе приводится пример, подобный HTTP-клиенту на языке С, но на этот раз написанный на Python. Python – это полезный объектно-ориентированный язык сценариев, который отлично подходит для создания прототипов и коммерческого программного обеспечения. В примере предполагается, что вы немного знакомы с Python, но он используется очень мало, так что глубокие знания не потребуются.
Код простого HTTP-клиента, написанный на языке Python с использованиемpycurl, приведен в листинге 4.

Листинг 4. HTTP-клиент на Python с использованием интерфейса pycurl из libcurl
  import sys import pycurl  wr_buf = ''  def write_data( buf ):  global wr_buf  wr_buf += buf  def main():  c = pycurl.Curl()  c.setopt( pycurl.URL, 'http://www.exampledomain.com' )  c.setopt( pycurl.WRITEFUNCTION, write_data )   c.perform()   c.close()  main() sys.stdout.write(wr_buf) 

Создание прототипа на Python

Здесь иллюстрируется одно из преимуществ языка Python при создании прототипов. Довольно широкая функциональность достигается при небольшом количестве кода. На С можно получить более высокую производительность, но если вашей целью является быстрое создание кода для проверки идеи, лучше воспользоваться высокоуровневыми языками сценариев, такими как Python.
Этот код значительно проще, чем версия на C. Он начинается с импортирования необходимых модулей (стандартного системного модуля sys и модуля pycurl). Далее определяется буфер записи (wr_buf). Как и в программе на C, я декларирую функцию write_data. Обратите внимание, что эта функция принимает один аргумент: буфер данных, считанных с сервера HTTP. Я просто взял этот буфер и добавил его к глобальному буферу записи. Функция main начинает с создания указателяCurl, затем использует для записи методы setopt для определения URL и WRITEFUNCTION. Она вызывает методperform для запуска передачи и закрывает указатель. Наконец, она вызывает функцию main и передает буфер записи в stdout. Обратите внимание, что в данном случае указатель ошибки контекста не нужен, поскольку используется конкатенация строк Python, а значит, не нужно использовать строку со статически заданным размером.
Эта статья лишь "скребет по поверхности" libcurl, учитывая огромное количество протоколов и языков, поддерживаемых библиотекой. Но, надеюсь, она демонстрирует, как легко создавать приложения, использующие протоколы уровня приложений, такие как HTTP. Web-сайт libcurl (см. раздел Ресурсы) содержит большое количество примеров и значительный объем полезной документации. Поэтому в следующий раз при разработке Web-браузера, спайдера или другого приложения, которому требуется протокол уровня приложения, попробуйте libcurl. Это наверняка ускорит процесс разработки, и вы получите от него удовольствие.

М. Тим Джонс
М. Тим Джонс - архитектор встроенного ПО и, кроме того, автор книг Artificial Intelligence: A Systems Approach, GNU/Linux Application Programming (выдержавшей на данный момент второе издание), AI Application Programming (второе издание) и BSD Sockets Programming from a Multilanguage Perspective. Он имеет обширный опыт разработки ПО в самых разных предметных областях - от ядер специальных ОС для геосинхронных космических аппаратов до архитектур встраиваемых систем и сетевых протоколов. Тим - инженер-консультант Emulex Corp., Лонгмонт, Колорадо.
ibm.com
Отправить комментарий