Social Icons

.

понедельник, 14 мая 2012 г.

Импорт dbf в SQL Server


Задача:

Требуется втащить данные в MSSQL из какого-то полного говна, которое кроме как по ODBC никак и не подключить. Причем создавать коннект тоже лениво. Хорошо бы создать его налету.

Короткое описание решения:


    Запускаем импорт данных.
    Выбираем драйвером источника ».Net Framework Data Provider for ODBC»
    Указываем Connect строку.
Driver={Microsoft dBase Driver (*.dbf)};SourceType=DBF;SourceDB=NA;Exclusive=No; NULL=No;Deleted=No;BackgroundFetch=No
    Выбираем Write a query to specify the data to transfer
    Пишем запрос вида: select * from c:\Temp\filename.dbf
    Не забыть, что имена файлов должны соответствовать кодировке MS-DOS 8.3

 

Полное описание решения

Несмотря на то, что dbf давно считается legacy форматом, сабж до сего времени остается насущной задачей судя по количеству вопросов в Интернете. В частности, я с ней столкнулся при попытке затянуть в таблицу карту. Карта ArcGIS содержала метаданные в формате dbf. Имело смысл прочитать их заодно в SQL Server, чтобы не делать вручную подписи к полигонам, линиям и иным картографическим объектам. В давние времена Visual FoxPro 6 и SQL Server 7.0 это не составляло проблемы, но с тех пор многое изменилось. С выходом SQL Server 2005 в MSDN появилась информация, что мастер импорта и экспорта в SQL Server не поддерживает импорт и экспорт dBASE-файлов и других DBF-файлов. В качестве решения рекомендовано использовать SQL Server Integration Services или промежуточный импорт в Access или Excel. Такая же ситуация формально сохраняется по сей день, включая SQL Server 2012. Это не всегда удобно, потому что, помимо SQL Server, требует дополнительной установки MS Office, а средства разработки ETL-пакетов не входят в состав бесплатной редакции SQL Server Express. В этой заметке я постараюсь импортировать dbf в SQL Server, не пользуясь ничем, кроме SQL Server.

Имеется файл regions2010_wgs.dbf, взятый отсюда. Открываем SQL Server Management Studio, в Object Explorer выбираем базу, в таблицу которой будем импортировать dbf, и из контекстного меню говорим Import Data:


Рис.1


В качестве источника данных указываем .Net Framework Data Provider for ODBC, коль скоро ODBC теперь снова наше все, в качестве ConnectionString - следующую строку соединения:

Driver={Microsoft dBase Driver (*.dbf)};SourceType=DBF;SourceDB=NA;Exclusive=No; NULL=No;Deleted=No;BackgroundFetch=No


Рис.2

Нажимаем Next. Если теперь нажать Back, мы увидим, что свойства соединения развернулись из строки в столбец так, чтобы можно было лицезреть их список и видеть, чему каждое из них равно:

Рис.3

Примеры строки соединения для ODBC-драйвера dBase приводятся, например, в Microsoft Knowledge Base или на ресурсе connectionstrings.com. В целом, о назначении тех или свойств легко догадаться из их названий, кроме, пожалуй, свойства Deleted, которое имеет прямо противоположный смысл. Как известно, операция удаления строки в dBase/FoxPro не приводит к ее немедленному физическому удалению из файла. Строка лишь помечается, что она удалена. Физическая очистка строк, у которых проставлен признак удаления, и реорганизация файла выполняются командой PACK. Значение NO говорит драйверу включить удаленные строки в возвращаемый набор результатов. Чтобы, наоборот, их не показывать, надо поставить YES. Жмем Next.

На следующем экране все просто. Задается соединение с SQL Server, включая ту базу, в которой будет создана таблица с результатами импорта из dbf:

Рис.4

Идем дальше. Предлагается выбрать dbf-ную таблицу из списка таблиц или написать руками запрос. Имеет смысл, например, для FoxProшной базы, которая, как и всякая нормальная база, представляет собой контейнер, в котором содержится несколько таблиц, в данном случае в виде отдельных dbf-файлов. Для индивидуального dbf-файла это не работает - см., например, OdbcConnection.GetSchema(«tables») all wrong for .dbf file, и сотрудники поддержки Microsoft рекомендовали в этой ситуации использовать OLE DB Provider for Visual FoxPro. Во-первых, случай имел место задолго до коренного перелома генеральной линии партии. OLE DB тогда было наше все, a ODBC, наоборот, относилось к старым унаследованным интерфейсам. Во-вторых, я не понимаю, зачем броузить список dbf, когда он и так один.

В случае разрозненных dbf, лежащих в одной директории, надо задать в строке ODBC-соединения (Рис.3) свойство DefaultDir, например,

Driver={Microsoft dBase Driver (*.dbf)};sourcetype=DBF;DefaultDir=c:\Temp;exclusive=No;null=No;deleted=No;backgroundfetch=No

Тогда можно отметить Copy Data from one or more tables or views.

Рис.5

и будет выведен список dbf в этой директории, из которого будет предложено выбрать:

Рис.6

Но я не задавал DefaultDir на Рис.3, поэтому выбираю написать запрос:

Рис.7

и пишу:

Рис.8

а в ответ получаю ошибку The Microsoft Jet database engine could not find the object 'regions2010_wgs.dbf':

Рис.9

Эта ошибка происходит из-за того, что глупый драйвер до сих пор воспринимает имена файлов в формате MS-DOS 8.3. Если переименовать файл regions2010_wgs.dbf в, скажем, aaa.dbf, а запрос Рис.8, соответственно, заменить на select * from c:\Temp\aaa.dbf, ошибка пропадает. Будет предложено выбрать существующую или задать название таблицы, которая будет создана на SQL Server в базе Database1 (см.Рис.4) под результаты импорта из dbf. Oставляю предлагаемое название как есть:

Рис.10

Нажав здесь же кнопку Preview, можно предварительно ознакомиться с содержимым dbf, которoе предполагается перенести на SQL Server:

Рис.11

Все хорошо, только удручает абракадабра вместо русского текста. Причину ее появления в популярной форме объясняет уважаемый автор Lalex здесь. Русские символы слетают из-за того, что глупый драйвер ожидает dbfный файл в DOSовской кодировке (CP866, она же OEM). Он, похоже, считает формат dbf очень древним, чисто досовским наследием. ArcView же по умолчанию считает DBF виндосовским форматом (ANSI 1251). Так и стоят эти две программы, как два бычка, упершись лбами.

Итак, причина ясна, осталось ее поправить. Пляски с бубном прописать в строку соединения collate=Machine или Russian / CodePage=ANSI / Collating Sequence=1251 к успеху не привели. Изменил 29-й байт в aaa.dbf на 0хС9 - ноль эмоций. Действительно, признак кодовой страницы в заголовке dbf драйвером игнорируется. Однако настройку драйвера можно изменить в реестре. Она хранится в DataCodePage по пути HKLM\SOFTWARE\Microsoft\Jet\4.0\Engines\xBase или HKLM\SOFTWARE\Microsoft\Office\14.0\Access Connectivity Engine\Engines\Xbase или, соответственно, HKLM\SOFTWARE\Wow6432Node\Microsoft\Jet\4.0\Engines\xBase или HKLM\SOFTWARE\Wow6432Node\Microsoft\Office\14.0\Access Connectivity Engine\Engines\Xbase в зависимости от того, был ли установлен на машину Office и если да, то как. По умолчанию, свойство действительно имеет значение OEM, что заставляет драйвер читать все dbfы из расчета этой кодировки. Если изменить его на ANSI

Рис.12

кириллица в ANSIшном dbf'e, естественно, будет читаться по-человечески:

Рис.13

Перезапускаться при этом, к счастью, не требуется, однако визард импорта следует закрыть и повторить по-новой с Рис.1.

Жмем ОК, Next, заканчиваем визард, в результате чего неявно создается и выполняется SSIS-пакет:

Рис.14

и получаем фигню. Гы!

Рис.15

Это, на самом деле, тоже понятно, почему. В таблице Query под результаты импорта визард создал поле region типа varchar(200) без явного указания коллации. Следовательно, для него по умолчанию используется коллация базы. Так получилось, что база Database1 имела нерусскую коллацию:

Рис.16

Чтобы исправить ситуацию, надо сделать поле region юникодовским или откорректировать ему коллацию. Кстати, давайте ему еще длину увеличим. Так, на всякий случай.

Рис.17

Сохраняем изменения структуры, очищаем данные truncate table Query и повторяем импорт Рис.1-14

Рис.18

Теперь все импортируется нормально. Единственно, я сказал «очищаем данные», но у себя это сделать забыл, и на картинке они задвоились. Переделывать уже не буду, потому что непринципиально. Смысл понятен.




Оригинал

Комментариев нет:

Отправить комментарий

 

Так говорил Учитель:

У хорошо написанной программы есть свой собственный рай, у плохо написанной — свой собственный ад.

Russian Developer

Взгляд его светел, усилия праведны, старания бесплодны, дело безнадежно ...